Около программизма: Результаты целочисленного теста

26.12.2020

Результаты целочисленного теста

Ну вот, готовы результаты целочисленного теста после исправления досадной, грубой ошибки, допущенной мною по невнимательности. Зато добавился новый участник теста: уже немного старенький, но десктопный Intel i5-6500.

Напомню, что тест основан на вычислении обратного элемента в кольце вычетов по модулю N. И фактически тестирует регистровые целочисленные 64-битные операции в двух вариантах: с использованием операции деления или на основе операций сложения и сдвига.

Запустил сначала однопоточный тест на своем AMD FX-4350, получил результаты и подумал, что, наверное, делать многопоточный тест смысле нет: все же чистая синтетика, 100% регистровых операций, ни одного обращения к памяти... Но потом вспомнил про HyperThreading, CMT, SMT и вот это вот всё. Поэтому все же прогнал многопоточный тест ради интереса.

В качестве базы я, как обычно взял свой AMD FX-4350, поэтому его производительность везде принята за единицу. Производительность сложения и сдвига я считаю в 1.5 раза более ценной, чем операции деления (так как встречаются в коде они гораздо чаще), как и производительность однопоточного выполнения. Сначала интегральная производительность.

Как видно из графика, что-то производительность регистровых целочисленных операций у процессоров Intel особо не задалась. Лишь относительно новый i5-8300H в интегральной производительности слегка обгоняет мой старенький FX-4350.

Недавно читал, что за последние лет пять производительность процессоров выросла примерно вдвое. Ну, почти так и есть. Ryzen 5 3600 в 1.82 раза быстрее моего процессора. Но надо заметить, что в основном ускорение пошло экстенсивным путем ‒ за счет увеличения количества ядер, в то время как однопоточная производительность увеличилась всего лишь на жалкие 16%.

Несколько удивляет крайне низкий результат i5-6500, который лишь чуть-чуть быстрее весьма древнего мобильного AMD A10-4600M. Впрочем, тест проводил не я лично, возможно, тестирование было выполнено не совсем аккуратно.

Как можно видеть, в целочисленных регистровых операциях даже относительно новые, хоть и мобильные процессоры Intel с трудом тягаются со стареньким десктопным AMD. Ну а относительно новый Ryzen 5 просто закрепляет победу.
Так что, похоже, и в самом деле архитектура Ryzen очень хороша. Хоть она, похоже, чуть-чуть хуже в операциях с плавающей точкой, но опережает в целочисленных, что для большинства приложений важнее. За исключением, может быть, трехмерных игр и приложений ИИ.

Посмотрим более детально.

Вариант с использованием операции деления.

Если в функции встречается всего лишь одна операция деления, то тут даже старенький процессор от AMD рвет как Тузик грелку все процессоры от Intel, участвовавшие в тестировании. А Ryzen еще немножко добавляет.

Бинарный вариант на сложениях и сдвигах.

Тут Intel в последних поколениях мобильных процессоров в однопотоке немного обогнала PileDriver, но Ryzen 3000 это компенсировал и на обычных целочисленных регистровых операциях AMD и Intel сейчас на равных, но за счет большего количества ядер в общем зачете все же AMD впереди. Из любопытного: все процессоры, за исключением двух, показывают большее ускорение при параллельном выполнении функции на основе деления, что в общем-то понятно при использовании технологии HyperThreading: пока одно виртуальное ядро выполняет длинную операцию деления, другое ядро может вовсю пользоваться остальной частью физического АЛУ. Аномальное поведение замечено лишь у Ryzen 5 3600 и i5-6500. Не могу даже предположить, с чем это может быть связано.

Ну и напоследок табличка с абсолютной производительностью процессоров (кол-во вычисленных обратных элементов в секунду):

Строки с префиксом P ‒ многопоточные данные.

5 комментариев:

Ivan Kolesnikov27.12.2020, 06:05
Ну вот, это уже похоже на правду :)

> пока одно виртуальное ядро выполняет длинную операцию деления, другое ядро может вовсю пользоваться остальной частью физического АЛУ

По моим расчетам даже при одном потоке процессор выполняет деление параллельно остальным операциям за счет суперскалярности. Почему же тогда на Intel Hyper-Threading дает дополнительный прирост, а на AMD нет? Как я понимаю это следствие более быстрого деления реализованного в железе:
- AMD: пока деление выполняется на ALU, 2-е не может начаться, так как деление - узкое место Hyper-Threading не дает никакого прироста.
- Intel: деление в микрокоде, по сути процессор выполняет ворох более простых инструкций на разных блоках ALU и Hyper-Threading позволяет выполнять если не 2, то где-то 1.5 деления параллельно.

Бинарный же вариант целиком состоит из простых операций цепляющихся друг за друга, как результат Hyper-Threading работает как на Intel так и на AMD.

> i5-6500

Вроде только чуть-чуть ниже чем должно быть: в однопоточном режиме цифры должны быть близкие к i7-6700 так как максимальная частота у них почти одинаковая, а в многопоточном режиме результат заметно хуже, так как у него нет Hyper-Threading.

> однопоточная производительность увеличилась всего лишь на жалкие 16%

Это да, интенсивное развитие - это всегда сложнее :) Судя по тестам Apple M1 у ARM с архитектурой все получше. Поживем, увидим к чему это приведет.
ОтветитьУдалить
Ответы

Добавить комментарий

Около программизма

26.12.2020

Результаты целочисленного теста

5 комментариев:

Архив блога

Обо мне