Около программизма: Scalar SSE. Предварительные результаты.

24.09.2020

Scalar SSE. Предварительные результаты.

Оттестировал разные процессоры на пока еще не до конца оптимизированном коде. Думаю, после оптимизации он станет существенно быстрее. Но так как оптимизация будет инвариантна для всех процессоров, то относительный результат не сильно изменится.

Во-первых, развертывание циклов даже не в самом оптимальном варианте показало все же более серьезное ускорение, особенно на больших размерностях.
У AMD FX-4350 это порядка 30% для single (float) и 36% для double. Мобильный AMD A10-4600M показывает чуть худший результат: 20% и 33% соответственно. Рекордсмен среди процессоров от AMD, конечно Ryzen 5, у него 41% и 67%. Только надо учитывать, что это относительно производительности не развернутого цикла FPU (x87), который в Ryzen, как выяснил Иван (см. комментарии к прошлому посту), зарезан в 2 раза по отношению к Scalar SSE, тут все четко получилось.
Intel i3-3227U показывает 29% и 27%. Старшие Intel тут менее результативны: Intel i7-6700HQ 20% для обоих типов и Intel i5-8300H 18% и 17%.

Теперь сравнение производительности Scalar SSE для разных процессоров относительно AMD FX-4350.

Как видим, появился тест, в котором AMD Ryzen 5 3600 смог догнать интеловские процессоры. Правда, радость омрачает тот факт, что догнать он смог только мобильные процессоры.
Люблю я процессоры AMD, в первую очередь, конечно, за цены. Еще они первыми добавили поддержку PCIe 4.0, что тоже плюс, правда, не очень пока ясно с чем его кушать, этот плюс.
Но справедливости ради должен сказать, что по однопоточной производительности они все еще далеки до отчетливого лидерства. Но надо проверить и другие дисциплины.😉

Еще бросается в глаза тот факт, что на младших мобильных, что Intel, что AMD, в многозадачном режиме SSE приходится жить похуже, а вот старшие мобильные Intel гораздо лучше с этим справляются. Даже лучше, чем с FPU. На Ryzen многопоточный режим одинаково эффективен что на FPU, что на Scalar SSE, ну и банально: этот процессор однозначный лидер в многопоточной производительности тупо из-за числа ядер.

Совокупный рейтинг пока приводить не буду, сначала надо закончить с оптимизацией циклов.

11 комментариев:

Ivan Kolesnikov25.09.2020, 01:54
Приятно когда моя теория подтвердилась Вашей практикой :)))

Интересно что у AMD тип данных сильно влияет на ускорение, а у Intel - нет, как я понимаю Intel как-то умудряется даже на неразвернутом цикле загружать из памяти в 2 регистра параллельно. Процессор от AMD быстро молотит числа, но ему все надо разжевывать, может это и к лучшему.

> Правда, радость омрачает тот факт, что догнать он смог только мобильные процессоры

У меня нет AMD, но есть i5-7267U (мобильный) и i7-8700K (одолжил десктоп у сына) с одинаковой архитектурой, но разной максимальной частотой (3.5 vs 4.7 GHz). Понятно что частота и кэш решают, но в целом кардинальных изменений я не увидел на своем тесте:

- Пока СЛАУ помещается в L3 (<=384 уравнений): нормированная по частоте производительность очень близкая (+/- 5% в разную сторону)
- 768: десктоп +20% даже после нормирования по частоте, так как СЛАУ все еще попадает целиком в его L3 кэш (12 MB vs 4 MB)
- 1536: десктоп +10% но только в абсолютных числах, если нормировать, то медленнее, процессор уже не узкое место
- 3072: мобильный быстрее на 3% - это уже думаю погрешность измерений.
- На больших СЛАУ (6144 уравнений): узкое место память, и если нормировать по ее пропускной способности, то опять же числа очень близки.

А на каких размерностях и каком типе данных Вы сравнивали производительность и сколько потоков?

Я бы наверное сравнивал так чтобы у всех процессоров либо СЛАУ попадала целиком в L2, либо в L3, либо размер существенно больше L3, иначе задача удобна для одного, но сильно большая для другого, и не понятно что мы сравниваем, так как размерность мы выбираем сами :)))) Думаю i3 будет куда лучше выглядеть если тестировать на СЛАУ из 192 элементов и отличие будет сравнимо с разницей по частоте.

Но это так мысли в слух, просто пытаюсь понять что этот график значит.

Еще судя по графику FX-4350 выдает абсолютно одинаковую производительность в однопоточном и многопоточном режимах (1.0), что как-то подозрительно. Или я не правильно понял график?

> этот процессор однозначный лидер в многопоточной производительности тупо из-за числа ядер.

Я думаю скорее из-за размера L3 и это можно легко это проверить: протестировать его с 2-3 потоками, думаю будет даже быстрее так как меньше войны за L3. Так как кэш дорогой и занимает кучу места на кристалле, то экономически не выгодно производить процессор с большим L3, но маленьким числом ядер, но никто не заставляет их все использовать :)
ОтветитьУдалить
Ответы
Ivan Kolesnikov26.09.2020, 06:28
Этот комментарий был удален автором.
ОтветитьУдалить
Ответы

Добавить комментарий

Около программизма

24.09.2020

Scalar SSE. Предварительные результаты.

11 комментариев:

Архив блога

Обо мне