Около программизма: Результаты вещественного теста

09.01.2021

Результаты вещественного теста

Ну вот, вроде бы оттестировал все процессоры на решение систем линейных уравнений методом Гаусса-Жордана, самое время привести результаты.

Здесь я не стал приводить результаты AMD FX-4350, так как он является базой для сравнения и его производительность принимается за единицу.
Как видно, рост ускорения на вещественных операциях за несколько лет составил даже больше, чем в два раза.
Безусловный лидер среди оттестированных – это AMD Ryzen 5 3600, он уверенно обгоняет оттестированные процессоры Intel поколения SkyLake.

Самое интересное, что и в однопоточном режиме, в отличие от целочисленных операций (см. предыдущий пост), рост производительности за несколько лет весьма значителен: 60% скалярной производительности и более 150% векторной.
Складывается впечатление, что основное ускорение в будущем в однопоточной производительности будет именно на вещественных операциях, так как, похоже, потенциал серьезного ускорения целочисленных операций на текущий момент полностью исчерпан. Хорошо, если будет один-два процента за год.
Впрочем, посмотрим, что даст в отношении целочисленных операций M1 от Apple. Вдруг случится неожиданный сюрприз. 😀

При одновременной работе нескольких потоков тупо всё решает их количество. Так что "щедрый" на ядра подход AMD, похоже, себя оправдывает.

Ну и напоследок традиционная загадка, на которую пока у меня нет ответа. При переходе от однопоточных к многопоточным скалярным вычислениям наблюдается серьезный провал производительности на минимальных размерах.

Как видно, процессоры делятся на две группы: у одной серьезный провал на минимальном размере, у некоторых процессоров Intel получается даже медленнее, чем решать на одном ядре.
У второй же группы провал отсутствует или минимален.

В первой группе все процессоры, поддерживающие HyperThreading, кроме Intel i3-3227U. Этот процессор, хоть и имеет данную технологии, не демонстрирует просадку производительности на минимальном размере.

Как одну из причин такого странного поведения я изначально рассматривал нехватку ОЗУ, что при переходе на многопоточный тест, из-за высокой производительности процессоров, не давало возможности сгенерировать достаточное количество систем для теста, что снижало точность тестирования.
Так, Intel i7-6700HQ имеет 12 ГиБ ОЗУ, i5-8300H вообще 8, а Ryzen 5 3600 16, что с учетом его производительности может быть недостаточно.

Но с другой стороны, на типе double провал существенно меньше, хотя производительность уменьшается незначительно (буквально на несколько процентов), в то время как памяти требуется в два раза больше. Если бы дело было в нехватке ОЗУ, это должно было бы привести к еще большему провалу, но это не так.

Видимо, все же дело в HyperThreading? Надо подумать, как можно было бы это легко проверить.

Да, еще: Scalar SSE всегда быстрее FPU. Ну, почти всегда. На трех переменных у Intel таки быстрее FPU. Но такое преимущество только на простых, арифметических операциях.
Сохранится ли оно на более сложных, например, тригонометрических, степенных или логарифмических операциях? Данный вопрос требует отдельного исследования, но у меня пока ни одной интересной задачки на эту тему не вырисовывается.
Ну и жертвуется точность, конечно. В редких случаях это может быть важно. Впрочем, пока что FPU присутствует на всех современных процессорах, так что при необходимости всегда можно его использовать.

7 комментариев:

Ivan Kolesnikov10.01.2021, 08:45
> в однопоточном режиме, в отличие от целочисленных операций, рост производительности за несколько лет весьма значителен

Согласен! Но как я понимаю это еще потому что решение линейных уравнений более удобная задача для современных процессоров. Выполнять ворох однотипных операций достаточно просто, и наращивание FPU и ALU блоков приводит к заметному ускорению даже на одном ядре в следствии спекулятивного выполнение инструкций. Это кстати хорошо видно по Вашим графикам: при 192 уравнений польза от HT пропадает, так как один поток в состоянии загрузить все FPU блоки. Вроде AMD в Zen-3 еще FPU блоков докинул :) Алгоритм Евклида же, совсем не удобен процессору, конвейер простаивает, далеко вперед не убежишь, остается ускорять отдельные блоки, что AMD и сделала ускорив деление.

> я изначально рассматривал нехватку ОЗУ

Согласен, все же очень похоже именно на это :) Я бы в эту сторону еще покапал.

> Но с другой стороны, на типе double провал существенно меньше

А может быть на double даже при однопоточном варианте свопится? Если сравнивать однопоточную производительность для float и double для разных размерностей, она одинаковая?

Еще интересно что при 24 уравнений многопоточное ускорение для float и double практически равно, а при 12 на double Ryzen и i5-8300h проседают, хотя на float у них все хорошо. Это тоже очень похоже на нехватку памяти.

> В первой группе все процессоры, поддерживающие HyperThreading, кроме Intel i3-3227U

Возможно HT не при чем, и группа с провалом - это все процессоры с больше чем 4 ядер, вследствии нехватки памяти? Извините, но очень на это похоже :)

Я бы попробовал следующие тесты/графики:

1. Сравнил однопоточную производительность для float и double.
2. Попробовал запустить тест на 100-200 мс вместо секунды, чтобы уменьшить потребление памяти
3. Запустил бы с 2-4 потоками вместо максимума, опять же чтобы уменьшить память.
ОтветитьУдалить
Ответы

Добавить комментарий

Около программизма

09.01.2021

Результаты вещественного теста

7 комментариев:

Архив блога

Обо мне