Около программизма: Многопоточное ускорение

17.09.2020

Многопоточное ускорение

Небольшой анализ, насколько хорошо ускоряется решение множества СЛАУ в параллельном режиме. Сначала график.

Мелкая деталь, которая обращает на себя внимание: AMD FX-4350 и A10-4600M обеспечивают почти одинаковое ускорение с небольшим преимуществом десктопного процессора. Что не удивительно ‒ в основе лежит одинаковая архитектура PileDriver. Видимо, небольшой проигрыш определяется отсутствием кэша третьего уровня у мобильной версии.
Тем не менее, AMD здесь постаралась на славу, если вспомнить, что на 4 ядра в этой архитектуре имеется всего два полноценных АЛУ с плавающей точкой. Несмотря на это, в параллельном режиме обеспечивается трехкратное ускорение!

Но еще более впечатляющих результатов AMD добилась в AMD Ryzen 5 3600. Несмотря на 6 физических ядер, на небольших размерностях ускорение превышает 6 раз. Старшие мобильные Intel вроде тоже так умеют, но на более меньших размерностях, которые в этот раз в тест не попали.

Есть и общая закономерность, которую демонстрируют все процессоры: замедление ускорения от параллельного решения СЛАУ при росте размерности задачи. Особенно это заметно у десктопного Ryzen 5 3600, а также мобильных Intel i5-8300H и Intel i7-6700HQ. Причем последний начинает сдуваться даже раньше, на 384 переменных.
В итоге ускорение параллельной обработки у мобильных процессоров Intel становится меньше единицы, т. е. один поток выполнит работу быстрее, чем восемь!
Десктопные процессоры не демонстрируют такую особенность, видимо, это произойдет на одной из следующих размерностях, которые я не тестировал.

Объясняется эта закономерность несоответствием скорости процессора и пропускной способностью памяти. При решении СЛАУ каждая операция слишком проста, и когда строки памяти становятся слишком длинные, то каждое ядро слишком часто обращается к памяти, увеличивается промахи мимо кэша, а пропускной способности шины памяти становится недостаточно, что бы успеть обслужить запросы всех ядер.
Видимо, при решение подобных задач, обрабатывающих простым алгоритмом огромный объем памяти, использование технологии HyperThreading выглядит не очень оправданным. Т. е. ее видимо, либо необходимо отключить, либо просто использовать в два раза меньше вычислительных потоков, чем ядер.
Впрочем, это не гарантирует, что на очень больших размерностях этого будет достаточно. Все зависит от скорости шины памяти. Если она достаточна медленна, а обработка одного элемента слишком быстра, то количество потоков придется еще больше ограничить.

Кстати, самые слабенькие процессоры из теста, Intel i3-3227U и AMD A10-4600M демонстрируют крайне слабое падение ускорения в зависимости от размерности задачи. Они просто достаточно медленные, и ядер не так много, поэтому подсистема памяти успевает обслуживать их запросы.

4 комментария:

Ivan Kolesnikov18.09.2020, 00:19
Согласен, все выглядит так, что потоки сражаются за место в кэше, вместо реальной работы. Может [Размер кэша]/[Размер Одно Системы] использовать чтобы запускать оптимальное число параллельных вычислений? Система из 1536 уравнений занимает ~18 МБ (если 64-битный тип), кэш у Ryzen 5 вроде 32 МБ, что может хватить для 2 потоков, но явно не больше.

Но вообще, как вы уже раньше писали, для больших систем распараллеливание внутри решения одной системы скорее всего сможет загрузить все ядра, так как будет гораздо больше попаданий в кэш.

Работа с кэшем она вообще интересна: с одной он очень важен и без него все медленно, а с другой, на сколько я знаю, никак не лимитирован между потоками, любой поток/процесс может замедлить что угодно просто прочитав кучу данных из памяти.

В этом плане архитектура Cuda куда более продумана для вычислений, там работа с shared memory более явна (по сути та же быстрая SDRAM): программист решает что в нее положить, определяет размер, и потоки владеют ею до окончания вычислений.
ОтветитьУдалить
Ответы

Добавить комментарий

Около программизма

17.09.2020

Многопоточное ускорение

4 комментария:

Архив блога

Обо мне