Около программизма: Scalar SSE

20.09.2020

Scalar SSE

Начал реализовывать. В принципе, на что рассчитывал? FPU (x87) осуществляет операции, расширяя предварительно операнды в памяти до 80 бит, в то время как Scalar SSE этого вроде бы не делает, выполняя операции точно в размер типа.
Соответственно, на типе single (float) в 32 бита теоретически можем получить ускорение в 2.5 раза. Заменяем команды FPU на соответствующие команды Scalar SSE и получаем... ту же самую производительность, по крайней мере на AMD FX-4350. То есть производительность FPU и Scalar SSE отличается на плюс/минус погрешность измерения.
Хм... Крайне странно. Попробую что ли развернуть циклы?

Лирическое отступление про развертывание. Оптимизация здесь достигается за счет того, что не сбрасывается конвейер и полностью используются суперскалярные возможности процессора. В полной мере воспользоваться преимуществом развертывания легко на коротких циклах.
Тем не менее, на современных процессорах влияние развертывания на производительность заметно меньше, в первую очередь за счет очень качественного механизма предсказания переходов, а также использования теневых регистров.
И еще меньше оно становится, если параллельно используются два совершенно независимых устройства, в нашем случае блоки целочисленных операции и операций с плавающей точкой.
Ведь пока выполняется относительно длинная операция с плавающей точкой, мы можем параллельно выполнить пару коротких целочисленных операций, практически без потери производительности.
Еще один нюанс связан с количеством итераций цикла. Если количество итераций заранее известно, то можно цикл развернуть максимально оптимальным способом. Если же такой информации нет и пишется универсальный цикл, то при развертывании придется за счет дополнительных условий пожертвовать производительностью коротких циклов.

Теперь вернемся к решению СЛАУ на Scalar SSE. Документация AMD говорит о том, что при использовании SSE можно рассчитывать на увеличение производительности до 4 раз.
От чего это зависит? По моим соображениям, от количества АЛУ в блоке SSE. То есть 4-х кратного ускорения можно достигнуть, если у нас есть 4 сумматора, например. Но только на операциях сложения.
В случае наличия по два мультипликатора и сумматора можно достичь двукратного ускорения. Или 4-х кратного, если у нас есть данные, которые позволяют параллельно выполнить два умножения и два сложения.
При таком построение блока SSE возможно получить существенный выигрыш и от раскрытия цикла Scalar SSE в случае суперскалярной архитектуры.

В принципе, возможно и другое аппаратное решение: одно АЛУ, которое выполняет действие над всем регистром SSE, в результате которого получается сразу четыре результата (для типа single). В этом случае раскрытие цикла на Scalar SSE не даст слишком большого выигрыша.

В общем, раскрываю цикл и получаю выигрыш... та-дам!.. максимум в пару десятков процентов. Причем на маленьких размерностях закономерно производительность падает.
Понятно, результат пока предварительный, на разных процессорах может быть разным, чуть позже тесты покажут.

В общем, такое ощущение, что Scalar SSE ничего не знает про суперскалярность! 😉 Или я просто не умею его готовить?
Ниже пример кода, реализующего внутренний цикл, на этот раз, правда, для типа double. В принципе, ничем от single не отличается, кроме размера операндов. Результаты тоже аналогичны.

procedure MakeDoubleNextRowsPASM;
asm
// R8 - P, R9w - n, R10w - index
lea EBX, [R10d+1]; // BX - i
cmp BX, R9w;
jae @exit;
@Loop1:
mov RCX, [R8 + RBX*8]; // RCX - S
lea EDX, [R10d+1];
movsd XMM0, [RCX+R10*8];
mov ax, R9w; // --
sub ax, R10w; // --
@Loop2:
cmp ax, 4;
jb @Loop2_2;
movsd XMM1, XMM0;
movsd XMM2, [RCX+RDX*8];
movsd XMM3, XMM0;
mulsd XMM1, [R11+RDX*8];
movsd XMM5, XMM0;
movsd XMM4, [RCX+RDX*8+8];
subsd XMM2, XMM1;
mulsd XMM3, [R11+RDX*8+8];
movsd XMM7, XMM0;
movsd XMM6, [RCX+RDX*8+16];
movsd [RCX+RDX*8], XMM2;
subsd XMM4, XMM3;
mulsd XMM5, [R11+RDX*8+16];
movsd [RCX+RDX*8+8], XMM4;
subsd XMM6, XMM5;
mulsd XMM7, [R11+RDX*8+24];
movsd XMM8, [RCX+RDX*8+24];
movsd [RCX+RDX*8+16], XMM6;
subsd XMM8, XMM7;
sub ax, 4
movsd [RCX+RDX*8+24], XMM8;
add dx, 4;
jmp @Loop2_Fin;
@Loop2_2:
cmp ax, 2;
jb @Loop2_1;
movsd XMM1, XMM0;
movsd XMM2, [RCX+RDX*8];
movsd XMM3, XMM0;
mulsd XMM1, [R11+RDX*8];
movsd XMM4, [RCX+RDX*8+8];
subsd XMM2, XMM1;
mulsd XMM3, [R11+RDX*8+8];
movsd [RCX+RDX*8], XMM2;
subsd XMM4, XMM3;
sub ax, 2;
movsd [RCX+RDX*8+8], XMM4;
add dx, 2;
jmp @Loop2_Fin;
@loop2_1:
movapd XMM1, XMM0;
mulsd XMM1, [R11+RDX*8];
movsd XMM2, [RCX+RDX*8];
subsd XMM2, XMM1;
movsd [RCX+RDX*8], XMM2;
inc DX; //--
@Loop2_Fin:
cmp DX, R9W;
jbe @Loop2;
inc BX;
cmp BX, R9w;
jb @Loop1;
@exit:
end;

10 комментариев:

Ivan Kolesnikov21.09.2020, 08:40
Отлично, продолжение сериала про СЛАУ :))))) Извините за мою портянку.

> Оптимизация здесь достигается за счет того, что не сбрасывается конвейер и полностью используются суперскалярные возможности процессора

Плюс экономится на инкременте счетчика и проверки условия выхода, а вот возможностей там не так много в плане математики, скажем у моего процессора всего 2 АЛУ. А вот SIMD - это другое дело, каждый АЛУ может 4 double обработать за раз, но это уже не про суперскалярность, а про векторизацию.

> одно АЛУ, которое выполняет действие над всем регистром SSE

Именно так и устроен процессор, он не умеет склеивать скалярные операции в одну, скажем у AMD FX-4350 2 128-битных АЛУ, он может выполнять за такт:
1. 2 SSE умножения, сложения или умножение + сложение, но ему все равно полностью или частично загружены регистры.
2. 1 AVX операцию склеивая АЛУ в один 256-битный

И того 8 double или 16 float за такт используя SIMD, но никак не 8 scalar SSD инструкций, а только 2: по одной на каждый АЛУ

> Тем не менее, на современных процессорах влияние развертывания на производительность заметно меньше ... максимум в пару десятков процентов.

У меня цифры сравнимы с Вашими: СЛАУ из 384 уравнений решается на 25% быстрее с развернутым циклом на scalar AVX, но пара 10-ов процентов - это тоже не плохо, к тому же SIMD не возможен без инфраструктуры разворота цикла, в любом случае нужно досчитывать хвост используя скалярные инструкции, а раз компилятор научен разворачивать циклы, то почему бы и не получить эти десятки или даже единицы процентов,

> В общем, такое ощущение, что Scalar SSE ничего не знает про суперскалярность!

Думаю просто решение СЛАУ упирается не в математику, а в скорость загрузки данных. Решил проверить это на синтетическом тесте обрабатывающем массивы уже загруженные в L1 (1024 элемента, double). Время перевел в такты моего процессора i5-7267U, up to 3.50 GHz. 1/3.50 = 0.29 нс/цикл. Вот в этих попугаях я и считал.

1. a[i] += b[i] * c (2 загрузки, 1 сохранение, 1 умножение, 1 сложение):

- no loop unroll, scalar AVX: 2.43 такта/тело цикла
- loop unrolled, scalar AVX: 1.76 такта/тело цикла
- AVX: 0.46 такта/тело цикла
- идеальный AVX: ~0.25 такта/тело цикла, или 1 такт на AVX цикл, судя по описанию процессор как раз позволяет 2 загрузки, 1 сохранение, 1 умножение, 1 сложение для 256-bit регистра за такт.

AVX почти в 2 раза медленнее идеала, наверное 2 загрузки и одно сохранение в L1 каждый такт - это пока еще слишком круто.

2. a[i] += a[i] * c + b[i] * d (те же 2 загрузки и 1 сохранение, но 2 умножения и 2 сложения):

- no loop unroll, scalar AVX: 2.90 такта/тело цикла
- loop unrolled, scalar AVX: 2.42 такта/тело цикла
- AVX: 0.68 такта/тело цикла
- идеальный AVX: ~0.5 такта/тело цикла, нужно в 2 раза больше сложений и умножений чем в 1-м тесте.

Все еще меньше чем идеал, но явно что-то выполняется параллельно на FPU, иначе вычисления требовали бы (2 сложения + 2 умножения) / 4 (4 double в AVX) = 1 такт/тело цикла, а судя по тесту, только 0.68
ОтветитьУдалить
Ответы
Ivan Kolesnikov21.09.2020, 08:43
И продолжение, я превысил лимит в 4096 символа в комментарии :)))))))

Несколько идей как можно код улучшить (или ухудшить) ассемблер:

1. Сейчас циклы завязаны в узел: я бы избавился от @Loop2_Fin и переходил на начало текущего цикла вместо перехода на верх 1-го развернутого. По сути вам нужно 3 подряд идущих независимых циклов: по 4, по 2, по 1 элементу. Это должно улучшить работу на маленьких системах.

2. Условия в Loop1 цикле написаны оптимально: проверка перед циклом и после тела цикла - это позволяет избежать 2-го перехода при выходе из цикла, а вот внутренние циклы проверяют условие выхода внутри цикла, в результате 2 перехода при выходе, а они ведь самая горячая часть в программе.

3. Вместо пересчета 2-х счетчиков (индекса и числа оставшихся элементов) оптимальнее будет перед каждым циклом подсчитать максимальное допустимый индекс массива и выходить из цикла если текущий индекс превышает лимит.

4. Если умножить константу умножения на -1, то movsd + subsd можно заменить на addsd ("movsd XMM2, [RCX+RDX*8]; subsd XMM2, XMM1; movsd [RCX+RDX*8], XMM2;" -> "addsd XMM1, [RCX+RDX*8]; movsd [RCX+RDX*8], XMM1;"), но надо смотреть быстрее ли это.

5. Не уверен что ручное переименование регистров нужно, для современных процессоров имя регистра задает только поток данных, так сказать связывает инструкции между собой, а физический регистр назначается процессором из списка свободных (Register renaming), также не уверен что пересортировка команд что-то решает. Попробуйте просто скопировать тело цикла как есть и подправить только смещения. Это должно быть проще читать и изменять, но опять же надо тестировать.

По 1-3 пунктам, если вдруг, что-то плохо написал, то вот псевдокод:

for (var i = 0; i < n; i++) {
...
}

предлагаю развертывать примерно так:

var i = 0;

var limit4 = n - 4;
if (i <= limit4) {
do {
...
i += 4;
} while (i <= limit4);
}

var limit2 = n - 2;
if (i <= limit2) {
do {
...
i += 2;
} while (i <= limit2);
}

if (i < n) {
do {
...
i++;
} while (i < n);
}

Я намерено оставил последнее условие циклом, чтобы сохранить их независимость: можно легко закомментировать любой из развернутых циклов и программа все еще останется корректной, но это так лирика.

P. S. Мне https://www.agner.org/optimize/microarchitecture.pdf и https://www.agner.org/optimize/instruction_tables.pdf понравились для быстрого поиска информации по разным процессорам. Так сказать отфильтрованные рекламные материалы.

Ваши исследования, прям глоток свежего воздуха в рутине работы, все воскресенье просидел обдумывая и анализируя результаты по влиянию кэшей, и попытках оптимизации. Еще раз извиняюсь за много слов.
ОтветитьУдалить
Ответы

Добавить комментарий

Около программизма

20.09.2020

Scalar SSE

10 комментариев:

Архив блога

Обо мне