Около программизма: Оптимизация. Первый вариант

24.08.2022

Оптимизация. Первый вариант

Как говорится, скоро сказка сказывается, да не скоро дело делается.

Наконец-то переделал под ассемблер первый вариант арифметического сжатия: пока что классический вариант, без каких-либо принципиальных изменений, только для хранения модели используется усеченная пирамида в моем варианте реализации.

В основном я делал регистровую оптимизацию. И вот что меня удивляет в текущем компиляторе Delphi: они не стали сильно заморачиваться, просто содрали кальку с соглашении о вызовах Win64. Параметры передаются в 4 регистрах, если их больше, то они передаются на стеке, большую часть регистров при необходимости использовать в функции, нужно предварительно сохранять.
Такой подход вполне оправдан при вызове приложением системных функций. Но зачем его использовать при вызовах, не выходящих за пределы приложений?

Я лично исхожу из того предположения, что 80% работы выполняют листовые функции. А значит, именно им необходимо предоставить все ресурсы (в первую очередь регистры) для обеспечения максимальной производительности.
Также листовые функции не имеют никакой информации о том, откуда они будут вызываться и какие регистры в месте вызова используются.
В то же время вызывающая функция прекрасно знает, какие регистры она использует, а компилятор может передать ей информацию о том, какие регистры использует вызываемая функция. Поэтому мне кажется логичным, что листовая функция должна свободно пользоваться любым регистром, а сохранять используемые должна вызывающая функция.
По крайне мере, я именно так всегда делаю.

Еще с удивлением обнаружил, что в составе Delphi нет профайлера вообще. Да и был ли он? Я вот честно не помню, последние воспоминания о нем связаны с Borland Pascal. Но возможно он был в ранних моделях Delphi и я просто про него забыл (а может и не знал?), потому что никогда не пользовался.
Тем не менее, в столь простой ситуации, как со структурой алгоритма арифметического кодирования, можно понять, какие там будут узкие места и без профайлера. Во-первых, сама процедура кодирования (или декодирования) символа, которая вызывается столько раз, сколько символов в кодируемом тексте. Ну и связанная с нею один ко одному процедура обновления модели.
Но еще большее влияние может оказать процедура записи (чтения) бита сжимаемой (декодируемой) информации, так как она вызывается несколько раз на символ.

В Delphi, в отличие от Java, нет никаких инструментов для работы с массивом бит, поэтому приходится программировать их вручную и использованием побитовых операций и сдвигов.
А вот на ассемблере всё гораздо интереснее. Все же есть определенные преимущества у архитектуры CISC, и в X86/X64 уже давно есть команды для манипуляции с битами. Они на мой взгляд немного странные, но все равно существенно облегчают жизнь программиста.
Первоначально я сделал операции именно над битами в массиве в памяти. Но, с учетом того, что эта операция встречается очень часто, решил ее слегка оптимизировать, поэтому в конечном варианте кэширую часть массива в регистре и битовые операции произвожу над ним, по мере необходимости сохраняя/обновляя значения из памяти.
Видимо, на языке высокого уровня такая оптимизация трудно достижима.

Что же у меня получилось? На моем FX-4350 мне удалось достичь лишь жалких 10 МиБ/с при сжатии и 7 при распаковке. Это, конечно, серьезное улучшение с исходным вариантом, но мечталось о большем 😀.
Посмотрим, что получилось на более современном процессоре Ryzen 7 5800X: 17.8 и 13.3 МиБ/с соответственно! Недурно вроде вышло: быстрее всех вариантов, которые протестировал Иван Колесников на Java, кроме распаковки на 16-битном варианте с пирамидой.
А ведь у меня еще остались в запасе "тайные варианты" алгоритмической оптимизации, которые раскопал Иван: уменьшение количества делений и разбивка одного цикла со сложными условиями в теле на несколько независимых. Правда, я не уверен, что последний вариант даст сильный приход в ассемблерной реализацией.
Получается, что современные оптимизаторы хороши, но человек при желании сможет лучше. Конечно, трудозатраты при этом не в пользу человеческого варианта 😀.

Итак, 17 и 13 МиБ/с – много это или мало? Иван считает, что числа эти – детские, то есть, маловато будет. Смотря для чего. Я вижу одно применение арифметического сжатия, где такой производительности явно недостаточно: кодирование видео очень высокой четкости.
Но и в этой области скорость арифметического кодирование важная, но не самая главная проблема. Насколько я смог понять, решают ее в современных стандартах путем использования короткого алфавита и снижения точности вычислений. Это приводит к увеличение производительности и некоторому ухудшению коэффициента сжатия. Тема интересная, но пока не очень понятная.

Теперь фрагменты кода, которые я использую для кодирования/декодирования символов. Сначала кодирование:

procedure TArithmeticCoder.Encode_symbol(Symbol : byte);
var
Range : cardinal;
Prev : cardinal;
label StartLoop, ExitLoop;
begin
Range := HighLimit - LowLimit + 1;
HighLimit := LowLimit + (UInt64(Range)*GetLimit(Symbol, Prev)) div TotalLimit - 1;
LowLimit := LowLimit + (UInt64(Range)*Prev) div TotalLimit;

StartLoop:
    if HighLimit < Half then
      bit_plus_follow(0, Bits_to_follow)
    else
      if LowLimit >= Half then
      begin
        Bit_plus_follow(1, Bits_to_follow);
        LowLimit := LowLimit - Half;
        HighLimit := HighLimit - Half;
      end
      else
      if (LowLimit >= First_qtr) and (HighLimit < Third_qtr) then
        begin
          Bits_to_follow := Bits_to_follow + 1;
          LowLimit := LowLimit - First_qtr;
          HighLimit := HighLimit - First_qtr;
        end
        else
          goto ExitLoop;
    LowLimit := LowLimit + LowLimit;
    HighLimit := HighLimit + HighLimit + 1;
    goto StartLoop;
ExitLoop:
end;

Декодирование:

var
Range : cardinal;
Cum, Prev, Current : cardinal;
label StartLoop, ExitLoop;
begin
Range := HighLimit - LowLimit + 1;
Cum := ((UInt64(Value)-LowLimit+1)*Limits[0]-1) div Range;
Result := GetLimitIndex(Cum, Prev, Current);
HighLimit := LowLimit + (UInt64(Range)*Current) div TotalLimit-1;
LowLimit := LowLimit + (UInt64(Range)*Prev) div TotalLimit;
StartLoop:
    if HighLimit>=Half then
      if LowLimit >= Half then
      begin
        Value := Value - Half;
        LowLimit := LowLimit - Half;
        HighLimit := HighLimit - Half;
      end
      else
        if (LowLimit >= First_qtr) and (HighLimit < Third_qtr) then
        begin
          Value := Value - First_qtr;
          LowLimit := LowLimit - First_qtr;
          HighLimit := HighLimit - First_qtr;
        end
        else
          goto ExitLoop;
    LowLimit := LowLimit + LowLimit;
    HighLimit := HighLimit + HighLimit + 1;
    Input_bit(Value);
    goto StartLoop;
ExitLoop:
end;

Что же дальше? Дальше я попробую реализовать на ассемблере версию с простой таблицей частот с накоплением с расчетом с использованием SIMD и уменьшенным количество делений. Судя по тому, что получилось у Ивана, на 8-битном алфавите такой вариант должен быть самым быстрым за счет некоторого снижения точности.
Такое снижение точности приведет к некоторому снижению коэффициента сжатия. Насколько сильному? Очень незначительному. Реализация на чистом Delphi дает вот такую картину (см. последнюю строчку):

Как видим, снижение есть, но оно практически незаметно. При этом очевидно, что оно будет расти по мере увеличения размера кодируемых данных (если не сбрасывать регулярно модель путем деления на два), за счет прогрессирующего снижения точности. Значительных величин такое снижение может достигнуть при размере в районе ГиБ и больше, но вряд ли кто-то на практике будет использовать такие объемы для чисто арифметического сжатия.

26 комментариев:

Ivan Kolesnikov25.08.2022, 06:42
> По крайне мере, я именно так всегда делаю.
Мне кажется это достаточно муторно для компилятора: нужно знать какие регистры вызываемая функция использует, и это сломает инкрементальную компиляцию, альтернатива - сохранять прям вообще все регистры - но это дорого. Поэтому обычно оптимизирующий компилятор просто инлайнит внутренние функции по максимуму, также можно подсказать что обязательно заинлайнить. Хотя может быть я и не прав и то что Вы делаете вручную тоже используется :)

> в отличие от Java, нет никаких инструментов для работы с массивом бит
хм, в Java вроде тоже нет, по крайней мере я сам писал :)

> кэширую часть массива в регистре ... Видимо, на языке высокого уровня такая оптимизация трудно достижима.
сложно сказать, не удивлюсь что возможна, но не проверял. Опять же зависит от API у меня есть класс с методом: сжать очередной байт, между вызовами этого метода явно нельзя регистр сохранить.

> Ryzen 7 5800X: 17.8 и 13.3
Круто, хорошо заоптимизировали, ну и ryzen прям число молотилка :)

> я не уверен, что последний вариант даст сильный приход в ассемблерной реализацией
Интересно будет узнать, моя теория что предсказатель переходов не может толком ничего предсказать и уменьшение ветвления помогает вне зависимости от языка... код ведь очень горячий: он на каждый сжатый бит выполняется!

> Тема интересная, но пока не очень понятная.
Я чуток по разбирался, в надежде понять как все ускорить на порядок :) Все достаточно интересно:

1. Мы исследуем 16-bit модель, я даже 24-bit пробовал, а производительная реализация обычно использует 1-bit. Но с 1-bit особо не сожмешь, поэтому используют много моделей. Условно вместо 1-ой модели на байт: 1 модель на старший бит, 2 модели на 2-й бит, 4 на 3-й и т.д. всего 511 моделей на байт. Очень похоже на нашу пирамиду.

2. Так как кодируем всего один бит, то результат модели всего 1 вещественное число (скажем вероятность 0) и для одного бита ее можно очень сильно загрублять. Обычно частоту модели описывают через заранее рассчитанный конечный автомат: состояние отображается на частоту и входящий бит изменяет состояние. Как я понял это один из самых важных моментов: написать правильный и компактный автомат. Вроде часто используют автомат всего из 64 состояний и даже меньше.

3. Далее само кодирование - это тоже конечный автомат: состояние - закодированный отрезок (так как частота загрубленная, то и разных отрезков не так много надо), по частоте из модели и биту, автомат меняет состояние и возвращает какие биты нужно записать в поток и на сколько увеличить follow. Опять же автомат можно посчитать заранее.

4. В итоге сжатие превращается в хождение по конечным автоматам, ни тебе умножений ни делений :)

Я попробовал реализовать что-нибудь похожее примитивно, получил где-то 2% хуже сжатие, но заметно медленнее, дело в том что конечный автомат - это массивы, а в Java с ними не очень, так как она везде хочет проверять их границы :( Но может еще покопаюсь.
ОтветитьУдалить
Ответы

Добавить комментарий

Около программизма

24.08.2022

Оптимизация. Первый вариант

26 комментариев:

Архив блога

Обо мне