Около программизма: Дилемма

05.07.2022

Дилемма

Лежит у меня старенький модуль, реализующий арифметическое кодирование. Что-то захотел довести его до ума и максимально оптимизировать. Непонятно зачем, но хочется.

Одно из узких мест такого сжатия – поддержка частоты встречи символов в случае использования адаптивной модели. Собственно, поддержка именно таблицы частот банальна, но алгоритму нужны частоты нарастающим итогом.
То бишь, если у нас алфавит из трех символов A, B, C, каждый из которых встречается 3, 5, 2 раза (это собственно и есть таблица частот), то для алгоритма нужно вот так: 3, 8, 10.

В исходном алгоритме, который я взял в качестве основы, использовались 16-битные беззнаковые целые. Достаточно быстрая реализация, но на больших объемах данных возникало переполнения таблицы частот, поэтому когда частота достигала максимально возможного значения, вся таблица просто делилась на два, что в общем, не очень эффективно. Это гарантированно происходило каждые 65536 символов.

Для решения этой проблемы я заменил 16-битное целое на 32-битное, что позволило просто забыть про деление на два, если не сжимать данные размером больше 4 ГиБ.
С другой стороны, при добавлении каждого очередного символа приходилось пересчитывать достаточно большую таблицу частот, хоть зачастую и не полностью.

В результате сейчас у меня две идеи: хранить в памяти только классическую таблицу частот, а нарастающий итог рассчитывать каждый раз при добавлении очередного символа. Плюсы: снижается количество операций с памятью, так как таблицу частот (без нарастающего итога) можно сделать 16-битной, иногда нормируя ее делением на 2 (но не каждые 65536 символов, реже) и избежать обильной записи в память.
Минус: для расчета нарастающего итога придется суммировать всю таблицу до нужно символа.

Вторая идея состоит в том, что бы хранить все же обе таблицы, одновременно запоминая то место, где нарастающий итог уже посчитан верно. Поэтому при расчете нарастающего итога для нового символа можно будет пересчитывать не всю таблицу, а только небольшую часть, надеюсь, гораздо меньшую, чем в первоначальном варианте.Минус здесь следующий: придется все же выполнять на каждой итерации достаточно много записей в память, хоть и не так много, как в моем первоначальном варианте.

На текущий момент у меня есть подозрение, что первая идея хороша для коротких алфавитов. Наверное, для 8-битного и меньше она будет оптимальна. А вот для длинных алфавитов, видимо, интереснее второй вариант.

Но пока до конца не уверен. Надо будет потестить что ли разные варианты.

7 комментариев:

Ivan Kolesnikov05.07.2022, 22:36
Спасибо за очередную задачку :)))

Можно попробовать использовать дерево для подсчета нарастающего итога:
- размер алфавита - степень двойки
- листья - классические частоты символов
- в каждом узле храним сумму частот его листьев (32-бит): в корне для всего алфавита, на следующем уровне для 1-й и 2-й половины, далее для всех четвертей и т.д. до листьев.

Для Вашего примера (с добавлением D=0): в корне храним сумму A+B+C+D=10, следующий уровень: A+B=8, C+D=2, и далее A=3, B=5, C=2, D=0.

Если нужно найти итоговое значение скажем для C:
1. Правая половина, значит вкючаем в сумму значение из левого A+B узла (8)
2. На C+D узле идем влево, значит ничего не добавляем
3. Доходим до листа C=2
4. И того 8 + 2 = 10

За log(N) можно как добавить новый символ так и подсчитать итоговое значение.

По памяти: 2 * N - 1, но дерево можно уменьшить в 2 раза! Хранить одновременно сумму для левого, правого и поддерева целиком избыточно, так как левый+правый всегда равен поддереву целиком. Вместо этого в узле достаточно хранить сумму листьев для его левого поддерева (очень коряво написал, надеюсь понятно), и плюс сумму всех частот в отдельной переменной для всего дерева, этого будет достаточно чтобы восстановить сумму для правый поддеревьев. В памяти это будет занимать 1 (полная сумма) + (N-1 дерево) элементов = N

Хранить дерево на массиве: 0-й элемент - корень, далее следующий уровень и т.д.

Думаю будет более-менее оптимально с точки зрения кэша: верх дерева будет горячий и не будет покидать кэш, плюс читать/обновлять нужно только log(N) элементов.
ОтветитьУдалить
Ответы

Добавить комментарий

Около программизма

05.07.2022

Дилемма

7 комментариев:

Архив блога

Обо мне