Около программизма: 16-тибитный алфавит

01.08.2022

16-тибитный алфавит

Наконец-то добрался и переписал вариант арифметического сжатия под 16-битныый алфавит. Раньше я как-то прикидывал эффект от такого перехода для кодирования Хаффмана, но на небольшом множестве символов в тексте.
Насколько помню, считал для трех символом и пробела. Там получалось, что переходе с 8-битного алфавита исходного файла на 16-битный, сжатие на 8-битном кодеком ухудшалось из-за добавления к каждому символу служебного байта, который существенно менял модель, а 16-битное сжатие давало такой же по размерам результат, как и 8-битное сжатие на 8-битном файле.
С другой стороны, при сжатии 8-битного файла 16-битным кодеком размер сжатого файла получался ровно такой же, как и при использовании кодека с 8-битным алфавитом.
Таким образом, для этого случая 16-битный кодек всегда оказывался как минимум не хуже по коэффициенту сжатия, чем 8-битный. Но будет ли это выполняться для текста с большим множеством используемых в нем символов?

Я предполагал, что 16-битный кодек даст даже лучший результат на обычных, человекочитаемых текстах в 8-битной кодировке, исходя из того, что в них часто повторяются двухбуквенные сочетания, которые 8-битный кодек заметить просто не может.
С другой стороны, при нечетном расстоянии между такими буквосочетаниями, они уже не будут восприниматься 16-битным кодеком как одинаковые.

Но в процессе отладки на небольшом 8-битном тексте я получил гораздо более худший результат по сжатию 16-битным кодеком.
А вот при тестировании на больших текстах, как я и предполагал, результаты 16-битного кодека оказались лучше.

Это связано, по всей видимости, с большим временем на адаптацию 16-битной статистической модели к реальным данным. Я для теста использую равновероятную модель появления всех 65536 символов, что, конечно, для человекочитаемого текста очень не точно. Из-за большого размера алфавита более-менее точная адаптация модели требует и большего количества обработанных символов.
Поэтому для сжатия небольших блоков текста лучше использовать 8-битный кодек, но еще лучше, если есть возможность, перед сжатием данных формировать более адекватную модель, хоть для 8-битного, хоть для 16-битного варианта.

Ну и собственно результаты:

Как видим, на больших файлах 16-битный кодек всегда лучше 8-битного. Удивительно, но факт: UTF-16 сжимается 16-битным кодеком лучше, чем UTF-8.
Так же любопытно, что текст в UTF-16 сжался немного хуже 16-битным кодеком, чем WIN-1251 8-битным. Ведь теоретически они должны были сжаться в один и тот же размер. Это связано, как я уже упоминал выше, с большим размером модели в 16-битном кодеке, поэтому первые несколько тысяч символов он кодирует менее оптимально, чем 8-битный, в котором модель адаптируется к тексту гораздо быстрее.

Так же любопытно посмотреть на сжатие двоичных файлов. В качестве примере я взял WAV-файл, в котором находились несжатые данные в формате PSM S16LE. Так как данные в 16-битном формате, не удивительно, что 16-битный кодек сжал их лучше 8-битного.
Интересно то, что коэффициент сжатия оказался сравним с некоторыми методами сжатия звуковых файлов без потерь. Впрочем, он лежит на нижней границе этих методов, обычно же они все обеспечивают более высокое сжатие.

Удивительно, но производительность 16-битного варианта сжатия оказалась немного выше, чем у 8-битного! 8.1 МиБ/сек сжатие и 4.6 МиБ/сек распаковка против 7.5 и 4.6 соответственно.
Но тут неожиданно вылез небольшой технический нюанс: при тестировании сжатия бинарных файлов выяснилось, что точности UInt32 для 16-битного кодека не всегда хватает.
Пришлось переходить на UInt64, и вот тут скорость упала примерно в 1.5 раза. Но это чисто технический момент, связанный с неудачным оптимизатором Pascal для таких выражений. Уверен, что на ассемблере разницы между вариантами не будет никакой.

Вывод же можно сделать такой: практически всегда 16-битный кодек оказывается лучше, чем 8-битный.
Единственное исключение, которое я сейчас вижу – небольшие блоки данных, в которых некоторые 8-битные символы встречаются чаще других, но при этом не образуют таких же более часто встречающих пар символов.
Если же блок данных достаточно большой, то такие часто встречающиеся 8-битные символы неминуемо будут образовывать и более часто встречающиеся пары, что даст возможность 16-битному кодеку показать как минимум не худший результат.

7 комментариев:

Ivan Kolesnikov02.08.2022, 06:58
Спасибо за сравнение и анализ!

> Удивительно, но факт: UTF-16 сжимается 16-битным кодеком лучше, чем UTF-8.
По мне так ничего удивительного: в UTF-8 символ может занимать от 1 до 4-х байт, и 1-но и 3-х байтовые символы могут привести к разбивки потока не по границе символов, что ухудшает модель частот символов. С 8-ми битном же кодеком такого не происходит и UTF-8 сжимается чуть-чуть лучше.

> но производительность 16-битного варианта сжатия оказалась немного выше, чем у 8-битного
На одной стороне была более большая пирамида не помещающаяся целиком в L1 кэш, а на другой 2 деления и чуток другой математики, в итоге деления и анализ битов проиграли :))) Но может там можно что-нибудь сооптимизировать?

> UInt32 для 16-битного кодека не всегда хватает Пришлось переходить на UInt64
Мне понравилась https://marknelson.us/posts/2014/10/19/data-compression-with-arithmetic-coding.html статья, она написана чуток в необычном стиле: сначала приводят неработающий код, а после обсуждают и правят, но более-менее понятна. В итоге для их реализации, получается что на UInt32, можно безопасно хранить частоты до 15-бит, а дальше масштабировать, а на UInt64 соответственно 31-бит, но возможно у Вас реализовано по другому... Было бы интересно посмотреть :)))
ОтветитьУдалить
Ответы

Добавить комментарий

Около программизма

01.08.2022

16-тибитный алфавит

7 комментариев:

Архив блога

Обо мне