23.06.2022

Кулькулятор

Мартышка в старости слаба глазами стала...

Короче, приходится частенько пользоваться калькулятором. И с некоторых пор стандартный виндовый калькулятор стал мне мелковат.
Да честно говоря, всегда он немного раздражал совершенно непродуманным размещением кнопок. Видимо, это раздражения от привычки к советскому программируемому калькулятору МК-61. Вот так он выглядел.


И это я еще сижу на "семерке". На десятке там вообще не калькулятор, а "вырви глаз" какой-то. Доходит до того, что в сборках Windows 10 на торрентах включают калькулятор из семерки.
Кстати, на Android ситуация не лучше. У меня Xiaomi, инженерный режим на ихнем калькуляторе просто ужасен. Такое ощущение, что разработчики калькуляторов вообще ни разу не инженеры, поэтому интерфейс и подбор функций, мягко говоря, удивляет.

В общем, как обычно, я не ищу легких путей - взял да и накидал сам для себя калькулятор под Windows. Кучу тестов под него не делал, но вроде как считает правильно. В процессе эксплуатации наверняка какие-то косяки вылезут - тогда и поправлю.

В процессе разработки выяснил, что описание алгоритма сортировочной станции, что на русском, что на английском, похоже содержит ошибку для правоассоциативных операций.

Видимо, здесь нужно было написать: "и при равенстве приоритетов op2 является левоассоциативным".

Интерфейс у моего калькулятора тоже не ахти, выглядит он вот так.

Ага, и с английским я тоже не очень-то дружу. Тем не менее, ссылочку на исполняемый файл оставлю, вдруг надо кому.

15.06.2022

Лабиринт - оптимизация на ассемблере

Предыдущая реализация поиска волновым алгоритмом в лабиринте была неплоха, но работала не так уж и быстро. Иван Колесников предположил, что дело в медленной работе памяти и попробовал реорганизовать хранения данных так, что бы рядом расположенные данные в двухмерном пространстве оказались относительно близко друг к другу и в одномерном пространстве. Для этого он использовал Z-порядок (по русски почему-то в вики статья называется кривая Мортона) для перехода от двухмерных координат к одномерным.

Подход показал очень хорошие результаты по производительности, обеспечивая почти двукратное превосходство для сложных случаев на интеловском процессоре.
Так же Иван протестировал программку на M1, который показал очень неплохую производительность, превышающую производительность топового мобильного процессора Intel 9-го поколения.

Итак, скорость работы волнового алгоритма сильно зависит от памяти, но вроде же для частичного решения этой проблемы и предназначен кэш? Которого в современных процессорах много, да еще и его, этого кэша, три уровня обычно.
Тут проблема в том, кэш для этой задачи очень "горячий". Фронт волны проходит в сложных случаях проходит по совершенно разным участкам лабиринта (читай, памяти, так как лабиринт в ней и хранится), что приводит к тому, что расчет одного участка волны приводит к неминуемому удалению из кэша другого участка волны, что сильно увеличивает промахи мимо кэша и драматически снижает производительность работы с памятью.
Реорганизация памяти в Z-порядке существенно снижает эту проблему, но можно попытаться решить проблему и по-другому, просто оптимизировав программу.

Первое, с чего я начала – с банальной регистровой оптимизации. Так как в 64-битном режиме в архитектуре x64 доступно 16 регистров, то результат оказался ощутимым примерно 30% ускорения за счет того, что я избавился от сохранения служебной информации в памяти.
К сожалению, компилятор Delphi, видимо, не сильно умеет в такую оптимизацию. Зато он позволяет достаточно легко и удобно писать часть кода на ассемблере. Не так удобно, как в 32-битной версии, когда можно было вставлять ассемблерные кусочки в любую часть кода. В 64-битной можно лишь писать целиком ассемблерные функции. Но отладка осталось все также очень удобной.

30% хорошо, но можно ли лучше? Что еще требует обращения к памяти, кроме переменных? Конечно же, вызов процедур и функции, которые даже при регистровой передачи параметров сохраняют/извлекают в/из стек(а) адрес возврата.
Помню, я даже бывало рассказывал на лекциях о забавном случае, когда ответственного руководителя направления разработки процессоров IBM отправили в корпоративную "ссылку" за то, что в очередном процессоре (в те времена это были монстры для мейнфреймов) не оказалось команд для работы со стеком.
Видимо, очень давно производительность памяти была сравнима с производительностью процессоров, да и в общем-то она была не велика, поэтому выделение отдельных команд для управления стеком было оправданным.
Но что мы видим сейчас? Если не ошибаюсь, в RISC V адрес возврата сохраняется не в памяти, а в регистре! В случае, если глубина вложенности вызовов функций не велика, а память существенно медленнее, чем процессор (в современном мире это почти всегда так), то это может существенно поднять производительность программы.
При необходимости же всегда можно организовать работу стека программным образом, а отсутствие дополнительных команд отлично вписывается в концепцию RISC.

К сожалению, в архитектуре x64 возможности сохранять адрес возврата в регистрах нет, поэтому просто приходится "раскатывать" тело вызываемой функции в код основной процедуры. У меня это была относительно маленькая функция проверки возможности хода и, если он возможен, сохранения фронта волны и порядка обхода на следующей итерации.
После избавления от лишних вызовов удалось поднять производительность почти в два раза относительно исходной.
Еще оптимизировал дисковые операции за счет буферизированного ввода/вывода. Правда, тут по хорошему надо бы еще оптимизировать и преобразование исходных данных в удобный для решения массив, но не это моя основная цель.

Итак, результаты:

AMD FX-4350:
загрузка примерно 15-16 секунд, но так как на компьютере используется HDD, то сильно зависит от фрагметированности файла; в худшем случае было 26 секунд. В среднем загрузка ускорилась в два раза;
kvy в прямом направлении и обратном направлении: 19 сек;
A
10 сек;
B
26 сек.

Ryzen 7 5800X:
загрузка 6 сек;
kvy в прямом 9.4 сек, в обратом
10.3 сек;
A
5.9 сек;
B
6.8 сек.

В общем, можно сказать, что оптимизация удалась. На данных, хранящихся в обычных массивах, FX-4350 обогнал более свежий, хоть и мобильный Intel, проиграв на Z-порядке. Впрочем, на процессоре с аналогичной производительность, думаю этого проигрыша бы не было.
Ну а на Ryzen 7 производительность оказалась
даже выше, чем у такого монстра, как M1. Жаль, нельзя их сравнить в равных условиях, так как вполне вероятно, что более жесткая оптимизация под M1 позволила бы ему обогнать Ryzen. Все же 31 регистр общего  назначение должен дать жару!

Только набирая текст, обратил внимание на несколько феноменальный результат Ryzen на файле B. Для всех прочих тестов вариант B был самым тяжелым для процессора и выполнялся медленнее всего. Удивительно, что для Ryzen он оказался проще, чем обычно более легкий вариант kvy.

Еще развлекаясь с лабиринтами, обнаружил, что большинство стандартных программ просмотра текстовых файлов и простые текстовые редакторы просто не в состоянии нормально работать с реально большими размерами. Видимо, не такая это уж и простая задачка.

07.06.2022

Лабиринт

Ностальгирую тут немного...

Вспоминаю еще те времена, когда учился на старших курсах в СМИ, ныне СибГИУ. Студенты обычных специальностей, типа металлургов или металловедов вешались, обучаясь информатики. Уж не помню как тогда кафедра эта называлась, на которой мучили студентов, потом она долго была кафедрой прикладной информатики.
И обучали там студентов-металлургов, литейщиков и прочих в те далекие времена... программированию. В СССР, а потом и России компьютеризация только начиналось, компьютеров-то толком не было, не говоря уже о прикладных программах. Поэтому программировали все подряд.

Одна из задачек для студентов там была про поиск пути в лабиринте. Металловедам и строителям это было просто невыносимо скучно и непонятно, а нам, обучающимся именно программированию, было страсть как интересно.

Интернетов тогда в Сибири не было, да наверно и во всей России тоже, хорошей специализированной литературы  также не хватало, поэтому алгоритмы мы придумывали сами. Для этой задачки самый оригинальный вариант решения придумал Алексей Щелоков, с очень забавной биологической аналогией.
В реальности же это был старый добрый, сто лет как известный волновой алгоритм.

Я потом с ним много изгалялся. В контексте биологического описания реализовывал его с помощью ООП, хотя по сути волнового алгоритма никакой ООП там не требуется, гораздо эффективнее просто поиск в ширину на массиве.
Кстати, тогда же я и выяснил, что выделение динамической памяти под NT происходит гораздо, наверное, на два порядка, медленнее, чем на Windows 9x.
Поэтому когда выяснилось, что операции 4 КиБ блоками при копировании файла сильно загружает процессорное ядро, я предложил, что эта та самая "неэффективность" системных вызовов на платформе NT.
Но думаю, я был не прав. Все же с времен NT много воды утекло, думаю, сейчас большинство системных вызовов происходит гораздо быстрее. Так что наиболее вероятная причина, как заметил Иван Колесников, в издержках межпоточной синхронизации. Надо будет потестить, но пока руки не доходят.

В общем, ностальгируя накидал быстренько программку поиска пути в лабиринте на окрестностях фон Неймана. Сначала хотел решить задачу в квадрате размером 100 000, но потом понял, что для решения памяти не хватит, и остановился на 40 000.

Правда, надо было еще лабиринт каким-то образом сделать. Сделал случайным образом. Лабиринт получился не очень красивым, но зато достаточно сложным для решения волновым алгоритмом.
Мой рабочий FX-4350 на архитектуре PileDriver и жестких дисках загрузил лабиринт примерно за 40 секунд, а нашел кратчайший путь за 52.4 секунды.
А вот Ryzen 7 5800X на архитектуре Zen 3 и с SSD на PCI Gen
3 x4 сделал те же операции за 22.5 и 21.5 секунды.

По сравнению с началом 90-х годов прошлого века эта, конечно, потрясающая производительность. Тогда и 100х100 лабиринт не сильно быстро решался.
Удивило лишь то, что замена HDD на SSD не сильно ускорила процесс загрузки. Честно говоря, я ожидал большего.

Может быть, когда станет совсем скучно, попробую оптимизировать эту программку. Первое, что мне приходит в голову – это мой любимый ассемблер.
Второе, но более важное: модификация поиска в ширину, что бы в первую очередь просматривать горизонталь (строки), а лишь затем двигаться по вертикали. Можно рассчитывать на увеличение производительности за счет того, что обрабатываемая часть массива уже подгружена в кэш.