Около программизма: Копирование файлов

26.04.2022

Копирование файлов

Наблюдая за копированием больших файлов, заметил некоторую неоптимальность. Например, после завершения копирования файла возникает достаточно длинная пауза, вызванная дозаписью остатков файла из кэша. В это время можно было бы уже начинать считывать другой файл, если чтение и запись осуществляются на разные физические устройства.

Вторая неоптимальность связана с возможностью параллельного копирования нескольких файлов, если источник и назначение у них полностью разные или если одно из устройств гораздо быстрее другого/других.

Речь тут идет об использовании каких-либо приложений, поддерживающих постановку задач копирования файлов в очередь. Я пользуюсь Total Commander.

Возможность подобной оптимизации конечно зависит от аппаратной части компьютера: позволяет ли подсистема ввода-вывода параллельные операции на физически разные накопители.

В принципе, вторую неоптимальность можно легко решить в командной строке, запустив несколько процессов copy/xcopy для разных пар физических устройств. Правда, хотелось бы все же иметь для этого более человекоориентированный интерфейс.
А вот с первой неоптимальностью сложнее.

Лирическое отступление про кэш. В идеальной системе, где все приложения написаны максимально эффективно, видимо, нет особого места для файлового кэша на уровне операционной системы. Ну, по крайне мере я не вижу такого варианта использования, когда бы он пригодился.
Точнее, придумал тут один: когда вы открыли большой вордовский файл, закрыли его, и тут же вспомнили, что чего-то в нем не доделали. Вот тут кэш пригодится, да.

В реальной, не идеальной же системе кэш очень даже пригождается, потому что далеко не всегда программист имеет желание и возможность достаточно внимания уделить буферизации дисковых операций.
С кэшем же особо голову можно не греть. И без оптимизации все работает относительно быстро. Если про антивирусы на секунду забыть, да. Потери производительности, конечно, будут, но не сильно заметные.

Издержки же на файловый кэш не очень значительны. Во-первых, это память. Но при нынешних ценах на ОЗУ в компьютерах её обычно с избытком, так что это не проблема.
Во-вторых, двойные пересылки память-память. Первый раз при чтении с устройства в буфер системы кэширования, затем второй раз при копировании из кэша в буфер приложения.
При записи те же два этапа сохраняются, только идут в обратной последовательности.
Так как современное ОЗУ весьма производительно, то пересылки память-память не сильно снижают производительность.

Все это была преамбула. Теперь же перейду к амбуле. Решил я посмотреть и проверить, а нельзя ли ускорить процесс копирования файлов?

Для начала определился со стратегией кэширования. Вариантов тут три:
– ничего не трогать, что бы все работало по умолчанию;
– сообщить операционной системе, что операции с файлами будут происходить строго последовательно, а запись в файлы – сразу на диск;
– вообще не использовать системы кэширования, читая/записывая непосредственно в/из буфера приложения.
Выбрал самый хардкорный, последний вариант, хотя там немножко более сложно выполнять и чтение и запись.

А для самого приложения решил реализовать следующую идею: есть набор потоков-"читателей", по одному на каждое физическое устройство хранения данных, и симметричный набор потоков-"писателей". Еще есть управляющий поток, который формирует задание "читателям", "читатели" в свою очередь читают данные из файла в буфер, это буфер передают соответствующим "писателям".
Идея здесь в том, что пока одно физическое устройство ждет завершения операции ввода/вывода, другое может в параллель тоже что-нибудь прочитать/записать.

В общем, слегка помаявшись с отладкой многопоточного приложения, в конце концов оттестировал его.

Как ни обидно, особого выигрыша по сравнению с несколькими копиями copy/xcopy достичь не удалось. 😂 Как, впрочем и проигрыша. У xcopy, кстати, тоже есть опция копирования без кэширования, как раз для больших файлов.
Есть подозрение, что причиной всему небольшие задержки в переключении потоков между "читателям" и "писателями".

Поэтому, если будет не лень, попробую другую идею: каждый файл копирует отдельный поток, но с разными приоритетами – первый файл на определенную пару физических устройств копируется с максимальным приоритетом, а все последующие – со всё более меньшим.

14 комментариев:

Ivan Kolesnikov01.05.2022, 04:09
По моему мнению, файловый кэш очень полезная и безальтернативная фича, по крайней мере пока SSD не сравняются с памятью по скоростью и живучестью:
1. Запуск ворда требует чтение огромного числа относительно маленьких исполняемых файлов, конфигурации и т.д., чтение их из кэша должно существенно ускорять запуск программы. В том же Linux новые процессы запускаются сотнями, и без кэша было бы печально.
2. Издержек на память по сути нет, так как файловый кэш использует только свободную память, по крайней мере в Linux и macOS и динамически изменятся в размерах.
3. Без системного кэша не понятно как реализовать кооперативный режим работы программ, скажем открыли видео-редактор, он занял всю доступную память буферами видео файлов, далее переключаемся в другую программу, а ей памяти не хватает. Дабы такого не было, те же базы данных позволяют настроить размер буфера и т.д., но это не реально сложно для обычного пользователя.
4. Даже Postgres использует системный кэш, во первых это платформо-независимо, а во вторых позволяет оптимизировать запись на физический диск.
5. Еще интересно что буферизация не приводит к долговременному дублированию в памяти: то что буферизировано, не требует чтения из кэша и как результат со временем вытесняется из кэша.

Один из вариантов копирования: начинать копировать все файлы сразу, не использовать кэш для чтения, но использовать для записи и синхронизировать кэш с диском только после того как все файлы скопированы. В таком случае операционная система должна увидеть картину целиком и возможно сможет оптимизировать запросы. Но классический, синхронный, ввод-вывод здесь не подойдет, так как потоков будет много и их синхронизация будет узким местом, нужно смотреть в сторону асинхронного ввода-вывода, когда поток всего один.
ОтветитьУдалить
Ответы

Добавить комментарий

Около программизма

26.04.2022

Копирование файлов

14 комментариев:

Архив блога

Обо мне