Около программизма: Нюансы копирования

29.05.2022

Нюансы копирования

Как у меня возникла идея попробовать написать свою программку копирования? Из наблюдения за процессом копирования менеджеров файлов, в первую очередь Total Commander и Far. Особенно у Total Commander это заметно в режиме копирования файлов в очереди.
Когда копирования очередного файла в очереди завершено, то есть файл полностью скопирован, программа замирает на продолжительное время (при копировании файла большого размера). Поразмыслив, я пришел к выводу, что причина в том, что запись файла кэширована, и при закрытии только что скопированного файла операционная система не отдает управление программе копирования, пока не будет полностью сброшен кэш записи на диск.

Но в этом момент работает только диск назначения (если диски источника и назначения различны). Поэтому почему бы не начать заранее считывать следующий файл в буфер, пока текущий сбрасывает кэш на диск?
Собственно, на этой идеи и была основана моя многопоточная программка. И к моему разочарованию, она не показала особого ускорения по сравнению со стандартными способами: хоть при использовании xcopy, хоть Total Commander.
Я пробовал копировать со одного HDD на другой, с USB HDD на встроенный HDD и с HDD на сетевой диск. Результат был плюс-минус одинаковым.

А потом я решил ее проверить на более новом компе. И вот тут все сработало как надо: ускорение при копировании по сравнению с copy 29% с диска f: на диск g:, и 32% в обратном направлении.
Собственно, замерил в двух направлениях только из-за того, что это были два почти одинаковых HDD Seagate, отличия только в буковках названия модели, при этом один из диском, судя по мониторингу, был существенно меньше загружен, чем другой (f: > g:).

С чем же связано такое различие в поведении программы при исполнении на двух разных компьютерах? У меня несколько предположений.

1. Необходимым условием для ускорения копирования таким методом является возможность работы различных устройств хранения данных параллельно друг с другом. Если это условие не выполняется, то ускорения не будет.
Поэтому мне кажется это основной причиной различия в результатах.
Тем более, что когда я в прошлый раз менял сгоревшую "мать" (к сожалению, вместе с процессором), то заметил существенное снижение производительности дисковой подсистемы. Но так как на старой материнке я не тестил скорость дисковых операций, то всё осталось на уровне ощущений. Старая материнка была средне-высокой ценовой категории, а текущая – из дешевых.
Судя по тестам, мне кажется, что моя текущая плата не умеет вообще в параллельный ввод-вывод.

2. На компьютерах стоят разные операционные системы: Windows 7 на моем рабочем и Window 10 на более новом и быстром.

3. Я сравнивал быстродействие моей программы и стандартной copy. Возможно, xcopy будет работать быстрее. Проверю при ближайшей возможности.

Из любопытного: старый комп, которому уже наверное больше пяти лет, показал скорость копирования HDD–HDD около 30 МиБ/с, а вот новый – около 180. Я думал, что в области жестких дисков уже давно нет никакого прогресса в скорости работы, только емкость потихоньку растет. Но, похоже, это не так?
Впрочем, на старом компе оба диска достаточно сильно забиты данными, так что, возможно, разница объясняется сильной фрагментацией данных.

Не знаю, надо ли кому, но выложил программку в общий доступ. Интерфейс у нее несколько кривоват и неудобен, а также несколько слеповат. Может быть, когда-нибудь и сделаю получше.

19 комментариев:

Ivan Kolesnikov30.05.2022, 08:58
Протестировал самый обычный HDD у себя, получил те же ~180, при этом упирается именно в диск, а не в подсистему ввода/вывода. 30 МиБ/с как-то действительно совсем мало, сомневаюсь что в HDD произошел такой прогресс за несколько лет. Похоже что-то не так с материнкой или может с какими-нибудь настройками в BIOS или еще где-нибудь?

Тестировал с помощью https://crystalmark.info
ОтветитьУдалить
Ответы
kvy31.05.2022, 09:33
>...интересно было бы посмотреть на график разницы между стандартным и Вашем копированием
Да, постараюсь как-нибудь сделать такой тест.

>А Вы не сравнивали размер внутреннего кэша дисков на старой и новой машине?
Не сравнивал, но точно знаю, что на новой машине он существенно больше. В несколько раз.

>...Ваш алгоритм, как я понимаю, именно операции с внутренним кэшем параллелизует на границах файлов
Вот тут не очень понял, про что ты... Вроде размер кэша самый большой, что я видел у настольных HDD - 256 МиБ, я же кэширую в ОЗУ несколько ГиБ, точнее, в описанном случае ровно 1 ГиБ. Кроме того, насколько я понимаю, этот кэш в HDD - только на чтение. По крайней мере, у современных жестких дисков нет возможности включить/выключить внутренний кэш на запись. Но я помню стародавние времена XP, когда для устройств с кэшем на запись это можно было сделать.
Также кэш HDD ничего не знает о файлах, поэтому там нет упреждающего кэширования, как в кэше ОС.

Кстати, любопытный момент - еще я оттестировал вариант программы, когда каждый поток копирует отдельный файл. К сожалению, она оказалась, на мой взгляд совсем не перспективной. Если одновременно начать копировать два файла в двух потоках одного приложения, то это только снизит производительность.
А любопытный момент вот в чем: если не запускать параллельно несколько копирований, а только одно, то производительность получается такая же, как и у всех программ копирования, только кэша на такие операции нужно очень немного. Мне хватило буфера в 128 КиБ, может быть и с меньшим скорость была бы аналогична. То есть именно для копирования использования кэша ОС не очень эффективно - доступная память отъедается на кэш, но эффекта от этого никакого нет.

Маленький кэш я не проверял на такой программе, а вот на многопоточной программе пробовал большой кэш, разбитый на маленькие страницы, по 4 КиБ (по размеру кластера файловой системы). И тут был странный эффект, кроме снижения производительности - высокая загруженность одного ядра процессора. При размере страницы больше 32 КиБ процессор вообще не загружается. Честно говоря, тут я не понимаю, в чем дело. На мой вкус, разницы не должно быть ни в загрузке процессора, ни в скорости работы. Ну, по крайней мере, заметной разницы.
ОтветитьУдалить
Ответы

Добавить комментарий

Около программизма

29.05.2022

Нюансы копирования

19 комментариев:

Архив блога

Обо мне