Shuld
Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Rep Рассмотрю основные особенности, которые выяснил при экспериментах со сжатием больших объемов информации. Типовая строка параметров rep может выглядеть так: -mrep:1g:lXX:cYY:d4m:sZZ+… (параметр lXX обычно сокращается до XX) Среди этих параметров самыми малозначимыми являются параметры : d4m:sZZ. Основными параметрами являются: -mrep:1g:XX:cYY Поясню на примере все той же папки, что участвовала в декабрьском тесте. Размер сжимаемых данных 757 517 055 байт. Метод сжатия – модификации метода –m85 = -mrep:1g:64:c32+xlzma:4mb:h512k:fast:128:mc8. Метод | t, с | Размер архива, байт | - | - | 757 517 055 | …64:c16… | 41.58 | 427 565 147 | …64:c16:d4m:s64… | 41.97 | 427 565 152 | …64:c16:d4m:s32… | 42.34 | 427 399 680 | …64:c16:d4m:s16… | 41.89 | 427 659 831 | Время сжатия примерно одинаково. Если сравнивать первую строчку и третью, то разница 165 467 байт или менее 0,04%. В моих экспериментах, на любых данных эта разница не превышала 0,1%. Заметил также, что в общем случае метод –mrep:1g:XX:cYY+… всегда дает примерно то же сжатие, что и метод –mrep:1g:XX:cYY:d4m:sXX+… (параметр s.. повторяет параметр l..), но не точно такое же. Параметры rep, при которых достигается минимум, для различных сжимаемых данных различно. В следующей таблице вместе сведены результаты по трем папкам. Первая – вышеупомянутая папка, вторая – у которой минимум при –mrep:1g:192:c64+…, третья – с минимумом при –mrep:1g:16:c8+… Понятно, что универсального варианта для всех данных не существует. Я долго размышлял, что считать универсальным вариантом, и полагаю, что достаточно логичен следующий: для отдельно взятой папки определяется минимальный вариант, и оцениваются потери при изменении параметров. По результатам тестирования различных папок оцениваются максимальные возможные потери для каждого метода. Тот метод, при котором максимальные потери достаточно малы – кандидат в «универсалалы». На мой взгляд, компромисс для достижения максимального сжатия, в сочетании с …+xlzma:4mb:h512k:fast:128:mc8: - чуть быстрее …64:c32…, …48:c32…, - чуть медленнее …64:c16…, …48:c16… и вариант …64:c16:d4m:s32… Компромисс для сочетаний …+tor… или …+xlzma:normal:bt4:… может быть другим. Вопрос к Булату. В моей таблице есть «некратные» варианты …192:c64…, …48:c32…. Насколько это допустимо, нет ли подводных камней? Я пока не заметил. | Всего записей: 364 | Зарегистр. 08-12-2010 | Отправлено: 21:15 04-12-2012 | Исправлено: Shuld, 21:16 04-12-2012 |
|