jourmager
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору TelecomUral Цитата: 400 метров!! с ума посходили. Модем на 9600 забыли как/чем проанализировать, что сколько места занимает и насколько это оправдано. | 1) Анализ - PDF-XChange Pro (Editor Plus) 9 Save as Optimize -> Audit Space Usage В данном файле 99.63% - это Images pdfimages -list filename.pdf > images.txt (pdfimages by poppler) смотрим images.txt и видим, что все изображения - это одинаковые jpg 3873x5178, 24 bit, 600 dpi Быстро пролистываем в SumatraPDF и видим, что все страницы "черно-белые", или вернее, в градациях серого, кроме передней и задней обложки Ага! 2) Для теста находим пару характерных страниц с вертикально-горизонтально-ориентированными графиками, градиентами серого, формулами с над/под-строчными индексами, петитом и т.д. Экспортируем эти страницы в отдельный файл , чтобы было быстрее (5 страниц и 5 МБ легче, чем 400 стр и 400 МБ) PDF-XCh -> Organize -> Extract pages и экспериментируем 3) Эксперимент №1: PDF-XCh -> Save as Optimize -> Images -> Bicubic Downsampling to 300 dpi , Compression JPEG Maximum - Получаем меньше в 2 раза Потом 150 dpi , Medium = не-а Потом 300 dpi , Medium = OK Запускаем на оптимизацию весь файл. Через 5 минут смотрим на получившийся размер 100 МБ, вместо 400 МБ. 4) Эксперимент №2 FineReader 15 -> Открыть PDF-документ Маленький тестовый файл открылся в Файнридере. Файл -> Сохранить как -> PDF-документ -> В окне "Сохранить как" выбираем нужный язык и тип "PDF с возможностью поиска" -> Настройки -> Качество изображений высокое, MRC включено, Текст под изображением страницы Получаем примерно по 100 килобайт на страницу вместо 1 МБ. Радуемся. Но недолго. Открываем PDF-XCh, смотрим получившиеся изображения через Content -> Image -> Recompress Image и убеждаемся, что автосегментатор FineReader-а ИМХО лажает. Начинаем танцы с ручным разделением Картинка - Текст На выходе получаем все те же 100 килобайт, но уже с гордостью за качество. 3) Эксперимент №3 Запускаем jpegtran. На выходе получаем меньший на 20% размер при тех же 600 dpi. Lossless Запускаем jpeg-recompress. На выходе получаем вдвое меньший размер при тех же 600 dpi. Loss 1% 4) Сравниваем исходный и получившийся файл в любом просмотрщике с одновременным синхронным пролистыванием 2 pdf-файлов с вертикальным, а потом с горизонтальным разделением. Короче. Исходный файл - внутри jpg 600 dpi с градациями серого. Быстрее всего с помощью любого PDF-редактора сохранить "оптимизированный" вариант в 300 dpi, качество среднее, получаем уменьшение размера в 4 раза, экономия 300 МБ. Или экспериментировать с PDF MRC и получить 40 МБ а не 400 (и не 100) - в автомате это будет минут 20. Возможность сохранять PDF с MRC сейчас есть у всех серьезных PDF-редакторов, но алгоритм работы (автосегментация и подбор параметров изображения типа dpi) у всех разный. Поэтому на разных файлах может быть разное качество и разная оптимальная программа Добавлено: KPGA Цитата: сервис WebArxive с помощью ещё ABBYY FineReader 11.0 (Extended OCR) не смог сделать маленькой, даже удивительно. | Это не FineReader, а LuraDocument (PDF Compressor) - внутренний инструмент Internet Archive (archive_org). Сейчас они его на что-то поменяли, т.к. самой LuraTech уже нет, они вошли в Foxit. А внутри обычные тормознутые jpeg2000 с слонячими размерами в пикселях. Все криво, косо, и никому не нужно. Скукота. P.S. PDF-Xch -> Save as optimize -> greyscale 300 dpi medium = 200 МБ -> 80 МБ Вуаля. А перед этим размеры страниц и dpi привести в порядок. P.P.S. FineReader -> MRC -> 44 MB, 15 minutes | Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 14:21 01-03-2023 | Исправлено: jourmager, 15:59 01-03-2023 |
|