Редактирование PDF файлов - [139] :: Программы

TelecomUral

Цитата:

400 метров!! с ума посходили. Модем на 9600 забыли
как/чем проанализировать, что сколько места занимает и насколько это оправдано.

1) Анализ - PDF-XChange Pro (Editor Plus) 9
Save as Optimize -> Audit Space Usage
В данном файле 99.63% - это Images
pdfimages -list filename.pdf > images.txt (pdfimages by poppler)
смотрим images.txt и видим, что все изображения - это одинаковые jpg 3873x5178, 24 bit, 600 dpi
Быстро пролистываем в SumatraPDF и видим, что все страницы "черно-белые", или вернее, в градациях серого, кроме передней и задней обложки
Ага!
2) Для теста находим пару характерных страниц с вертикально-горизонтально-ориентированными графиками, градиентами серого, формулами с над/под-строчными индексами, петитом и т.д.
Экспортируем эти страницы в отдельный файл , чтобы было быстрее (5 страниц и 5 МБ легче, чем 400 стр и 400 МБ) PDF-XCh -> Organize -> Extract pages и экспериментируем
3) Эксперимент №1:
PDF-XCh -> Save as Optimize -> Images -> Bicubic Downsampling to 300 dpi , Compression JPEG Maximum - Получаем меньше в 2 раза
Потом 150 dpi , Medium = не-а
Потом 300 dpi , Medium = OK
Запускаем на оптимизацию весь файл. Через 5 минут смотрим на получившийся размер 100 МБ, вместо 400 МБ.
4) Эксперимент №2
FineReader 15 -> Открыть PDF-документ
Маленький тестовый файл открылся в Файнридере.
Файл -> Сохранить как -> PDF-документ -> В окне "Сохранить как" выбираем нужный язык и тип "PDF с возможностью поиска" -> Настройки -> Качество изображений высокое, MRC включено, Текст под изображением страницы
Получаем примерно по 100 килобайт на страницу вместо 1 МБ. Радуемся.
Но недолго. Открываем PDF-XCh, смотрим получившиеся изображения через Content -> Image -> Recompress Image и убеждаемся, что автосегментатор FineReader-а ИМХО лажает.
Начинаем танцы с ручным разделением Картинка - Текст
На выходе получаем все те же 100 килобайт, но уже с гордостью за качество.
3) Эксперимент №3
Запускаем jpegtran. На выходе получаем меньший на 20% размер при тех же 600 dpi. Lossless
Запускаем jpeg-recompress. На выходе получаем вдвое меньший размер при тех же 600 dpi. Loss 1%

4) Сравниваем исходный и получившийся файл в любом просмотрщике с одновременным синхронным пролистыванием 2 pdf-файлов с вертикальным, а потом с горизонтальным разделением.

Короче.
Исходный файл - внутри jpg 600 dpi с градациями серого.
Быстрее всего с помощью любого PDF-редактора сохранить "оптимизированный" вариант в 300 dpi, качество среднее, получаем уменьшение размера в 4 раза, экономия 300 МБ.
Или экспериментировать с PDF MRC и получить 40 МБ а не 400 (и не 100) - в автомате это будет минут 20.
Возможность сохранять PDF с MRC сейчас есть у всех серьезных PDF-редакторов, но алгоритм работы (автосегментация и подбор параметров изображения типа dpi) у всех разный. Поэтому на разных файлах может быть разное качество и разная оптимальная программа

Добавлено:
KPGA

Цитата:

сервис WebArxive с помощью ещё ABBYY FineReader 11.0 (Extended OCR)
не смог сделать маленькой, даже удивительно.

Это не FineReader, а LuraDocument (PDF Compressor) - внутренний инструмент Internet Archive (archive_org). Сейчас они его на что-то поменяли, т.к. самой LuraTech уже нет, они вошли в Foxit.
А внутри обычные тормознутые jpeg2000 с слонячими размерами в пикселях. Все криво, косо, и никому не нужно. Скукота.
P.S. PDF-Xch -> Save as optimize -> greyscale 300 dpi medium = 200 МБ -> 80 МБ Вуаля. А перед этим размеры страниц и dpi привести в порядок.
P.P.S. FineReader -> MRC -> 44 MB, 15 minutes

Модерирует : gyra, Maz
Версия для печати • Подписаться • Добавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183