Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Закладки » Редактирование PDF файлов

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183

Открыть новую тему     Написать ответ в эту тему

Skyer

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Редактирование PDF файлов

В этой теме обсуждается редактирование (обработка) PDF файлов, которые бывают трех типов:
- "True" or Real PDF - "настоящий" PDF с векторными текстом и графикой, возможны вставки растра
- Scanned PDF - растровая графика (скан или фото), помещенная в контейнер PDF
- Searchable PDF - растровая (скан или фото) графика с текстовым слоем
Подробнее о типах PDF: Types of PDFs, The 3 Types of PDFs You Need to Know About




Решение типичных задач по редактированию PDF

Обрезать страницы - Acrobat Pro (main app), QIP*/Imposal(plugins), VeryPDF Advanced PDF Page Cut
Разрезать страницы на части - VeryPDF Advanced PDF Page Crop, A-PDF Cut
Склеить страницы между собой - VeryPDF PDF Stitch, Acrobat Pro + QIP* or Imposal
Удалить или редактировать метаданные - BeCyPDFMetaEdit, Adept PDF Layout Changer
Изменить размеры страницы - Acrobat Pro + Evermap AutoPagex , A-PDF Page Master, Neevia PDFtoolbox,  
Измененить/исправить размер страниц с масштабированием содержимого
Изменить размеры страницы, изменить масштаб контента, сдвинуть контент, замаскировать часть страницы и многое другое - Acrobat Pro + Evermap AutoPagex
Исправить наклон страниц -  Acrobat Pro + Evermap AutoPagex/ISI Toolbox, A-PDF Deskew, A-PDF Scan Optimizer  
Наложить PDF на PDF, страницу поверх страницы (Overlay)
О технологии MRC с примерами - 1, 2
Работа с изображениями (подрезка, масштаб, сжать/растянуть) - Inkscape
Преобразование изображений, текста в оттенки серого или в ч/б - A-PDF to Black White или Acrobat Pro + Quite A Box Of Tricks/ISI Toolbox
Извлечение растровых изображений из PDF
Удалить текст без замены, в т.ч. кириллицу - PDF Text Deleter
Удалить растровые ватермарки - PDF Watermark Remover или PDF Logo Remover, в сложных случаях - Foxit PDF Editor с макросом, Acrobat Pro + Preflight, CallasPDF Toolbox
Удаление любых ватермарков - We PDF Watermark Remover
Как/чем узнать Свойства растровых изображений в PDF: битность, цвет, dpi/ppi, разрешение px, формат сжатия, размер mm, наличие маски и т.д. - 1, 2
Редактировать текст - PDF-XChange Editor, Acrobat Pro, FineReader 14 (не OCR-модуль) и новее, Infix PDF Editor, Foxit PDF Editor, PixelPlanet PdfEditor
Удалить или заменить часть текста или текстовые ватермарки - Acrobat Pro, A-PDF Text Replace
Конвертация PDF таблиц в Excel - PDF2XL (da best!)
Заменить цветное векторное изображение на серое - Acrobat Pro + Preflight
Растровый редактор и манипуляции с изображениями в PDF - Foxit PDF Editor и Acrobat Pro + ImageWorks из Crackerjack
Удалить/заменить/создать текстовый слой в PDF файле с помощью Acrobat Pro
Растеризовать pdf - Digitzone PDF Converters
Один из вариантов решения проблем с кракозябрами: видео (зеркало)
* - Quite Imposing Plus
 
 
Если вы задаете вопрос по поводу проблем с PDF файлами, обязательно выкладывайте небольшой пример (только не сотни метров!) такого файла. Это упростит задачу для желающих вам помочь и сделает обсуждение предметным.

Всего записей: 122 | Зарегистр. 01-06-2002 | Отправлено: 03:40 13-11-2005 | Исправлено: useretail, 17:00 11-02-2024
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
antobog
Тяжелые "картинки размером 2049x2907" - это 1 изображение белой страницы и 1 изображение черных буковок. Их удаление приводит к тому, что вы уже знаете - Остался только текстовый слой (с многочисленными ошибками распознавания разумеется)
По этой причине "разобрать книгу на изображения, заново обработать в Scan Tailor и пересобрать в djvu/pdf?" не получится, т.к. нет там исходных изображений в привычном понимании этого слова.
Ну и советы "проще переделать, чем поправить" и "нормально сделать книгу с самого начала" абсолютно бесполезны, т.к. исходников нет.
 
Нет ни кого волшебной "одной кнопки"
 
Чтобы удалить тяжелые "картинки размером 2049x2907", но при этом оставить иллюстрации, надо в PDF-XChange Editor  
1) Ctrl+O - загрузить файл
2) под страницей книги внизу слева будет кнопка Options. Нажать на нее. В выпавшем меню нажать пункт Content. Слева от страницы появится столбец с контентом
3) В столбце с контентом стать мышкой на page 1, ПКМ, Select - > Images. Все значения в столбце развернутся и будут видны выделенные изображения на каждой странице.
4) тяжелые "картинки размером 2049x2907" расположены попарно
5) С зажатым контролом Ctrl на клаве и левой кнопкой мышки снимаем выделение и иллюстраций (и обложки), которые расположены отдельно и имеют другое разрешение
6) Теперь выделенными остались только тяжелые "картинки размером 2049x2907". Жмем волшебную кнопку DEL.
7) Вуаля
8) делаем рекомпресс на 150 dpi для обложки
9) становимся мышкой на image на page 1, ПКМ, в самом низу жмем Properties. Справа появится столбец "Свойства"
10) Сохраняем файл под другим названием
11) Проверяем файл на скорость открытия и листания и убеждаемся что все летает
12) Благодарим Archivist за идею
13) Приступаем к исправлению ошибок в текстовом слое
 
Меня тут в лени упрекали, так вот, удаление всех иллюстраций с 274 страниц плюс рекомпресс обложек у меня заняло 5 минут, а эту графоманскую никому не нужную инструкцию я писал 10 минут.

Всего записей: 728 | Зарегистр. 04-11-2019 | Отправлено: 13:40 07-02-2023 | Исправлено: jourmager, 13:52 07-02-2023
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ComboFZ

Цитата:
маски JBIG2 (с прорезями символов) с явно завышенным разрешением 12297x17439 px (1800 dpi)

Любопытно, что PDF-XChange не показывает этот слой, а я уж привык доверять программе.
Adobe Acrobat при оптимизации с указанием снизить разрешение монохромных изображений также не затрагивает этот слой.
 
antobog
Для выделения группы картинок по размеру и прочим параметрам нужен плагин PitStop для Акробата, сам его не изучал и не ставил в отсутствие необходимости. Одиночные картинки в  PDF-XChange выделяются через вкладку Content.
 
Если текстовый слой не так хорош, как выглядит на первый взгляд, думаю нужно копать в сторону уменьшения/конвертации разрешения всех картинок в файле (цветных/серых до 300dpi JPEG, монохромных до 600dpi), но Акробат тут не помощник, т.к. не видит тех огромных масок в 1800dpi.

Всего записей: 327 | Зарегистр. 10-08-2018 | Отправлено: 13:48 07-02-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist

Цитата:
Если текстовый слой не так хорош, как выглядит на первый взгляд, думаю нужно копать в сторону уменьшения/конвертации разрешения всех картинок в файле

Не понял. А "конвертация разрешения" тут причем? Там ошибки распознавания, (хотя это и не ошибки и не распознавания), типа бета-блокатор, где бета это греческая В, превращается в Е-блокатор или J-блокатор

Всего записей: 728 | Зарегистр. 04-11-2019 | Отправлено: 13:56 07-02-2023 | Исправлено: jourmager, 14:02 07-02-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
ComboFZ
тормоза при просмотре от маски JBIG2 (с прорезями символов) с явно завышенным разрешением 12297x17439 px (1800 dpi)

ух ты! спасибо, не ожидал. надо в эдиторе галку включать - редактировать исходник, тогда маска пойдет оригинальным размером.

Всего записей: 3047 | Зарегистр. 15-07-2010 | Отправлено: 15:14 07-02-2023
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
jourmager

Цитата:
По этой причине "разобрать книгу на изображения, заново обработать в Scan Tailor и пересобрать в djvu/pdf?" не получится

Это почему?
Можете указать страницу, которую нельзя вытащить в скан?
 
Вот пдф первых 30 страниц, полученный из вытащенных в скан страниц. Осталось прикрутить оглавление и, если нужно, распознать.
Общий размер будет примерно в 9 раз больший, а если оптимизировать в Акробате, то еще меньше.
 
Что-нибудь потеряно в этом фрагменте?
 
Да, вытаскиваются страницы в сканы очень медленно, но ведь это разовая работа.

Всего записей: 6970 | Зарегистр. 14-01-2005 | Отправлено: 16:32 07-02-2023 | Исправлено: shch_vg, 17:10 07-02-2023
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
...какие программы вы использовали, чтобы это найти?

 
antobog

Цитата:
...как в XChange можно быстро обнаружить эти тяжёлые картинки?

 
Выше уже говорилось, что для оптимизации/уменьшения размера PDF-книги применялось MRC-сжатие.
Подробнее о технологии MRC: https://habr.com/ru/company/abbyy/blog/119790/
 
Для примера, выуживаем 15-ю страницу из PDF, которую выложил antobog
15pgs.pdf
и начинаем копаться в её внутренностях с помощью PDF-XChange Editor 9.4 включив в нём, на время, показ прозрачности (Вид > иконка Сетка прозрачности).
 
В левом боковом меню Содержание/Контент видим на заднем плане текстовые объекты (шрифты, OCR-текст).
OCR-текст/шрифты
 
Над текстовыми объектами лежит белая фоновая картинка с колонтитулом
pic-колонтитул
 
Жмём правой кнопкой мышки по изображению "Внешней маски" (по терминологии PDF-XChange), это среднее изображение в левом боковом списке, и выбираем из выпадающего меню "Перекодировать изображение". В появившемся диалоговом окне видим свойства "Внешней маски", в ней два растра: маска JBIG2 с прорезями символов и раскраска JPEG2000 под ней. Раскраска видна только в прорезях маски, остальная область маски непрозрачна для раскраски, но прозрачна для других объектов под ней (к примеру: для фоновой картинки или OCR-текста с включенной векторной заливкой шрифтов)
02-раскраска+маска
 
Если огалчить нижний чекбокс "Удалить маску с изображения", увидим раскраску JPEG2000 без маски JBIG2
03-раскраска для маски
 
Поверх "Внешней маски" (маска+раскраска) лежит сегментированная иллюстрация/фото в JPEG2000 600 dpi
04-иллюстрация/фото
 
Маску JBIG2 можно перекодировать в PDF-XChange Pro 9.4, но только вместе с раскраской под ней.
 
Для наглядности стр. 15 PDF с разложенными по полочкам объектами (смотрим закладки-комментарии к каждой странице):
https://disk.yandex.ru/
 
Т.е. объекты на 15 стр. расположены следующим образом:
- на заднем плане текстовые объекты/OCR-текст (шрифты с включенной векторной заливкой)
- над OCR-текстом лежит белая фоновая растровая картинка с колонтитулом
- над фоновой картинкой - Внешняя маска (маска+раскраска) с растрированным бинаризированным текстом
- над Внешней маской - иллюстрация/фото
 
Весь растр страницы 15, включая маску JBIG2, видно так же в программе PDF Explorer 1.5.0.61P3. Для показа свойств маски подведите указатель мышки к растру с маской (нижнее изображение).
PDF Explorer
 
Вообще, зацикливаться только на данной маске не стоит, их несколько видов. В других PDF всё может быть иначе.

Всего записей: 2794 | Зарегистр. 31-05-2010 | Отправлено: 18:29 07-02-2023 | Исправлено: ComboFZ, 16:17 10-01-2024
antobog

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Теперь выделенными остались только тяжелые "картинки размером 2049x2907"

Я только не понял, почему надо удалять только картинки размером именно  2049x2907, но при этом не трогать картинки других размеров, типа 2050х2907, 2051х2907, 3400х2778 или даже 12294х17439. Почему именно картинки меньшего размера (2049x2907) надо удалить, но оставить при этом картинки побольше? Или же я неправильно понял и мне надо удалить вообще все картинки с размерами 2049x2907 и выше?
 

Цитата:
9) становимся мышкой на image на page 1, ПКМ, в самом низу жмем Properties. Справа появится столбец "Свойства"

А это для чего делать? Ну появился справа столбец со свойствами, а дальше что — просто посмотреть на него и сохранить файл под другим именем? В чём смысл просмотра этого столбца со свойствами первой страницы?

Всего записей: 92 | Зарегистр. 26-08-2012 | Отправлено: 19:42 07-02-2023 | Исправлено: antobog, 20:20 07-02-2023
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
antobog
Разобрал пдф на сканы, собрал в пдф, распознал.
Желающие могут перенести оглавление.

Всего записей: 6970 | Зарегистр. 14-01-2005 | Отправлено: 20:02 07-02-2023
antobog

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg

Цитата:
Разобрал пдф на сканы, собрал в пдф, распознал

Спасибо! А можете написать последовательность действий, благодаря которым вы добились этого результата? А то у меня есть ещё как минимум одна книга с такой же проблемой и я хочу сам научиться исправлять такие кривые pdf

Всего записей: 92 | Зарегистр. 26-08-2012 | Отправлено: 20:24 07-02-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ComboFZ
Спасибо! Низкий поклон, респект и уважуха! Куча плюсов в карму! Настоящая анатомия MRC!

Всего записей: 728 | Зарегистр. 04-11-2019 | Отправлено: 20:46 07-02-2023
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
antobog
В программе NitroPDF очень медленно разобрал на тифы (можно в 300дпи, можно в 600дпи, я разбирал в 300).
Это же можно сделать в акробате про.
В Сканкрамсаторе из них слепил пдф в 600 дпи, впрочем его можно сделать и в других программах.
Полученный пдф засунул в Файнридер для распознавания и получил то, что выложил.

Всего записей: 6970 | Зарегистр. 14-01-2005 | Отправлено: 20:49 07-02-2023 | Исправлено: shch_vg, 14:53 08-02-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору


shch_vg
Вопрос был "разобрать книгу на изображения". В моем понимании это означает из исходного файла вытащить файлы изображений в том виде, в котором эти изображения упакованы в pdf-контейнер.
В данном конкретном случае на усредненной странице в pdf-контейнер упакованы 3 файла jpeg2000 - фоновая белая страница (стр. 4 в файле 15pgs+txt+MRC.pdf любезно предоставленном ув. ComboFZ), черная шрифтовая заливка (стр. 6), цветная иллюстрация (стр. 7), и 1 файл jp2 - маска (стр. 5 где маска с раскраской jpeg2000)
Каждая из этих трех картинок сама по себе ничего не стоит. Их надо конвертировать.
 
Я не знаю, что в вашем понимании "вытащить в скан".
 
Сначала вы предоставили 30-страничный файл отличного качества, собранный из jpeg2000 по одному на каждую страницу. Прекрасно! Как вам это удалось? Я не знаю Сканкромсатор, поэтому, если можно, не в 2 словах, а в трех.
 
Потом вы предоставили полный файл, который тот же MRC, только с уменьшенным dpi - фон с 300 до  150, заливка с 300 до 75, маска с 1800 до 300, что сразу видно по пикселизации букв.
 
Еще раз. В первом случае обычный jpeg2000, во втором MRC. "Вытащили в скан". Ну ОК. Вопрос в том, как?
 
В любом случае, ИМХО ваш файл с уменьшенным dpi все-таки лучше, чем выкидывание файлов фона, заливки и маски вообще и оставление кривого OCR-слоя.
 


Увидел  

Цитата:
В программе NitroPDF очень медленно разобрал на сканы (можно в 300дпи, можно в 600дпи, я разбирал в 300).

Это что, растеризация?  
Я в PDF-XChange пробовал растеризацию Convert -> Rasterize Pages , но почему-то программа глючила и растеризовала как бы только jpeg2000 заливки + маска, т.е. символы начинали двоится. ну или я чего-то не знаю. На обычных файлах (не MRC) такого никогда не было.

Всего записей: 728 | Зарегистр. 04-11-2019 | Отправлено: 21:17 07-02-2023 | Исправлено: jourmager, 21:50 07-02-2023
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
jourmager

Цитата:
Это что, растеризация?

У каждого своя терминология. В НитроПДФ, впрочем как и в акробате это называется Convert->to Image Formats.
Т.е. одна страница пдф переводится в один тиф (можно и в другой формат).
30 страниц и вся книга делались по одной и той же схеме.
Что такое MRC, не имею понятия.

Всего записей: 6970 | Зарегистр. 14-01-2005 | Отправлено: 22:29 07-02-2023 | Исправлено: shch_vg, 22:34 07-02-2023
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg

Цитата:
В программе NitroPDF очень медленно разобрал на сканы

В ком. строке pdf2image с dpi 300 справляется за минуты за четыре. Но на компьютерах с различными ОС и конфигурациями время будет отличаться.

Всего записей: 7334 | Зарегистр. 08-09-2001 | Отправлено: 23:10 07-02-2023
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
los

Цитата:
В ком. строке pdf2image с dpi 300 справляется за минуты за четыре.

Это применительно к конкретно выложенному файлу или из общих соображений к любому файлу такого размера?

Всего записей: 6970 | Зарегистр. 14-01-2005 | Отправлено: 23:31 07-02-2023
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg, да к файлу Йер_М_Осложнения_в_детской_анестезиологии.pdf

Всего записей: 7334 | Зарегистр. 08-09-2001 | Отправлено: 23:49 07-02-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
los
С некоторых пор абажаю ваши посты.
1) чтобы узнать, что это за pdf2image юзер должен или быть телепатом, помнить все ваши посты за пару лет, или искать в версии для печати, которая уже 133 страницы. Сразу нельзя написать, что это pdftron или что-то мешает?
2) эта утилита может конвертировать в 6 разных форматов (png (по дефолту), png8, jpg, tif, bmp, raw), а в jpg еще и с разным качеством (дефолтным 80).  
Сразу нельзя написать что там в командной строке было или что-то мешает?
3) эту утилиту, как и другие от pdftron, чтобы скачать, нужно быть зареганым на их сайте
4) эта утилита, как и другие от pdftron, в триальном варианте ставит свой ватермарк на страницу (или картинку как в данном случае), а ломаного варианта я лично нигде не видел.
Та же проблема с вашими pdf-tools, которые 3-heights. Хорошие программы. Только денег просят. А ломаные варианты - того-этого, не огого.
5) у меня 10 страниц pdf2image конвертила 1 минуту. Т.е. 270 страниц книги - 27 минут. еле нагружая один поток из 8. Но у меня версия 2010 года. Если у вас свежак - тогда ок.
 
Добавлено:
shch_vg

Цитата:
У каждого своя терминология

Угу.
"В программе NitroPDF очень медленно разобрал на сканы"
Скан - это то, что отсканировано. Исходник, полученный со сканера. Соответственно, "разобрать на сканы" - это извлечь исходные файлы изображений (сканы) из pdf. А у вас конвертация pdf в изображения. Растеризация.

Цитата:
30 страниц и вся книга делались по одной и той же схеме.

Угу. Еще раз. В первом файле (1-30 стр) у вас по одному jpeg2000 на страницу, во втором файле (16 МБ) у вас два jpeg2000 на страницу - фон и заливка, ну и jb2 должен быть как маска. Схема может и одна, но до определенного предела - применение Файнридера.
"Полученный пдф засунул в Файнридер для распознавания"
"Что такое MRC, не имею понятия."
У вас в настройках Файнридера для пдф включено MRC по умолчанию. А что это такое - есть замечательный пост ув. ComboFZ чуток выше.
Чуть не забыл. Вообще-то Спасибо вам! Я сдуру в PDF-XChange увлекся растеризацией, и забыл, что там еще и конвертация есть. Одна беда - при конвертации исходного пдфа (60 МБ) в джипег2000 300дпи у меня результирующий пдф вышел в 436 МБ. Дофига. А конвертил минут 10 вроде бы.

Всего записей: 728 | Зарегистр. 04-11-2019 | Отправлено: 00:53 08-02-2023 | Исправлено: jourmager, 01:50 08-02-2023
toR_nado



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
...какие программы вы использовали, чтобы это найти?

Кому как, а мне удобно poppler-ом, все как на ладони.
Бросаем PDF на батник и изучаем текстовый файл (можно и чисто в консоле):
pdfimages -list %1 > "%~N1_img.txt"

Цитата:
page   num  type   width height color comp bpc  enc interp  object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
   1     0 image    4046  5812  rgb     3   8  jpeg   no     10054  0   586   597 10.8M  16%
   2     1 image    2049  2907  rgb     3   8  jpx    yes      290  0   300   300 34.2K 0.2%
   2     2 image    2049  2907  rgb     3   8  jpx    yes      291  0   300   300  475B 0.0%
   2     3 mask    12291 17439  -       1   1  jbig2  yes      291  0  1800  1800 24.0K 0.1%
   3     4 image    2049  2907  rgb     3   8  jpx    yes      585  0   300   300 9492B 0.1%
   3     5 image    2049  2907  rgb     3   8  jpx    yes      586  0   300   300  475B 0.0%
   3     6 mask    12291 17439  -       1   1  jbig2  yes      586  0  1800  1800 15.9K 0.1%
   3     7 image    3400  2778  rgb     3   8  jpx    yes      588  0   600   600  190K 0.7%
   4     8 image   12294 17439  gray    1   1  jbig2  yes      625  0  1800  1800 50.3K 0.2%
   5     9 image    2049  2907  rgb     3   8  jpx    yes      779  0   300   300 1520B 0.0%
   5    10 image    2049  2907  rgb     3   8  jpx    yes      780  0   300   300 1319B 0.0%
   5    11 mask    12291 17439  -       1   1  jbig2  yes      780  0  1800  1800 60.0K 0.2%
.............. и т.д.

Вот обработал файл в PDF Tools (3-Heights® Pdf Optimize Shell) (57 мб > 16 мб):

Цитата:
pdfoptimize  %1 -v -fv 1.7 -pr web -dbt 650 -dbr 600 -fc 8,10 -dct 300 -dcr 200 "%~N1_optim%~X1"

-fv 1.7 - версия PDF
-pr web - задан профиль web (все настройки можно посмотреть в PdfOptimizeShell.pdf) из них меняем:
-dbt 650 -dbr 600 - для битональных изображений все что выше 650 dpi в 600 dpi
-dct 300 -dcr 200 - для цветных изображений все что выше 300 dpi в 200 dpi
-fc 8,10 - сжатия для цветных (8 - JPEG2000) (10 - Сжатие входного изображения)
если убрать 10-ку обложка будет сжата в JPEG2000
Файл тяжеловатый в 32-битной версии обрабатывался минут 30, в х64 около 20 минут. Да и poppler-у было не легко.
PDF Optimizer 6.24.0.4 х32 можно взять у MH100181Q под #
 
 
 

Всего записей: 314 | Зарегистр. 20-05-2006 | Отправлено: 03:39 08-02-2023
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
jourmager
Мои познания о пдф заканчиваются на использовании его в качестве контейнера для СКАНОВ или извлечении из чьих-то пдф страниц в виде ТИФОВ (1 тиф на 1 страницу) для дальнейшей обработки.

Цитата:
У вас в настройках Файнридера для пдф включено MRC по умолчанию.

Ну и показали бы, как его отключить в ФР.  
Я действительно не делал распознавание для варианта 30 страниц.
В случае всей книги у меня тоже получился пдф за 400 мб, а в 16 мб он превратился после распознавания.

Всего записей: 6970 | Зарегистр. 14-01-2005 | Отправлено: 04:17 08-02-2023 | Исправлено: shch_vg, 04:18 08-02-2023
snch

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
2ComboFZ
2jourmager
 
Прошу извинить за долгое молчание и не совсем точное определение своих "хотелок". Выкладываю примеры PDF-файла и ZIP-архива, которые являются результатом деятельности браузерного плагина (китайский плагин, который позволяет "грабить" документы с сайтов типа doc88.com):
 
https://www.upload.ee/files/14913212/ISO_11607-1-2006.zip.html
https://www.upload.ee/files/14913213/ISO_11607-1-2006.pdf.html
 
Хочется без дополнительных преобразований сразу "внутри" PDF-файлов осуществить преобразование 32-bit color —> 8-bit color, т. е. чтобы на изображение одной страницы приходилось 256 цветов всего. Цель, собственно, — максимально уменьшить размер PDF-файлов.

Всего записей: 69 | Зарегистр. 11-08-2006 | Отправлено: 12:25 08-02-2023 | Исправлено: snch, 12:25 08-02-2023
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183

Компьютерный форум Ru.Board » Компьютеры » Программы » Закладки » Редактирование PDF файлов


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru