Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Закладки » Редактирование PDF файлов

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183

Открыть новую тему     Написать ответ в эту тему

Skyer

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Редактирование PDF файлов

В этой теме обсуждается редактирование (обработка) PDF файлов, которые бывают трех типов:
- "True" or Real PDF - "настоящий" PDF с векторными текстом и графикой, возможны вставки растра
- Scanned PDF - растровая графика (скан или фото), помещенная в контейнер PDF
- Searchable PDF - растровая (скан или фото) графика с текстовым слоем
Подробнее о типах PDF: Types of PDFs, The 3 Types of PDFs You Need to Know About




Решение типичных задач по редактированию PDF

Обрезать страницы - Acrobat Pro (main app), QIP*/Imposal(plugins), VeryPDF Advanced PDF Page Cut
Разрезать страницы на части - VeryPDF Advanced PDF Page Crop, A-PDF Cut
Склеить страницы между собой - VeryPDF PDF Stitch, Acrobat Pro + QIP* or Imposal
Удалить или редактировать метаданные - BeCyPDFMetaEdit, Adept PDF Layout Changer
Изменить размеры страницы - Acrobat Pro + Evermap AutoPagex , A-PDF Page Master, Neevia PDFtoolbox,  
Измененить/исправить размер страниц с масштабированием содержимого
Изменить размеры страницы, изменить масштаб контента, сдвинуть контент, замаскировать часть страницы и многое другое - Acrobat Pro + Evermap AutoPagex
Исправить наклон страниц -  Acrobat Pro + Evermap AutoPagex/ISI Toolbox, A-PDF Deskew, A-PDF Scan Optimizer  
Наложить PDF на PDF, страницу поверх страницы (Overlay)
О технологии MRC с примерами - 1, 2
Работа с изображениями (подрезка, масштаб, сжать/растянуть) - Inkscape
Преобразование изображений, текста в оттенки серого или в ч/б - A-PDF to Black White или Acrobat Pro + Quite A Box Of Tricks/ISI Toolbox
Извлечение растровых изображений из PDF
Удалить текст без замены, в т.ч. кириллицу - PDF Text Deleter
Удалить растровые ватермарки - PDF Watermark Remover или PDF Logo Remover, в сложных случаях - Foxit PDF Editor с макросом, Acrobat Pro + Preflight, CallasPDF Toolbox
Удаление любых ватермарков - We PDF Watermark Remover
Как/чем узнать Свойства растровых изображений в PDF: битность, цвет, dpi/ppi, разрешение px, формат сжатия, размер mm, наличие маски и т.д. - 1, 2
Редактировать текст - PDF-XChange Editor, Acrobat Pro, FineReader 14 (не OCR-модуль) и новее, Infix PDF Editor, Foxit PDF Editor, PixelPlanet PdfEditor
Удалить или заменить часть текста или текстовые ватермарки - Acrobat Pro, A-PDF Text Replace
Конвертация PDF таблиц в Excel - PDF2XL (da best!)
Заменить цветное векторное изображение на серое - Acrobat Pro + Preflight
Растровый редактор и манипуляции с изображениями в PDF - Foxit PDF Editor и Acrobat Pro + ImageWorks из Crackerjack
Удалить/заменить/создать текстовый слой в PDF файле с помощью Acrobat Pro
Растеризовать pdf - Digitzone PDF Converters
Один из вариантов решения проблем с кракозябрами: видео (зеркало)
* - Quite Imposing Plus
 
 
Если вы задаете вопрос по поводу проблем с PDF файлами, обязательно выкладывайте небольшой пример (только не сотни метров!) такого файла. Это упростит задачу для желающих вам помочь и сделает обсуждение предметным.

Всего записей: 122 | Зарегистр. 01-06-2002 | Отправлено: 03:40 13-11-2005 | Исправлено: useretail, 17:00 11-02-2024
toR_nado



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
нет такой прожки в составе xpdf и poppler

3-Heights(TM) PDF optimizer
Не показывает наличие маски.
 
jourmager

Цитата:
Быстро пролистываем в SumatraPDF и видим, что все страницы "черно-белые", или вернее, в градациях серого, кроме передней и задней обложки

TelecomUral

Цитата:
Определил, что оставить в сером, обработал чб как чб, но не отделил серое от чб при кодировании.  

Почему? Как картинки с грязно-желтым оттенком могут быть в градациях серого.
poppler говорит - rgb (но не gray)
PDF-XChange  - DeviceRGB, а не DeviceGray
PDF optimizer  - DeviceRGB.

Всего записей: 312 | Зарегистр. 20-05-2006 | Отправлено: 18:08 01-03-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
toR_nado
да я условно про серое. понятно же, что обработчик не стал каналы цветности убирать.

Всего записей: 3011 | Зарегистр. 15-07-2010 | Отправлено: 18:28 01-03-2023
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral,
MuPDF
mutool info -I foo.pdf
 
cpdf, здесь нужен небольшой трюк с указанием разрешения, но вывод будет в csv
cpdf -image-resolution 6000 foo.pdf
 
кстати используя вывод 'cpdf -image-resolution ...' весьма удобно с помощью cpdf убирать водяные знаки "Лань" которые здесь как-то обсуждались.
 
 

Всего записей: 7322 | Зарегистр. 08-09-2001 | Отправлено: 18:44 01-03-2023
KPGA

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg
Цитата:
Книга Броуди в пдф (14,8 МБ), полученная распознаванием в ФР15 дежавю с использованием технологии MRC и сохраненная в пдф.

 Отличный результат для такого скана!
 
P.S. А, есть ли возможность в ФР15 наложения стороннего текста распознанного из этой же книги но
из другого PDF для создания максимально качественного аутентичного результата для данной книги?
 
Вот есть такой файл http://www.nncron.ru/download/sf.pdf  
 
т.е. совместить текстовый слой с этого файла.

Всего записей: 193 | Зарегистр. 04-10-2018 | Отправлено: 20:05 01-03-2023 | Исправлено: KPGA, 20:18 01-03-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
нихрена изготовитель дежав...пдфки не расслаивал. Определил, что оставить в сером, обработал чб как чб, но не отделил серое от чб при кодировании.

В этом файле есть страницы, где диаграммы с 12 (двенадцатью) типами серой заливки. И если саму диаграмму ещё можно различить, то на пояснительном столбике полная лажа.
Может изначально эти диаграммы были цветными.

Цитата:
MRC лажает. Это slava_kry ещё лет пять назад сказал

За пять лет технологии ушли вперед. 2017 - FR 12, 2022 - FR 15. Хотя кто-то криво усмехнется.
Foxit, Kofax, Readiris, Orpalis, Cuminas, Adobe - все постоянно разрабатывают и улучшают свои движки MRC.
Насколько я видел - основная проблема - движки MRC пробуют распознавать текст внутри иллюстраций. что вообще-то не нужно.

Цитата:
метод пролистывания images.txt мне не нравится. Неужто ничего более умного нет?

Вообще-то лично мне удобнее обходной путь.  
Сначала извлекаю все изображения pdfimages -raw filename.pdf out (pdfimages by xpdf)
Потом просматриваю каталог с сотнями файлов в обозревателе xnview с отображением в виде таблицы. И как обычно в таких программах, щелкнув на табуляторе можно отсортировать файлы. В данном случае щелкаем на "Свойства" и получаем сортировку по размеру в пикселях. Также в окне предпросмотра можно сразу посмотреть что-чего.

Цитата:
Хоть по-страничного анализа, а не в целом по файлу.

Не уловил мысль.
Если файлов изображений по одному на страницу (картинки и текст в одном файле), то тут важно именно все страницы, чтобы увидеть кто отличается размерами (и другими параметрами)
Если файлов изображений несколько на страницу, то в случае с jpeg внутри true pdf тупо jpeg quality -> medium и смотрим что получилось
Если файлов изображений несколько на страницу и это что-то типа MRC, то тут берем PDF-XChange


shch_vg

Цитата:
Книга Броуди в пдф (14,8 МБ), полученная распознаванием в ФР15 дежавю с использованием технологии MRC и сохраненная в пдф

В этом файле нет MRC. Там 1-битовый JBIG2. Но результат впечатляет.

Всего записей: 715 | Зарегистр. 04-11-2019 | Отправлено: 20:34 01-03-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
jourmager
Не уловил мысль.  

что-то про страницу в целом, сколько бы изображений на ней не было.
 
Добавлено:

Цитата:
jourmager
результат впечатляет


Цитата:
KPGA
Отличный результат для такого скана!

 
зря хвалите. djvutoy делает адекватное преобразование в пдф одним щелчком.
 
но для данной книги наблюдается облом перекодирования на обложке

Всего записей: 3011 | Зарегистр. 15-07-2010 | Отправлено: 20:40 01-03-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
зря хвалите. djvutoy делает адекватное преобразование в пдф одним щелчком.

Ну так и DjvuToy тоже молодец.
А DjvuToy исправил автоматом наклон страниц? А OCR?
А FineReader сделал и то и другое.
Я только не понял, зачем надо было делать pdf из djvu, при наличии "нормального, качественного" pdf? Результат по размеру в МБ на выходе будет такой же.

Цитата:
для данной книги наблюдается облом перекодирования на обложке

Одну страницу цветной обложки другого размера в мм, другого разрешения и другой цветовой битности делать одновременно со всей остальной ч-б книгой? - мсье знает толк
 
P.S. У большого pdf 200 МБ - OCR абракадаброй. Надо перераспознавать. В djvu наверное нормальный.
P.P.S. Может кому будет интересно. Результирующий файл - это тот же самый Броуди Форт, но сделанный из 200 МБ pdf (jpeg2000, 600 dpi, 8-bit gray, OCR-abracadabra). Размер 11.15 МБ вместо 196.85 МБ.
PDF-XChange, обложка удалена, deskew, recompress all images to jbig2 1-bit 300 dpi, полный автомат OCR PDF-XChange by FineReader engine.  
ИМХО. Если сравнивать качество с переделкой из djvu с помощью Finereader, то у djvu+FR хуже качество букв (fit to width), лучше качество горизонтальных линий (лучше из-за худшего качества исходника), лучше качество распознавания из-за дополнительной обработки.
P.P.P.S. сравнил на этом файле качество deskew у PDF-XChange и FineReader 15, в целом у PDF-XCh лучше, но он кажется лажает, если первой строкой идет заголовок (большие жирные буквы).
 

Всего записей: 715 | Зарегистр. 04-11-2019 | Отправлено: 22:12 01-03-2023 | Исправлено: jourmager, 00:51 02-03-2023
KPGA

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Интереснно, а это "нормальный" результат 100Мб для файла? (1052 страниц)
Qt 5.10. Профессиональное программирование на C++ (2018)
Автор: Шлее М.

 

Цитата:
Я только не понял, зачем надо было делать pdf из djvu, при наличии "нормального, качественного" pdf? Результат по размеру в МБ на выходе будет такой же.  

 В нём не оригинальное форматирование содержииого книги и тоже, возможно, можно наверное встретить ошибки распознования.

Всего записей: 193 | Зарегистр. 04-10-2018 | Отправлено: 07:07 02-03-2023 | Исправлено: KPGA, 07:11 02-03-2023
MBK2

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
KPGA
Если каждая страница - битмап 600 dpi то разве не?

Всего записей: 4548 | Зарегистр. 18-09-2018 | Отправлено: 07:11 02-03-2023
KPGA

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Если каждая страница - битмап 600 dpi то разве не?

Наверное, т.е. раза в 4-е можно уменьшить переведя в 300 dpi?
 
P.S. Ещё одна книжка по Форт в Webarxive (она есть в распознанном и текстовом файле в i-net, )
но уже размером 20Мб  
 Келли М., Спайс H. "Язык программирования Форт"
(с ОСR текстом у неё тоже большие проблемы)
 
Как, впрочем и у этой Таунсенд К. Фохт Д. "Проектирование и программная реализация экспертных систем на персональных ЭВМ"
 
Вот ещё, кем то сделанная 15-ть лет назад, небольшая и не пополняемая Сообственная подборка книг по языку программирования Forth (Форт) на rutracker  

Всего записей: 193 | Зарегистр. 04-10-2018 | Отправлено: 07:21 02-03-2023 | Исправлено: KPGA, 08:02 02-03-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
KPGA
уменьшить переведя в 300 dpi?

BW 300дпи - это практически нечитаемо.  
Были уникумы, которые для некоторого шрифта умудрялись обеспечить приемлемую разборчивость на 300дпи. Но я не более 10 таких книг встретил за долгие годы.

Всего записей: 3011 | Зарегистр. 15-07-2010 | Отправлено: 10:45 02-03-2023
MBK2

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
раза в 4-е можно уменьшить переведя в 300 dpi?

Нет. Изза компрессии зависимость нелинейная. Уменьшить в 4 раза можно только уменьшив в 4 раза количество информации в книге. Против законов Шеннона не попрешь

Всего записей: 4548 | Зарегистр. 18-09-2018 | Отправлено: 10:52 02-03-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
BW 300дпи - это практически нечитаемо.  
Были уникумы, которые для некоторого шрифта умудрялись обеспечить приемлемую разборчивость на 300дпи. Но я не более 10 таких книг встретил за долгие годы.

Это скриншоты из уже известной книги "Методы бла-бла" с исходником 400 МБ jpg 600 dpi
и recompress в jbig2 300 dpi 1-bit с помощью PDF-XCh. Результирующий файл 13.77 МБ вместо 403.69 МБ.  

Ну и как читаемость? Например у нижних индексов на рисунке, типа Umdxя, особенно у буквы "я".
Даже графики в градациях серого читаемы. Ч-б файл могу предоставить.

Всего записей: 715 | Зарегистр. 04-11-2019 | Отправлено: 12:02 02-03-2023 | Исправлено: jourmager, 12:07 02-03-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
читаемость прекрасная, jourmager

Всего записей: 3011 | Зарегистр. 15-07-2010 | Отправлено: 12:11 02-03-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
читаемость прекрасная

Спасибо за ответ. ИМХО, в данном конкретном случае был источник отличного качества, что и повлияло на результат при преобразовании jpg -> jbig2 и 600 -> 300 dpi.

Всего записей: 715 | Зарегистр. 04-11-2019 | Отправлено: 12:45 02-03-2023
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
jourmager

Цитата:
В этом файле нет MRC. Там 1-битовый JBIG2.

Честно говоря, меня это не волнует. Я не настолько пугружен в дела пдф, просто сообщил, что в ФР MRC включен.

Всего записей: 6966 | Зарегистр. 14-01-2005 | Отправлено: 13:17 02-03-2023
MBK2

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
 в градациях серого


Цитата:
BW 300дпи

Это все таки несколько разные вещи.
 Впрочем, действительно все зависит от качества исходника. Фоточка на китайфон в дрожащих руках хоть какого разрешения в нормальный BW не преобразуется.

Всего записей: 4548 | Зарегистр. 18-09-2018 | Отправлено: 13:20 02-03-2023 | Исправлено: MBK2, 13:22 02-03-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
KPGA

Цитата:
Интереснно, а это "нормальный" результат 100Мб для файла? (1052 страниц)
Qt 5.10. Профессиональное программирование на C++ (2018)
Автор: Шлее М.

Из общего размера pdf-файла 103.848.947 байт у него внутри:
1072 изображения в формате CCITT Group 3 (.fax) 1 bit, 600 dpi общим объемом 74.197.960 байт
1 flate - 426 байт
1171 jpg-ов общим объемом 21.506.664 байт
Это можно сконвертировать в:
1073 изображения в формате jbig2 (.jb2) 1 bit, 600 dpi общим объемом 2.216.250 байт
P.S.
Ерунда какая-то.
На этом файле при оптимизации PDF-Xch вылетает.
Foxit соптимизировал, но jbig2 по 1 килобайту на страницу просто не могут быть. При этом размер файла сократился не до 30 МБ, а до 70 МБ.
 

Всего записей: 715 | Зарегистр. 04-11-2019 | Отправлено: 13:24 02-03-2023 | Исправлено: jourmager, 13:50 02-03-2023
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
TelecomUral

Цитата:
djvutoy делает адекватное преобразование в пдф одним щелчком

Аналогично моему ответу jourmager.
Я не делал идеальный вариант этой книги, просто использовал вариант создания в дежавю текстового слоя без служебных символов в конце каждой строки. По ходу этого процесса можно после распознавания сохранить результат и в пдф, что я и сделал. Видел, что обложка пострадала, но это не большая трагедия, т.к. ее всегда можно взять из исходного пдф.
Моей целью было показать примерно какого размера можно сделать этот пдф.
P.S. Про djvutoy я даже и не вспомнил, т.к. не использую его как раз из-за того, что он старательно восстанавливает служебные символы в конце строки при переводе из дежавю в пдф.
 
Добавлено:
jourmager

Цитата:
Я только не понял, зачем надо было делать pdf из djvu, при наличии "нормального, качественного" pdf? Результат по размеру в МБ на выходе будет такой же.
 

Невнимательно читали мое первое сообщение.
Там написано: "Обработанный тем же способом пдф получается на выходе из ФР размером 90мб."
 
Добавлено:

Цитата:
Одну страницу цветной обложки другого размера в мм, другого разрешения и другой цветовой битности делать одновременно со всей остальной ч-б книгой? - мсье знает толк

ФР предлагал поколдовать над обложкой, но это не было целью моей работы

Всего записей: 6966 | Зарегистр. 14-01-2005 | Отправлено: 13:27 02-03-2023
Andrea



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Попадаются иногда pdf-книги (русскоязычные), в которых содержимое (текст) закладок отображается кракозябрами. Скорее всего потому, что эти книги были созданы в слишком старых программах или на англоязычных системах. Существует ли, так сказать, "однокнопочное" решение, чтобы исправить (конечно, все закладки можно отредактировать вручную, но если есть другой вариант, было бы лучше)

Всего записей: 1087 | Зарегистр. 24-12-2015 | Отправлено: 14:00 02-03-2023 | Исправлено: Andrea, 16:02 02-03-2023
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183

Компьютерный форум Ru.Board » Компьютеры » Программы » Закладки » Редактирование PDF файлов


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru