Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов (часть 2)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7

Открыть новую тему     Написать ответ в эту тему

Maz



Дед Мазай
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие части темы: часть 1

Редактирование PDF файлов

В этой теме обсуждается редактирование (обработка) PDF файлов, которые бывают трех типов:
- "True" or Real PDF - "настоящий" PDF с векторными текстом и графикой, возможны вставки растра
- Scanned PDF - растровая графика (скан или фото), помещенная в контейнер PDF
- Searchable PDF - растровая (скан или фото) графика с текстовым слоем
Подробнее о типах PDF: Types of PDFs, The 3 Types of PDFs You Need to Know About




Решение типичных задач по редактированию PDF

Обрезать страницы - Acrobat Pro (main app), QIP*/Imposal(plugins), VeryPDF Advanced PDF Page Cut
Разрезать страницы на части - VeryPDF Advanced PDF Page Crop, A-PDF Cut
Склеить страницы между собой - VeryPDF PDF Stitch, Acrobat Pro + QIP* or Imposal
Удалить или редактировать метаданные - BeCyPDFMetaEdit, Adept PDF Layout Changer
Изменить размеры страницы - Acrobat Pro + Evermap AutoPagex , A-PDF Page Master, Neevia PDFtoolbox,  
Измененить/исправить размер страниц с масштабированием содержимого
Изменить размеры страницы, изменить масштаб контента, сдвинуть контент, замаскировать часть страницы и многое другое - Acrobat Pro + Evermap AutoPagex
Исправить наклон страниц -  Acrobat Pro + Evermap AutoPagex/ISI Toolbox, A-PDF Deskew, A-PDF Scan Optimizer  
Наложить PDF на PDF, страницу поверх страницы (Overlay)
О технологии MRC с примерами - 1, 2
Работа с изображениями (подрезка, масштаб, сжать/растянуть) - Inkscape
Преобразование изображений, текста в оттенки серого или в ч/б - A-PDF to Black White или Acrobat Pro + Quite A Box Of Tricks/ISI Toolbox
Извлечение растровых изображений из PDF
Заменить/удалить текст (batch есть), в т.ч. кириллицу (не панацея!) - PDF Replacer
Удалить текст без замены, в т.ч. кириллицу - PDF Text Deleter
Удалить растровые ватермарки - PDF Watermark Remover или PDF Logo Remover, в сложных случаях - Foxit PDF Editor с макросом, Acrobat Pro + Preflight, CallasPDF Toolbox
Удаление любых ватермарков - We PDF Watermark Remover
Как/чем узнать Свойства растровых изображений в PDF: битность, цвет, dpi/ppi, разрешение px, формат сжатия, размер mm, наличие маски и т.д. - 1, 2
Редактировать текст - PDF-XChange Editor, Acrobat Pro, FineReader 14 (не OCR-модуль) и новее, Infix PDF Editor, SoftMaker FlexiPDF, Foxit PDF Editor, PixelPlanet PdfEditor
Удалить или заменить часть текста или текстовые ватермарки - Acrobat Pro, A-PDF Text Replace
Конвертация PDF таблиц в Excel - PDF2XL (da best!)
Заменить цветное векторное изображение на серое - Acrobat Pro + Preflight
Растровый редактор и манипуляции с изображениями в PDF - Foxit PDF Editor и Acrobat Pro + ImageWorks из Crackerjack
Удалить/заменить/создать текстовый слой в PDF файле с помощью Acrobat Pro
Растеризовать pdf - Digitzone PDF Converters
Один из вариантов решения проблем с кракозябрами: видео (зеркало)
* - Quite Imposing Plus
 
 
Если вы задаете вопрос по поводу проблем с PDF файлами, обязательно выкладывайте небольшой пример (только не сотни метров!) такого файла. Это упростит задачу для желающих вам помочь и сделает обсуждение предметным.

Всего записей: 39721 | Зарегистр. 26-02-2002 | Отправлено: 08:59 05-04-2025
slava_kry

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
К тому же сам формат pdf не заточен на сохранение именно текста

Улыбнуло...Чем нафиг издательства занимаются!?

----------
Вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом

Всего записей: 4328 | Зарегистр. 18-09-2003 | Отправлено: 06:45 29-10-2025
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
можно пример увидеть?

не совсем то, о чем вы просили, но тоже занятный файл.
https://workupload.com/file/76KGy6amVdY

Всего записей: 8010 | Зарегистр. 08-09-2001 | Отправлено: 10:15 29-10-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
los
увы, с этого файлообменника последнюю неделю я файлы скачать никак не могу.
с трудом выцарапаю с upload.ee через тор, нормально был fex.net

Всего записей: 3645 | Зарегистр. 15-07-2010 | Отправлено: 11:13 29-10-2025
fbm

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
slava_kry
А что издательства? WYSIWYG, и кушайте, не обляпайтесь.

Всего записей: 202 | Зарегистр. 04-02-2006 | Отправлено: 11:52 29-10-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
fbm

Цитата:
Кажется, я уже придумал такой способ: искать /Image, сопутствующие /Width, /Height, проверять число их вхождений по числу страниц, и чтобы /Width, /Height в среднем повторялись, и не были слишком маленькими.

Не понял. Вы что, исходите из предположения, что в "векторном pdf с текстом" изображения будут иметь размеры, отличающийся от размера страницы и их число не будет соответствовать числу страниц? Вам не кажется, что это не совсем верное предположение в общем случае?

Цитата:
А то, что вы описали (и ClearScan), я сразу перегоняю в djvu и перераспознаю.

Не понял. А где вы видели "pdf с растровыми шрифтами, в которых каждая буква отдельный битмап" и зачем перегонять ClearScan в djvu и перераспознавать?

Цитата:
Там разношерстные pdf, у которых сжатие и качество гуляет в широких пределах.

Вот прям на предыдущей странице 73 высказал несколько дельных замечаний по похожему поводу

Цитата:
К тому же сам формат pdf не заточен на сохранение именно текста.

Из чистого интереса - а не могли бы вы объяснить это ваше ИМХО несколько странное заявление?
 
TelecomUral
В этом pdf от los каждая буква представляет собой отдельный элемент path. Качество естественно отличное векторное, но текст не выделяется. ЕМНИП я недавно спрашивал, как уменьшить размеры такого pdf.
 


 
Также я не понял саму постановку задачи, потому что лично я, например, среди pdf с текстом выделяю такие категории:
- простой OCR - растровые изображения страниц + текстовый слой под ними
- OCR с помощью технологии Adobe ClearScan, где текст из растрового изображения с помощью OCR заменяется на специально для этого случая сгенерированные векторные шрифты
- OCR как режиме Text and pictures only или Text over the page image у FineReader, когда текст из растрового изображения с помощью OCR заменяется на стандартные наиболее подходящие по рисунку векторные шрифты
- конвертированный pdf из doc, epub, fb2, например с помощью Calibre. При этом также используются стандартные векторные шрифты
- true pdf, который является вариантом pdf для цифровой продажи, то что некоторые называют издательским макетом. Издательский макет - это "макет" и он должен включать метки обреза и мишени (приводочные кресты), ну и естественно, из-за этого размер страницы будет с бОльшими полями
- хитросделанный pdf, где каждая буква представляет собой элемент векторный элемент path, типа того, что выложил los немного выше
 
Все эти pdf сильно различаются по размеру и качеству и восприятию.

Всего записей: 1062 | Зарегистр. 04-11-2019 | Отправлено: 13:44 29-10-2025 | Исправлено: jourmager, 13:50 29-10-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
MRC еще забыли. когда растровая картинка превращается в хрень.Калейдоскоп кусочков.

Всего записей: 3645 | Зарегистр. 15-07-2010 | Отправлено: 15:14 29-10-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
MRC еще забыли. когда растровая картинка превращается в хрень.Калейдоскоп кусочков.

Да. Вы правы. В моём личном пользовании pdf-файлы с MRC в подавляющем большинстве - это файлы из Internet Archive, и я их для себя выделяю в отдельную группу, т.к. они отличаются низким качеством графики, тормознутостью из-за применения jpeg2000 и jbig2, грязным фоном страниц. Очень хочется такие файлы автоматом преобразовывать во что-то более визуально приятное и более быстрое, но я пока не придумал как.

Всего записей: 1062 | Зарегистр. 04-11-2019 | Отправлено: 15:36 29-10-2025 | Исправлено: jourmager, 15:37 29-10-2025
fbm

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
Не понял. Вы что, исходите из предположения, что в "векторном pdf с текстом" изображения будут иметь размеры, отличающийся от размера страницы и их число не будет соответствовать числу страниц? Вам не кажется, что это не совсем верное предположение в общем случае?

"В общем случае" - меня как раз не интересует. Меня интересует, чтобы работало "в большинстве случаев".
 

Цитата:
Не понял. А где вы видели "pdf с растровыми шрифтами, в которых каждая буква отдельный битмап"

Есть такие. Смотришь на него - выглядит точь в точь как растровый, и буквы тоже, но после удаления текста вдруг обнаруживаешь, что изображения букв исчезли.
 
https://www.mathnet.ru/php/archive.phtml?wshow=paper&jrnid=jetpl&paperid=2665&option_lang=rus
 

Цитата:
и зачем перегонять ClearScan в djvu и перераспознавать?

Затем, что CS - это довольно плохой OCR, особенно для русских текстов. Есть и получше. Ну и размер файла зачастую становится сильно меньше.
 

Цитата:
Из чистого интереса - а не могли бы вы объяснить это ваше ИМХО несколько странное заявление?

Из чистого альтруизма отвечаю: есть проблема с жесткими переносами слов. И есть проблема с тем, что перегон мало-мальски структурированного pdf в текст разными программами может давать разные результаты. Иногда сильно разные.  
Т.е. есть какое-то пространство для интерпретаций при восстановлении текста из pdf как чего-то единого и цельного.

Всего записей: 202 | Зарегистр. 04-02-2006 | Отправлено: 18:22 29-10-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
fbm
Риторически.

Цитата:
Есть такие. Смотришь на него - выглядит точь в точь как растровый, и буквы тоже, но после удаления текста вдруг обнаруживаешь, что изображения букв исчезли.

Спасибо. Это пойдёт в копилку несуразностей.
ИМХО исходный pdf там вполне нормальный с нормальными векторными шрифтами. Но при запросе этого файла по дороге к пользователю с этим файлом на сайте происходит некая метаморфоза - он обрабатывается php-скриптом и получается что-то типа принудительного растрирования, но не целой страницы, а отдельных букв. Зачем - это не ко мне.

Цитата:
"В общем случае" - меня как раз не интересует. Меня интересует, чтобы работало "в большинстве случаев".

Вообще-то в общем случае отличить pdf с обычным OCR от true pdf легче легкого, причем с автоматическим группированием файлов, но вас это не интересует, а интересует "большинство случаев" в вашем собственном понимании, которого мы пока не знаем. Впрочем, в этой теме спецов по такой обработке я не видел. А для соответствующей темы нужен соответствующий подход.

Цитата:
Затем, что CS - это довольно плохой OCR, особенно для русских текстов. Есть и получше.

Т.е. вы pdf после ClearScan, где оригинального текста уже нет вообще, снова распознаете?! Да ещё переводите в djvu?! Ну ОК.

Цитата:
есть проблема с жесткими переносами слов

Да. Но это проблема не формата pdf, а программ обработки текста. Причем эта проблема при желании успешно решается.

Цитата:
перегон мало-мальски структурированного pdf в текст разными программами может давать разные результаты

Да. Но это проблема не формата pdf, а программ для такой "перегонки" и форматов куда "перегоняют".

Всего записей: 1062 | Зарегистр. 04-11-2019 | Отправлено: 20:57 29-10-2025
fbm

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager
По существу отвечу только насчет CS: он плох тем, что иногда бьет слова на части. А вот перераспознается он замечательно. Более того, иногда его использую для улучшения читаемости изображения текста. Но не для OCR.
Приятно было пообщаться.

Всего записей: 202 | Зарегистр. 04-02-2006 | Отправлено: 21:11 29-10-2025
useretail



Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
los

Цитата:
занятный файл

у вас есть еще такие занятные/проблемные файлы?

Всего записей: 5236 | Зарегистр. 14-09-2007 | Отправлено: 21:21 29-10-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Кстати. Про перегон сложно-структурированного текста из pdf в epub (другие форматы смысла нет).  
Интересно было бы посмотреть на результаты такого конвертирования чего-то вроде true pdf от Head First или Dorling Kindersley с помощью Adobe InDesign. К сожалению, у меня сейчас нет возможности поставить эту программу, причем ради пятиминутной проверки. Но всё-таки это родной и очень мощный редактор, так что и результат должен быть соответствующий.
 
Добавлено:
useretail

Цитата:
у вас есть еще такие занятные/проблемные файлы?

Вопрос был не ко мне, но всё-таки вставлю свои 240 мегабайт:
Книжка про историю архитектуры
 
los

Цитата:
Можете сделать сами с помощью того же Ghostscript, рамер буде прилично больше чем в выложенном файле (он сделан с помощью PStill). Для Ghostscript используйте ключ '-dNoOutputFonts'

Спасибо

Всего записей: 1062 | Зарегистр. 04-11-2019 | Отправлено: 21:31 29-10-2025 | Исправлено: jourmager, 22:34 29-10-2025
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
useretail

Цитата:
у вас есть еще такие занятные/проблемные файлы?
 

проблемными я бы их не назвал. Можете сделать сами с помощью того же Ghostscript, рамер буде прилично больше чем в выложенном файле (он сделан с помощью PStill). Для Ghostscript используйте ключ '-dNoOutputFonts'

Всего записей: 8010 | Зарегистр. 08-09-2001 | Отправлено: 22:28 29-10-2025
Skif_off

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
Вообще-то в общем случае отличить pdf с обычным OCR от true pdf легче легкого, причем с автоматическим группированием файлов,

А поподробнее?
И есть ли способ отличать файлы, в которых текст в том или ином виде доступен, от просто пожатых картинок?

Всего записей: 6759 | Зарегистр. 28-01-2008 | Отправлено: 20:39 30-10-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Skif_off

Цитата:
А поподробнее?

Так я же уже написал - там же, откуда вы меня процитировали:
"Впрочем, в этой теме спецов по такой обработке я не видел. А для соответствующей темы нужен соответствующий подход."
 
Если коротко - Adobe Acrobat Pro + PitStop Pro Server с соответствующим ActionScript или JavaScript.
 
Но вообще-то я был неправ про спецов. Можно ещё скрипт на Python написать, а их я видел и в этой теме.
 

Цитата:
И есть ли способ отличать файлы, в которых текст в том или ином виде доступен, от просто пожатых картинок?

Вы имеете в виду в просмотрщике или в редакторе или програмно?

Всего записей: 1062 | Зарегистр. 04-11-2019 | Отправлено: 22:46 30-10-2025
Skif_off

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
Если коротко - Adobe Acrobat Pro + PitStop Pro Server с соответствующим ActionScript или JavaScript.

Это крутовато, для непричастных.

Цитата:
Но вообще-то я был неправ про спецов. Можно ещё скрипт на Python написать, а их я видел и в этой теме.

А вот это уже несколько воодушевляет, попробую поискать скрипт в теме.

Цитата:
Вы имеете в виду в просмотрщике или в редакторе или програмно?

В просмотрщике или редакторе можно тупо попытаться выделить текст, скорее последнее - без открытия каждого, но с возможностью автоматизации процесса.

Всего записей: 6759 | Зарегистр. 28-01-2008 | Отправлено: 02:16 31-10-2025
fbm

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Skif_off

Цитата:
И есть ли способ отличать файлы, в которых текст в том или ином виде доступен, от просто пожатых картинок?

Для выдергивания текста pdf из-под командной строки есть утилита pdftohtml в составе Calibre. Не уверен, что там есть вывод в голый текст, но если парсинг xml не пугает, то это оптимальный выбор для скриптов текстовой обработки, имхо.
 
Есть и другие способы.
https://stackoverflow.com/questions/3650957/how-to-extract-text-from-a-pdf

Всего записей: 202 | Зарегистр. 04-02-2006 | Отправлено: 09:52 31-10-2025 | Исправлено: fbm, 09:57 31-10-2025
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Skif_off

Цитата:
И есть ли способ отличать файлы, в которых текст в том или ином виде доступен, от просто пожатых картинок?

простой shell скрипт(если Windows, то bat) с использованием pdftotext(mutool и т.п.) решает эту задачу.

Всего записей: 8010 | Зарегистр. 08-09-2001 | Отправлено: 13:54 31-10-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Skif_off

Цитата:
Это крутовато, для непричастных.

Там самое крутое найти работающий PitStop Server и поставить его. А скрипт для определения типа pdf, чтобы их потом по своим папкам распределять - во-первых есть поиск в интернете, во-вторых - есть тема на ру-борде.
 

Цитата:
А вот это уже несколько воодушевляет, попробую поискать скрипт в теме.

Кажется, я непонятно выразился.  
В этой теме искомый скрипт на Python я не видел, а изредка видел специалист(ов) по Python.
Я также имел в виду, что в этой теме (уже) нет, как ни странно, специалистов по Adobe Acrobat Pro, его плагинам, программированию его с помощью ActionScript, JavaScript, а также прочим pdf-редакторам с поддержкой JavaScript. Или они скромничают.
Как по мне, то проще поставить Acrobat Pro + PitStop Server и написать пару строчек на ActionScript, чем ставить Python, изучить программированием на нём, поставить для него библиотеки (типа PyPDF) для обработки pdf и изучить их использование.
 

Цитата:
скорее последнее - без открытия каждого, но с возможностью автоматизации процесса.

Каждый pdf для хранения текста использует определённые теги.
Автоматизировать процесс можно опять же с помощью Adobe Acrobat Pro, вероятно с использованием плагинов. Или Python + библиотеки.
 
Проблема также ещё в том, что "файлы, в которых текст в том или ином виде доступен" могут иметь вид текста совсем не тот, который ожидается.
Я встречал:
- нормально распознанный текст с небольшим количеством ошибок
- нормально распознанный текст с большим количеством ошибок
- нормально распознанный текст с поломанными координатами
- ненормально распознанный текст, где вообще полная ерунда
- текст с абракадаброй, т.е. несоответствие глифа и символа в UnicodeMap
- текст со знаками вопроса - для глифов вообще нет соответствия в UnicodeMap
- нормально распознанный текст, где каждый символ отдельно, или каждое слово отдельно, или каждая строка отдельно, или вообще непонятно как
- нормальный текст пополам с абракадаброй (часто видел такое на 2-язычных текстах)
- файлы с "техническим" текстом - например, текстовые ватермарки
 
Автоматизировать всё это можно, но надо чётко понимать, что может быть на входе и что надо получить на выходе. ТЗ, короче говоря.
 
P.S.
 
los

Цитата:
простой shell скрипт(если Windows, то bat) с использованием pdftotext(mutool и т.п.) решает эту задачу

Да. Вы правы. Если стоит задача по простому определению наличия любого текста в pdf, то ваш вариант наверное предпочтительнее.

Всего записей: 1062 | Зарегистр. 04-11-2019 | Отправлено: 15:01 31-10-2025 | Исправлено: jourmager, 16:18 31-10-2025
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager, в принципе, используя доп. программы в shell скрипте, можно отфильтровать еще кое-что из вашего списка

Цитата:
Я встречал:  


Всего записей: 8010 | Зарегистр. 08-09-2001 | Отправлено: 16:37 31-10-2025
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7

Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов (часть 2)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2025

LiteCoin: LgY72v35StJhV2xbt8CpxbQ9gFY6jwZ67r

Рейтинг.ru