Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов (часть 2)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4

Открыть новую тему     Написать ответ в эту тему

Maz



Дед Мазай
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие части темы: часть 1

Редактирование PDF файлов

В этой теме обсуждается редактирование (обработка) PDF файлов, которые бывают трех типов:
- "True" or Real PDF - "настоящий" PDF с векторными текстом и графикой, возможны вставки растра
- Scanned PDF - растровая графика (скан или фото), помещенная в контейнер PDF
- Searchable PDF - растровая (скан или фото) графика с текстовым слоем
Подробнее о типах PDF: Types of PDFs, The 3 Types of PDFs You Need to Know About




Решение типичных задач по редактированию PDF

Обрезать страницы - Acrobat Pro (main app), QIP*/Imposal(plugins), VeryPDF Advanced PDF Page Cut
Разрезать страницы на части - VeryPDF Advanced PDF Page Crop, A-PDF Cut
Склеить страницы между собой - VeryPDF PDF Stitch, Acrobat Pro + QIP* or Imposal
Удалить или редактировать метаданные - BeCyPDFMetaEdit, Adept PDF Layout Changer
Изменить размеры страницы - Acrobat Pro + Evermap AutoPagex , A-PDF Page Master, Neevia PDFtoolbox,  
Измененить/исправить размер страниц с масштабированием содержимого
Изменить размеры страницы, изменить масштаб контента, сдвинуть контент, замаскировать часть страницы и многое другое - Acrobat Pro + Evermap AutoPagex
Исправить наклон страниц -  Acrobat Pro + Evermap AutoPagex/ISI Toolbox, A-PDF Deskew, A-PDF Scan Optimizer  
Наложить PDF на PDF, страницу поверх страницы (Overlay)
О технологии MRC с примерами - 1, 2
Работа с изображениями (подрезка, масштаб, сжать/растянуть) - Inkscape
Преобразование изображений, текста в оттенки серого или в ч/б - A-PDF to Black White или Acrobat Pro + Quite A Box Of Tricks/ISI Toolbox
Извлечение растровых изображений из PDF
Заменить/удалить текст (batch есть), в т.ч. кириллицу (не панацея!) - PDF Replacer
Удалить текст без замены, в т.ч. кириллицу - PDF Text Deleter
Удалить растровые ватермарки - PDF Watermark Remover или PDF Logo Remover, в сложных случаях - Foxit PDF Editor с макросом, Acrobat Pro + Preflight, CallasPDF Toolbox
Удаление любых ватермарков - We PDF Watermark Remover
Как/чем узнать Свойства растровых изображений в PDF: битность, цвет, dpi/ppi, разрешение px, формат сжатия, размер mm, наличие маски и т.д. - 1, 2
Редактировать текст - PDF-XChange Editor, Acrobat Pro, FineReader 14 (не OCR-модуль) и новее, Infix PDF Editor, SoftMaker FlexiPDF, Foxit PDF Editor, PixelPlanet PdfEditor
Удалить или заменить часть текста или текстовые ватермарки - Acrobat Pro, A-PDF Text Replace
Конвертация PDF таблиц в Excel - PDF2XL (da best!)
Заменить цветное векторное изображение на серое - Acrobat Pro + Preflight
Растровый редактор и манипуляции с изображениями в PDF - Foxit PDF Editor и Acrobat Pro + ImageWorks из Crackerjack
Удалить/заменить/создать текстовый слой в PDF файле с помощью Acrobat Pro
Растеризовать pdf - Digitzone PDF Converters
Один из вариантов решения проблем с кракозябрами: видео (зеркало)
* - Quite Imposing Plus
 
 
Если вы задаете вопрос по поводу проблем с PDF файлами, обязательно выкладывайте небольшой пример (только не сотни метров!) такого файла. Это упростит задачу для желающих вам помочь и сделает обсуждение предметным.

Всего записей: 39605 | Зарегистр. 26-02-2002 | Отправлено: 08:59 05-04-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
zvezdochiot
Именно как объекта PDF?

Это вполне может быть и свойство объекта.
los
ещё удобнее подсчитывать размер и выдавать совпадение на условие. Больше 2кб, например (машинописный лист).
medvedik
Но вообще-то понятие searchable в стандарте отсутствует, по-моему. Всё, что пишется объектами раздела стандарта Text, может быть "найдено". Только это далеко не всегда текст в обыденном понимании. И наоборот, те же скурвленные шрифты, н-р, с виду однозначно буквы, но нифига не searchable. Или CS.
Плата за сложность стандарта.

Всего записей: 3601 | Зарегистр. 15-07-2010 | Отправлено: 09:00 24-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral say:
Цитата:
Это вполне может быть и свойство объекта.

У какого то PDF объекта есть свойство Layer? Правда, что ли? У какого же, какого?

Всего записей: 974 | Зарегистр. 18-05-2023 | Отправлено: 18:40 24-06-2025 | Исправлено: zvezdochiot, 18:40 24-06-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot
детский сад.
Среди элементов описания маркированного контента страницы (графического потока, н-р) есть Properties, указывающие на объект словаря (Dictionary) типа OCG (Optional Content Group). Этот вот OCG, точнее глобальное optional content - синоним примененного вами "Layer", читайте стандарт 1.7. Прямо в индексе терминов это сказано. OCG имеет имя, разумеется, которое и показывает вьювер как "слой".

Всего записей: 3601 | Зарегистр. 15-07-2010 | Отправлено: 19:28 24-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral say:
Цитата:
детский сад

Вот именно, вот именно...
Очередной бред несёте.
"Буква Ю, она как А, только Ю".

Всего записей: 974 | Зарегистр. 18-05-2023 | Отправлено: 19:36 24-06-2025 | Исправлено: zvezdochiot, 19:38 24-06-2025
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
ещё удобнее подсчитывать размер и выдавать совпадение на условие. Больше 2кб, например (машинописный лист).

Не уверен что понимаю о чем идет речь.

Всего записей: 7941 | Зарегистр. 08-09-2001 | Отправлено: 22:30 25-06-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
los
спроектировать условие "содержит ли в среднем одна страница pdf-файла 2 кб текста". Бывают ведь альбомы с иллюстрациями - страниц много, а искать особо нечего.

Всего записей: 3601 | Зарегистр. 15-07-2010 | Отправлено: 04:53 26-06-2025
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral, понятно. Но задача была проще, нужно было определить есть ли текст вообще(имелся ввиду ocr но pdftotext не различает ocr текст или нет).

Всего записей: 7941 | Зарегистр. 08-09-2001 | Отправлено: 09:50 26-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
los say:
Цитата:
не различает ocr текст или нет

А как это вообще можно различить? Ну только если по шрифтам. Пробуйте тогда pdffonts из того же набора poppler-utils.

Всего записей: 974 | Зарегистр. 18-05-2023 | Отправлено: 19:09 26-06-2025
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot

Цитата:
А как это вообще можно различить?

вроде бы по совокупности косвенных признаков, но результат далек от совершенства.

Цитата:
Ну только если по шрифтам.

В том числе.

Всего записей: 7941 | Зарегистр. 08-09-2001 | Отправлено: 23:37 26-06-2025
IamDimulya



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Коллеги.
В очердеой раз наступаю на одни и те же грабли.
Есть pdf-ы, которые вероятно специально сделаны кривыми с использованием различных вполне себе широко известных утилит типа Adobe Acrobat Pro.
В них виден корректный текстовый слой, например, по ctrl-6 в Foxit Pdf Viewer или Pro. Но при экспорте в docx в Pro я получаю либо набор картинок либо кривой текстовый слой, хотя вижу его вполне себе нормальным.  
Это называется похоронить текст, преобразовав его в pdf. И Finereader делает тоже самое, то есть в pdf текст есть, но экспортировать его в текстовый формат с форматированием (docx) не возможно...
Думаю, что потому Infix PDF растоптали, он лишал стандарт его основной фишки - закапывания текста.
Что вы посоветуете?
Есть много pdf, хочется сделать их переводы, для этого нужен текстовый слой адекватный. А я могу только его видеть. Конечно, можно перегнать в текст (txt), но это слишком коряво, без форматирования, хотя текст получается без ошибок. Например, последний опыт, когда вдруг буква s при экспорте в docx заменяется на 5, вообще, такой цирк...
Благодарю.

Всего записей: 432 | Зарегистр. 01-09-2003 | Отправлено: 00:58 26-07-2025
www_world

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
IamDimulya
Чтобы получить мнения/ответы/вердикты/рецепты/... стоит предоставить примеры проблемных файлов. Мне так кааца.

Всего записей: 627 | Зарегистр. 04-11-2018 | Отправлено: 02:37 26-07-2025 | Исправлено: www_world, 02:40 26-07-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
IamDimulya say:
Цитата:
А я могу только его видеть.

Есть возможность избавиться от "лишних" элементов в PDF в режиме "черновика" с помощью cpdf:

Код:
 
cpdf -draft you.pdf -o text.pdf
 


Всего записей: 974 | Зарегистр. 18-05-2023 | Отправлено: 05:34 26-07-2025 | Исправлено: zvezdochiot, 05:35 26-07-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
IamDimulya
я бы очень постарался найти программу, которая корректно работает с экспортом или импортом pdf. При все же очень крохотном личном опыте то, что мне попадалось, хорошо импортировалось либо в word, либо во writer, либо переводилось в txt с форматированием прямо в браузере. То есть копипаста из браузера в ворд давала адекватный результат. Это к примеру.
Программ много, просто перепробуйте варианты. Хорошо помню, что якобы устарелые проги работали куда как лучше обновленных своих версий.

Всего записей: 3601 | Зарегистр. 15-07-2010 | Отправлено: 19:49 26-07-2025 | Исправлено: TelecomUral, 10:33 28-07-2025
Kero1



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Чем полностью удалить все встроенные шрифты, а те что в документе авто поменять на установленные в системе. Желательно под XP.

Всего записей: 2734 | Зарегистр. 23-08-2011 | Отправлено: 22:54 28-07-2025
IamDimulya



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot
Попробовал.  
Получил файл без графического слоя, на ctrl-6 в Foxit  
текст показывается. Однако при экспорте в docx получил пустой файл.
 
www_world
Из моего сообщения следует, что это основной смысл формата pdf спрятать в нём текст необратимо, то есть почти все файлы так себя ведут. Файлы, которые экспортируются, скорее исключение, чем правило.  
Просто проверьте на тех, что у вас есть. Мне не сложно выложить свои, просто это не какое-то уникальное явление. Вот только что попробовал на файле с библиотеки анны, который сделан в Finereader 8, уж кажется, как давно это было, 20 лет назад, а текст всё равно экспортируется как графика.
Только Infix это делает, но увы криво. И в Infix есть очевидная опция замены дефиса в конце строк на символ переноса, а в современных монструоидных прогах нигде этого не встречал.
Почему? Вовсе не потому, что это сложно сделать, это картельный сговор, как в аллопатической медицине или много ещё где.  
Однако, если вы готовы посмотреть мои файлы, я готов выбрать что-то даже чтобы вам было поинтереснее.
 
Добавлено:
TelecomUral
Я знаю, что для получения эффекта следует испольовать эффектор. Я попробовал все возможные программы для осуществления фукнции экспорта и не нашёл того, что мне подходит, поэтому пришёл сюда спрашивать.
Если у вас есть конкретная версия программы, то прошу её сообщить. ОБщие рассуждения не просто безсмысленны, они вреды из-за их очевидности.  
Пробовал только portable версии, про браузер не понял.

Всего записей: 432 | Зарегистр. 01-09-2003 | Отправлено: 11:11 29-07-2025
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Kero1

Цитата:
Чем полностью удалить все встроенные шрифты

cpdf -remove-fonts in.pdf -o out.pdf, чтобы встроить понадобится Ghostscript.
 
IamDimulya, дайте пример файла.
 

Всего записей: 7941 | Зарегистр. 08-09-2001 | Отправлено: 15:41 29-07-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
IamDimulya
PDF_Xchange Editor Plus vers 10.4.1
ABBYY FineReader 15 v15.0.112.2130 Corporate
WPS Office Обновление 2025 32-разрядная 12.2.021931.
 
Потратил почти три часа, проверил 5 произвольных pdf. Как чисто векторных, так и с изображениями сосканированных страниц плюс подложенный невидимый ocr. По 5-7 страниц из каждого, из начала чтоб выходные данные захватить - они обычно со сложным форматированием. И титульник обычно более хитрый чем прямоугольные параграфы одной ширины и начертания. Во всех случаях кроме одного удается сохранить форматирование как голого текста, так и текста с картинками. Сохраняется пропорция, размер и взаиморасположение текстовых и картиночных блоков. Единственный неустранённый косяк: шрифт на странице сначала шёл во всю ширину, затем следующий параграф отцентрован с большими отступами как слева так и справа. FR15 не смог это сохранить, сдвигает правую границу до упора вправо, вероятно программная ошибка. Не учли такой вариант.
 
Разумеется, если на старой отсканированной книге само распознавание было проведено криво, то вся кривизна вылезла в ворде. А так - файнридер всё толково передает сквозь себя в docx. Надо задавать ему метод использования ocr без перераспознавания. И вообще по возможности его редактором не пользоваться.
 
Что-либо более мудрое смогу сообщить только после предоставления вами вашего примера. И с полным анализом от вас, что есть "криво отформатировано" и прочие малоосмысленные словеса. Ясен пень, что вернуть редакторский макет невозможно. pdf не предназначен по своей сути для таких экзерсисов. Если вам необходимо чтоб 100% букв стояли с точностью до полумиллиметра на том же месте, что и их видимые глазом контуры - ... развлекайтесь сами. Достаточно вспомнить, что коммерческие публикации юзают коммерческие шрифты, и без их установки в вашу операционку, если шрифт был превращен в кривые и вы его восстанавливаете через распознавание, несовпадение размещения буквы просто гарантировано.
 
+
совсем забыл. Современные полноцветные журналы я не рассматривал как источник. Предполагал обычную книгу - текст плюс рисунок рядом - с разным размером, цветом и начертанием шрифта (курсив, жирный), с разными языками.

Всего записей: 3601 | Зарегистр. 15-07-2010 | Отправлено: 15:44 29-07-2025
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
IamDimulya
 
Ваше желание — Win/Win. Так не бывает.
 
Если вам так нравится Infix - в нём есть функция экспорта текста для перевода и обратного импорта.... Я только посмотрю, как вы будете любиться с переводом, чтобы он был не длиннее и полосы не поплыли, или как будете в Инфиксе потом любиться с вёрсткой из-за того, что русский перевод как правило длиннее английского на 20-30%, и полосы жёстко плывут (это даже не трогая вопроса использования шрифтов без русского или с нестандартным маппингом).
 
Единственный нормальный путь — полная перевёрстка материалов для перевода в формат, с которым будет легко работать - DOCX, ODT etc. Как это делать - тут у каждого свои предпочтения, но даже разные версии FR дают сильно отличающиеся результаты.

Всего записей: 3825 | Зарегистр. 17-09-2001 | Отправлено: 17:00 29-07-2025 | Исправлено: niccolo, 19:31 29-07-2025
www_world

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
основной смысл формата pdf спрятать в нём текст необратимо

Ошибочка. Основной смысл формата pdf - кроссплатформенность и независимость от средств просмотра и печати. Иначе говоря, формат задуман как средство документооборота. Чтобы, упрощенно говоря, формы, напечатанные секретутками мира были одинаковыми всегда и годились для последующей машинной обработки.
Отсюда и его нативная неприспособленность к полноценному редактированию (секретутки должны по определению нихт ковыряйт, даже если им этого внезапно и сильно захочется).
Все остальное,что напрямую не касается вышеназванногр у пдф - опционально.
Кстати, вы напрасно думаете, что pdf злонамеренно прячет текст.
Вот два файла - созданный неким создателем, уверенным, что он умеет создавать пдф и второй, слегка улучшенный после "создателя"
https://workupload.com/file/rUMXEAPFLgb
Сравните результат экспорта в txt или doc
Зы Соотношение количества "создателей пдф, уверенных, что они умеют создавать пдф" к числу людей умеющих создавать корректные пдф (по оптимистичному прогнозу) примернр 100 к 1. Отсюда и все ваши проблемы, с которыми вы ходите по кругу (как минимум, судя по предыдущей части темы) второй год, без заметных сдвигов, несмотря на (минимум) сотню советов вам данных и достаточно объясненных (неленивыми) участниками темы, некоторые из которых наговорили вам на полноценный курс лекций к семестру.

Всего записей: 627 | Зарегистр. 04-11-2018 | Отправлено: 06:11 31-07-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
оффтоп

Всего записей: 3601 | Зарегистр. 15-07-2010 | Отправлено: 09:15 31-07-2025
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4

Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов (часть 2)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2025

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru