Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов (часть 2)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7

Открыть новую тему     Написать ответ в эту тему

Maz



Дед Мазай
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие части темы: часть 1

Редактирование PDF файлов

В этой теме обсуждается редактирование (обработка) PDF файлов, которые бывают трех типов:
- "True" or Real PDF - "настоящий" PDF с векторными текстом и графикой, возможны вставки растра
- Scanned PDF - растровая графика (скан или фото), помещенная в контейнер PDF
- Searchable PDF - растровая (скан или фото) графика с текстовым слоем
Подробнее о типах PDF: Types of PDFs, The 3 Types of PDFs You Need to Know About




Решение типичных задач по редактированию PDF

Обрезать страницы - Acrobat Pro (main app), QIP*/Imposal(plugins), VeryPDF Advanced PDF Page Cut
Разрезать страницы на части - VeryPDF Advanced PDF Page Crop, A-PDF Cut
Склеить страницы между собой - VeryPDF PDF Stitch, Acrobat Pro + QIP* or Imposal
Удалить или редактировать метаданные - BeCyPDFMetaEdit, Adept PDF Layout Changer
Изменить размеры страницы - Acrobat Pro + Evermap AutoPagex , A-PDF Page Master, Neevia PDFtoolbox,  
Измененить/исправить размер страниц с масштабированием содержимого
Изменить размеры страницы, изменить масштаб контента, сдвинуть контент, замаскировать часть страницы и многое другое - Acrobat Pro + Evermap AutoPagex
Исправить наклон страниц -  Acrobat Pro + Evermap AutoPagex/ISI Toolbox, A-PDF Deskew, A-PDF Scan Optimizer  
Наложить PDF на PDF, страницу поверх страницы (Overlay)
О технологии MRC с примерами - 1, 2
Работа с изображениями (подрезка, масштаб, сжать/растянуть) - Inkscape
Преобразование изображений, текста в оттенки серого или в ч/б - A-PDF to Black White или Acrobat Pro + Quite A Box Of Tricks/ISI Toolbox
Извлечение растровых изображений из PDF
Заменить/удалить текст (batch есть), в т.ч. кириллицу (не панацея!) - PDF Replacer
Удалить текст без замены, в т.ч. кириллицу - PDF Text Deleter
Удалить растровые ватермарки - PDF Watermark Remover или PDF Logo Remover, в сложных случаях - Foxit PDF Editor с макросом, Acrobat Pro + Preflight, CallasPDF Toolbox
Удаление любых ватермарков - We PDF Watermark Remover
Как/чем узнать Свойства растровых изображений в PDF: битность, цвет, dpi/ppi, разрешение px, формат сжатия, размер mm, наличие маски и т.д. - 1, 2
Редактировать текст - PDF-XChange Editor, Acrobat Pro, FineReader 14 (не OCR-модуль) и новее, Infix PDF Editor, SoftMaker FlexiPDF, Foxit PDF Editor, PixelPlanet PdfEditor
Удалить или заменить часть текста или текстовые ватермарки - Acrobat Pro, A-PDF Text Replace
Конвертация PDF таблиц в Excel - PDF2XL (da best!)
Заменить цветное векторное изображение на серое - Acrobat Pro + Preflight
Растровый редактор и манипуляции с изображениями в PDF - Foxit PDF Editor и Acrobat Pro + ImageWorks из Crackerjack
Удалить/заменить/создать текстовый слой в PDF файле с помощью Acrobat Pro
Растеризовать pdf - Digitzone PDF Converters
Один из вариантов решения проблем с кракозябрами: видео (зеркало)
* - Quite Imposing Plus
 
 
Если вы задаете вопрос по поводу проблем с PDF файлами, обязательно выкладывайте небольшой пример (только не сотни метров!) такого файла. Это упростит задачу для желающих вам помочь и сделает обсуждение предметным.

Всего записей: 39721 | Зарегистр. 26-02-2002 | Отправлено: 08:59 05-04-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
los

Цитата:
в принципе, используя доп. программы в shell скрипте, можно отфильтровать еще кое-что из вашего списка

Да. Согласен. Меня в первую очередь интересует как отфильтровать pdf-файлы с поломанной UnicodeMap, но пока никакая простая программа (чтобы оставаться на уровне решения bat-файл-командная строка) не пришла в голову. Может у вас есть что-то на примете?

Всего записей: 1062 | Зарегистр. 04-11-2019 | Отправлено: 16:46 31-10-2025
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager, выложите пример, можно одну страницу. Лучше если есть несколько примеров.

Всего записей: 8010 | Зарегистр. 08-09-2001 | Отправлено: 17:09 31-10-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
jourmager
Меня в первую очередь интересует как отфильтровать pdf-файлы с поломанной UnicodeMap

а что, экспорт в текст и прочекать на орфографию - не канает? Вроде это недавно всплывало здесь или рядом.

Всего записей: 3645 | Зарегистр. 15-07-2010 | Отправлено: 21:25 31-10-2025
fbm

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Для отсева pdf с поломанными и мусорными кодировками я бы попробовал считать доли от символьного объема текста для слов (скажем, длиной в 5-15 символов), состоящих из латинских букв, и для слов из кириллических букв.

Всего записей: 202 | Зарегистр. 04-02-2006 | Отправлено: 02:31 01-11-2025 | Исправлено: fbm, 02:55 01-11-2025
Skif_off

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager
fbm
los
Т.е. дёргаем текст доступным способом, получилось - получилось, нет - нет?
 
fbm

Цитата:
есть утилита pdftohtml в составе Calibre

У них там вроде своя конвертилка, а имя напоминает утилиту из состава xpdf.
 
jourmager

Цитата:
- файлы с "техническим" текстом - например, текстовые ватермарки

Типа схемы с подписями, а не просто водяные знаки или как их там, которые можно вычислить, выдернув текст с нескольких страниц и сравнив?

Цитата:
Как по мне, то проще поставить Acrobat Pro + PitStop Server и написать пару строчек на ActionScript, чем ставить Python, изучить программированием на нём, поставить для него библиотеки (типа PyPDF) для обработки pdf и изучить их использование.

200+ у.е. в месяц Win-only против нескольких строк для Python? В моём случае проще в доки PyPDF заглянуть
 
fbm

Цитата:
Для отсева pdf с поломанными и мусорными кодировками я бы попробовал считать доли от символьного объема текста для слов (скажем, длиной в 5-15 символов), состоящих из латинских букв, и для слов из кириллических букв.

Т.е. брать непрерывные последовательности между разделителями слов и проверять, что внутри, например, заменив [A-Za-z]+ на ничего и смотреть, осталось ли что?

Всего записей: 6759 | Зарегистр. 28-01-2008 | Отправлено: 03:30 01-11-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
los

Цитата:
выложите пример, можно одну страницу. Лучше если есть несколько примеров

Архив с pdf-файлами и его копия на 7 дней для кого upload.ee нежелателен
Состав архива:
Подробнее...
Файлы по 1 странице. Извлечены PDF-XChange Editor.
Названия вроде самоговорящие, но если что будет непонятно - расскажу.
Acrobat_11 - это Акробат 11-й версии, FR12 - ФайнРидер 12-й версии
2 или 3 последние цифры - это номер страницы в оригинальном файле.
Постарался без ошибок, но все не без греха.
 
TelecomUral

Цитата:
а что, экспорт в текст и прочекать на орфографию - не канает? Вроде это недавно всплывало здесь или рядом

Прочекать орфографию утилитой командной строки? Какой и как?
 
Skif_off

Цитата:
Типа схем

Например, файл pdf из одних изображений. Нет ни векторного текста, ни распознанного слоя. Но некий доброжелатель при изготовлении этого pdf добавил на каждую страницу ссылки на свой доброжелательный сайт которые видны как текст и кликабельны. Т.е. в этом случае текст есть, его мало, и он бесполезен и даже вреден.
Иное дело альбомы с фотографиями или картинами с однострочными подписями под ними, также электронные и прочие схемы с подписями. Т.е. в этом случае текст есть, его мало, и он полезен.

Всего записей: 1062 | Зарегистр. 04-11-2019 | Отправлено: 03:47 01-11-2025 | Исправлено: jourmager, 04:07 01-11-2025
fbm

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Т.е. дёргаем текст доступным способом, получилось - получилось, нет - нет?

Или не получилось, или размер текста слишком небольшой. Бывает, что в нераспознанные растровые pdf добавляют какую-то текстовую ерунду, бывают смешанные pdf книг, где выходные данные - это векторные страницы, а основной блок - нераспознанный растр. Всякое бывает, поэтому универсальные рецепты здесь, как правило, не работают, и параметры обработки приходится подгонять по месту. Наберите статистику, и ориентируйтесь на нее.
 

Цитата:
У них там вроде своя конвертилка, а имя напоминает утилиту из состава xpdf.

Нет, это разные утилиты. Вторая, как я понял, в xml не умеет. А смысл xml у первой в том, что он несет всю сопутствующую тексту инфу, которая бывает очень полезна, если задача чуть сложнее, чем просто вытянуть голый текст.
 

Цитата:
Т.е. брать непрерывные последовательности между разделителями слов и проверять, что внутри, например, заменив [A-Za-z]+ на ничего и смотреть, осталось ли что?

Последовательно считываете строки, regexp'ом вытягиваете из каждой строки массив совпадений по заданной маске, найденные "слова" из строки убираете, и, наверное, вместе с разделителями при них. Или пользуйте функцию замены текста, понимающую regexp.
Сформулировать маску не возьмусь: это надо думать, потом тестировать.

Всего записей: 202 | Зарегистр. 04-02-2006 | Отправлено: 04:54 01-11-2025 | Исправлено: fbm, 04:59 01-11-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
jourmager
Прочекать орфографию утилитой командной строки? Какой и как?

не думал подробно.  
В голове была схемка: словарь hunspell (видел в составе Кромсатора) это список слов. Правда, со спецуказателями, вероятно окончаний и т.п. Прогнать слово из текста на вхождение в словарь с совпадением 80% букв. Повторить для 1-2% рандомных слов. Поймалось >50% - текст с правильной кодировкой. Меньше 10% - не тот язык либо не та кодировка. Всё что между - к ручному анализу.

Всего записей: 3645 | Зарегистр. 15-07-2010 | Отправлено: 06:25 01-11-2025
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Skif_off

Цитата:
Т.е. дёргаем текст доступным способом, получилось - получилось, нет - нет?  

можно выразиться и так.

Цитата:
У них там вроде своя конвертилка, а имя напоминает утилиту из состава xpdf.  

эта из пакета poppler, но сделана на базе pdftohtml из xpdf.
 
jourmager

Цитата:
Например, файл pdf из одних изображений. Нет ни векторного текста, ни распознанного слоя. Но некий доброжелатель при изготовлении этого pdf добавил на каждую страницу ссылки на свой доброжелательный сайт которые видны как текст и кликабельны. Т.е. в этом случае текст есть, его мало, и он бесполезен и даже вреден.

если речь все еще об опредлении наличия текста, то если pdftotext выводит для этих файлов www.example.com, то использование pdftotext file.pdf | sed 's/www\.example\.com//g' .... поможет отсеять эти файлы как не содержащие текст.
 
Для некоторых файлов из вашего архива вполне достаточно использовать любую удобную вам программу для определения кодировки текста, что бы определить "правильный" текст или нет.
примеры:
$ pdf2text OCR_russian_total_nonsense_by_Canon_30.pdf | uchardet
ASCII
 
$ pdf2text OCR_russian_question_mark_95.pdf | uchardet
BIG5
 
$ pdf2text OCR_good_russian_Acrobat_15_ClearScan_178.pdf | uchardet
UTF-8
 
$ pdf2text OCR_good_russian_FR11_45.pdf | uchardet
UTF-8

Всего записей: 8010 | Зарегистр. 08-09-2001 | Отправлено: 10:19 01-11-2025
useretail



Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
los

Цитата:
Можете сделать сами с помощью того же Ghostscript

так если файл был изменён раньше, то в чём претензия
такой он теперь есть - без шрифтов
 
Добавлено:
 
аналогичная ситуация и с файлом от jourmager - родной текст там присутствует только на третьей странице. на остальных текст в виде кривых, создан с помощью Ghostscript. именно поэтому он такой раздутый
 
Добавлено:
 
меня еще немного смущает суффикс _Optimized
или в этом и заключалась "оптимизация"?

Всего записей: 5236 | Зарегистр. 14-09-2007 | Отправлено: 15:11 01-11-2025 | Исправлено: useretail, 15:36 01-11-2025
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
useretail

Цитата:
так если файл был изменён раньше, то в чём претензия  

а кто вел речь о претензиях?

Всего записей: 8010 | Зарегистр. 08-09-2001 | Отправлено: 17:21 01-11-2025
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7

Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов (часть 2)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2025

LiteCoin: LgY72v35StJhV2xbt8CpxbQ9gFY6jwZ67r

Рейтинг.ru