Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов (часть 2)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5

Открыть новую тему     Написать ответ в эту тему

Maz



Дед Мазай
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие части темы: часть 1

Редактирование PDF файлов

В этой теме обсуждается редактирование (обработка) PDF файлов, которые бывают трех типов:
- "True" or Real PDF - "настоящий" PDF с векторными текстом и графикой, возможны вставки растра
- Scanned PDF - растровая графика (скан или фото), помещенная в контейнер PDF
- Searchable PDF - растровая (скан или фото) графика с текстовым слоем
Подробнее о типах PDF: Types of PDFs, The 3 Types of PDFs You Need to Know About




Решение типичных задач по редактированию PDF

Обрезать страницы - Acrobat Pro (main app), QIP*/Imposal(plugins), VeryPDF Advanced PDF Page Cut
Разрезать страницы на части - VeryPDF Advanced PDF Page Crop, A-PDF Cut
Склеить страницы между собой - VeryPDF PDF Stitch, Acrobat Pro + QIP* or Imposal
Удалить или редактировать метаданные - BeCyPDFMetaEdit, Adept PDF Layout Changer
Изменить размеры страницы - Acrobat Pro + Evermap AutoPagex , A-PDF Page Master, Neevia PDFtoolbox,  
Измененить/исправить размер страниц с масштабированием содержимого
Изменить размеры страницы, изменить масштаб контента, сдвинуть контент, замаскировать часть страницы и многое другое - Acrobat Pro + Evermap AutoPagex
Исправить наклон страниц -  Acrobat Pro + Evermap AutoPagex/ISI Toolbox, A-PDF Deskew, A-PDF Scan Optimizer  
Наложить PDF на PDF, страницу поверх страницы (Overlay)
О технологии MRC с примерами - 1, 2
Работа с изображениями (подрезка, масштаб, сжать/растянуть) - Inkscape
Преобразование изображений, текста в оттенки серого или в ч/б - A-PDF to Black White или Acrobat Pro + Quite A Box Of Tricks/ISI Toolbox
Извлечение растровых изображений из PDF
Заменить/удалить текст (batch есть), в т.ч. кириллицу (не панацея!) - PDF Replacer
Удалить текст без замены, в т.ч. кириллицу - PDF Text Deleter
Удалить растровые ватермарки - PDF Watermark Remover или PDF Logo Remover, в сложных случаях - Foxit PDF Editor с макросом, Acrobat Pro + Preflight, CallasPDF Toolbox
Удаление любых ватермарков - We PDF Watermark Remover
Как/чем узнать Свойства растровых изображений в PDF: битность, цвет, dpi/ppi, разрешение px, формат сжатия, размер mm, наличие маски и т.д. - 1, 2
Редактировать текст - PDF-XChange Editor, Acrobat Pro, FineReader 14 (не OCR-модуль) и новее, Infix PDF Editor, SoftMaker FlexiPDF, Foxit PDF Editor, PixelPlanet PdfEditor
Удалить или заменить часть текста или текстовые ватермарки - Acrobat Pro, A-PDF Text Replace
Конвертация PDF таблиц в Excel - PDF2XL (da best!)
Заменить цветное векторное изображение на серое - Acrobat Pro + Preflight
Растровый редактор и манипуляции с изображениями в PDF - Foxit PDF Editor и Acrobat Pro + ImageWorks из Crackerjack
Удалить/заменить/создать текстовый слой в PDF файле с помощью Acrobat Pro
Растеризовать pdf - Digitzone PDF Converters
Один из вариантов решения проблем с кракозябрами: видео (зеркало)
* - Quite Imposing Plus
 
 
Если вы задаете вопрос по поводу проблем с PDF файлами, обязательно выкладывайте небольшой пример (только не сотни метров!) такого файла. Это упростит задачу для желающих вам помочь и сделает обсуждение предметным.

Всего записей: 39606 | Зарегистр. 26-02-2002 | Отправлено: 08:59 05-04-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager say:
Цитата:
как уменьшить размер этого "векторного" файла?

Какбы pdfsizeopt сумел ужать до 45М. Резюме лога:

Код:
 
info: saved 100862 bytes (26%) on optimizable images
info: optimized 137 streams, kept 28 uncompressed, 109 zip
info: eliminated 39 duplicate objs
info: compressed 12 streams, kept 0 of them uncompressed
info: saving PDF with 786 objs to: pso/Архитектура_100.pdf
info: generated object stream of 5018 bytes in 150 objects (6%)
info: generated 46161843 bytes (76%)
Архитектура_100.pdf
 

Но как вы заставите его работать под виндой? Хз.
 

Всего записей: 975 | Зарегистр. 18-05-2023 | Отправлено: 01:04 10-05-2025
romy



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager
О терминологии. Вы почему-то вектор называете "cdr и ai", и отсюда у вас следует что вектор в pdf хранить нельзя, ведь вектор — это не сdr и ai (справедливо, это же форматы файлов). А изображения в pdf хранить можно, потому что это jpeg, jpeg2000, и прочие, но, внезапно, не cpt и psd (как можно было ожидать, в случае с изображениями мы уже говорим о стандартах сжатия, а не о расширении, формате файлов). Но, мы таки пришли к выводу что векторные объекты path, shape хранить в pdf можно, собственно — всё.
 
Насчёт примера "векторного" файла с архитектурой не понял. Почему он должен быть векторным? Там на каждой странице 70% занято фотографиями. Очевидно, здесь страницы целиком как картинки будут оптимальным вариантом. Наверное, имея доступ к исходному макету или терпение — переверстать этот макет, пересобрать его и напечатать новый pdf — можно было бы добиться лучшего соотношения размер/качество. Но, в любом случае, из вектора в книге — разве что декоративные линии. Текст — это не вектор, если он только в него намеренно не превращён.

Всего записей: 554 | Зарегистр. 19-02-2006 | Отправлено: 02:04 10-05-2025 | Исправлено: romy, 02:14 10-05-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
jourmager
Вопрос - как уменьшить размер этого "векторного" файла?

вроде в прошлом году здесь демонстрировали инструмент из какого-то пакета, он умеет восстановить букву из векторных примитивов.

Всего записей: 3602 | Зарегистр. 15-07-2010 | Отправлено: 13:00 10-05-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot

Цитата:
Какбы pdfsizeopt сумел ужать до 45М

Спасибо. Экономия 25%. При использовании PDF-XChange Editor с настройкой Optimize PDF -> Cleanup -> Optimize Page Content получается аналогично. Как ни странно, Adobe Acrobat 22 сжать этот файл не смог. На полном файле получилось сжать с 292 МБ до 246 МБ.
 
Программа pdfsizeopt сработала хорошо, но использование программы CLI с полусотней возможных настроек - это та ещё задачка. И под Windows - pdfizeopt is a Python script. It works with Python 2.4, 2.5, 2.6 and 2.7 (but it doesn't work with Python 3.x). So please install Python first. Т.е. нужен Python, причём 2-й версии. Не первый раз наблюдаю, что в 202х годах продолжают использовать 2-й Пайтон, который закрыли в 2008-2010. Ну зачем?
 
romy

Цитата:
Вы почему-то вектор называете "cdr и ai"

Я НЕ называю вектор "cdr и ai". Не читайте между строк, а читайте то, что написано. Я же написал: "изображения в векторных форматах типа кореловского cdr или иллюстраторского ai нельзя использовать внутри pdf-контейнера (файла)"

Цитата:
у вас следует что вектор в pdf хранить нельзя

Откуда вы это взяли? Я же написал: "Внутри pdf можно хранить векторные объекты типа path и shape"
 
Напоминаю, что весь сыр-бор начался из-за того, что мембер, который занимается ИМХО нужным и полезным делом как оптимизация pdf с уменьшением размера файла, удалением "мусора", добавлением закладок, высказался странным (для человека, который занимается оптимизацией pdf) образом про форматы файлов jpeg2000 и jbig2, которые являются неотъемлемой частью pdf-стандарта, написав про них "В сортах дерьма не разбираюсь". Чем вызвал непонимание моё и некоторых других членов сообщества. И потом зачем-то упомянул про свою работу с векторными форматами файлов 20 лет назад. Чёрт его дёрнул за язык  клавиатуру. И понеслось.
 

Цитата:
Почему он должен быть векторным? ...
из вектора в книге — разве что декоративные линии. Текст — это не вектор, если он только в него намеренно не превращён

Насколько я мог видеть, там каждый символ (буква, цифра) - это векторный элемент path.
 

Цитата:
Там на каждой странице 70% занято фотографиями
 
Я же написал про фото: "Иллюстрации там в основном jpg 150 dpi medium quality, так что сжимать изображения там уже некуда. Их общий размер около 25 МБ"
25 МБ от 60 МБ это никак не 70%. Не смотрите на площадь, а смотрите на Audit Space.  
 

Цитата:
Очевидно, здесь страницы целиком как картинки будут оптимальным вариантом

Ещё раз, я не теоретик, я практик. Данный файл после растеризации в jpeg 300 dpi high quality получился 75 МБ вместо исходных 60 МБ. Заниматься выделением текстовых областей и переводом их в 1-битный jbig2 или CCITT4 лично у меня желания и времени нет. Если есть желающий обработать эту книгу в СканТейлоре или в СканКромсаторе с удовольствием предоставлю полную книгу и посмотрю на результат. Даже в djvu.
 
Добавлено:
TelecomUral

Цитата:
вроде в прошлом году здесь демонстрировали инструмент из какого-то пакета, он умеет восстановить букву из векторных примитивов

Спасибо, поищу.
ФайнРидер на этом "векторном" тексте выдал слишком большое количество ошибок распознавания для такого качественного источника.

Всего записей: 1012 | Зарегистр. 04-11-2019 | Отправлено: 14:36 10-05-2025 | Исправлено: jourmager, 14:55 10-05-2025
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager,
cpdf -squeeze Архитектура_100.pdf -o file.pdf
Initial file size is 60476857 bytes
...
Final file size is 47447944 bytes, 78.46% of original.

Всего записей: 7944 | Зарегистр. 08-09-2001 | Отправлено: 23:47 10-05-2025
www_world

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager
https://workupload.com/file/uQCPhPk3DvA
PDFXEdit10 (Save as Optimized...)
Архитектура_100_Optimized2.pdf
42 499 010 bytes (70.27%)
 
Вообще говоря, это не предел. Все зависит от цели. По сути вопрос сводится к дилемме - требуемый размер или lossless? Многим кажется ответ очевиден. Но практика показывает, что в большинстве случаев это не так. Особенно на фоне заваленного интернета конкретно убитыми пдф, в том числе и в данной теме. Тогда как изначально пожертвовав качеством в разумных пределах в угоду размеру можно было получить вполне себе неплохие пдф, отличающиеся от убитых (какбы "маленьких") в 2 или менее раза (но при этом с коллосальной разницей в качестве).
 
Например, более чем двухкратное уменьшение размера при некоторых жертвах в качестве
https://workupload.com/file/MHJHH9TpJVn
Очевидно, что это вполне интернет-презентабельно.
 

Всего записей: 633 | Зарегистр. 04-11-2018 | Отправлено: 00:58 11-05-2025 | Исправлено: www_world, 02:37 11-05-2025
KChernov



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot
Цитата:
Но как вы заставите его работать под виндой? Хз.
Вообще по ссылке есть инструкция по использованию под Вин. Или там какой нюанс есть?
 
 
romy
Цитата:
Но, в любом случае, из вектора в книге — разве что декоративные линии
Ну как минимум ещё и диаграммы (и всякая подобная графика) и рисунки не в фотокачестве
 
 
jourmager
Цитата:
Не первый раз наблюдаю, что в 202х годах продолжают использовать 2-й Пайтон, который закрыли в 2008-2010. Ну зачем?  
Очевидно, что изначально проект делался под Питон2, а для переноса возможности видимо нет (опять же зачем, если всё и так работает, да и проект может ужи и особо не развиваться)

Цитата:
И потом зачем-то упомянул про свою работу с векторными форматами файлов 20 лет назад
Не особо слежу за этой областью, но неужели за 20 лет векторные форматы никак не прогрессировали (а может даже и деградировали)?

Всего записей: 2774 | Зарегистр. 20-04-2004 | Отправлено: 20:54 11-05-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
KChernov say:
Цитата:
есть инструкция по использованию под Вин

"Не говори ГОП..."

Всего записей: 975 | Зарегистр. 18-05-2023 | Отправлено: 10:55 12-05-2025
VasRoman

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Подскажите пожалуйста быстрый способ добавления в pdf-файлы первой страницы и далее удаление 2-ой страницы.  
Есть многостраничные pdf(название а.pdf, b.pdf) и страницы которые нужно добавить титульной страницей (а_p1.pdf, b_p1.pdf) и после удалить вторую страницу. Трудность состоит в количестве файлов.

Всего записей: 177 | Зарегистр. 02-10-2012 | Отправлено: 11:49 05-06-2025
KChernov



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
VasRoman
Цитата:
Подскажите пожалуйста быстрый способ добавления в pdf-файлы первой страницы и далее удаление 2-ой страницы.  
Есть многостраничные pdf(название а.pdf, b.pdf) и страницы которые нужно добавить титульной страницей (а_p1.pdf, b_p1.pdf) и после удалить вторую страницу. Трудность состоит в количестве файлов.
Под линукс точно что-то консольное было, что можно заскриптовать

Всего записей: 2774 | Зарегистр. 20-04-2004 | Отправлено: 12:21 05-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
VasRoman say:
Цитата:
добавления в pdf-файлы первой страницы и далее удаление 2-ой страницы.

Собственно, qpdf (CLI): How to Utilize 'qpdf' Command for PDF Manipulation (with examples).

Всего записей: 975 | Зарегистр. 18-05-2023 | Отправлено: 12:42 05-06-2025
VasRoman

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot
Спасибо в coherent pdf попробовал склеить - норм. А вот как удалить конкретно 2-ю страницу пока не получается.
 
Upd. Получилось и удалить страничку.

Всего записей: 177 | Зарегистр. 02-10-2012 | Отправлено: 13:55 05-06-2025 | Исправлено: VasRoman, 14:06 05-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
VasRoman say:
Цитата:
А вот как удалить конкретно 2-ю страницу пока не получается.

Так не "удалять" надо. Такого действия вообще нигде нету. Есть только склеить список страниц, в котором "удаляемые" страницы отсутствуют. Например:

Код:
 
qpdf --empty --pages path/to/input.pdf 1,3-z -- path/to/output.pdf
 

Всего записей: 975 | Зарегистр. 18-05-2023 | Отправлено: 14:07 05-06-2025 | Исправлено: zvezdochiot, 14:14 05-06-2025
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Так не "удалять" надо. Такого действия вообще нигде нету.  

Больше вопрос формулировок. Удалить вторую страницу.
pagemaster -r file.pdf,2

Всего записей: 7944 | Зарегистр. 08-09-2001 | Отправлено: 16:17 05-06-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
los
 Удалить вторую страницу.

вот! я же помнил, что где-то видел команду именно удаления. и неоднократно.

Всего записей: 3602 | Зарегистр. 15-07-2010 | Отправлено: 16:40 05-06-2025
medvedik

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А есть ли программа, которая показывает, что pdf searchable, т.е. имеется текстовый слой? Идеально, если из командной строки.

Всего записей: 969 | Зарегистр. 18-11-2005 | Отправлено: 17:22 20-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
medvedik say:
Цитата:
имеется текстовый слой? Идеально, если из командной строки.

pdftotext из poppler-utils.

Всего записей: 975 | Зарегистр. 18-05-2023 | Отправлено: 18:42 20-06-2025 | Исправлено: zvezdochiot, 18:42 20-06-2025
medvedik

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot
 
Он ничего не говорит про слои, только пытается извлечь текст, дпже если его нет. Т.е. надо после смотреть на размер созданного текстового файла. Не очень удобно.

Всего записей: 969 | Зарегистр. 18-11-2005 | Отправлено: 23:51 22-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
medvedik say:
Цитата:
Он ничего не говорит про слои

Я не знаю такого объекта PDF, как "слои". Где вы нашли его описание? Именно как объекта PDF?

Всего записей: 975 | Зарегистр. 18-05-2023 | Отправлено: 06:10 23-06-2025 | Исправлено: zvezdochiot, 06:13 23-06-2025
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
medvedik, используйте простенький скрипт по примеру
pdftotext file.pdf - | grep -q .
правда будет выводится не только ocr, но и другой текст.

Всего записей: 7944 | Зарегистр. 08-09-2001 | Отправлено: 16:04 23-06-2025
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5

Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов (часть 2)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2025

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru