Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192

Открыть новую тему     Написать ответ в эту тему

Skyer

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Редактирование PDF файлов

В этой теме обсуждается редактирование (обработка) PDF файлов, которые бывают трех типов:
- "True" or Real PDF - "настоящий" PDF с векторными текстом и графикой, возможны вставки растра
- Scanned PDF - растровая графика (скан или фото), помещенная в контейнер PDF
- Searchable PDF - растровая (скан или фото) графика с текстовым слоем
Подробнее о типах PDF: Types of PDFs, The 3 Types of PDFs You Need to Know About




Решение типичных задач по редактированию PDF

Обрезать страницы - Acrobat Pro (main app), QIP*/Imposal(plugins), VeryPDF Advanced PDF Page Cut
Разрезать страницы на части - VeryPDF Advanced PDF Page Crop, A-PDF Cut
Склеить страницы между собой - VeryPDF PDF Stitch, Acrobat Pro + QIP* or Imposal
Удалить или редактировать метаданные - BeCyPDFMetaEdit, Adept PDF Layout Changer
Изменить размеры страницы - Acrobat Pro + Evermap AutoPagex , A-PDF Page Master, Neevia PDFtoolbox,  
Измененить/исправить размер страниц с масштабированием содержимого
Изменить размеры страницы, изменить масштаб контента, сдвинуть контент, замаскировать часть страницы и многое другое - Acrobat Pro + Evermap AutoPagex
Исправить наклон страниц -  Acrobat Pro + Evermap AutoPagex/ISI Toolbox, A-PDF Deskew, A-PDF Scan Optimizer  
Наложить PDF на PDF, страницу поверх страницы (Overlay)
О технологии MRC с примерами - 1, 2
Работа с изображениями (подрезка, масштаб, сжать/растянуть) - Inkscape
Преобразование изображений, текста в оттенки серого или в ч/б - A-PDF to Black White или Acrobat Pro + Quite A Box Of Tricks/ISI Toolbox
Извлечение растровых изображений из PDF
Заменить/удалить текст (batch есть), в т.ч. кириллицу (не панацея!) - PDF Replacer
Удалить текст без замены, в т.ч. кириллицу - PDF Text Deleter
Удалить растровые ватермарки - PDF Watermark Remover или PDF Logo Remover, в сложных случаях - Foxit PDF Editor с макросом, Acrobat Pro + Preflight, CallasPDF Toolbox
Удаление любых ватермарков - We PDF Watermark Remover
Как/чем узнать Свойства растровых изображений в PDF: битность, цвет, dpi/ppi, разрешение px, формат сжатия, размер mm, наличие маски и т.д. - 1, 2
Редактировать текст - PDF-XChange Editor, Acrobat Pro, FineReader 14 (не OCR-модуль) и новее, Infix PDF Editor, Foxit PDF Editor, PixelPlanet PdfEditor
Удалить или заменить часть текста или текстовые ватермарки - Acrobat Pro, A-PDF Text Replace
Конвертация PDF таблиц в Excel - PDF2XL (da best!)
Заменить цветное векторное изображение на серое - Acrobat Pro + Preflight
Растровый редактор и манипуляции с изображениями в PDF - Foxit PDF Editor и Acrobat Pro + ImageWorks из Crackerjack
Удалить/заменить/создать текстовый слой в PDF файле с помощью Acrobat Pro
Растеризовать pdf - Digitzone PDF Converters
Один из вариантов решения проблем с кракозябрами: видео (зеркало)
* - Quite Imposing Plus
 
 
Если вы задаете вопрос по поводу проблем с PDF файлами, обязательно выкладывайте небольшой пример (только не сотни метров!) такого файла. Это упростит задачу для желающих вам помочь и сделает обсуждение предметным.

Всего записей: 122 | Зарегистр. 01-06-2002 | Отправлено: 03:40 13-11-2005 | Исправлено: 73, 09:51 29-08-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
los
есть пример подобного файла у которого проблемы

перед глазами нет. Но я пару раз разбирался с файлами от slava_kry, так вот он влегкую так перекурочивает внутреннюю структуру уже вроде бы вполне приемлемого пдф в InDesign, что бедный СканКромсатор в принципе прожевать (импортировать) изготовленное не может. Возникают наслоения, маски, компрессии, сдвиги пропорций, новые цветовые пространства и чёрти-что ещё. А для slava_kry это по-прежнему обычный пдф, можно публиковать.

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 22:00 27-02-2023
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Добавил в шапку:
Измененить/исправить размер страниц с масштабированием содержимого.
Как/чем узнать Свойства растровых изображений.

Всего записей: 2797 | Зарегистр. 31-05-2010 | Отправлено: 16:10 28-02-2023
Andrea



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Как/чем узнать Свойства растровых изображений
Есть ещё одна интересная утилита. PDFPageSelect - программа для получения информации о pdf-файлах (размер, цветность и ориентация страниц, параметры изображений)

Всего записей: 1206 | Зарегистр. 24-12-2015 | Отправлено: 16:28 28-02-2023
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Andrea

Цитата:
Есть ещё одна интересная утилита. PDFPageSelect

Кривая программа.  
Натравил ее на пдф, говорит, что все страницы цветные.
В СК вытаскиваю пустую страницу из нее, оказывается 1бит.
Размеры тоже отличаются.

Всего записей: 7189 | Зарегистр. 14-01-2005 | Отправлено: 00:25 01-03-2023 | Исправлено: shch_vg, 00:53 01-03-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
У меня чудеса какие-то.
Для Windows - pdfimages из poppler работает, а из xpdf - нет
pdfimages -list file.pdf > list.txt
после такой команды выводится только перечень опций из хелпа и всё.
такое впечатление, что команда -list вообще не распознается в pdfimages 4.04 из xpdf. А бинарников old versions для винды на xpdf я не нашел.  
Andrea

Цитата:
Есть ещё одна интересная утилита. PDFPageSelect - программа для получения информации о pdf-файлах (размер, цветность и ориентация страниц, параметры изображений)

Спасибо. Лично для меня у этой программы обнаружились интересные возможности:
1) показывается отдельно какие страницы имеют какой размер, например:
Неизвестный формат 138x206:
2,423
Неизвестный формат 137x206:
1,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17, ...
2) можно обрабатывать сразу много файлов


shch_vg

Цитата:
Кривая программа

Спасибо. Благодаря вам обнаружился глюк у программы PDFPageSelect.  
Как только программа определяет какое-либо изображение как цветное, то и все последующие она определит как цветные, даже если они 1-битные. т.е. нецветные.
После нецветных изображений цветные определяются правильно.
Ну и размеры страниц округляются до целых мм.
Вообще-то версия программы 0.2.2, что как бы намекает.

Всего записей: 832 | Зарегистр. 04-11-2019 | Отправлено: 01:12 01-03-2023 | Исправлено: jourmager, 02:07 01-03-2023
toR_nado



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
pdfimages -list file.pdf > list.txt
после такой команды выводится только перечень опций из хелпа и всё.  

Смотри внимательней хелп, правильно вот так:
pdfimages [options] <PDF-file> <image-root>
Как по мне  poppler намного функциональней  xpdf, хоть и являеться его модом для линех.
Сравни list-инги полученные в этих прогах и реши сам.
Мой вариант. Перетащить PDF на батник:

Цитата:
if not exist "%~N1"\ md "%~N1"
pdfimages -list -raw %1 "%~N1/img" > "%~N1_img_list.txt"


Цитата:
Для Windows - pdfimages из poppler работает, а из xpdf - нет

Может тебя и устраивает старая х32 версия, но я предпочитаю х64.

Всего записей: 316 | Зарегистр. 20-05-2006 | Отправлено: 02:31 01-03-2023 | Исправлено: toR_nado, 02:33 01-03-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
вот, на покувыркаться с излишним объёмом  
http://publ.lib.ru/cgi/forum/YaBB.pl?num=1589353331/212#212
 
400 метров!! с ума посходили. Модем на 9600 забыли
 
 
UPD
 
я забыл саму задачу: как/чем проанализировать, что сколько места занимает и насколько это оправдано.

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 09:45 01-03-2023 | Исправлено: TelecomUral, 09:52 01-03-2023
KPGA

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
вот, на покувыркаться с излишним объёмом  

 Раритетную книгу  Л.Броуди  "Начальный курс программирования на языке Форт" (pdf - 197 Мб, djvu - 15.2 Мб)
 сервис WebArxive с помощью   ещё  ABBYY FineReader 11.0 (Extended OCR)
 не смог сделать маленькой, даже удивительно.
 
 P.S. Вероятно что то сбойнуло при конвертации из DJVU.
 Сейчас, вроде, Webarxive перешёл на использование не проприентарного решения - Tesseract OCR.
 
 Интересно как такое с этой книгой могло получиться?

Всего записей: 193 | Зарегистр. 04-10-2018 | Отправлено: 12:28 01-03-2023 | Исправлено: KPGA, 12:30 01-03-2023
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
я забыл саму задачу: как/чем проанализировать

чем удобнее, если файл собран без ошибок и т.п. то основной объем это картинки и встроенные шрифты. Получить общий размер всех картинок в pdf несложно при помощи pdfimages, pdfoptimize и т.п.
 

Цитата:
и насколько это оправдано.

Если дело именно в картинках, то насколько оправдано оставлять именной такой их размер каждый решает исходя из потребностей.

Всего записей: 7741 | Зарегистр. 08-09-2001 | Отправлено: 14:00 01-03-2023
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
KPGA

Цитата:
 Раритетную книгу  Л.Броуди  "Начальный курс программирования на языке Форт" (pdf - 197 Мб, djvu - 15.2 Мб)

Выложите djvu, т.к. при попытке скачать его выдается "A Java Enabled browser is required to view this page."

Всего записей: 7189 | Зарегистр. 14-01-2005 | Отправлено: 14:18 01-03-2023
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg,
https://archive.org/download/broudi_l_nachal_nyy_kurs_programmirovaniya_na_yazyke_fort

Всего записей: 7741 | Зарегистр. 08-09-2001 | Отправлено: 14:19 01-03-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
400 метров!! с ума посходили. Модем на 9600 забыли  
как/чем проанализировать, что сколько места занимает и насколько это оправдано.

1) Анализ - PDF-XChange Pro (Editor Plus) 9
Save as Optimize -> Audit Space Usage
В данном файле 99.63% - это Images
pdfimages -list filename.pdf > images.txt (pdfimages by poppler)
смотрим images.txt и видим, что все изображения - это одинаковые jpg 3873x5178, 24 bit, 600 dpi
Быстро пролистываем в SumatraPDF и видим, что все страницы "черно-белые", или вернее, в градациях серого, кроме передней и задней обложки
Ага!
2) Для теста находим пару характерных страниц с вертикально-горизонтально-ориентированными графиками, градиентами серого, формулами с над/под-строчными индексами, петитом и т.д.
Экспортируем эти страницы в  отдельный файл , чтобы было быстрее (5 страниц и 5 МБ легче, чем 400 стр и 400 МБ) PDF-XCh -> Organize -> Extract pages и экспериментируем
3) Эксперимент №1:
PDF-XCh -> Save as Optimize -> Images -> Bicubic Downsampling to 300 dpi , Compression JPEG  Maximum - Получаем меньше в 2 раза
Потом 150 dpi , Medium = не-а
Потом 300 dpi , Medium = OK
Запускаем на оптимизацию весь файл. Через 5 минут смотрим на получившийся размер 100 МБ, вместо 400 МБ.
4) Эксперимент №2
FineReader 15 -> Открыть PDF-документ  
Маленький тестовый файл открылся в Файнридере.
Файл -> Сохранить как -> PDF-документ -> В окне "Сохранить как" выбираем нужный язык и тип "PDF с возможностью поиска" -> Настройки -> Качество изображений высокое, MRC включено, Текст под изображением страницы
Получаем примерно по 100 килобайт на страницу вместо 1 МБ. Радуемся.
Но недолго. Открываем PDF-XCh, смотрим получившиеся изображения через Content -> Image -> Recompress Image и убеждаемся, что автосегментатор FineReader-а ИМХО лажает.
Начинаем танцы с ручным разделением Картинка - Текст
На выходе получаем все те же 100 килобайт, но уже с гордостью за качество.
3) Эксперимент №3
Запускаем jpegtran. На выходе получаем меньший на 20% размер при тех же 600 dpi. Lossless
Запускаем jpeg-recompress. На выходе получаем вдвое меньший размер при тех же 600 dpi. Loss 1%
4) Сравниваем исходный и получившийся файл в любом просмотрщике с одновременным синхронным пролистыванием 2 pdf-файлов с вертикальным, а потом с горизонтальным разделением.
 
Короче.
Исходный файл - внутри jpg 600 dpi с градациями серого.  
Быстрее всего с помощью любого PDF-редактора сохранить "оптимизированный" вариант в 300 dpi, качество среднее, получаем уменьшение размера в 4 раза, экономия 300 МБ.
Или экспериментировать с PDF MRC и получить 40 МБ а не 400 (и не 100) - в автомате это будет минут 20.
Возможность сохранять PDF с MRC сейчас есть у всех серьезных PDF-редакторов, но алгоритм работы (автосегментация и подбор параметров изображения типа dpi) у всех разный. Поэтому на разных файлах может быть разное качество и разная оптимальная программа
 
 
 
 
Добавлено:
KPGA

Цитата:
сервис WebArxive с помощью   ещё  ABBYY FineReader 11.0 (Extended OCR)
 не смог сделать маленькой, даже удивительно.

Это не FineReader, а LuraDocument (PDF Compressor) - внутренний инструмент Internet Archive (archive_org). Сейчас они его на что-то поменяли, т.к. самой LuraTech уже нет, они вошли в Foxit.
А внутри обычные тормознутые jpeg2000 с слонячими размерами в пикселях. Все криво, косо, и никому не нужно. Скукота.
P.S. PDF-Xch -> Save as optimize -> greyscale 300 dpi medium = 200 МБ -> 80 МБ Вуаля. А перед этим размеры страниц и dpi привести в порядок.
P.P.S. FineReader -> MRC -> 44 MB, 15 minutes

Всего записей: 832 | Зарегистр. 04-11-2019 | Отправлено: 14:21 01-03-2023 | Исправлено: jourmager, 15:59 01-03-2023
KPGA

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Познавательная статья от 2011 г.
Как технология MRC уменьшает размер PDF-документов
 
Добавлено:

Цитата:
Выложите djvu, т.к. при попытке скачать его выдается "A Java Enabled browser is required to view this page."

 В i-net ещё находится один djvu файл скана этой книги с бардовой обложкой, но тоже не лучшего качества,
 но меньшего размера Broudi_Nachalnyi_kurs_programmirovaniya_na_yazyke_Fort.djvu

Всего записей: 193 | Зарегистр. 04-10-2018 | Отправлено: 16:23 01-03-2023 | Исправлено: KPGA, 16:34 01-03-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager
благодарю, глянул результат pdfimages.
 
Основная мысль, которую удалось зафиксировать - нихрена изготовитель дежав...пдфки не расслаивал. Определил, что оставить в сером, обработал чб как чб, но не отделил серое от чб при кодировании.  
Ну и вторая - что MRC лажает. Это slava_kry ещё лет пять назад сказал.
 
Если честно, метод пролистывания images.txt мне не нравится. Неужто ничего более умного нет? Хоть по-страничного анализа, а не в целом по файлу.

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 16:38 01-03-2023 | Исправлено: TelecomUral, 16:50 01-03-2023
trion1

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg
Цитата:
Выложите djvu, т.к. при попытке скачать его выдается "A Java Enabled browser is required to view this page."
https://mir.cr/0MYSTQLT
 
djvu c archive.org

Всего записей: 2034 | Зарегистр. 15-03-2006 | Отправлено: 16:43 01-03-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
В i-net ещё находится один djvu файл скана этой книги

...и у меня в личном архиве просто скан. А то может кто соберётся её хорошо сделать.

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 16:49 01-03-2023
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Если честно, метод пролистывания images.txt мне не нравится. Неужто ничего более умного нет? Хоть по-страничного анализа, а не в целом по файлу.

выводить в текстовый файл не обязательно. Команда
pdfimages -f 1 -l 2 -list foo.pdf
выведет информацию для первой и второй страниц.
 
Можно использовать 'pdfoptimize -li foo.pdf'
вывод будет получен в формате csv. Плюс более точно отображается размер что удобно при суммировании и т.п.

Всего записей: 7741 | Зарегистр. 08-09-2001 | Отправлено: 16:58 01-03-2023
KPGA

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
...и у меня в личном архиве просто скан. А то может кто соберётся её хорошо сделать.

 В подправленом английском  издании выложенным в свободное использование Цветные изображения.
 
P.S. Жаль, что в своё время, вторую книгу по Форт от Броуди хоть и перевели, но не издали,
и её уже кто то сам впоследствии перевёл самостоятельно, а о Форт в СССР на изломе перестроечных лет и  
событий быстро забыли, хотя уже и аппаратные Форт процессоры начали изготавливать.  
 
Хорошо ещё, что  Форт не стал потерянным языком и находит своё применение в разных ипостасях,
а не только для Embedded программирования.  
 
На Форт язык есть и стандарты ANSI и ISO, а также стандарт OpenBoot (открытых загрузчиков)
Российского стандарта на Форт язык нет и непонятно появится ли вообще и в каком содержании гипотетически.

Всего записей: 193 | Зарегистр. 04-10-2018 | Отправлено: 17:02 01-03-2023 | Исправлено: KPGA, 17:12 01-03-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
los
нет такой прожки в составе xpdf и poppler

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 17:07 01-03-2023
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
KPGA
Книга Броуди в пдф (14,8 МБ), полученная распознаванием в ФР15 дежавю с использованием технологии MRC и сохраненная в пдф.
 
Обработанный тем же способом пдф получается на выходе из ФР размером 90мб.

Всего записей: 7189 | Зарегистр. 14-01-2005 | Отправлено: 17:34 01-03-2023 | Исправлено: shch_vg, 18:06 01-03-2023
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192

Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru