Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183

Открыть новую тему     Написать ответ в эту тему

Skyer

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Редактирование PDF файлов

В этой теме обсуждается редактирование (обработка) PDF файлов, которые бывают трех типов:
- "True" or Real PDF - "настоящий" PDF с векторными текстом и графикой, возможны вставки растра
- Scanned PDF - растровая графика (скан или фото), помещенная в контейнер PDF
- Searchable PDF - растровая (скан или фото) графика с текстовым слоем
Подробнее о типах PDF: Types of PDFs, The 3 Types of PDFs You Need to Know About




Решение типичных задач по редактированию PDF

Обрезать страницы - Acrobat Pro (main app), QIP*/Imposal(plugins), VeryPDF Advanced PDF Page Cut
Разрезать страницы на части - VeryPDF Advanced PDF Page Crop, A-PDF Cut
Склеить страницы между собой - VeryPDF PDF Stitch, Acrobat Pro + QIP* or Imposal
Удалить или редактировать метаданные - BeCyPDFMetaEdit, Adept PDF Layout Changer
Изменить размеры страницы - Acrobat Pro + Evermap AutoPagex , A-PDF Page Master, Neevia PDFtoolbox,  
Измененить/исправить размер страниц с масштабированием содержимого
Изменить размеры страницы, изменить масштаб контента, сдвинуть контент, замаскировать часть страницы и многое другое - Acrobat Pro + Evermap AutoPagex
Исправить наклон страниц -  Acrobat Pro + Evermap AutoPagex/ISI Toolbox, A-PDF Deskew, A-PDF Scan Optimizer  
Наложить PDF на PDF, страницу поверх страницы (Overlay)
О технологии MRC с примерами - 1, 2
Работа с изображениями (подрезка, масштаб, сжать/растянуть) - Inkscape
Преобразование изображений, текста в оттенки серого или в ч/б - A-PDF to Black White или Acrobat Pro + Quite A Box Of Tricks/ISI Toolbox
Извлечение растровых изображений из PDF
Удалить текст без замены, в т.ч. кириллицу - PDF Text Deleter
Удалить растровые ватермарки - PDF Watermark Remover или PDF Logo Remover, в сложных случаях - Foxit PDF Editor с макросом, Acrobat Pro + Preflight, CallasPDF Toolbox
Удаление любых ватермарков - We PDF Watermark Remover
Как/чем узнать Свойства растровых изображений в PDF: битность, цвет, dpi/ppi, разрешение px, формат сжатия, размер mm, наличие маски и т.д. - 1, 2
Редактировать текст - PDF-XChange Editor, Acrobat Pro, FineReader 14 (не OCR-модуль) и новее, Infix PDF Editor, Foxit PDF Editor, PixelPlanet PdfEditor
Удалить или заменить часть текста или текстовые ватермарки - Acrobat Pro, A-PDF Text Replace
Конвертация PDF таблиц в Excel - PDF2XL (da best!)
Заменить цветное векторное изображение на серое - Acrobat Pro + Preflight
Растровый редактор и манипуляции с изображениями в PDF - Foxit PDF Editor и Acrobat Pro + ImageWorks из Crackerjack
Удалить/заменить/создать текстовый слой в PDF файле с помощью Acrobat Pro
Растеризовать pdf - Digitzone PDF Converters
Один из вариантов решения проблем с кракозябрами: видео (зеркало)
* - Quite Imposing Plus
 
 
Если вы задаете вопрос по поводу проблем с PDF файлами, обязательно выкладывайте небольшой пример (только не сотни метров!) такого файла. Это упростит задачу для желающих вам помочь и сделает обсуждение предметным.

Всего записей: 122 | Зарегистр. 01-06-2002 | Отправлено: 03:40 13-11-2005 | Исправлено: useretail, 17:00 11-02-2024
galina2000

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager
Спасибо за совет. Я в наиболее "тяжёлых" страницах просто растеризовала графику и удалила объекты за пределами страниц. Результат хороший.

Всего записей: 475 | Зарегистр. 21-08-2006 | Отправлено: 09:35 22-06-2023 | Исправлено: galina2000, 10:19 22-06-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
galina2000
Я получил уменьшение размера этого pdf с 156 МБ до 19 (19880897) МБ с помощью PDF-XChange Editor 9:
File -> Save as Optimized -> установить галочку только на разделе Discard User Data, остальные галочки убрать -> в разделе Discard User Data установить галочку только на пункте Discard private data of other applications, остальные галочки убрать -> Нажать ОК, подождать 10 сек, Вуаля.
 
Все изменения вы делаете на свой страх риск. Советчик не несёт никакой ответственности за потерю информации в файле, вызванной некорректной работой программы.

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 09:49 22-06-2023 | Исправлено: jourmager, 09:50 22-06-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
jourmager
Discard private data of other applications

а посмотреть до удаления, что это за хрень - возможно?

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 10:09 22-06-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
а посмотреть до удаления, что это за хрень - возможно?

Посмотреть вообще или в PDF-XChange Editor?
Оно работает иначе и немного через другое место.
В PDF-XChange Editor запускаем аудит занимаемого места, при котором буде выведен перечень из 18 типов объектов (images, fonts, bookmarks, x-forms ...), количество подобъектов в объектах, общий размер объекта и процентовку.
В данном файле среди прочего было выведено X Object Forms - 8543 - 138 MB - 92%
Стать на строке объекта , нажать ПКМ и увидеть что там внутри объекта, из чего он складывается -  нельзя.
Поэтому при первой оптимизации включаем вообще все опции, кроме явно противоречащих здравому смыслу и получаем на выходе в данном случае 15 МБ. Значит принципиально уменьшить можно. Проблема в том, что названия объектов при аудите и названия опций оптимизации почти не совпадают. Поэтому методом последовательного приближения и со здравым смыслом подбираем нужную опцию оптимизации, в данном случае Discard private data of other applications, что никак не похоже на X Object Forms в аудите.
 
Теоретически "что это за хрень" можно посмотреть в какому-нибудь низкоуровневом pdf-анализаторе внутренней структуры. Но зачем?
В данном случае избыточные 130 МБ - это скорее всего избыточная инфа после редактирования в InDesign. Что-то типа многократного пересохранения.

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 11:22 22-06-2023
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager say:

Цитата:
 
Посмотреть вообще или в PDF-XChange Editor?
 

А qpdf на данном "пациенте" ничего не даёт?
Можно попробовать еще pdfcook.

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 11:32 22-06-2023 | Исправлено: zvezdochiot, 11:36 22-06-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot
я не пробовал.
 
jourmager

Цитата:
можно посмотреть в какому-нибудь низкоуровневом pdf-анализаторе внутренней структуры. Но зачем?

затем, что меня всегда сильно смущала именно эта тема:

Цитата:
Проблема в том, что названия объектов при аудите и названия опций оптимизации почти не совпадают.

 
Я шёл таким же путём, "анализ заним. места", но не рискнул прощёлкивать галочки в поиске излишнего объёма. Книга непростая, графики, чертежи, то есть технически что-то важное, а удалено будет чёрт знает что именно. В результате в интернете сейчас находится (ну, почти - вы ж не опубликовали результат) потенциально ошибочная инфа. ... а потом у нас космические аппараты пропадают, не долетев до цели.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 11:45 22-06-2023
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral say:

Цитата:
 
а потом у нас космические аппараты пропадают, не долетев до цели.
 

Немного оффтопа..

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 11:56 22-06-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot

Цитата:
А qpdf на данном "пациенте" ничего не даёт? Можно попробовать еще pdfcook

qpdf.exe 1.pdf --object-streams=generate  out.pdf
qpdf.exe 1.pdf --linearize out.pdf
157 -> 149 МБ , т.е. ничего
Я не специалист по qpdf, так что если кто-то подскажет другие ключи - могу попробовать.
 
pdfcook вообще из другой оперы.
 
Попробовать можно много всего - Acrobat. Foxit, Nitro, Readiris, Orpalis - но это уже гонки за рекордом
 
TelecomUral

Цитата:
а удалено будет чёрт знает что именно

image=Состояние_крайнего_удивления.jpg
А сравнить до и после кто мешает?
 
И ещё. В данном случае (true pdf vs true pdf) сравнить до и после легко, а вот в других случаях...:
- ужасающее качество современного книгопечатания вас не смущает?
- отсутствие в большинстве случаев хоть каких-то "Список найденных опечаток" в самой книге или errata на веб-сайте вас не смущает?
- потенциальное искажение информации при конвертации в djvu вас не смущает?
- потенциальное искажение информации при OCR и последующее изготовление pdf, doc, rtf и пр. вас не смущает?
- потенциальное искажение информации при бинаризации изображений вас не смущает?
 
Никого ничего не удивляет в данном слове?

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 12:48 22-06-2023 | Исправлено: jourmager, 13:21 22-06-2023
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager say:

Цитата:
 
потенциальное искажение информации при конвертации в djvu вас не смущает?  
 

Не только djvu. В pdf при использовании JBIG2 на некоторых русских шрифтах (Ariel, по-моему) тоже полная опа происходит при использовании словарей. Причём опа гораздо худшая, чем в djvu. (и не пытайтесь "доказать" кодеру, что "и", "н" и "п" - это разные буквы).
 
 

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 12:56 22-06-2023 | Исправлено: zvezdochiot, 12:58 22-06-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot

Цитата:
В pdf при использовании JBIG2 на некоторых русских шрифтах

Хочу уточнить, что JBIG2 - это формат, или стандарт, а ссылку вы даёте на конкретный кодек https://github.com/agl/jbig2enc
Насколько я понимаю, JBIG2 может использоваться в 2 вариантах:
1) тупое бинаризированное изображение
2) продвинутое сжатие типа djvu, т.е. сегментация с использованием повторяющихся элементов изображения, где как раз возможны ошибки по типу djvu
 
К сожалению, нормальной программы с GUI для работы с JBIG2 нет (я такой не знаю), можно было бы сделать таковую на основе ScanKromsator, но её автор не любит pdf, увы.

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 13:14 22-06-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
zvezdochiot
В pdf при использовании JBIG2 на некоторых русских шрифтах (Ariel, по-моему) тоже полная опа происходит при использовании словарей

хоть один пример, плиз. Файл данных, результат и программа. А то я наслышан, но ни разу сам не встречал.
 

Цитата:
jourmager
А сравнить до и после кто мешает?

как? не глазами же. массовая операция с утратами.
 

Цитата:
jourmager
а вот в других случаях...

я говорю о конкретном преобразовании. "это - плохо".  
Скажем, сканер практически не добавляет искажений. Бинаризация - куда более опасна. Кодирование с потерями - ещё масштабнее. Но метод "бахнуть нечто по неизвестным условиям в мусорку" превосходит всё перечисленное

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 13:17 22-06-2023
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager say:

Цитата:
 
JBIG2 может использоваться в 2 вариантах
 

Нет-нет. Я говорил именно про монохромное кодирование JBIG2. У него тоже 2 варианта: монолитное и с межстраничными словарями. С первым нет проблем, а вот со вторым периодически вылазит описанная выше опа. Причём на любом DPI и с любым размером буков (на заголовках та же канитель). Такие вот дела.
 
TelecomUral say:

Цитата:
 
хоть один пример, плиз.  
 

Как столкнусь снова, обязательно сделаю образец такого поведения jbig2enc.

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 13:21 22-06-2023 | Исправлено: zvezdochiot, 13:28 22-06-2023
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А qpdf на данном "пациенте" ничего не даёт?

Ghostscript нормально справляется с этим файлом уменьшая его размер до ~19mb.

Всего записей: 7336 | Зарегистр. 08-09-2001 | Отправлено: 13:45 22-06-2023
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral say:

Цитата:
 
хоть один пример, плиз. Файл данных, результат и программа. А то я наслышан, но ни разу сам не встречал.  
 

 
Нашел в "закрамах Родины": Форум DWG.RU: Ваши сканы, наша обработка и перевод в DJVU. #3437. Исходник см. выше в том форуме. А прога jbig2enc (CLI aka console).

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 13:49 22-06-2023 | Исправлено: zvezdochiot, 13:55 22-06-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
zvezdochiot
Исходник см. выше в том форуме

не нашёл. какие-то мутные переписки насчёт плагинов к ФФ.
 
upd
впрочем, выше можно и джву найти, там ИНЬ не наблюдаю.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 13:57 22-06-2023 | Исправлено: TelecomUral, 13:59 22-06-2023
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral say:

Цитата:
 
не нашёл
 

Номер сообщения #3437. Можете [Ctrl]+[F] нажать и ввести в поиск номер, ежели простым пролистыванием не получается.

Цитата:
 
впрочем, выше можно и джву найти, там ИНЬ не наблюдаю
 

Так это и есть исходник.
 
PS: Там дальше в форуме есть примеры с постранично-монолитным кодированием этого же файла.

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 14:00 22-06-2023 | Исправлено: zvezdochiot, 14:07 22-06-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot
ага.
 
+
я-то думал, ошибки кодирования и в коммерческих прогах есть.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 14:14 22-06-2023
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral say:

Цитата:
 
я-то думал, ошибки кодирования и в коммерческих прогах есть.
 

Хз. Я в обработках Adobe словарей ни разу не встречал, только постранично-монолитное кодирование.  

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 14:17 22-06-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
А сравнить до и после кто мешает?
как? не глазами же

Что значит как? Программами. Acrobat, FineReader (Comparator), PDF-XChange Editor, diffpdf - это то, что я сходу вспомнил. Недостатки у них есть, но различия они отлавливают.

Цитата:
массовая операция с утратами.

С какими утратами? Утратами чего?
Информации, которую видит конечный пользователь? Не исключено, но это должно вылавливаться программами сравнения.  
Избыточной информации. которая осталась после многократного редактирования и пересохранения (как вариант)? Конечному пользователю глубоко все равно.

Цитата:
Скажем, сканер практически не добавляет искажений

Я аж чаем поперхнулся

Цитата:
Бинаризация - куда более опасна. Кодирование с потерями - ещё масштабнее.

Ну да. И проверить после бинаризации, кодирования с потерями, преобразованием в djvu - автоматически нельзя (в отличие от вышеприведенного случая), только ручная глазная вычитка. Но тем не менее куча народу бинаризирует, кодирует с потерями и делает djvu, положив на проверку точности.
Вообще-то автоматом проверить можно - OCR на обоих файлах, а потом сравнить тексты после OCR.
 

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 16:41 22-06-2023 | Исправлено: jourmager, 16:55 22-06-2023
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager say:

Цитата:
 
OCR на обоих файлах, а потом сравнить тексты после OCR.
 

Так OCR тоже порог применяет. Получается сравнение двух порогов? Что то в этом конечно есть: проще найти проблемные участки. Но не более того, автоматизировать - никак.

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 16:49 22-06-2023
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183

Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru