Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192

Открыть новую тему     Написать ответ в эту тему

Skyer

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Редактирование PDF файлов

В этой теме обсуждается редактирование (обработка) PDF файлов, которые бывают трех типов:
- "True" or Real PDF - "настоящий" PDF с векторными текстом и графикой, возможны вставки растра
- Scanned PDF - растровая графика (скан или фото), помещенная в контейнер PDF
- Searchable PDF - растровая (скан или фото) графика с текстовым слоем
Подробнее о типах PDF: Types of PDFs, The 3 Types of PDFs You Need to Know About




Решение типичных задач по редактированию PDF

Обрезать страницы - Acrobat Pro (main app), QIP*/Imposal(plugins), VeryPDF Advanced PDF Page Cut
Разрезать страницы на части - VeryPDF Advanced PDF Page Crop, A-PDF Cut
Склеить страницы между собой - VeryPDF PDF Stitch, Acrobat Pro + QIP* or Imposal
Удалить или редактировать метаданные - BeCyPDFMetaEdit, Adept PDF Layout Changer
Изменить размеры страницы - Acrobat Pro + Evermap AutoPagex , A-PDF Page Master, Neevia PDFtoolbox,  
Измененить/исправить размер страниц с масштабированием содержимого
Изменить размеры страницы, изменить масштаб контента, сдвинуть контент, замаскировать часть страницы и многое другое - Acrobat Pro + Evermap AutoPagex
Исправить наклон страниц -  Acrobat Pro + Evermap AutoPagex/ISI Toolbox, A-PDF Deskew, A-PDF Scan Optimizer  
Наложить PDF на PDF, страницу поверх страницы (Overlay)
О технологии MRC с примерами - 1, 2
Работа с изображениями (подрезка, масштаб, сжать/растянуть) - Inkscape
Преобразование изображений, текста в оттенки серого или в ч/б - A-PDF to Black White или Acrobat Pro + Quite A Box Of Tricks/ISI Toolbox
Извлечение растровых изображений из PDF
Заменить/удалить текст (batch есть), в т.ч. кириллицу (не панацея!) - PDF Replacer
Удалить текст без замены, в т.ч. кириллицу - PDF Text Deleter
Удалить растровые ватермарки - PDF Watermark Remover или PDF Logo Remover, в сложных случаях - Foxit PDF Editor с макросом, Acrobat Pro + Preflight, CallasPDF Toolbox
Удаление любых ватермарков - We PDF Watermark Remover
Как/чем узнать Свойства растровых изображений в PDF: битность, цвет, dpi/ppi, разрешение px, формат сжатия, размер mm, наличие маски и т.д. - 1, 2
Редактировать текст - PDF-XChange Editor, Acrobat Pro, FineReader 14 (не OCR-модуль) и новее, Infix PDF Editor, Foxit PDF Editor, PixelPlanet PdfEditor
Удалить или заменить часть текста или текстовые ватермарки - Acrobat Pro, A-PDF Text Replace
Конвертация PDF таблиц в Excel - PDF2XL (da best!)
Заменить цветное векторное изображение на серое - Acrobat Pro + Preflight
Растровый редактор и манипуляции с изображениями в PDF - Foxit PDF Editor и Acrobat Pro + ImageWorks из Crackerjack
Удалить/заменить/создать текстовый слой в PDF файле с помощью Acrobat Pro
Растеризовать pdf - Digitzone PDF Converters
Один из вариантов решения проблем с кракозябрами: видео (зеркало)
* - Quite Imposing Plus
 
 
Если вы задаете вопрос по поводу проблем с PDF файлами, обязательно выкладывайте небольшой пример (только не сотни метров!) такого файла. Это упростит задачу для желающих вам помочь и сделает обсуждение предметным.

Всего записей: 122 | Зарегистр. 01-06-2002 | Отправлено: 03:40 13-11-2005 | Исправлено: 73, 09:51 29-08-2024
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xanxan,
такой результат подходит?
_https://workupload.com/file/8mbWFFk6RMe
 
$ pdfimages -raw Дорн.pdf out
$ img2pdf -q 100 out-0000.jpg out.pdf

cpdf.pdf - дополнительно обработан программой cpdf.
 
P.S.
если обработаете полученные *.jpg программой JPEGMini или подобной сможете прилично уменьшить их размер и соответственно будущий pdf.

Всего записей: 7741 | Зарегистр. 08-09-2001 | Отправлено: 16:39 13-02-2021
xanxan

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
los
 
Вы выдернули картинки и заново их собрали? Это наверное и в PDF-XChange Editor можно сделать, а другого способа пересобрать PDF нет?
 
 
Другой вопрос, есть вот такая книга, в ней много разрывов
https://dlib.rsl.ru/viewer/01009651047#?page=17
 
В системе поиска электронной библиотеки слова с разрывами можно найти только введя их с разрывами.
Вот пример - Б а р я т и н с к і й.
Скачав книгу и открыв в хроме, эти слова копируются без разрывов и ищутся также, то есть введя слова с разрывом вы их не найдете.
 
PDF-XChange Editor находит оба варианта, правда во втором пришлось включить поиск целых слов, иначе находил кучу мусора.
 
Почему так происходит, программы просмотрщики игнорят разрывы? По какому принципу и как они отделяют их от пробелов?

Всего записей: 272 | Зарегистр. 15-12-2007 | Отправлено: 17:20 13-02-2021
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xanxan

Цитата:
Вы выдернули картинки и заново их собрали?

да

Цитата:
Это наверное и в PDF-XChange Editor можно сделать, а другого способа пересобрать PDF нет?  

PDF-XChange Editor - не пользуюсь. Другие способы наверняка есть, но для данного случая мне удобней этот.

Цитата:
Другой вопрос, есть вот такая книга, в ней много разрывов

выложите файл посмотреть.

Всего записей: 7741 | Зарегистр. 08-09-2001 | Отправлено: 17:48 13-02-2021
xanxan

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
 
выложите файл посмотреть.

 
https://old.rusneb.ru/catalog/000199_000009_009651047/

Всего записей: 272 | Зарегистр. 15-12-2007 | Отправлено: 17:53 13-02-2021
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
xanxan
Хочу заново перераспознать файл. Если просто удалить текст, то картинки остаются в XForm.
...хочу оставить только картинки, как их сохранить отдельно в PDF?  

 
Для PDF-XChange Editor/Pro v8.0 и новее:
 
1. жмём вверху Главная > иконка Контент
или
Вид > иконка Панели > Контент
Откроется левая боковая панель Содержание.
 
2. панель Содержание >  иконка шестерёнки Параметры > Выбранные > Изображения (выделятся все растровые картинки в документе)
 
3. вверху появится закладка Разместить > жмём На задний план
(Все картинки/сканы переместятся в фон. Что творится на экране при показе страниц временно не обращаем внимания. Следим только за перемещением контента в левой панели Содержание)
 
4. панель Содержание > Выбранные > XForm (выделятся все XForm)
 
5. жмём на клавишу Delete, сохраняем документ
 
В отличии от способа с извлечением картинок/сканов из PDF и сборки картинок в новый PDF, этот способ сохраняет рамку CropBox из оригинального PDF. Это важно для картинок/сканов, часть растра которых уходит в невидимую область за границу обрезной рамки CropBox. А таких PDF довольно много в сети
 
Если в содержимом PDF есть вперемежку Контейнеры и XForm, то такой способ не поможет, нужно манипулировать контентом по-другому.

Всего записей: 2797 | Зарегистр. 31-05-2010 | Отправлено: 17:29 14-02-2021 | Исправлено: ComboFZ, 20:47 14-02-2021
xanxan

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ComboFZ
 
В версии 8.0 343.0 Немного не так.
Вверху две кнопочки Сдвинуть к верхнему и заднему плану, переместить объект на один уровень назад-вперед. Он оставался в пределах XForm и удалялся вместе с ним, пришлось зайти в параметры-упорядочить-на задний план.
 
 
Недавно писал о проблеме наложения текста при помощи PDF-Tools 4.0 Build 213 Portable New (2013)
 
https://cloud.mail.ru/public/hg97/BVYG2dXCT
 
Теперь вот снова повторилось, даже заново скачал прогу, кстати откуда она, пользовательская переделка версии от Tracker Software? Оригинальная версия PDF-Tools вроде не такая.
 
https://cloud.mail.ru/public/gTZN/RyJcKrNwk

Всего записей: 272 | Зарегистр. 15-12-2007 | Отправлено: 19:22 14-02-2021
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Глюк версии 8.0 343.0, скорее всего. Т.к. даже на старой PDF-XChange Editor 7.0.328.2 по команде Разместить > На задний план весь растр "выпригивает" из XForm в фон (на задний план) на отлично.

Всего записей: 2797 | Зарегистр. 31-05-2010 | Отправлено: 20:24 14-02-2021 | Исправлено: ComboFZ, 20:29 14-02-2021
xanxan

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ComboFZ
 
Не думаю что это глюк, скорее расширение возможностей, теперь есть два вида перемещения.
 
А по поводу PDF-Tools 4.0, сейчас пересмотрел, два файла с которыми это не сработало были из РНБ, раньше там не скачивал, возможно их особенность обработки файлов.
 
Видимо глюк с PDF-Tools 4.0 был, даже чистка реестра не помогла, установил другую версию и заработало.

Всего записей: 272 | Зарегистр. 15-12-2007 | Отправлено: 20:44 14-02-2021 | Исправлено: xanxan, 18:24 15-02-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Кто-нибудь тестил новую версию DjvuToy (я на днях публиковал ссылку)? Надо бы ему (разработчику) обратную связь дать. По той проблеме с некорректно пережатыми страницами.

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 06:17 18-02-2021 | Исправлено: TelecomUral, 06:17 18-02-2021
xanxan

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
В PDF-XChange Editor при выборе функции - обрезать удаленное содержимое. Размер файла иногда незначительно растет, иногда увеличивается на 10-30%.
А иногда и в два раза, вот пример.
 
https://cloud.mail.ru/public/a17T/VJwqU1YS8
 
Кстати это обрезка не помогает при наложение OCR текста средствами PDF-XChange Editor.
Приходиться пользоваться в таком случае прогами вроде - PDF-Tools 4.0 Build 213

Всего записей: 272 | Зарегистр. 15-12-2007 | Отправлено: 14:02 20-02-2021
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xanxan
Цитата:
при выборе функции - обрезать удаленное содержимое. Размер файла иногда незначительно растет, иногда увеличивается на 10-30%.  
А иногда и в два раза, вот пример.  

 
При обрезке сканы пересжимаются из jpeg2000 в тот же jpeg2000, их размер растёт.
Пример:
На стр.10 PDF-оригинала jpeg2000 весит 322.4 KB, на стр.10 PDF после обрезки jpeg2000 весит 828.5 KB. При этом качество сканов ухудшается.
 

Цитата:
Кстати это обрезка не помогает при наложение OCR текста средствами PDF-XChange Editor.

В PDF-оригинале сканы не выходят за рамку обрезки CropBox, поэтому не нужно "обрезать удаленное содержимое". Достаточно удалить из PDF-оригинала старый OCR-текст от FineReader 11 и положить под него новый OCR-текст со старорусским шрифтом от FR 14/15.
Средствами PDF-XChange Editor это должно получиться. Главное размеры книги (mm x mm)
соблюдать при наложении, они должны быть одинаковыми в сканах и подкладываемом под них новом OCR-тексте.

Всего записей: 2797 | Зарегистр. 31-05-2010 | Отправлено: 15:23 20-02-2021
xanxan

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
В PDF-оригинале сканы не выходят за рамку обрезки CropBox, поэтому не нужно "обрезать удаленное содержимое"

 
Я не конкретно про этот файл, этот был скачан уже распознанным.
 
Берем любой файл PDF, перед OCR я пробегаюсь по нему, ищу страницы с перевернутым текстом, поворачиваю их на 90 градусов.
В итоге после наложения OCR, с этими измененными страницами получается каша.
Этим обрезанием я пытался избежать выхода за рамки. А как это сделать по другому?
 
И вообще как убрать сделанные изменения в файле, удаленные страницы, разделенные страницы, что-бы они в каком то виде не оставались в структуре PDF.
Я думал удаление обрезанного служит как раз этому, но то что оно криво пересжимает все страницы то это...
 

Всего записей: 272 | Зарегистр. 15-12-2007 | Отправлено: 16:26 20-02-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xanxan
я бы вообще на вашем месте с pdf преобразованиями не связывался. Если вы какую-то большую работу по форматированию делаете "под себя", то это в сущности изготовление книги с нуля. Так демонтируйте pdf до граф.файлов (и ocr) тогда, и пересоберите. Надежнее, и геморроя меньше, и управляемость полная. Чем от всяких приблуд и закидонов зависеть. Сложный это формат для преобразований.

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 17:18 20-02-2021
xanxan

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
 
Я иногда в день до 5-10 книг прогоняю через OCR, все это разбирать, собирать много гемороя. Потому я обычно ищу проги которые сами все автоматически сделают вроде DjvuToy. Я прочитал вашу дискуссию на рутрекере, и что там один пользователь советует другую прогу, но как я понял время на обработку там в разы больше и нет поддержки кириллицы. Потому пусть качество хуже, зато время не отнимает.
Кроме того надо с нуля изучать формат PDF. Изучать все эти скан кромсаторы и кучу других прог.
А основное время у меня уходит на поиск книг, и частично на вычитку в особо важных для меня изданиях, а не на их обработку.
Детей что-ли завести, и их как волонтеров на техническую обработку кинуть )?
 
С одной стороны в электронных библиотеках последние годы качество PDF улучшилось, уже не такие конские размеры 1Gb+, и качество OCR на уровне, не приходится перераспознавать.
С другой стороны иногда вдруг попадаются целые серии выложенные без распознавания. Приходится их распознавать что бы просто поискать, есть ли там мне нужное или нет. А все это время.

Всего записей: 272 | Зарегистр. 15-12-2007 | Отправлено: 17:38 20-02-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xanxan

Цитата:
все это разбирать, собирать много гемороя.

изучать - да. Некое время, неделю наверное, потратить придётся. Но освоив процесс вы резко сократите время на переформатирование. Будет рутинная компьютерная процедура в несколько ходов. И для любых пдфок. А так у вас то одно то другое то третье. Из-за сложности формата универсальную программу не напишешь, и начинаются ручные подгонки и вопросы к знающим. Уйдите от всего этого, вот я о чём. Упростите первичный материал.

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 18:57 20-02-2021
xanxan

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
 
Пробовал я пару раз, мне например важно что бы страницы были ровные, для качественного OCR.
Вот вы говорите разберите PDF до граф файлов, так он не разбирается, приходится конвертировать.
Сидел я как-то пару часов и экспериментировал, конвертировал в различные форматы и DPI, средствами PDF-XChange Editor.  
Потом с разными настройками прогонял их через ScanTailor.
Файлы после исправления получались слишком большими.  
Ну и такие попытки я периодически делаю, когда через 3-4 часа с наскоку не получается решить, забиваю.
А вот так прямо с нуля изучать основы, что такое пиксель, растр, dpi тут я думаю одной неделей не отделаешься.

Всего записей: 272 | Зарегистр. 15-12-2007 | Отправлено: 19:39 20-02-2021 | Исправлено: xanxan, 19:50 20-02-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xanxan

Цитата:
тут я думаю одной неделей не отделаешься

может и не отделаешься. А вы последние 5 pdf в своей жизни сегодня переделали? Больше не будете? Это ж голимая арифметика, выгодно/невыгодно.

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 21:42 20-02-2021
xanxan

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А вы последние 5 pdf в своей жизни сегодня переделали?

 
Не переделывал а распознавал, пока с этим проблем нет. Просто из-за того что FR стругает файлы огромных размеров, приходится OCR на оригинал закидывать.
 
Пока у меня 2 нерешенные проблемы, исправление кривых PDF.
И крякозябры, способы подсказанные ComboFZ работают не всегда, pdf-recode справляется в 50% случаев, жалко что автор проги покинул форум. OCR таких файлов все равно допускает ошибки распознавания, а если файл без картинок, то наложить не получится, ComboFZ недавно подсказал и для таких случаев способ, но не тестировал еще, слишком геморный, пока складываю такие файлы отдельно, может потом более легкий способ их исправить появиться.
 
К слову, раз в сети масса файлов с крякозябрами, значит куча криворуких работников в универах их собирает,что говорит о том что научится делать нормальные PDF не так просто.

Всего записей: 272 | Зарегистр. 15-12-2007 | Отправлено: 23:15 20-02-2021
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xanxan

Цитата:
Вот вы говорите разберите PDF до граф файлов, так он не разбирается, приходится конвертировать.  

есть пример такого файла?

Всего записей: 7741 | Зарегистр. 08-09-2001 | Отправлено: 08:59 21-02-2021
xanxan

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
есть пример такого файла?

 
Ну вот например, перегнал JPG в PDF. Разве PDF разбирается на графику без конвертации?
 
https://wdfiles.ru/30a787
 
Добавлено:

Цитата:
 Это ж голимая арифметика, выгодно/невыгодно.

 
В теории вы правы, но я например думаю здесь сидят энтузиасты, даже если это связано с работой и часть юзеров печатники, им нравится во всем этом копаться, разбираться в нюансах.
 
А мое хобби поиск исторической информации, к сожалению пока не один формат электронной библиотеке не представляет того уровня удобства, как своя собственная библиотека, вот и приходится создавать, для меня эта рутина, пока я что-то конвертирую на фоне в ютубе всегда играет какой нибудь исторический канал.
 
А вот разбираться что такое RGB, градации серого, растеризация меня мягко скажем не очень тянет. Что-бы вникать во все это надо себя заставить. Пока такого сильного стимула нет, если и так работает.  
 
Было бы связано с работой, записался бы на курсы, или засел за мануалы на две недели, отключив интернет что-бы не мешал.  
 
Есть много знакомых кто занимается схожим, у некоторых есть свои сайты, но опять таки делали не они сами а их дети которые работают в сфере айти. Хороший выход найти такого же фаната как мы, которому бы нравилось работать с PDF, и скинуть на него всю техническую работу но увы, пока такой волонтер не встречался.

Всего записей: 272 | Зарегистр. 15-12-2007 | Отправлено: 11:42 21-02-2021
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192

Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru