Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182

Открыть новую тему     Написать ответ в эту тему

Skyer

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Редактирование PDF файлов

В этой теме обсуждается редактирование (обработка) PDF файлов, которые бывают трех типов:
- "True" or Real PDF - "настоящий" PDF с векторными текстом и графикой, возможны вставки растра
- Scanned PDF - растровая графика (скан или фото), помещенная в контейнер PDF
- Searchable PDF - растровая (скан или фото) графика с текстовым слоем
Подробнее о типах PDF: Types of PDFs, The 3 Types of PDFs You Need to Know About




Решение типичных задач по редактированию PDF

Обрезать страницы - Acrobat Pro (main app), QIP*/Imposal(plugins), VeryPDF Advanced PDF Page Cut
Разрезать страницы на части - VeryPDF Advanced PDF Page Crop, A-PDF Cut
Склеить страницы между собой - VeryPDF PDF Stitch, Acrobat Pro + QIP* or Imposal
Удалить или редактировать метаданные - BeCyPDFMetaEdit, Adept PDF Layout Changer
Изменить размеры страницы - Acrobat Pro + Evermap AutoPagex , A-PDF Page Master, Neevia PDFtoolbox,  
Измененить/исправить размер страниц с масштабированием содержимого
Изменить размеры страницы, изменить масштаб контента, сдвинуть контент, замаскировать часть страницы и многое другое - Acrobat Pro + Evermap AutoPagex
Исправить наклон страниц -  Acrobat Pro + Evermap AutoPagex/ISI Toolbox, A-PDF Deskew, A-PDF Scan Optimizer  
Наложить PDF на PDF, страницу поверх страницы (Overlay)
О технологии MRC с примерами - 1, 2
Работа с изображениями (подрезка, масштаб, сжать/растянуть) - Inkscape
Преобразование изображений, текста в оттенки серого или в ч/б - A-PDF to Black White или Acrobat Pro + Quite A Box Of Tricks/ISI Toolbox
Извлечение растровых изображений из PDF
Удалить текст без замены, в т.ч. кириллицу - PDF Text Deleter
Удалить растровые ватермарки - PDF Watermark Remover или PDF Logo Remover, в сложных случаях - Foxit PDF Editor с макросом, Acrobat Pro + Preflight, CallasPDF Toolbox
Удаление любых ватермарков - We PDF Watermark Remover
Как/чем узнать Свойства растровых изображений в PDF: битность, цвет, dpi/ppi, разрешение px, формат сжатия, размер mm, наличие маски и т.д. - 1, 2
Редактировать текст - PDF-XChange Editor, Acrobat Pro, FineReader 14 (не OCR-модуль) и новее, Infix PDF Editor, Foxit PDF Editor, PixelPlanet PdfEditor
Удалить или заменить часть текста или текстовые ватермарки - Acrobat Pro, A-PDF Text Replace
Конвертация PDF таблиц в Excel - PDF2XL (da best!)
Заменить цветное векторное изображение на серое - Acrobat Pro + Preflight
Растровый редактор и манипуляции с изображениями в PDF - Foxit PDF Editor и Acrobat Pro + ImageWorks из Crackerjack
Удалить/заменить/создать текстовый слой в PDF файле с помощью Acrobat Pro
Растеризовать pdf - Digitzone PDF Converters
Один из вариантов решения проблем с кракозябрами: видео (зеркало)
* - Quite Imposing Plus
 
 
Если вы задаете вопрос по поводу проблем с PDF файлами, обязательно выкладывайте небольшой пример (только не сотни метров!) такого файла. Это упростит задачу для желающих вам помочь и сделает обсуждение предметным.

Всего записей: 122 | Зарегистр. 01-06-2002 | Отправлено: 03:40 13-11-2005 | Исправлено: useretail, 17:00 11-02-2024
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
gerxer, если нет ошибок в файле, то ощутимо уменьшить размер без заметной потери качества получается очень редко. Все три файла были обработаны разными программами и больше похоже, что дело больше в его тяжеловесности(размер и кол-во страниц) для вашего ПК.

Всего записей: 7311 | Зарегистр. 08-09-2001 | Отправлено: 18:20 09-10-2019
xanxan

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Скачал 2 файла 618 и 144 Мб.  Оба файлы OCR одной и той же книги.
Для сравнения вырезал оттуда 20 страниц, размер одинаковый. Так почему у файлов такая огромная разница в размере?
 
https://cloud.mail.ru/public/34PD/Sa2rjoY3H

Всего записей: 269 | Зарегистр. 15-12-2007 | Отправлено: 05:40 18-10-2019
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xanxan,
И сколько страниц у вас отображаются в каждом из файлов из заявленных 706?

Всего записей: 7311 | Зарегистр. 08-09-2001 | Отправлено: 10:34 18-10-2019
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xanxan
 
los прав
в PDF 603MB - 694 jpeg-сканов
в PDF 140MB - 160 jpeg-сканов, остальные страницы пустышки
 

Всего записей: 2791 | Зарегистр. 31-05-2010 | Отправлено: 14:20 18-10-2019
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ComboFZ, там помимо этого и сами файлы с изрядной долей ошибок.

Всего записей: 7311 | Зарегистр. 08-09-2001 | Отправлено: 14:30 18-10-2019
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Да, Акробат Про ругается на оба файла, принимает только пересохранённые из PDF-XChange Editor 7/8.

Всего записей: 2791 | Зарегистр. 31-05-2010 | Отправлено: 14:41 18-10-2019
xanxan

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
los
 
Да 159 страниц всего в первом файле, не обратил внимание, это ведь каталог, я там номер журнала нашел и все, и я все PDF открываю в хроме так мне удобнее читать и в гугл можно сразу цитату загнать.
Потому ошибок в файле через акробат не заметил.
 
Я скачивал файлы с nlr.ru и дубли из закачек просто удалял, надо теперь каждый файл детально проверять.
 
Что интересно в он-лайн варианте вроде все страницы на месте. А при скачке даже в полном варианте последние страницы не пошли.
http://primo.nlr.ru/primo-explore/fulldisplay?docid=07NLR_LMS010180501&context=L&vid=07NLR_VU1&lang=ru_RU
http://primo.nlr.ru/primo-explore/fulldisplay?docid=07NLR_LMS010180500&context=L&vid=07NLR_VU1&lang=ru_RU
 
Разобрался, оба файла идентичные, просто закачка оборвалась.
 
 
Кстати сами журналы лежат тут.
http://docs.historyrussia.org/ru/nodes/36092-osobyy-zhurnal-soveta-ministrov-15-marta-1912-goda-po-semi-predstavleniyam-po-ministerstvu-vnutrennih-del
 
Некоторые библиотеки работают по такому шаблону, скан рядом текст. Как он распознан? Обычно если через FR то можно наложить текстовой слой на картинку, тут-же не получается.
Приходится распознавать все заново. Может кто знает способ наложения такого текста на сканы?
 
Вот тут немного об этом.
http://publ.lib.ru/cgi/forum/YaBB.pl?num=1517991006

Всего записей: 269 | Зарегистр. 15-12-2007 | Отправлено: 12:52 19-10-2019 | Исправлено: xanxan, 00:20 20-10-2019
masgak



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
PDF-XChange Editor отличная программа.

Всего записей: 2853 | Зарегистр. 11-05-2005 | Отправлено: 19:33 19-10-2019
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
PDF-XChange Pro ещё лучше т.к. там, помимо прочего, есть модуль PDF Tools, который позволяет обрабатывать файлы и в пакетном режиме.

Всего записей: 2791 | Зарегистр. 31-05-2010 | Отправлено: 23:51 19-10-2019
Aleksandr SHCH

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
PDF-XChange Editor отличная программа.


Цитата:
PDF-XChange Pro ещё лучше

Всю прелесть этих прог почувствуешь, когда они обнаружат нарушение лицензии...

Всего записей: 2204 | Зарегистр. 02-01-2008 | Отправлено: 01:14 20-10-2019
xanxan

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Скачал отсюда книгу Устрялова - Русская история до 1855 года.
https://rusneb.ru/catalog/000202_000005_1496708/viewer/
 
Весит 600 Мб. Много раз пытался уменьшить распознанные книги из библиотек  в PDF-XChange Editor или Акробате ну и еще паре редакторов пробовал, лучший результат размер-качество получается в акробате.
В общем уменьшить размер не получается, качество резко падает.
 
Поискал нераспозннаый вариант нашел только djvu 12Мб.  
https://www.twirpx.com/file/1834262/
На одном из сайтов сконвертировал его в PDF.
Кстати если не он-лайн, то какой прогой лучше конвертировать?
 
Получился файл 70Мб. Наложил на него ocr текст из первого файла получилось 76Мб.
 
Качество вроде сходное. Но это-же геморный способ каждый раз так заморачиваться. Да и нераспознанный оригинал можно не найти.
 
Как уменьшить такие конские размеры файлов напрямую?  
 
https://cloud.mail.ru/public/2QDw/3hCVy4Uvn
 
Настройки такие.
 
 

Всего записей: 269 | Зарегистр. 15-12-2007 | Отправлено: 18:57 20-10-2019 | Исправлено: xanxan, 19:39 20-10-2019
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xanxan,

Цитата:
Кстати если не он-лайн, то какой прогой лучше конвертировать?  

тот что вы выложили ustryalov_n_g_russkaya_istoriya_do_1855_goda_v_dvukh_chastya (2).pdf сконвертирован при помощи DjVuLibre или на его основе
проверил
$ ddjvu -format=pdf in.djvu out.pdf
размер совпал до байта.

Цитата:
Как уменьшить такие конские размеры файлов напрямую?  

только методом проб, "поиграть" с размерами страниц, с dpi(ppi), перевести RGB в Greyscale (в данном случае) и т.д. и т.п. и выбрать соотношение качество/размер которое вас в итоге устроит.
 

Всего записей: 7311 | Зарегистр. 08-09-2001 | Отправлено: 21:36 20-10-2019
xanxan

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
только методом проб, "поиграть" с размерами страниц, с dpi(ppi)

 
А как поиграть с dpi, на скрине только ppi, там сколько пробовал не получается. Из 10 файлов на одном толк выходит.
 

Цитата:
перевести RGB в Greyscale

 
А как это сделать для pdf? Хотя вообще не хотелось бы, в цвете гораздо красивее выглядит.
 
Нэб берет файлы у разных библиотек, распознает и выкладывает в PDF. А в самих библиотеках для скачки дают только jpg. Весят они 1.5-3Мб. В итоге книга получается 1-2Гб если просто собрать их в pdf.
После FR у меня из таких файлов получалось 10-15Гб. Приходилось разрезать на 5 частей иначе не давало такие файлы редактировать. В итоге максимум ужать получилось на 1.2Гб ocr.
Но у того-же НЭБ такие файлы получаются в среднем 300Мб в цвете и практически без потери качества.
Значит как-то можно сделать.

Всего записей: 269 | Зарегистр. 15-12-2007 | Отправлено: 23:39 20-10-2019
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А как поиграть с dpi, на скрине только ppi

в вашем случае это практически одно и то же.

Цитата:
А как это сделать для pdf? Хотя вообще не хотелось бы, в цвете гораздо красивее выглядит.  

программами для обработки pdf которые это поддерживают, например - Ghostscript. Но это разумно для ч/б страниц/файлов и не всегда дает эффект.

Цитата:
Нэб берет файлы у разных библиотек, распознает и выкладывает в PDF. А в самих библиотеках для скачки дают только jpg. Весят они 1.5-3Мб. В итоге книга получается 1-2Гб если просто собрать их в pdf.  


Цитата:
После FR у меня из таких файлов получалось 10-15Гб.

Можете выложить по 5-10 jpg файлов о которых вы говорите(от нэп и ваши FR)?
 

Всего записей: 7311 | Зарегистр. 08-09-2001 | Отправлено: 09:22 21-10-2019
xanxan

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Можете выложить по 5-10 jpg файлов о которых вы говорите(от нэп и ваши FR)?

 
Как попадется выложу, я в день кучу файлов качаю. О тех уже забыл.
Как раз из за множества файлов, места на диске не хватает и приходится думать об оптимизации.
 
Вот пример того что сделал из картинок.
http://elib.shpl.ru/ru/nodes/1756-t-2-1802-1806-1868
С максимальным ужатием получилось 1.3Гб
А версию руниверса не взял потому что качество распознавания было низким, может сейчас текст на ту версию наложу, раньше о таком способе не знал.
https://cloud.mail.ru/public/u4nD/pGwaovpda

Всего записей: 269 | Зарегистр. 15-12-2007 | Отправлено: 16:21 21-10-2019
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xanxan,

Цитата:
Вот пример того что сделал из картинок.

примеры не самые удачные. Страницы разного размера, dpi разный для страниц одного типа(для файла ....II_1.pdf).
Скачайте
https://workupload.com/file/dYXMXWX6
и сравните файлы с разной степенью оптимизации, возможно, како-то из вариантов вам подойдет.
У вас с elib.shpl.ru загружаются файлы jpg другого размера чем в архиве?

Всего записей: 7311 | Зарегистр. 08-09-2001 | Отправлено: 18:05 21-10-2019 | Исправлено: los, 18:06 21-10-2019
xanxan

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
примеры не самые удачные.

 
Это версия руниверса
https://runivers.ru/lib/book3029/
 
А как определяете Dpi для pdf файлов?
 
 
А чем делали? Принт качество не изменилось как и размер, только пару байт. Макс и веб качество отвратное. Mrc подойдет. Прогнали через FR без текстового слоя?
 
В идеале конечно надо сканы сначала через ScanTailor прогонять, но не очень разобрался как там все автоматизировать. А без автоматизации вручную тысячу страниц как тут не выправишь.
 

Цитата:
У вас с elib.shpl.ru загружаются файлы jpg другого размера чем в архиве?

 
Скриптом делаю, он по идее берет максимальное качество.

Всего записей: 269 | Зарегистр. 15-12-2007 | Отправлено: 19:12 21-10-2019
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Это версия руниверса  

без разницы - pdf сделаны ужасно.

Цитата:
А как определяете Dpi для pdf файлов?  

можете при помощи pdfimages из пакета Xpdf command line tools
https://www.xpdfreader.com/download.html
я чаще использую PDF Checkpoint, но xpdf очень толковый пакет.

Цитата:
А чем делали?

img2pdf и pdfoptimize  со стандартными профилями оптимизации.
pdf-tools.com
Почему и говорил вам, что нужно под себя подбирать соотношение размер/качество, но для начала нужно хотя бы создать pdf без явных косяков.
 
Вот так pdfoptimize с профилем mrc преобразовывает ваш ~600 Mb Русская_история_до_1855_года_(Устрялов_Николай_Герасимович).pdf
https://workupload.com/file/upkBSntZ
Не идеал, но сносно.

Всего записей: 7311 | Зарегистр. 08-09-2001 | Отправлено: 19:45 21-10-2019
xanxan

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Не идеал, но сносно.

 
Это не цветной, его легче оптимизировать. Попробуйте акты 8.51.
 
https://cloud.mail.ru/public/u4nD/pGwaovpda

Всего записей: 269 | Зарегистр. 15-12-2007 | Отправлено: 03:15 22-10-2019
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Это не цветной, его легче оптимизировать. Попробуйте акты 8.51.  

так это вам нужно пробовать и экспериментировать с уровнем оптимизации в соответствии с вашими задачами. Кстати, именно об этих файлах я говорил, что они сделаны неважно. Обратите внимание на размер страниц.

 
Оптимизированные с профилем mrc  
https://workupload.com/file/W5ddhxwm

Всего записей: 7311 | Зарегистр. 08-09-2001 | Отправлено: 09:31 22-10-2019
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182

Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru