Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183

Открыть новую тему     Написать ответ в эту тему

Skyer

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Редактирование PDF файлов

В этой теме обсуждается редактирование (обработка) PDF файлов, которые бывают трех типов:
- "True" or Real PDF - "настоящий" PDF с векторными текстом и графикой, возможны вставки растра
- Scanned PDF - растровая графика (скан или фото), помещенная в контейнер PDF
- Searchable PDF - растровая (скан или фото) графика с текстовым слоем
Подробнее о типах PDF: Types of PDFs, The 3 Types of PDFs You Need to Know About




Решение типичных задач по редактированию PDF

Обрезать страницы - Acrobat Pro (main app), QIP*/Imposal(plugins), VeryPDF Advanced PDF Page Cut
Разрезать страницы на части - VeryPDF Advanced PDF Page Crop, A-PDF Cut
Склеить страницы между собой - VeryPDF PDF Stitch, Acrobat Pro + QIP* or Imposal
Удалить или редактировать метаданные - BeCyPDFMetaEdit, Adept PDF Layout Changer
Изменить размеры страницы - Acrobat Pro + Evermap AutoPagex , A-PDF Page Master, Neevia PDFtoolbox,  
Измененить/исправить размер страниц с масштабированием содержимого
Изменить размеры страницы, изменить масштаб контента, сдвинуть контент, замаскировать часть страницы и многое другое - Acrobat Pro + Evermap AutoPagex
Исправить наклон страниц -  Acrobat Pro + Evermap AutoPagex/ISI Toolbox, A-PDF Deskew, A-PDF Scan Optimizer  
Наложить PDF на PDF, страницу поверх страницы (Overlay)
О технологии MRC с примерами - 1, 2
Работа с изображениями (подрезка, масштаб, сжать/растянуть) - Inkscape
Преобразование изображений, текста в оттенки серого или в ч/б - A-PDF to Black White или Acrobat Pro + Quite A Box Of Tricks/ISI Toolbox
Извлечение растровых изображений из PDF
Удалить текст без замены, в т.ч. кириллицу - PDF Text Deleter
Удалить растровые ватермарки - PDF Watermark Remover или PDF Logo Remover, в сложных случаях - Foxit PDF Editor с макросом, Acrobat Pro + Preflight, CallasPDF Toolbox
Удаление любых ватермарков - We PDF Watermark Remover
Как/чем узнать Свойства растровых изображений в PDF: битность, цвет, dpi/ppi, разрешение px, формат сжатия, размер mm, наличие маски и т.д. - 1, 2
Редактировать текст - PDF-XChange Editor, Acrobat Pro, FineReader 14 (не OCR-модуль) и новее, Infix PDF Editor, Foxit PDF Editor, PixelPlanet PdfEditor
Удалить или заменить часть текста или текстовые ватермарки - Acrobat Pro, A-PDF Text Replace
Конвертация PDF таблиц в Excel - PDF2XL (da best!)
Заменить цветное векторное изображение на серое - Acrobat Pro + Preflight
Растровый редактор и манипуляции с изображениями в PDF - Foxit PDF Editor и Acrobat Pro + ImageWorks из Crackerjack
Удалить/заменить/создать текстовый слой в PDF файле с помощью Acrobat Pro
Растеризовать pdf - Digitzone PDF Converters
Один из вариантов решения проблем с кракозябрами: видео (зеркало)
* - Quite Imposing Plus
 
 
Если вы задаете вопрос по поводу проблем с PDF файлами, обязательно выкладывайте небольшой пример (только не сотни метров!) такого файла. Это упростит задачу для желающих вам помочь и сделает обсуждение предметным.

Всего записей: 122 | Зарегистр. 01-06-2002 | Отправлено: 03:40 13-11-2005 | Исправлено: useretail, 17:00 11-02-2024
Weinaum



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ivan3259

Цитата:
Так пойдет?


Цитата:
Вот без оптимизации

спасибо, более чем пойдет.  

Всего записей: 2152 | Зарегистр. 18-06-2006 | Отправлено: 00:03 16-07-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
qssaka
1) Вы последовали совету 73 и добавили ссылки на исходный pdf и на выходной epub.
Проблема вероятно в том, что эти изменения под катом и никто их не заметил.
2) Вы спрашиваете

Цитата:
Вопрос, как преобразовать текст формул, чтобы избавиться от засилья span в epub?

Вот только я не уверен, что ваша проблема в "засилии спана"
3) Вас волнует размер?
3а) внутри epub все файлы со всем текстом и всеми спанами занимают 430 килобайт чистыми и 50 килобайт зазипованные. А вот файлы шрифтов .otf в папке fonts занимают 9 МБ и 4,8 МБ. Ага. Так что увеличенный размер не из-за спанов. а из-за шрифтов.
3б) вас волнует размер в 5 МБ? Не смешите.
3в) а почему вас волнуют спаны и размер, если формулы вообще нечитабельны?
4)
Цитата:
Пишет, шрифт Cambria Math, однако связки символов с кванторами, а-ля "для любого эпсилон" определят как один! символ.

Или вы неправильно выделяете или поменяйте pdf-редактор. У меня все отлично посимвольно определяется.
5) А может вам просто нужен хороший конвертер из pdf в epub с нормальным встраиванием шрифтов? Начните с Adobe InDesign.

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 13:03 16-07-2023
archIvarIus3k



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Еще один редактор - PDF4QT
https://github.com/JakubMelka/PDF4QT
Минус - мало функционала + неоптимизирован, на документе с 40 страницами выел целый гигабайт.

Всего записей: 45 | Зарегистр. 08-03-2022 | Отправлено: 05:38 17-07-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Имеется pdf-файл размером 1,4 гигабайта.
Внутри него на каждую страницу имеется одна картинка типа/формата path.
Как можно уменьшить размер?
Я знаю два способа, но мне они кажутся неэлегантными.
Вот страница из этого файла без слоя с OCR текстом.
Может кто-то знает простой и быстрый способ как поступать в таких случаях?

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 19:25 22-07-2023 | Исправлено: jourmager, 19:29 22-07-2023
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager say:

Цитата:
 
Как можно уменьшить размер?  
 

 
Изображение "хитро" встроено. Извлечь напрямую не получается.
Вывод: отрендредить pdf-ку в изображения с помощью GhostScript или MuTool из MuPDF:
 

Код:
 
mutool convert -F png -o doc53.%03d.png -O resolution=300 doc53.pdf
 

 
После чего сделать с этими изображениями "что-то" и сделать из этого "чего-то" новую pdf-ку.
 
PS: Размер этого изображения: /Height 2756 /Width 2067 (а соответственно и DPI == 300) подсмотрел в hex-редакторе.

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 22:08 22-07-2023 | Исправлено: zvezdochiot, 22:12 22-07-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot
Спасибо за ваш вариант:
mutool convert -F png -o doc53.%03d.png -O resolution=300 doc53.pdf
 
Интересно, а чтобы вы предложили для уменьшения получившихся png?
Для начала я попробовал просто XnView binary No Dither / Floyd Steinberg - 2.6 MB -> 120 kb

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 23:26 22-07-2023
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager say:

Цитата:
 
чтобы вы предложили
 

ScanTailor Advanced 1.0.19 + JBIG2 Encoder

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 23:35 22-07-2023 | Исправлено: zvezdochiot, 23:41 22-07-2023
useretail



Silver Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору

Цитата:
отрендредить pdf-ку в изображения

так себе решение. на самом деле единственное правильное - это декодировать каждую страницу (path) в отдельный файл и потом собирать это все как положено

Всего записей: 4640 | Зарегистр. 14-09-2007 | Отправлено: 23:42 22-07-2023
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
useretail say:

Цитата:
 
единственное правильное - это декодировать
 

Ты под капотом смотрел? Как там завёрнуто? И как декодировать собрался? Кроме как рендрендингом простых путей нет. Сам проверь.
 

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 23:46 22-07-2023
useretail



Silver Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
zvezdochiot

Цитата:
Ты под капотом смотрел?

смотрел, применено сжатие FLATE для декомпрессии можно использовать библиотеку zlib
вот оригинал картинки с этой пдфки: https://zippysha.re/Q0EbF430zb/doc53_png
 
Добавлено:
без пережатия
 
Добавлено:
а применив парочку нехитрых манипуляций можно получить вот такое решение:
https://zippysha.re/iaM6Ff34z8/doc53_1_pdf
размер картинки тот-же: 2067 x 2756
а вот размер файла меньше в ~11 раз
 
Добавлено:
формат ПДФ не такой и сложный
 
Добавлено:
эта тема у меня в закладках, но я ее не мониторю

Всего записей: 4640 | Зарегистр. 14-09-2007 | Отправлено: 23:58 22-07-2023
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
useretail say:

Цитата:
 
применено сжатие FLATE
 

А с цветовым профилем (/ColorSpace [/ICCBased 10 0 R]) как? Или просто забил? Ну да, учитывая изображение, можно и забить. Серое же.
 
PS: Не zlib-flate единым сыт человек. Есть ещё и faxcoder

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 00:48 23-07-2023 | Исправлено: zvezdochiot, 00:55 23-07-2023
useretail



Silver Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
исходное изображение это 8-bit/color RGB
какой профиль установил автор пдфки меня мало интересует

Всего записей: 4640 | Зарегистр. 14-09-2007 | Отправлено: 00:54 23-07-2023
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
useretail say:

Цитата:
 
какой профиль установил автор пдфки меня мало интересует
 

Это потому что серый. Был бы цветной и "картина маслом" стала бы гораздо печальней.
 
PS: 600dpi

Код:
 
pdfimages -list doc53.jbig2.pdf  
page   num  type   width height color comp bpc  enc interp  object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
   1     0 image    4134  5512  gray    1   1  jbig2  no         4  0   600   600 62.8K 2.3%
 

64 Kb, Карл! (34.2 крата)
 
 

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 00:56 23-07-2023 | Исправлено: zvezdochiot, 01:14 23-07-2023
useretail



Silver Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
zvezdochiot

Цитата:
jbig2


Цитата:
62.8K

это скорее всего lossy

Всего записей: 4640 | Зарегистр. 14-09-2007 | Отправлено: 01:18 23-07-2023
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
useretail say:

Цитата:
 
это скорее всего lossy
 

Нет. А ты знаешь lossy jbig2? Хоть ссылочку отсыпь.
 
 

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 01:20 23-07-2023 | Исправлено: zvezdochiot, 01:20 23-07-2023
useretail



Silver Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
сделайте скриншот с увеличением в 400-500%, поглядим
 
Добавлено:

Цитата:
Хоть ссылочку отсыпь

https://ru.wikipedia.org/wiki/JBIG2
 
Добавлено:

Цитата:
Есть ещё и faxcoder

да спору нет, можно даже свой декодер написать, но зачем?

Всего записей: 4640 | Зарегистр. 14-09-2007 | Отправлено: 01:21 23-07-2023
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
useretail say:

Цитата:
 
сделайте скриншот
 

Мне это не нужно:

Код:
 
diffpdf doc53.ccitt.pdf doc53.jbig2.pdf
 


Цитата:
 
DiffPDF: The PDFs appear to be the same.
 

 
CCITT FAX G4 кстати 96k.

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 01:29 23-07-2023 | Исправлено: zvezdochiot, 01:32 23-07-2023
useretail



Silver Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
zvezdochiot

Цитата:
DiffPDF: The PDFs appear to be the same

нет, это так не работает
 
Добавлено:
по результатам работы DiffPDF разницы нету даже с исходным пдфом
 
Добавлено:
короче ребят, вот исходная картинка: https://zippysha.re/Q0EbF430zb/doc53_png
а вот мой вариант обработки: https://zippysha.re/y756Gd3cz7/doc53_1_png
 
увеличиваем на 400-500% и сравниваем
если у кого есть алгоритм получше - стучитесь сразу в личку

Всего записей: 4640 | Зарегистр. 14-09-2007 | Отправлено: 01:33 23-07-2023 | Исправлено: useretail, 01:33 23-07-2023
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
useretail say:

Цитата:
 
если у кого есть алгоритм получше
 


Код:
 
# PSNR
stbimmetrics -q doc53.png doc53-1.png  
20.828667    doc53-1.png
stbimmetrics -q doc53.png doc53.jbig2.r.png
24.248978    doc53.jbig2.r.png
 
# SSIM
stbimmetrics -q -m ssim doc53.png doc53-1.png  
0.945934    doc53-1.png
stbimmetrics -q -m ssim doc53.png doc53.jbig2.r.png  
0.967758    doc53.jbig2.r.png
 
# VIFP1layer
stbimmetrics -q -m vifp1 doc53.png doc53-1.png  
0.308390    doc53-1.png
stbimmetrics -q -m vifp1 doc53.png doc53.jbig2.r.png  
0.407028    doc53.jbig2.r.png  
 

"От судьбы не уйдёшь".

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 02:13 23-07-2023 | Исправлено: zvezdochiot, 02:20 23-07-2023
useretail



Silver Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
zvezdochiot
покажите ваш doc53.jbig2.r.png

Всего записей: 4640 | Зарегистр. 14-09-2007 | Отправлено: 02:29 23-07-2023
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183

Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru