Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192

Открыть новую тему     Написать ответ в эту тему

Skyer

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Редактирование PDF файлов

В этой теме обсуждается редактирование (обработка) PDF файлов, которые бывают трех типов:
- "True" or Real PDF - "настоящий" PDF с векторными текстом и графикой, возможны вставки растра
- Scanned PDF - растровая графика (скан или фото), помещенная в контейнер PDF
- Searchable PDF - растровая (скан или фото) графика с текстовым слоем
Подробнее о типах PDF: Types of PDFs, The 3 Types of PDFs You Need to Know About




Решение типичных задач по редактированию PDF

Обрезать страницы - Acrobat Pro (main app), QIP*/Imposal(plugins), VeryPDF Advanced PDF Page Cut
Разрезать страницы на части - VeryPDF Advanced PDF Page Crop, A-PDF Cut
Склеить страницы между собой - VeryPDF PDF Stitch, Acrobat Pro + QIP* or Imposal
Удалить или редактировать метаданные - BeCyPDFMetaEdit, Adept PDF Layout Changer
Изменить размеры страницы - Acrobat Pro + Evermap AutoPagex , A-PDF Page Master, Neevia PDFtoolbox,  
Измененить/исправить размер страниц с масштабированием содержимого
Изменить размеры страницы, изменить масштаб контента, сдвинуть контент, замаскировать часть страницы и многое другое - Acrobat Pro + Evermap AutoPagex
Исправить наклон страниц -  Acrobat Pro + Evermap AutoPagex/ISI Toolbox, A-PDF Deskew, A-PDF Scan Optimizer  
Наложить PDF на PDF, страницу поверх страницы (Overlay)
О технологии MRC с примерами - 1, 2
Работа с изображениями (подрезка, масштаб, сжать/растянуть) - Inkscape
Преобразование изображений, текста в оттенки серого или в ч/б - A-PDF to Black White или Acrobat Pro + Quite A Box Of Tricks/ISI Toolbox
Извлечение растровых изображений из PDF
Заменить/удалить текст (batch есть), в т.ч. кириллицу (не панацея!) - PDF Replacer
Удалить текст без замены, в т.ч. кириллицу - PDF Text Deleter
Удалить растровые ватермарки - PDF Watermark Remover или PDF Logo Remover, в сложных случаях - Foxit PDF Editor с макросом, Acrobat Pro + Preflight, CallasPDF Toolbox
Удаление любых ватермарков - We PDF Watermark Remover
Как/чем узнать Свойства растровых изображений в PDF: битность, цвет, dpi/ppi, разрешение px, формат сжатия, размер mm, наличие маски и т.д. - 1, 2
Редактировать текст - PDF-XChange Editor, Acrobat Pro, FineReader 14 (не OCR-модуль) и новее, Infix PDF Editor, Foxit PDF Editor, PixelPlanet PdfEditor
Удалить или заменить часть текста или текстовые ватермарки - Acrobat Pro, A-PDF Text Replace
Конвертация PDF таблиц в Excel - PDF2XL (da best!)
Заменить цветное векторное изображение на серое - Acrobat Pro + Preflight
Растровый редактор и манипуляции с изображениями в PDF - Foxit PDF Editor и Acrobat Pro + ImageWorks из Crackerjack
Удалить/заменить/создать текстовый слой в PDF файле с помощью Acrobat Pro
Растеризовать pdf - Digitzone PDF Converters
Один из вариантов решения проблем с кракозябрами: видео (зеркало)
* - Quite Imposing Plus
 
 
Если вы задаете вопрос по поводу проблем с PDF файлами, обязательно выкладывайте небольшой пример (только не сотни метров!) такого файла. Это упростит задачу для желающих вам помочь и сделает обсуждение предметным.

Всего записей: 122 | Зарегистр. 01-06-2002 | Отправлено: 03:40 13-11-2005 | Исправлено: 73, 09:51 29-08-2024
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
den3

Цитата:
получилось через пересохранение в .docx

При копипасте текста из Ворда в блокнот кракозябры остаются, скорее всего.
Фоксит тут не помощник.

Всего записей: 2797 | Зарегистр. 31-05-2010 | Отправлено: 11:58 10-03-2023 | Исправлено: ComboFZ, 12:02 10-03-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
den3
У меня получилось через пересохранение в .docx документ в Фоксит пдф эдиторе

Подтверждаю.
Ох как здорово.
 
Только надо версию редактора указывать: 12я. На 3ей не вышло.
 
Добавлено:

Цитата:
ComboFZ
При копипасте из Ворда в блокнот кракозябры остаются, скорее всего.
Фоксит тут не помощник.

Ну, я не в Блокнот, я в notepad++ копипастил. Всё хорошо прошло.
 

Всего записей: 3330 | Зарегистр. 15-07-2010 | Отправлено: 11:58 10-03-2023
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А в Блокнот?
 
Добавлено.
Хорошо бы этот *.docx в PDF сконвертить (не через принт), и посмотреть, что там получилось с текстом.

Всего записей: 2797 | Зарегистр. 31-05-2010 | Отправлено: 12:05 10-03-2023 | Исправлено: ComboFZ, 12:11 10-03-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ComboFZ

Цитата:
Хорошо бы этот *.docx в PDF сконвертить (не через принт), и посмотреть, что там получилось с текстом.

вот:
https://disk.yandex.ru/i/YesmPELDiMv0Aw

Всего записей: 3330 | Зарегистр. 15-07-2010 | Отправлено: 12:18 10-03-2023
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Текст (шрифт) в PDF исправлен - это хорошо.
Векторные объекты пропали в колонтитулах и в выражении (3.12) - плохо.
Значит и по всей книге в исправленном PDF косяки пойдут.

Всего записей: 2797 | Зарегистр. 31-05-2010 | Отправлено: 12:49 10-03-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
ComboFZ
Текст (шрифт) в PDF исправлен - это хорошо.
Векторные объекты пропали в колонтитулах и в выражении (3.12) - плохо.
Значит и по всей книге в исправленном PDF косяки пойдут.

это либрофис накосячил. На домашней машине MS Office не установлен.
 
Не поленился, засандалил дистрибутив фоксита на работу (почти гиг msi!), установил, проделал ту же операцию, и всё ок с векторными:
https://disk.yandex.ru/i/uDu5l3ccOTy7vg
 
--
Как мы без майкрософта жить будем

Всего записей: 3330 | Зарегистр. 15-07-2010 | Отправлено: 13:17 10-03-2023
den3

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
При копипасте текста из Ворда в блокнот кракозябры остаются, скорее всего.
Фоксит тут не помощник.

Дык никто же и не ставил задачу отправить это всё в блокнот)).

Цитата:
Не поленился, засандалил дистрибутив фоксита на работу (почти гиг msi!), установил

Я вообще портабельной версией Фоксита пользовался т.к. он пригождается крайне редко. Не нравится мне его интерфейс, как то менее логичный чем пдф эксчейндж эдитор. А гиг, потому что с OCR модулем по всей видимости.

Всего записей: 75 | Зарегистр. 29-05-2007 | Отправлено: 14:08 10-03-2023 | Исправлено: den3, 14:09 10-03-2023
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
TelecomUral


Цитата:
foxit12_to_word_to_pdf

 
Рабочий вариант.
Из замеченного: Acrobat Pro XI не видит слова в поиске, если они с переносами, другие редакторы PDF и ридеры - видят.

Всего записей: 2797 | Зарегистр. 31-05-2010 | Отправлено: 14:09 10-03-2023 | Исправлено: ComboFZ, 14:25 10-03-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
оффтоп
 

Цитата:
den3
Я вообще портабельной версией Фоксита пользовался

не нашел на рутрекере

Всего записей: 3330 | Зарегистр. 15-07-2010 | Отправлено: 14:17 10-03-2023
den3

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
не нашел на рутрекере

У меня обычный репак от Дьякова с его сайта. Не знаю, тут наверное нельзя выкладывать прямые ссылки.

Всего записей: 75 | Зарегистр. 29-05-2007 | Отправлено: 14:23 10-03-2023
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
den3

Цитата:
Дык никто же и не ставил задачу отправить это всё в блокнот))

Задачу - нет. Но копипаст текста/шрифтов из PDF в Блокнот (кроме прочего) тоже надо проверять, если есть подозрения на их, шрифты, косячность.
 
Это касается и Ворда. На вид всё замечательно/читабельно в нём, а при копипасте текста в Блокнот - абракадабра.

Всего записей: 2797 | Зарегистр. 31-05-2010 | Отправлено: 14:23 10-03-2023 | Исправлено: ComboFZ, 14:31 10-03-2023
KPGA

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Задачу - нет. Но копипаст текста/шрифтов из PDF в Блокнот (кроме прочего) тоже надо проверять, если есть подозрения на их, шрифты, косячность.  

 Столяров А.В. коверкает шрифт в своих PDF книгах  http://stolyarov.info/books

Всего записей: 193 | Зарегистр. 04-10-2018 | Отправлено: 14:52 10-03-2023
den3

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Задачу - нет. Но копипаст текста/шрифтов из PDF в Блокнот (кроме прочего) тоже надо проверять, если есть подозрения на их, шрифты, косячность.

Какой ваш вариант исправить кодировку текста? Просто "критикуя - предлагай". Если ваш вариант окажется лучше, то может когда и мне он пригодится.

Всего записей: 75 | Зарегистр. 29-05-2007 | Отправлено: 15:24 10-03-2023
galina2000

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
https://disk.yandex.ru/i/uDu5l3ccOTy7vg

 
Видимо, использовался OCR, поскольку О превратилось в 0, б - в цифру 6, частично пропали греческие буквы. Это только 2 самые простые страницы из полутора сотен. Похоже, тут без вариантов  - только OCR с вычиткой.  
Кстати, а как при распознавании текста задать исключение формул, чтобы редактор OCR не ломал векторные объекты и мат. операторы, а оставил исходное начертание формулы? Только выделять зону формулы как картинку, и смириться с качеством изображения на выходе?  
Спасибо.

Всего записей: 501 | Зарегистр. 21-08-2006 | Отправлено: 18:55 10-03-2023 | Исправлено: galina2000, 19:09 10-03-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Похоже, тут без вариантов  - только OCR с вычиткой.

Почему-то никто не вспомнил про ремаппинг шрифтов.
Ремаппинг чудесно работает в Iceni Infix PDF Editor, SoftMaker FlexiPDF, но только для них.
Ремаппинг по слухам есть в новых PitStop Pro для Adobe Acrobat Pro.
Ремаппинг есть в редкой, но меткой, программе axesPDF (новая версия и старая axesPDF QuickFix 1.0.5).
Вообще-то тема крякозябров или абракадабры (знаков вопроса) уже не раз обсуждалась в этой теме.
ИМХО, взять в соответствующих разделах ру-борда эти программы, может даже в портабельном варианте, и попробовать - это будет быстрее, чем OCR с вычиткой.
 
Вспомнил еще такое:
Можно извлечь "поврежденный" шрифт из pdf-файла. Отредактировать этот шрифт (отремапить, восстановить правильную UNICODE таблицу) в специализированном шрифтовом редакторе вроде FontForge. Затем исправленный шрифт внедрить обратно в pdf с заменой.
 
В PDF-XChange Editor Build 362 появилась такая функция:
Convert-To-Office: added the ability to recognize characters using OCR (for specific fonts with corrupted ToUnicode table etc.)
Это как-бы подходит под данный случай, но как этим пользоваться я так и не понял.

Всего записей: 832 | Зарегистр. 04-11-2019 | Отправлено: 19:56 10-03-2023 | Исправлено: jourmager, 20:46 10-03-2023
toR_nado



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
это будет быстрее, чем OCR с вычиткой

С таким количеством формул, сомнительно как то.

Цитата:
но как этим пользоваться я так и не понял

Видимо это:


Цитата:
Это как-бы подходит под данный случай

Попробовал, у меня не
galina2000
Лично я бы преобразовал бы в растр JBIG2 600dpi в том же PDF-XChange, а дальше если ну очень нужно можно и OCR заняться.

Всего записей: 316 | Зарегистр. 20-05-2006 | Отправлено: 22:43 10-03-2023
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
galina2000

Цитата:
Видимо, использовался OCR, поскольку О превратилось в 0, б - в цифру 6, частично пропали греческие буквы

К русская заглавная превратилась в K латиницу.
 
Вариант - FineReader 15. Выставить в его настройках мат. формулы, русский, английский и автоопределение OCR или текст в PDF при распозновании.
Сохранить в DjVu (JB2 600dpi) или в PDF (JBIG2 600dpi) с текстовым OCR-слоем.
 
https://disk.yandex.ru/
 

Всего записей: 2797 | Зарегистр. 31-05-2010 | Отправлено: 00:58 11-03-2023 | Исправлено: ComboFZ, 13:43 11-03-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
toR_nado

Цитата:
Видимо это:
Попробовал, у меня не

Спасибо. Да, вы правы, это именно то. У меня тоже не. Когда-нибудь дойдут руки - отпишу на их форуме.
А ещё спасибо за подсказки по pdfimages из  xpdf и poppler. Разобрался как работают, сравнил. Для xpdf у меня получилось так:
pdfimages.exe -list -raw filename.pdf out > jpglist.txt
информация по изображению:
out-0000.jpg: page=1 width=2395 height=3200 hdpi=599.44 vdpi=599.44 colorspace=DeviceRGB bpc=8
при этом извлекаются все файлы изображений и это обязательно.
файлы определенных типов извлекаются как flate и т.п.
для pdfimages из poppler:
pdfimages -list filename.pdf > jpglist.txt
page   num  type   width height color comp bpc  enc interp  object ID x-ppi y-ppi size ratio
   1     0 image    2395  3200  rgb     3   8  jpeg   no       416  0   599   599 1033K 4.6%
при этом не нужно извлечение файлов изображений.  
для извлечения файлов изображений как есть:
pdfimages -all filename.pdf
при этом файлы определенных типов при извлечении преобразуются в png

Всего записей: 832 | Зарегистр. 04-11-2019 | Отправлено: 01:37 11-03-2023
den3

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Почему-то никто не вспомнил про ремаппинг шрифтов.
Ремаппинг чудесно работает в Iceni Infix PDF Editor, SoftMaker FlexiPDF, но только для них.

Попробовал ремапинг (переопределение) шрифтов в Инфикс - да, основной текст лечит, но все формулы ломает безбожно.

Всего записей: 75 | Зарегистр. 29-05-2007 | Отправлено: 12:45 11-03-2023
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
KPGA

Цитата:
Столяров А.В. коверкает шрифт в своих PDF книгах   http://stolyarov.info/books

Сделал передистилляцию (Acrobat Pro XI: PDF -> PostScript -> PDF) книги Столяров А.В. Введение в язык Си++: Учебное пособие. 2020. Кракозябры в кириллице исчезли, копипаст текста стал читабельным. Но слова в тексте изредка из копипаста слипаются.

Всего записей: 2797 | Зарегистр. 31-05-2010 | Отправлено: 13:06 11-03-2023 | Исправлено: ComboFZ, 16:29 11-03-2023
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192

Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru