Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183

Открыть новую тему     Написать ответ в эту тему

Skyer

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Редактирование PDF файлов

В этой теме обсуждается редактирование (обработка) PDF файлов, которые бывают трех типов:
- "True" or Real PDF - "настоящий" PDF с векторными текстом и графикой, возможны вставки растра
- Scanned PDF - растровая графика (скан или фото), помещенная в контейнер PDF
- Searchable PDF - растровая (скан или фото) графика с текстовым слоем
Подробнее о типах PDF: Types of PDFs, The 3 Types of PDFs You Need to Know About




Решение типичных задач по редактированию PDF

Обрезать страницы - Acrobat Pro (main app), QIP*/Imposal(plugins), VeryPDF Advanced PDF Page Cut
Разрезать страницы на части - VeryPDF Advanced PDF Page Crop, A-PDF Cut
Склеить страницы между собой - VeryPDF PDF Stitch, Acrobat Pro + QIP* or Imposal
Удалить или редактировать метаданные - BeCyPDFMetaEdit, Adept PDF Layout Changer
Изменить размеры страницы - Acrobat Pro + Evermap AutoPagex , A-PDF Page Master, Neevia PDFtoolbox,  
Измененить/исправить размер страниц с масштабированием содержимого
Изменить размеры страницы, изменить масштаб контента, сдвинуть контент, замаскировать часть страницы и многое другое - Acrobat Pro + Evermap AutoPagex
Исправить наклон страниц -  Acrobat Pro + Evermap AutoPagex/ISI Toolbox, A-PDF Deskew, A-PDF Scan Optimizer  
Наложить PDF на PDF, страницу поверх страницы (Overlay)
О технологии MRC с примерами - 1, 2
Работа с изображениями (подрезка, масштаб, сжать/растянуть) - Inkscape
Преобразование изображений, текста в оттенки серого или в ч/б - A-PDF to Black White или Acrobat Pro + Quite A Box Of Tricks/ISI Toolbox
Извлечение растровых изображений из PDF
Удалить текст без замены, в т.ч. кириллицу - PDF Text Deleter
Удалить растровые ватермарки - PDF Watermark Remover или PDF Logo Remover, в сложных случаях - Foxit PDF Editor с макросом, Acrobat Pro + Preflight, CallasPDF Toolbox
Удаление любых ватермарков - We PDF Watermark Remover
Как/чем узнать Свойства растровых изображений в PDF: битность, цвет, dpi/ppi, разрешение px, формат сжатия, размер mm, наличие маски и т.д. - 1, 2
Редактировать текст - PDF-XChange Editor, Acrobat Pro, FineReader 14 (не OCR-модуль) и новее, Infix PDF Editor, Foxit PDF Editor, PixelPlanet PdfEditor
Удалить или заменить часть текста или текстовые ватермарки - Acrobat Pro, A-PDF Text Replace
Конвертация PDF таблиц в Excel - PDF2XL (da best!)
Заменить цветное векторное изображение на серое - Acrobat Pro + Preflight
Растровый редактор и манипуляции с изображениями в PDF - Foxit PDF Editor и Acrobat Pro + ImageWorks из Crackerjack
Удалить/заменить/создать текстовый слой в PDF файле с помощью Acrobat Pro
Растеризовать pdf - Digitzone PDF Converters
Один из вариантов решения проблем с кракозябрами: видео (зеркало)
* - Quite Imposing Plus
 
 
Если вы задаете вопрос по поводу проблем с PDF файлами, обязательно выкладывайте небольшой пример (только не сотни метров!) такого файла. Это упростит задачу для желающих вам помочь и сделает обсуждение предметным.

Всего записей: 122 | Зарегистр. 01-06-2002 | Отправлено: 03:40 13-11-2005 | Исправлено: useretail, 17:00 11-02-2024
IamDimulya



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Коллеги.
Прошу вашего совета.
Стоит задача конвертировать pdf в docx, взяв исходник скажем на archive.org  
Последние версии всех прог, которые они используют, в том числе кстати и ABBYY Finereader 11-16, создают untagged pdf, то есть Foxit Reader по Ctrl-6 показывает нормальный текстовый слой, но попытка его экспортировать в docx приводит к куче ошибок или он тащит страницу как jpeg.
Набор программ, с которыми я эксперементировал, велик. Пробую версии популярных продуктов начиная с 2015 по 2023 год.
Такое ощущение, что новые спецификации pdf существуют для того, что спрятать в них текст так, чтобы до него было не добраться.  
Прошу поделитесь вашими соображениями и сценариями.
То есть регулярно приходится самому делать текстовый слой, что очень затратно по времени. Благодарю.

Всего записей: 396 | Зарегистр. 01-09-2003 | Отправлено: 07:28 31-12-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
IamDimulya
конкретный пример бы. включая "кучу ошибок".

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 12:10 31-12-2023
galina2000

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Подскажите, пожалуйста, как убрать из текста невидимые пробелы между буквами в словах (оставив, разумеется, необходимые пробелы между словами)? Спасибо.

Всего записей: 475 | Зарегистр. 21-08-2006 | Отправлено: 03:56 02-01-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
galina2000
можно разжать потоки (qpdf, н-р) и попробовать написать скриптик, который в этой каше двухбайтных символов:
[<cee4ede8ec20>-424.4<e8e720>-431.27<e3ebe0e220edfbf520>-426.65<fdf2e020efeee220>-427.81<eff0e820>-431.04<eaee20ebe820f7e5f120f2e2e5ed>10.62<20edeee9>]TJ  
внутри угловых скобок выделяет символ "20" не в конце блока и заменяет на какой-нибудь особый значок, который потом средствами ворда удалять. Типа код символа "$" вставлять, или "_".
Хотя мне очень странно, почему символ пробела не видно глазом. Значит, он в шрифте имеет особую ширину. Во понапридумывают защит.
 
Ну или перераспознать. Ошибок не должно быть, на векторных шрифтах.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 06:10 02-01-2024
snch

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Добрый день! Обсуждается ли где-то на форуме софт для конвертации PDF—>DOC(X)? Сравнения софтин, тонкости, советы и пр. Сходу не нашел. Спасибо!

Всего записей: 69 | Зарегистр. 11-08-2006 | Отправлено: 22:25 07-01-2024
IamDimulya



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
 
Простой пример кракозябл - это https://elib.spbstu.ru/dl/2/2973.pdf/download/2973.pdf
Я его открываю на Win10 22H2 x64 с системной локалью English. В Foxit Reader есть сочетание клавиш Ctrl-6, которое показывает текстовый слой, на нём кракозяблы.
Вопрос - как их исправить?
У меня получается так, что приходится перераспознавать. Идеологически хочется где-то прописать кодировку текста соответствующую, но я не представляю, ВОЗможно ли это сделать и как?!
 
Добавлено:
snch
 
Я решаю эту задачу на протяжении последних месяцев. В итоге главным под описанной выше системой стал Foxit PDF Editor 2023.1.0.15510 Pro Multi-Ru Portable by 7997. Настойки экспорта https://ibb.co/XpcTsV7
Однако, PDF оказывается могилой для данных, потому чем новее версии исходных файлов, тем больше сложностей они дают на выходе, запускт экспорта без возможной оценки результата. Сложности могут быть и pdf с архива.org или последняя версия инструкции к DaVinci Resolve.  
Потому у меня скачаны все остальные возможные pdf-редакторы, имеющие эту функцию. Особо выделяется infix, который вытаскивает то, что остальные отказываются, причём разные версии иногда дают очень разные результаты.  
Также не понятна ситуация - Foxit показывает текстовый слой, а новые жирные приложения для записи в docx либо экспортируют бэкграунд страниц и файл получается невообразимых размеров, с выделяемым текстом, но не переводимый и не удобоваримый. При снятии же 1-й галочки в Foxit PDF Editor "Экспортировать изображения" получается пустой файл.
Я никак не могу взять в толк, почему текстовый слой виден, но не доступен при экспорте, хотя его и сам Foxit PDF Editor показывает.
Также некоторых старых pdf, оригинально сделанных в Adobe PDF Editor при экспроте часть символов портится и приходится перераспознавать файл.
В общем, адский колхоз и куча борьбы. Для страховки лучше ставить экспорт 15 страниц, это экономит время, хотя многие и для сохранения 15 страниц вошкаются с созданием базы данных непомерно большое время.
TelecomUral
Прошу вас, прокомментируйте ситуацию, есть ли у вас решения?
Благодарю.
 
Добавлено:
galina2000
 
Сделал экспорт в docx в трёх разных программах без OCR, получился разный результат.
Думаю, каждому в этой группе пригодится взглянуть www.upload.ee/files/16146464/Page2Docx_3differentResults_.7z.html
Ссылку исправил.
Прошу.

Всего записей: 396 | Зарегистр. 01-09-2003 | Отправлено: 07:52 10-01-2024 | Исправлено: IamDimulya, 01:38 11-01-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
каждому в этой группе пригодится взглянуть

нет файла
 
Добавлено:

Цитата:
IamDimulya
хочется где-то прописать кодировку текста соответствующую, но я не представляю, ВОЗможно ли это сделать и как?!

С виду - стандартный путь, через замену символов. Только заказных шрифтов там немеряно.  
Не пробовали PDFrecode ?

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 08:40 10-01-2024
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
IamDimulya

Цитата:
Простой пример кракозябл. Вопрос - как их исправить?


Цитата:
У меня получается так, что приходится перераспознавать.

Ну да. Например вот так. Но этот путь имеет внутренние ограничения.
Или последовать совету TelecomUral

Цитата:
стандартный путь, через замену символов

Но и этот путь имеет свои внутренние ограничения.
Всё это уже обсуждалось в этой теме. Искать ЕМНИП по кракозябрам, крякозябрам, абракадабра

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 14:29 10-01-2024
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
IamDimulya

Цитата:
...пример кракозябл - это https://elib.spbstu.ru/dl/2/2973.pdf/download/2973.pdf  
...как их исправить?  

 
pdf-recode_2010_12_10
Только три версии pdf-recode из пяти справляются с вашим PDF.
2973+(pdf-recode_2010_12_10).pdf
 
У jourmager неплохо получилось, но ошибки распознования лезут при копипасте и поиске по тексту (см. стр.33 книги, к примеру). На крайний случай этот способ действенный.

Всего записей: 2794 | Зарегистр. 31-05-2010 | Отправлено: 18:18 10-01-2024
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ComboFZ

Цитата:
Только три версии pdf-recode из пяти справляются с вашим PDF.

Посмотрел на результат. Насколько я могу судить, всё переконвертировалось отлично. И кириллица и латиница.

Цитата:
ошибки распознования лезут при копипасте и поиске по тексту

Да, вы правы. Я про это и писал "этот путь имеет внутренние ограничения." Это проблемы и самого метода OCR и использованной в данном случае программы.
Если бы кто-то проявил интерес к данному методу, я бы рассказал подробнее.
Для таких целей лично я предпочитаю перекодировку.


А не могли бы вы подсказать, что делать с исправлением кодировки вот в таком pdf-файле?

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 20:01 10-01-2024
IamDimulya



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Ссылку исправил.
 
Благодарю.
 
jourmager
Благодарю за помощь.
Согласен с ComboFZ, в вашем побилась вся латиница.
 
ComboFZ
Да, прекрасный вариант. Теперь бы ещё текстовый исходник, который в интегрировали в документ и алгоритмы для этого.
 
TelecomUral
jourmager
ComboFZ
 
Прошу поделитесь инструкцией, как этой штукой pdf-recode_2010_12_10 пользоваться. Я ожидал увидеть исполняемый файл, а там гиганский набор скриптов, ещё и под Linux, вероятно.
 
В конечном счёте, интересует алгоритм - как наиболее эффективно вытаскивать текстовый слой из pdf, исправлять в нём ошибки, чтобы сунуть его в систему автоматического перевода.
Я собираю большой индекс книг, в нём уже более 300 гигов и много групповых задач.  
Например - просканировать все pdf на предмет неверной кодировки и исправить это. Например, патенты RU часто этим грешат. Но я так понял, что это нетривиальная задача?!
 
Вот например, один из важнейших журналов по подлинной науке www.unconv-science.org/pdf/IJUS-v23-2019.pdf, в нём неверная кодировка. Прошу помочь в автоматизации поиска и ковертации таких.
У меня уже давно ощущение, что скоро в привычном нам Интернете многое может измениться, а без нормальной кодировки в индексе (dtSearch) оказывается фигня...
 
 

Всего записей: 396 | Зарегистр. 01-09-2003 | Отправлено: 00:26 13-01-2024 | Исправлено: IamDimulya, 00:27 13-01-2024
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
IamDimulya say:

Цитата:
а там гиганский набор скриптов, ещё и под Linux

Не вводите людей в заблуждение. Это перл-скриты и не абы какие, а жёстко виндовские. Такие ни под какой другой осью, кроме винды, пахать не будут ни при каких обстоятельствах. Это всё строго MS windows!
 

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 00:38 13-01-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
IamDimulya
алгоритм - как наиболее эффективно вытаскивать текстовый слой из pdf

ввиду большой навороченности стандарта PDF общего алгоритма нет и придумать его не удастся. В смысле это очень сложная задача. Которую нет смысла автоматизировать.
Надо приобретать опыт, разбирая конкретные пдфки. Выявите несколько типовых способов.
 

Цитата:
IamDimulya
Прошу поделитесь инструкцией, как этой штукой pdf-recode_2010_12_10 пользоваться.

Вроде была в комплекте инструкция.
UPD Да, файл Readme.md

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 05:45 13-01-2024 | Исправлено: TelecomUral, 21:40 13-01-2024
IamDimulya



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Благодарю.  
На md не обратил внимание.
В моём посте выше есть ссылка на pdf. Прошу прокомментируйте его конвертацию, такого рода файлы для начала самое то лечить, а не распознавать, а то ещё и формулы ломаются...

Всего записей: 396 | Зарегистр. 01-09-2003 | Отправлено: 08:02 14-01-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
IamDimulya
Прошу прокомментируйте его конвертацию

есть перловые скрипты, а есть экзешники. Почитайте rudtp, там всё было описано. История вопроса.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 10:22 14-01-2024
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
pdf-recode_2010_12_10
Да, файл Readme.md
На md не обратил внимание.

Что-то к старости я стал слаб глазами. В упор не вижу никакого readme.md.
 
Официальная страница скачивания программы pdf-recode, автором которой является "1998" находится по адресу:
https://forum.rudtp.ru/resources/pdf-recode.141/
 
С этой страницы скачивается rar-архив под названием PDF-recode-1998.rar размером 9,846,639 байт от 02.05.2013 по прямой ссылке:
https://forum.rudtp.ru/resources/pdf-recode.141/download
 
Внутри этого архива ещё 5 архивов:
pdf-recode011108.rar, pdf-recode041210.rar, pdf-recode101210.rar, pdf-recode210111.rar, pdf-recode251008.rar
Внутри каждого из этих пяти архивов находится по одному exe-файлу.
Эти exe-файлы представляют собой скомпилированные perl-скрипты.
Всё.
 
Этот архив сделал администратор suntory, цитирую:
"В файловом архиве я сложил все сохранившиеся версии pdf-recode, в конце добавлена дата когда 1998 их выкладывал."
 
Последнее сообщение от автора программы ("1998") на форуме датируется 21.01.2011. Это 4-я страница темы, посвященной pdf-recode, по адресу https://forum.rudtp.ru/threads/poisk-izvlechenie-teksta.36974/ из всего 12 страниц.
 
Никакого хелпа, редми, инструкции, манула, туториала нет ни в теме, ни в архиве.
Есть несколько сообщений автора, где он пробует раздуплить, что он наваял и как оно работает.
Судя по тому, что за 13 лет никто так и не смог повторить сей подвиг, не всё так просто.
 
Сам-то я смог запустить программу в работу и даже получить результат. Но с матюками.

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 13:22 14-01-2024 | Исправлено: jourmager, 13:29 14-01-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
jourmager
В упор не вижу никакого readme.md

https://github.com/sv99/pdf-recode-ttf?ysclid=lrdcumdvt6658956058

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 13:32 14-01-2024
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Спасибо за ссылку https://github.com/sv99/pdf-recode-ttf
Но Readme.md оттуда не имеет отношения к оригинальным pdf-recode авторства 1998 с rudtp.
Гитхабовский pdf-recode исправляет ttf-шрифты, а оригинальный - Type 1.
Также, гитхабовский pdf-recode не имеет скомпилированного бинарника вообще.
И ещё, меня умилил комментарий из оригинального распакованного pdf-recode:
Don't touch. Don't ask. You'll live longer.

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 13:51 14-01-2024 | Исправлено: jourmager, 13:52 14-01-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
jourmager
не всё так просто

ДА!

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 14:06 14-01-2024
MBK2

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Странные вы люди, постояльцы руборда
Ссылку на тему нашли, но слабо чуть дальше почитать?
Обьяснил же на пальцах как этот recode правильно готовить и с чем есть, и все равно вопросы десять лет...

Всего записей: 4576 | Зарегистр. 18-09-2018 | Отправлено: 16:47 14-01-2024
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183

Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru