Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183

Открыть новую тему     Написать ответ в эту тему

Skyer

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Редактирование PDF файлов

В этой теме обсуждается редактирование (обработка) PDF файлов, которые бывают трех типов:
- "True" or Real PDF - "настоящий" PDF с векторными текстом и графикой, возможны вставки растра
- Scanned PDF - растровая графика (скан или фото), помещенная в контейнер PDF
- Searchable PDF - растровая (скан или фото) графика с текстовым слоем
Подробнее о типах PDF: Types of PDFs, The 3 Types of PDFs You Need to Know About




Решение типичных задач по редактированию PDF

Обрезать страницы - Acrobat Pro (main app), QIP*/Imposal(plugins), VeryPDF Advanced PDF Page Cut
Разрезать страницы на части - VeryPDF Advanced PDF Page Crop, A-PDF Cut
Склеить страницы между собой - VeryPDF PDF Stitch, Acrobat Pro + QIP* or Imposal
Удалить или редактировать метаданные - BeCyPDFMetaEdit, Adept PDF Layout Changer
Изменить размеры страницы - Acrobat Pro + Evermap AutoPagex , A-PDF Page Master, Neevia PDFtoolbox,  
Измененить/исправить размер страниц с масштабированием содержимого
Изменить размеры страницы, изменить масштаб контента, сдвинуть контент, замаскировать часть страницы и многое другое - Acrobat Pro + Evermap AutoPagex
Исправить наклон страниц -  Acrobat Pro + Evermap AutoPagex/ISI Toolbox, A-PDF Deskew, A-PDF Scan Optimizer  
Наложить PDF на PDF, страницу поверх страницы (Overlay)
О технологии MRC с примерами - 1, 2
Работа с изображениями (подрезка, масштаб, сжать/растянуть) - Inkscape
Преобразование изображений, текста в оттенки серого или в ч/б - A-PDF to Black White или Acrobat Pro + Quite A Box Of Tricks/ISI Toolbox
Извлечение растровых изображений из PDF
Удалить текст без замены, в т.ч. кириллицу - PDF Text Deleter
Удалить растровые ватермарки - PDF Watermark Remover или PDF Logo Remover, в сложных случаях - Foxit PDF Editor с макросом, Acrobat Pro + Preflight, CallasPDF Toolbox
Удаление любых ватермарков - We PDF Watermark Remover
Как/чем узнать Свойства растровых изображений в PDF: битность, цвет, dpi/ppi, разрешение px, формат сжатия, размер mm, наличие маски и т.д. - 1, 2
Редактировать текст - PDF-XChange Editor, Acrobat Pro, FineReader 14 (не OCR-модуль) и новее, Infix PDF Editor, Foxit PDF Editor, PixelPlanet PdfEditor
Удалить или заменить часть текста или текстовые ватермарки - Acrobat Pro, A-PDF Text Replace
Конвертация PDF таблиц в Excel - PDF2XL (da best!)
Заменить цветное векторное изображение на серое - Acrobat Pro + Preflight
Растровый редактор и манипуляции с изображениями в PDF - Foxit PDF Editor и Acrobat Pro + ImageWorks из Crackerjack
Удалить/заменить/создать текстовый слой в PDF файле с помощью Acrobat Pro
Растеризовать pdf - Digitzone PDF Converters
Один из вариантов решения проблем с кракозябрами: видео (зеркало)
* - Quite Imposing Plus
 
 
Если вы задаете вопрос по поводу проблем с PDF файлами, обязательно выкладывайте небольшой пример (только не сотни метров!) такого файла. Это упростит задачу для желающих вам помочь и сделает обсуждение предметным.

Всего записей: 122 | Зарегистр. 01-06-2002 | Отправлено: 03:40 13-11-2005 | Исправлено: useretail, 17:00 11-02-2024
harrykkk



BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
но с вашими комментариями в коде

Комментировать не буду, просите автора, если согласится.

Цитата:
работы скрипта, его установки и запуска

Устанавливайте последний Python, так чтобы прописался в path. Сохраните скрипт в файле например pdf_clean.py (utf-8). Положите скрипт рядом с распакованным pdf-файлом и откройте в этой папке терминал

Код:
pdf_clean.py input.pdf output.pdf

Всего записей: 9020 | Зарегистр. 24-02-2013 | Отправлено: 14:16 16-02-2023
MBK2

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
Чтобы понять, что там написано, надо хотя бы знать синтаксис языка программирования. Это как чтобы читать по-английски надо хотя бы знать эй, би, си, ди, и, эф...

Для того, чтобы летать на самолете вовсе не обязательно высшую математику и аэродинамику изучать. Меня всегда поражала позиция людей, которые легко и охотно готовы запускать присланный EXE файл даже не задумываясь о наличии внутри вредоносного кода, однако, если программа выглядит как кусок текста со смутно знакомыми словами, обязательно надо поинтересоваться что у ея внутре и полазить потными шаловливыми ручками.
Я не большой питонист, но поверьте мне на слово - скрипт узкоспециальный и коллизий при его работе будет не счесть.

Всего записей: 4556 | Зарегистр. 18-09-2018 | Отправлено: 15:35 16-02-2023 | Исправлено: MBK2, 15:36 16-02-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
MBK2

Цитата:
Меня всегда поражала позиция людей, которые легко и охотно готовы запускать присланный EXE файл даже не задумываясь о наличии внутри вредоносного кода,

Полностью с вами согласен. Именно поэтому я стараюсь избегать использования кейгенов.
Но Open Source, Sourceforge и GitHub существуют не первый день. ЕВПОЧЯ.

Всего записей: 728 | Зарегистр. 04-11-2019 | Отправлено: 16:06 16-02-2023
esys

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Есть ли программа, в которой поиск по тексту находит сразу ВСЕ имеющиеся в книге искомые слова и выдает результат поиска в виде списка (как в DjVu Small, например)?
https://drive.google.com/file/d/1G4nPQLrS5ISpEy9bmaCIjk3cjhcda_wj/view?usp=drivesdk

Всего записей: 339 | Зарегистр. 22-06-2016 | Отправлено: 16:59 16-02-2023
MBK2

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys
Акробат же
 

Всего записей: 4556 | Зарегистр. 18-09-2018 | Отправлено: 17:49 16-02-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys

Цитата:
Есть ли программа, в которой поиск по тексту находит сразу ВСЕ имеющиеся в книге искомые слова и выдает результат поиска в виде списка

Есть.  
Adobe Acrobat Pro 11 и 22, PDF-XChange Editor 9 и Viewer 2.5, Foxit PDF Editor 12, FineReader 15, Nitro Pro 13, Iceni Infix PDF Editor 7, SoftMaker FlexiPDF 3, Ashampoo PDF Pro 3, Code Industry Master PDF Editor 5, IceСream PDF Editor 2.
Понятно, что другие версии наверно также это могут делать.
Понятно, что простые вьюверы Adobe, Foxit, Nitro наверно также могут это делать.
Понятно, что вышеприведенными программами список не исчерпывается
В одних программах поиск с выводом сразу всех результатов запускается по нажатию Ctrl+Shift+F, в других как обычно, Ctrl+F.
 

Всего записей: 728 | Зарегистр. 04-11-2019 | Отправлено: 18:07 16-02-2023 | Исправлено: jourmager, 18:16 16-02-2023
esys

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
по нажатию Ctrl+Shift+F, в других как обычно, Ctrl+F.

Вот что я не знал. Спасибо!  Всегда искал Ctrl+F, поэтому такого не видел.

Всего записей: 339 | Зарегистр. 22-06-2016 | Отправлено: 19:34 16-02-2023
harrykkk



BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
не удалять объекты, а очищать потоки в формах

Там в файлах есть объекты, ссылающиеся на другие объекты, при удалении которых остаются ссылки в никуда. Большинству ридеров это пофиг, но акробат ругается. Поэтому скрипт удаляет только стрим в объектах, а не объекты целиком.
Скрипт писался для последних загаженных ланью файлов. Естественно, если Лань изменит способ гадить, то и скрипт придется переписывать.

Всего записей: 9020 | Зарегистр. 24-02-2013 | Отправлено: 21:53 16-02-2023
Geoleo

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
Ну, т.е., если по словам автора, скрипт создан, чтобы "очищать потоки в формах", то какие потоки, в каких формах, как определяется начало и конец потока, проводится ли проверка содержимого и т.д. и т.п. и пр.

http://forum.ru-board.com/topic.cgi?forum=93&topic=3978&start=2460#21
Ответ ChatGPT:

Цитата:
Этот Python код обрабатывает файл PDF и удаляет любые водяные знаки, которые могут быть в нем. Он принимает входной файл и выходной файл в качестве аргументов командной строки, а затем читает входной файл построчно и записывает измененную версию в выходной файл.
Он использует регулярные выражения для поиска строк, содержащих ключевые слова, такие как "obj", "endobj", "/FormType" и "/Length". Затем он проверяет, является ли текущий объект водяным знаком, используя ключевое слово "/FormType", и затем удаляет любые строки, начиная с "stream" и заканчивая "endstream", если это так. Он также изменяет строку "/Length" на "/Length 0" для того, чтобы отменить любое содержимое потока, связанное с водяным знаком.
Наконец, он записывает в выходной файл измененные объекты и оставляет остальные строки без изменений.

 
Добавлено:
Можно ли улучшить этот код?

Цитата:
Можно улучшить этот код, например:
1. Обработка файлов с помощью двоичного режима чтения и записи более предпочтительна для файлов PDF, поскольку они содержат двоичные данные.
2. Лучше использовать стандартные библиотеки Python для обработки файлов PDF, например, PyPDF2 или pdfrw, вместо написания собственного кода для работы с файлами PDF.
3. Код не содержит проверок на ошибки ввода-вывода, например, если файл не может быть прочитан или записан. Это должно быть обработано с помощью соответствующих исключений.
4. Использование более информативных сообщений об ошибках, чтобы пользователь мог быстрее определить проблемы с входным и выходным файлами.
5. Добавление документации и комментариев, чтобы облегчить понимание того, что делает код, и какие данные он ожидает на входе.
6. Использование меньшего количества регулярных выражений и более читаемого кода, используя методы строк и списков Python.
7. Проверка существования файлов входного и выходного параметров командной строки и сообщение об ошибке, если один или оба файла отсутствуют.
8. В целом, код можно значительно улучшить, используя библиотеки Python для работы с файлами PDF и обеспечивая более точную обработку ошибок и улучшенную читабельность кода.

 
Оптимизируй код, пожалуйста.

Цитата:
Ниже приведен оптимизированный код, который использует PyPDF2 библиотеку для чтения и записи файлов PDF. Он также проверяет существование входного и выходного файла и сообщает об ошибках ввода-вывода.

Код:
Подробнее...

Этот код использует PdfFileReader и PdfFileWriter классы из PyPDF2 библиотеки для чтения и записи файлов PDF. Он проверяет существование входного файла и сообщает об ошибке, если файл не найден. Он также читает каждую страницу PDF и удаляет содержимое страницы, если страница содержит водяной знак. Наконец, он записывает обновленный файл PDF в выходной файл.
Код более понятен и менее сложен, поскольку он использует библиотеку для обработки файлов PDF вместо регулярных выражений и создания новых методов для обработки файлов. Кроме того, он более производителен, потому что он не использует регулярные выражения и обрабатывает файлы PDF более эффективно.
 

Всего записей: 359 | Зарегистр. 05-05-2004 | Отправлено: 10:19 18-02-2023 | Исправлено: Geoleo, 11:38 18-02-2023
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Geoleo, и как? После оптимизации лучше стал обрабатывать?

Всего записей: 7334 | Зарегистр. 08-09-2001 | Отправлено: 11:15 18-02-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Geoleo
Ух ты! Неожиданное продолжение. Большое спасибо. Сейчас нет времени попробовать, но сделаю это обязательно. Попробовать и новый код и возможности ChatGPT.

Всего записей: 728 | Зарегистр. 04-11-2019 | Отправлено: 12:13 18-02-2023 | Исправлено: jourmager, 12:34 18-02-2023
Geoleo

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
los
jourmager
В коде, который предложил ChatGPT, ошибки и поэтому он не будет работать для последних версий PyPDF2 3.x.x. Надо заменить PdfFileReader на PdfReader и PdfFileWriter на PdfWriter, предварительно исполнив консольную команду pip3 install --upgrade PyPDF2.

Всего записей: 359 | Зарегистр. 05-05-2004 | Отправлено: 14:11 18-02-2023 | Исправлено: Geoleo, 15:32 18-02-2023
MBK2

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Какая то дичь. Каким боком FormType к водяным знакам???

Всего записей: 4556 | Зарегистр. 18-09-2018 | Отправлено: 16:20 18-02-2023
harrykkk



BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Geoleo

Цитата:
Ниже приведен оптимизированный код, который использует PyPDF2

Почему выбор пал на PyPDF2? Там же ясно сказано, что

Цитата:
NOTE: The PyPDF2 project is going back to its roots. PyPDF2==3.0.X will be the last version of PyPDF2. Development will continue with pypdf==3.1.0

проект остановлен, и дальше будет развиваться pypdf.

Всего записей: 9020 | Зарегистр. 24-02-2013 | Отправлено: 16:56 18-02-2023
Geoleo

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
MBK2

Цитата:
Каким боком FormType к водяным знакам???

Так ведь и по понятиям Enfocus PitStop, и в том понимании как классифицирует  watermark компания Adobe то и в книгах, загаженных мусором Лань, никаких водяных знаков и нет!
harrykkk
К ChatGPT нужно относиться как к ребенку у которого энциклопедические знания, но которого родители еще не научили жизни. Да и я с этим ботом совсем недавно стал вести беседы. Нужно более четко ставить вопросы, а затем уточнять, по мере появления ответов.
Зарегиться там очень просто и мне это обошлось <30 руб., и то, потому что я из России.
Например вот так.
#

Всего записей: 359 | Зарегистр. 05-05-2004 | Отправлено: 19:51 18-02-2023
MBK2

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А, теперь все понял.  
 

Цитата:
 -А что у вас там за лампа? - с любопытством спросил Фарфуркис.
     Старичок тут же ударил по клавишам, потом быстро  вырвал  из  машинки
листок бумаги и поднес его Фарфуркису. Фарфуркис прочитал вслух:
     - Что у нея... гм... у нея  внутре  за  лэпэчэ...  Лэпэчэ...  Кэпэдэ,
наверное? Что еще за лэпэчэ?
     - Лампочка, значит, - сказал старичок,  хихикая  и  потирая  руки.  -
Кодируем помаленьку. - Он вырвал у Фарфуркиса листок и побежал  обратно  к
своей машинке. - Это, значит, был вопрос, - произнес  он,  загоняя  листок
под валик. - А сейчас посмотрим, что она ответит...
     Члены  Тройки  с  интересом  следили  за  его  действиями.  Профессор
Выбегалло благодушно-отечески  сиял,  изысканными  и  плавными  движениями
пальцев выбирая из бороды мусор. Эдик пребывал  в  спокойной,  теперь  уже
полностью  осознанной  тоске.  Между  тем,  старичок  бодро  простучал  по
клавишам и снова выдернул листок.
     - Вот, извольте, ответ.
     Фарфуркис прочитал:
     - "У мене внутре... гм... не... неонка." Что это такое - неонка?
     - Айн секунд! - воскликнул  изобретатель,  выхватил  листок  и  вновь
побежал к машинке.
     Дело пошло. Машина дала безграмотное определение, что  такое  неонка,
затем  она  ответила  Фарфуркису,  что  пишет  "внутре"  согласно   правил
грамматики, а затем...
 

Всего записей: 4556 | Зарегистр. 18-09-2018 | Отправлено: 20:03 18-02-2023
esys

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
При печати на виртуальном принтере адоб акробат файла автокада шрифт заменяется заливкой:
https://drive.google.com/file/d/1M0ppjTgENpW_85WQ7eS15fGpK7GKgDf4/view?usp=drivesdk
Как настроить вирт. принтер для получения нормального шрифта? Или какой вирт. принтер использовать, где такой проблемы нет?

Всего записей: 339 | Зарегистр. 22-06-2016 | Отправлено: 22:49 21-02-2023 | Исправлено: esys, 22:51 21-02-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
нуу... наверное не в адобе дело. автокад выдает шрифт не как шрифт.

Всего записей: 3047 | Зарегистр. 15-07-2010 | Отправлено: 09:21 22-02-2023
Andrea



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Возникло несколько вопросов, связанных с обрезкой/разделением страниц в PDF документе:
- Для чего после обрезки страниц в большинстве программ-редакторов (напр., в PDFXCEditor) по умолчанию сохраняется обрезанное содержимое (что в частности приводит к увеличению размера файла после обрезки)?
- Не пострадает ли качество/отображение pdf-документа после удаления из него обрезанного содержимого?
- Сохраняется ли в pdf-файле обрезанное содержимое или иная избыточная информация после разделения страниц документа?

Всего записей: 1094 | Зарегистр. 24-12-2015 | Отправлено: 21:06 25-02-2023 | Исправлено: Andrea, 01:57 26-02-2023
slava_kry

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Andrea
1. Потому что полиграфия. В 90% случаев всегда захочется поправить обрезку.
2. Не пострадает, но размер увеличится, т.к. изображение расжимается. Потому лучше сразу делать как надо.
3. Да, до тех пор пока вы не удалите.

----------
Вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом

Всего записей: 4308 | Зарегистр. 18-09-2003 | Отправлено: 05:40 26-02-2023
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183

Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru