Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183

Открыть новую тему     Написать ответ в эту тему

Skyer

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Редактирование PDF файлов

В этой теме обсуждается редактирование (обработка) PDF файлов, которые бывают трех типов:
- "True" or Real PDF - "настоящий" PDF с векторными текстом и графикой, возможны вставки растра
- Scanned PDF - растровая графика (скан или фото), помещенная в контейнер PDF
- Searchable PDF - растровая (скан или фото) графика с текстовым слоем
Подробнее о типах PDF: Types of PDFs, The 3 Types of PDFs You Need to Know About




Решение типичных задач по редактированию PDF

Обрезать страницы - Acrobat Pro (main app), QIP*/Imposal(plugins), VeryPDF Advanced PDF Page Cut
Разрезать страницы на части - VeryPDF Advanced PDF Page Crop, A-PDF Cut
Склеить страницы между собой - VeryPDF PDF Stitch, Acrobat Pro + QIP* or Imposal
Удалить или редактировать метаданные - BeCyPDFMetaEdit, Adept PDF Layout Changer
Изменить размеры страницы - Acrobat Pro + Evermap AutoPagex , A-PDF Page Master, Neevia PDFtoolbox,  
Измененить/исправить размер страниц с масштабированием содержимого
Изменить размеры страницы, изменить масштаб контента, сдвинуть контент, замаскировать часть страницы и многое другое - Acrobat Pro + Evermap AutoPagex
Исправить наклон страниц -  Acrobat Pro + Evermap AutoPagex/ISI Toolbox, A-PDF Deskew, A-PDF Scan Optimizer  
Наложить PDF на PDF, страницу поверх страницы (Overlay)
О технологии MRC с примерами - 1, 2
Работа с изображениями (подрезка, масштаб, сжать/растянуть) - Inkscape
Преобразование изображений, текста в оттенки серого или в ч/б - A-PDF to Black White или Acrobat Pro + Quite A Box Of Tricks/ISI Toolbox
Извлечение растровых изображений из PDF
Удалить текст без замены, в т.ч. кириллицу - PDF Text Deleter
Удалить растровые ватермарки - PDF Watermark Remover или PDF Logo Remover, в сложных случаях - Foxit PDF Editor с макросом, Acrobat Pro + Preflight, CallasPDF Toolbox
Удаление любых ватермарков - We PDF Watermark Remover
Как/чем узнать Свойства растровых изображений в PDF: битность, цвет, dpi/ppi, разрешение px, формат сжатия, размер mm, наличие маски и т.д. - 1, 2
Редактировать текст - PDF-XChange Editor, Acrobat Pro, FineReader 14 (не OCR-модуль) и новее, Infix PDF Editor, Foxit PDF Editor, PixelPlanet PdfEditor
Удалить или заменить часть текста или текстовые ватермарки - Acrobat Pro, A-PDF Text Replace
Конвертация PDF таблиц в Excel - PDF2XL (da best!)
Заменить цветное векторное изображение на серое - Acrobat Pro + Preflight
Растровый редактор и манипуляции с изображениями в PDF - Foxit PDF Editor и Acrobat Pro + ImageWorks из Crackerjack
Удалить/заменить/создать текстовый слой в PDF файле с помощью Acrobat Pro
Растеризовать pdf - Digitzone PDF Converters
Один из вариантов решения проблем с кракозябрами: видео (зеркало)
* - Quite Imposing Plus
 
 
Если вы задаете вопрос по поводу проблем с PDF файлами, обязательно выкладывайте небольшой пример (только не сотни метров!) такого файла. Это упростит задачу для желающих вам помочь и сделает обсуждение предметным.

Всего записей: 122 | Зарегистр. 01-06-2002 | Отправлено: 03:40 13-11-2005 | Исправлено: useretail, 17:00 11-02-2024
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot

Цитата:
Нет таких немаловажных функций, как добавление BG (подложка) и FG (штамп)

Позвольте поинтересоваться, а для чего вам функция ватермарков в бесплатной программе, и почему "немаловажная"?
Ну я понимаю в платной программе, ватермарки для демонстрации охраны авторского права в продаваемых pdf-ках, ну или типа гриф "сов. секретно".
Ну я понимаю, просто как дополнительная необязательная фича.
А тут?  
Вот лично мне оно не надо, но может я что-то упускаю?

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 19:51 16-06-2023
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager say:

Цитата:
 
для чего вам функция ватермарков в бесплатной программе, и почему "немаловажная"?
 

Для того, чтобы наложить (или подложить) цветные иллюстрации (JPEG, JPX), отделённые от текста, на ЧБ-текст (FAX, JBIG2). Также возможно наложение невидимого OCR или полкладка под изображения видимого OCR. Вы похоже ни разу не занимались сегментацией скана на блоки. А зря. Помимо того, что значительно снижает плохость результата (текст чёткий независимо от качества иллюстраций, потому как может иметь больший DPI чем у иллюстраций), так ещё и шибко снижает нагрузку на вьючер при просмотре. Такие вот дела.
 
PS: Вопрос конечно с отделением иллюстраций от текста в виде блоков. Я пользую поделку python-cropper-tk. Только с переходом на пайтон3 интерфейс стал больно глючный. Да и хотелось бы чего то Сишного штоле.

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 20:11 16-06-2023 | Исправлено: zvezdochiot, 20:30 16-06-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot
Спасибо, что ответили.
Я совсем упустил метод разделенных сканов.
Я действительно знаком лишь поверхностно с сегментацией скана на блоки.
Но. Может я не прав, тогда поправьте.
Существуют только 2 программы, работающие с (заточенные на) сегментацией скана (для PDF) - ScanKromsator и ScanTailor.
Можно сказать, что у программ OCR (типа FineReader) также есть сегментация, но она там, скажем так, специфическая. Пробовали, знаем.
Также можно сказать, что PDF с MRC - это как раз и есть Mетод Rазделенных Cканов, но это тоже не так. Пробовали, знаем.
Вообще-то, желательно уточнить терминологически, что есть метод разделенных сканов. Конкретно.
ScanKromsator я все никак не могу освоить через слишком высокий порог вхождения и непонятные профиты в результате.
ScanTailor непонятно какой использовать, т.к. есть несколько форков.
И SK и ST из коробки должны уметь и разделять сканы и соединять их. Иначе как?
Но тогда зачем дополнительный софт для соединения сканов?
Я потом увидел, что вы используете python-cropper-tk.
А чем SK или ST не устраивает?
Кстати. отдельным софтом подкладывать подложки можно только тогда, когда эта подложка размером на всю страницу, а если это, например, 3 отдельных цветных картинки, то их надо будет располагать поверх текста с точностью, которую непонятно как обеспечить.

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 21:52 16-06-2023
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Подробнее...

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 22:27 16-06-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot
Спасибо, что развернуто ответили. Вы подтвердили некоторые мои мысли на эту тему.
Но.
1) я поверхностно знаком с ImageMagick, и сомневаюсь. что с её помощью с наскока можно "спокойно разделить" не зная хорошо все её опции командной строки. Я уже погуглил с нулевым результатом. Оно как бы и не сильно надо, чисто для интереса в копилку.
2) Я более внимательно почитал про python-cropper-tk. Штука интересная, но насколько я понял выделение блоков осуществляется мышкой вручную. Это возможно при небольшом количестве иллюстраций или если книга очень нравится, но для более-менее массовой обработки это несерьезно.
3) остается непонятным для меня, а куда записываются координаты изображений, которые отделены от текста. Это должен быть автоматический процесс, потому что потом вручную центрировать картинки по тексту - опять же несерьезно.
4) картинки внедрять в pdf можно как image и как stamp. В чем отличие я ещё полностью не разобрался, но отличия есть.
ИМХО для метода разделенных сканов использовать функции бэкграунда и штампа можно. но не нужно. Лучше все-таки как изображения.

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 11:30 17-06-2023
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager
 
1) См. также DjVu Imager

Код:
 
mkdir txt; for ttif in *.tif; do gm convert -verbose -threshold 0 -compress Group4 "$ttif" "txt/$ttif"; done
mkdir c; for ttif in *.tif; do gm convert -verbose -fill white -opaque black "$ttif" "c/$ttif"; done
 

2) CropperTktoPDF с помощью reportlab генерит пустую PDF-страницу размером с исходное изображение (с учётом DPI) и размещает вырезанные участки изображения туда, откуда они вырезаны.
3) Комбинация Zooming и AutoCrop позволяет довольно шустро выделять изображения на обработанном ST скане.
4) Все картинки внедряются как image. Stamp и Background - это не способ внедрения картинок, а способ наложения одного PDF на другой (порядок следования объектов).
 
Пример: В мире науки, выпуски 1983 N1,2 PDF (сравнивать со всеми последующими выпусками).

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 11:45 17-06-2023 | Исправлено: zvezdochiot, 12:35 17-06-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot
1) Спасибо за ссылку, эта статья прошла как-то мимо меня.
Спасибо за примеры использования ImageMagick
mkdir txt; for tiff in *.tif; do gm convert -verbose -threshold 0 -compress Group4 "$tiff" "txt/$tiff"; done
mkdir c; for tiff in *.tif; do gm convert -verbose -fill white -opaque black "$tiff" "c/$tiff"; done
Описание опций convert
Но, насколько я понимаю, там ttif надо поменять на tiff. Вероятно, простая опписка.
2) Теперь все понятно
3) а как по-вашему, хорошо ли работает автосегментация у Scantailor? Шустро - это не обязательно точно.
4) это уже терминологические нюансы. Вставить картинку можно и так и так, и просматриваться такие пдфки будут одинаково. Разница будет при обработке пдфки.

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 13:36 17-06-2023
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager
 
1) Не опечатка, ttif / $ttif - переменная цикла (for tiff in *.tif; синтаксис bash, в CMD другой синтаксис, см Командная строка, батники, сценарии - bat, cmd)
3) Автосегментация в ST 50/50. Доверять не стоит совсем. Всегда (всегда!) делаю контрольную обводку "иллюстраций". Зачастую выключаю автовыделение (на грязных сканах). Не хватает только функции trim-инга по маске (выделил абы как, нажал "trim").
 
 PS: И я использовал GraphicsMagick (gm), а не ImageMagick. В принципе одно и тоже (почти), но использование памяти не такое изуверское.

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 13:45 17-06-2023 | Исправлено: zvezdochiot, 13:53 17-06-2023
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot

Цитата:
for tiff in *.tif; синтаксис bash

расширение может быть и tiff, и TIF, и TIFF.

Всего записей: 7336 | Зарегистр. 08-09-2001 | Отправлено: 14:06 17-06-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot

Цитата:
Не опечатка

Точно! Сорри, я забыл, что у вас "гранаты не той системы"
Я для личного понимания гуглил с ориентацией на Windows.

Цитата:
GraphicsMagick

А я то думаю, как ImageMagick саббревиатурлся до gm. Сейчас времени много нет, решил на потом отложитть.
 

Цитата:
Не хватает только функции trim-инга по маске (выделил абы как, нажал "trim")

А это интересно. А вы видели такое у какого-либо софта, или это просто Фичер Реквест основанный на опыте?

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 14:37 17-06-2023
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager say:

Цитата:
 
А вы видели такое у какого-либо софта
 

Собственно примерно так и работает AutoCrop в CropperTktoPDF: Сначала в рамку Zooming-а заводишь абы как одну "иллюстрацию", после чего жмешь "Auto" в "AutoCrop" (возможно с опцией "BW"). Готово.
В GIMP есть похожая функция: "Обрезать до содержимого", хотя было бы неплохо иметь также "Выделить содержимое". Хотя не, путём было бы "Выделить видимое".
 

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 15:05 17-06-2023 | Исправлено: zvezdochiot, 15:15 17-06-2023
sergio147



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Друзья, подскажите, пожалуйста, самый простой способ скопировать таблицу из PDF КАК ТАБЛИЦУ.
 
Никаких особых требований нет. Просто перенести табличку в Excel с сохранением разбивки данных по столбцам

----------
Есть многое на свете, друг Гораций,
что неподвластно нашим мудрецам

Всего записей: 2444 | Зарегистр. 28-10-2006 | Отправлено: 20:54 19-06-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
самый простой способ скопировать таблицу из PDF КАК ТАБЛИЦУ


Цитата:
Никаких особых требований нет

тогда по-ячеечно

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 21:09 19-06-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
самый простой способ

На этом форуме самый простой способ начинается с чтения шапки.
Потом продолжается поиском по теме в версии для печати.
Но лично я перед всем этим сначала гуглю.
Типа converter pdf to xls online.
Поверьте, это очень быстро и гораздо быстрее, чем ждать чужого ответа.

Цитата:
Никаких особых требований нет


Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 22:24 19-06-2023 | Исправлено: jourmager, 22:25 19-06-2023
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
sergio147, зависит от таблицы и ее размещения в pdf, некоторые легко извлекаются в csv с помощью pdftotext и sed.

Всего записей: 7336 | Зарегистр. 08-09-2001 | Отправлено: 22:31 19-06-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
легко извлекаются в csv с помощью pdftotext и sed

Вангую, через некоторое время мы тут увидим юзера с 17-летим стажем на ру-борде, который вместо того, чтобы за 2 минуты конвертнуть свой pdf в xls/xlsx будет спрашивать где именно скачать pdftotext и sed.
В лучшем случае будет спрашивать, почему косяки полезли со всех сторон.
Очень буду рад, если ошибаюсь.

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 23:39 19-06-2023 | Исправлено: jourmager, 23:41 19-06-2023
galina2000

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Здравствуйте. Подскажите, пожалуйста, как можно привести к нормальному размеру публикацию. Сохранение как файла уменьшенного размера или оптимизированного файла практически ничего не даёт. Спасибо.

Всего записей: 475 | Зарегистр. 21-08-2006 | Отправлено: 07:52 22-06-2023 | Исправлено: galina2000, 09:55 22-06-2023
73



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Поскольку сжатие PDF вызывает нездоровый интерес у хомячков, вот бесплатная раздача на SOS от Ascomp - PDF compress. Чудес не будет, но хоть какие-то параметры сжатия можно выбрать самостоятельно. Раздача будет еще 5 дней, торопитесь!

Всего записей: 1151 | Зарегистр. 18-08-2012 | Отправлено: 08:11 22-06-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
galina2000
как можно привести к нормальному размеру

припоминаю Пластилиновую ворону - "а вот это мой размерчик"
Что есть для вас нормальность - ?
 
upd
файл ваш - с векторными рисунками, все примитивы описаны текстовыми командами. раньше в ветке было уже показано на радиотехнической книжке, как в таком случае поступать.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 08:45 22-06-2023 | Исправлено: TelecomUral, 09:07 22-06-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
galina2000

Цитата:
как можно привести к нормальному размеру

19 MB - это нормально?
Если да, то можно.

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 09:30 22-06-2023
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183

Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru