Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192

Открыть новую тему     Написать ответ в эту тему

Skyer

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Редактирование PDF файлов

В этой теме обсуждается редактирование (обработка) PDF файлов, которые бывают трех типов:
- "True" or Real PDF - "настоящий" PDF с векторными текстом и графикой, возможны вставки растра
- Scanned PDF - растровая графика (скан или фото), помещенная в контейнер PDF
- Searchable PDF - растровая (скан или фото) графика с текстовым слоем
Подробнее о типах PDF: Types of PDFs, The 3 Types of PDFs You Need to Know About




Решение типичных задач по редактированию PDF

Обрезать страницы - Acrobat Pro (main app), QIP*/Imposal(plugins), VeryPDF Advanced PDF Page Cut
Разрезать страницы на части - VeryPDF Advanced PDF Page Crop, A-PDF Cut
Склеить страницы между собой - VeryPDF PDF Stitch, Acrobat Pro + QIP* or Imposal
Удалить или редактировать метаданные - BeCyPDFMetaEdit, Adept PDF Layout Changer
Изменить размеры страницы - Acrobat Pro + Evermap AutoPagex , A-PDF Page Master, Neevia PDFtoolbox,  
Измененить/исправить размер страниц с масштабированием содержимого
Изменить размеры страницы, изменить масштаб контента, сдвинуть контент, замаскировать часть страницы и многое другое - Acrobat Pro + Evermap AutoPagex
Исправить наклон страниц -  Acrobat Pro + Evermap AutoPagex/ISI Toolbox, A-PDF Deskew, A-PDF Scan Optimizer  
Наложить PDF на PDF, страницу поверх страницы (Overlay)
О технологии MRC с примерами - 1, 2
Работа с изображениями (подрезка, масштаб, сжать/растянуть) - Inkscape
Преобразование изображений, текста в оттенки серого или в ч/б - A-PDF to Black White или Acrobat Pro + Quite A Box Of Tricks/ISI Toolbox
Извлечение растровых изображений из PDF
Заменить/удалить текст (batch есть), в т.ч. кириллицу (не панацея!) - PDF Replacer
Удалить текст без замены, в т.ч. кириллицу - PDF Text Deleter
Удалить растровые ватермарки - PDF Watermark Remover или PDF Logo Remover, в сложных случаях - Foxit PDF Editor с макросом, Acrobat Pro + Preflight, CallasPDF Toolbox
Удаление любых ватермарков - We PDF Watermark Remover
Как/чем узнать Свойства растровых изображений в PDF: битность, цвет, dpi/ppi, разрешение px, формат сжатия, размер mm, наличие маски и т.д. - 1, 2
Редактировать текст - PDF-XChange Editor, Acrobat Pro, FineReader 14 (не OCR-модуль) и новее, Infix PDF Editor, Foxit PDF Editor, PixelPlanet PdfEditor
Удалить или заменить часть текста или текстовые ватермарки - Acrobat Pro, A-PDF Text Replace
Конвертация PDF таблиц в Excel - PDF2XL (da best!)
Заменить цветное векторное изображение на серое - Acrobat Pro + Preflight
Растровый редактор и манипуляции с изображениями в PDF - Foxit PDF Editor и Acrobat Pro + ImageWorks из Crackerjack
Удалить/заменить/создать текстовый слой в PDF файле с помощью Acrobat Pro
Растеризовать pdf - Digitzone PDF Converters
Один из вариантов решения проблем с кракозябрами: видео (зеркало)
* - Quite Imposing Plus
 
 
Если вы задаете вопрос по поводу проблем с PDF файлами, обязательно выкладывайте небольшой пример (только не сотни метров!) такого файла. Это упростит задачу для желающих вам помочь и сделает обсуждение предметным.

Всего записей: 122 | Зарегистр. 01-06-2002 | Отправлено: 03:40 13-11-2005 | Исправлено: 73, 09:51 29-08-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist
то есть она (pdfimages) учтет и ужатое пространство объекта? Надо бы и мне тесты провести. Чтоб jpeg-исходник в dpi=600 был ужат на страницу с коэф., допустим, 78%, и распакован обратно без изменения как числа пикселей так и значения dpi.

Всего записей: 3330 | Зарегистр. 15-07-2010 | Отправлено: 14:46 17-12-2022
papaVlad



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist
По образцу всё настроил, в итоге получил больше ожидаемого.
Большое спасибо!

Всего записей: 161 | Зарегистр. 22-04-2012 | Отправлено: 15:25 17-12-2022
lyolik r

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
los
Archivist
 
Благодарю, буду изучать
 

Всего записей: 462 | Зарегистр. 26-05-2012 | Отправлено: 17:05 17-12-2022 | Исправлено: lyolik r, 18:06 17-12-2022
papaVlad



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist
img2pdf путает нумерацию страниц, есть ли вариант подкорректировать?
Для теста https://dropmefiles.com/GNWSf

Всего записей: 161 | Зарегистр. 22-04-2012 | Отправлено: 16:43 19-12-2022
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
papaVlad

Цитата:
путает нумерацию страниц, есть ли вариант подкорректировать?

В этом наборе изначально неправильный порядок, т.к. номера без ведущего нуля.
Правильно: 01,02,..,10,11,..19,20
Неправильно: 1,10,11,..,19,2,20
 
Можно исправить в ACDSee (rename series), или другом толковом переименователе файлов.

Всего записей: 354 | Зарегистр. 10-08-2018 | Отправлено: 17:32 19-12-2022
MBK2

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Total commander

Всего записей: 5033 | Зарегистр. 18-09-2018 | Отправлено: 20:13 19-12-2022
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Вопрос по распознаванию в пдф.
Главное ИМХО достоинство оного это возможность копирования текста из книги на неизвестном языке и знакомиться с ней в онлайн-трансляторе. Неудобство заключается в том, что после распознавания текста в Файнридере последний в конце каждой строки добавляет символы возврата каретки и перевода строки. Если скопировать текст из такого слоя и поместить его, например, в гугл-переводчик (проверял и ряд других), то он часто теряет смысл перевода при переходе на следующую строку.
Для djvu эта проблема была решена программой DjVuNMEditor, которая убирает из слоя символы возврата каретки и перевода строки, а заодно и "-" - перенос слова на следующую строку.
Решена ли эта проблема для ПДФ?
Пробовал подготовленный указанным выше образом дежавю скормить программе djvutoy и создать пдф, но та хотя и сохраняет слой в пдф, но заново проставляет в конце строки служебные символы.
Если этой проблемы в пдф нет, прошу указать, как она решена.

Всего записей: 7182 | Зарегистр. 14-01-2005 | Отправлено: 18:34 21-12-2022
MBK2

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg
А в чем, собственно суть проблемы? Вы хотите из распознанного текста, разбитого на строки получить плоский текст в одну строку без переносов? Так это дофига от чего зависит, от вьювера и в первую очередь от самого PDF

Всего записей: 5033 | Зарегистр. 18-09-2018 | Отправлено: 18:43 21-12-2022
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg, пробовали?
pdftotext in.pdf - | tr '\n' ' ' >out.txt  

Всего записей: 7731 | Зарегистр. 08-09-2001 | Отправлено: 19:03 21-12-2022
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
MBK2

Цитата:
А в чем, собственно суть проблемы?

А мне казалось, что я подробно это описал .
Повторю еще раз.
Сейчас после распознавания текста на любом доступном ФР языке в слое каждая строка заканчивается служебными символами. Если копировать фрагмент распознанного текста и поместить его в онлайн-переводчик, то эти служебные символы приводят к тому, что часто теряется смысл перевода, т.к. для переводчика из-за них нарушается связь между последним словом в первой строке и первым словом во второй. То же самое происходит и в случае переноса слова в тексте книги с одной страницы на другую.
Вряд ли уже смогу лучше объяснить проблему.

Всего записей: 7182 | Зарегистр. 14-01-2005 | Отправлено: 19:06 21-12-2022
MBK2

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg
Все равно проблемы не вижу.
Скопируйте в любой нормальный редактор типа ворда или Npp и удалите спецсимволы поиском/заменой, а уже оттуда в переводчик
 
Добавлено:
los

Цитата:
pdftotext in.pdf - | tr '\n' ' ' >out.txt  

Под виндой не взлетит, при том, что все равно редактор в качестве буфера нужен будет

Всего записей: 5033 | Зарегистр. 18-09-2018 | Отправлено: 19:08 21-12-2022
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
los

Цитата:
пробовали?

Конечно нет, т.к. я полный дилетант в вопросе распознавания.
В случае дежавю я с этим разобрался.
Вы предлагаете предварительно вывалить слой в текстовый файл и оттуда заносить нужные фрагменты в переводчик, я правильно понял?
Я же хочу просматривать распознанную книгу на любом басурманском языке, копировать фрагменты текста, заносить в переводчик, поддерживающий перевод с этого языка на знакомый мне язык, и понимать смысл написанного в выбранном фрагменте.
Именно это сейчас можно делать с дежавю, хотелось бы подобного с пдф.
 
Добавлено:
MBK2

Цитата:
Все равно проблемы не вижу.

Я ее описал выше в этом сообщении.

Всего записей: 7182 | Зарегистр. 14-01-2005 | Отправлено: 19:15 21-12-2022
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
MBK2, так pdftotext и tr есть и для windows и можно сразу в переводчик отправлять, а не в текстовый файл.
 
 
Добавлено:
shch_vg

Цитата:
Вы предлагаете предварительно вывалить слой в текстовый файл и оттуда заносить нужные фрагменты в переводчик, я правильно понял?  

Как вариант. Но можно и скопированный фрагмент, правда в этом случае есть проблема с переносами.

Всего записей: 7731 | Зарегистр. 08-09-2001 | Отправлено: 19:17 21-12-2022
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
los
А если книга на 1000 страниц, а мне интересно содержимое одной, то какой смысл вываливать весь слой в текст, затем еще возиться с удалением служебных символов?
Я всего лишь спрашивал, можно ли добиться, чтобы в слое пдф были убраны служебные символы перехода на новую строку, а также переноса слова.
Еще раз повторю, что эта проблема решена в случае дежавю.

Всего записей: 7182 | Зарегистр. 14-01-2005 | Отправлено: 19:23 21-12-2022 | Исправлено: shch_vg, 19:24 21-12-2022
MBK2

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
los

Цитата:
tr есть и для windows и

Разве? Там в принципе можно тоже выкрутиться но чуть
 более заднепроходно
shch_vg

Цитата:
 
А если книга на 1000 страниц, а мне интересно содерживое одной

Ну так и копируйте порциями сколько надо.

Всего записей: 5033 | Зарегистр. 18-09-2018 | Отправлено: 19:29 21-12-2022
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Фактически мой вопрос сводится к возможности корректировки слоя непосредственно в пдф, т.к. в этом случае возможна корректировка отдельных неправильно распознанных слов без выгрузки всего слоя в текст с последующим занесением в пдф после правки.

Всего записей: 7182 | Зарегистр. 14-01-2005 | Отправлено: 19:31 21-12-2022
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg

Цитата:
А если книга на 1000 страниц, а мне интересно содержимое одной, то какой смысл вываливать весь слой в текст, затем еще возиться с удалением служебных символов?

pdftotext -f 2 -l 2 in.pdf
в данном случае будет извлечен текст из второй страницы.

Цитата:
Еще раз повторю, что эта проблема решена в случае дежавю.

А в macOS этой проблемы вообще нет и?

Всего записей: 7731 | Зарегистр. 08-09-2001 | Отправлено: 19:35 21-12-2022
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
MBK2

Цитата:
Ну так и копируйте порциями сколько надо.

Я спрашиваю одно, Вы мне предлагаете совсем другое.
В этом случае проще взять этот пдф, загрузить его в ФР, сделать повторное распознавание и сохранить в дежавю. После чего достаточно только убрать служебные символы и символы переноса строки.
 
Добавлено:
В конце концов разговор идет не обо мне, а о том, чтобы ЛЮБОЙ человек в ЛЮБОЙ стране, в руки которого попадет такой вариант пдф, имел возможность копировать нужные фрагменты и заносить в доступный ему онлайн-переводчик.
 
Добавлено:
los

Цитата:
А в macOS этой проблемы вообще нет и?

Я вроде бы задавал вопрос, как это реализовать на винде.

Всего записей: 7182 | Зарегистр. 14-01-2005 | Отправлено: 19:36 21-12-2022 | Исправлено: shch_vg, 19:36 21-12-2022
MBK2

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg

Цитата:
 
Я спрашиваю одно, Вы мне предлагаете совсем другое.

Вы меня извините, но Вы спрашиваете настолько дикие вещи, что их сложно понять, легко не понять и невозможно понять. Поэтому приходится по мере сил переводить с вашего на человеческий. Начать с того что вы легко и непринужденно в каждом посте пишете такие фразы как "редактирую в PDF", "корректирую в дежавю", как будто это какие то отдельные (всем известные) редакторы. На самом деле это просто условные форматы файлов, в которые можно запихнуть все что угодно, вплоть до нетекстовых документов, а редакторов для этих форматов существует великое множество. Ладно, про дежавю вы сказали, что редактируете в djvutoy (к слову сказать, первый раз слышу о такой программе), делаю вывод, что, наверное и под PDF вы имеете в виду какой то наиболее популярный редактор, скажем Акробат. Если принять данные условные допущения - нет, нельзя в голом акробате однокнопочно убрать спецсимволы в условно выбранном фрагменте. Нужны танцы с бубном, типа стороннего текстового редактора, неких скриптов, плагинов и программ. Поэтому продолжайте и дальше распознавать дежавю в любимом djvutoy и не морочьте себе и всем нам голову непонятной блажью.
 Сейчас я правильно ответил на правильно расшифрованный вопрос или снова что-то не так?

Всего записей: 5033 | Зарегистр. 18-09-2018 | Отправлено: 21:03 21-12-2022 | Исправлено: MBK2, 21:06 21-12-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
MBK2

Цитата:
Вы спрашиваете настолько дикие вещи, что их сложно понять

вообще-то кмк shch_vg спрашивает нужную вещь, акцентируясь на:

Цитата:
В конце концов разговор идет не обо мне, а о том, чтобы ЛЮБОЙ человек в ЛЮБОЙ стране, в руки которого попадет такой вариант пдф, имел возможность копировать нужные фрагменты и заносить в доступный ему онлайн-переводчик.

Он вначале попереписывался в личке со мной, и я "поймал дзен" его вопроса
Действительно, задачка: не гуру книгообработки и не полиграфист, а социолог какой-нибудь, имеет пдф с текстовым слоем. Открывает ридером. Поиск работает. Нашёл он - поиском - неизвестное ему слово на иностранном языке.  
(Допустим, попалось это слово ему в спецкнижке по профессии, и ссылка на подробности - в этой пдфке. До революции аристократы же владели французским так, что в русское предложение легко вставляли французский термин, не имеющий русского эквивалента. Того же Пушкина или Льва Толстого можно вспомнить.)  
Начинает пару окружающих абзацев пдфки копировать в буфер - имеет построчные переводы каретки с переносом строки (CR LF). Задачка сводится к поиску вьювера, который так НЕ делает.
А если они все делают только так, то вопрос: а почему, собственно? В стандарте адоба я не находил никаких требований по экспорту букв. Правда с лупой и не искал...
 
Вариант экспорта текста в txt часто не проходит, так как юзеру надо иметь И графический вид страницы И её текстовый слой.

Всего записей: 3330 | Зарегистр. 15-07-2010 | Отправлено: 21:44 21-12-2022
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192

Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru