Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Закладки » Редактирование PDF файлов

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183

Открыть новую тему     Написать ответ в эту тему

Skyer

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Редактирование PDF файлов

В этой теме обсуждается редактирование (обработка) PDF файлов, которые бывают трех типов:
- "True" or Real PDF - "настоящий" PDF с векторными текстом и графикой, возможны вставки растра
- Scanned PDF - растровая графика (скан или фото), помещенная в контейнер PDF
- Searchable PDF - растровая (скан или фото) графика с текстовым слоем
Подробнее о типах PDF: Types of PDFs, The 3 Types of PDFs You Need to Know About




Решение типичных задач по редактированию PDF

Обрезать страницы - Acrobat Pro (main app), QIP*/Imposal(plugins), VeryPDF Advanced PDF Page Cut
Разрезать страницы на части - VeryPDF Advanced PDF Page Crop, A-PDF Cut
Склеить страницы между собой - VeryPDF PDF Stitch, Acrobat Pro + QIP* or Imposal
Удалить или редактировать метаданные - BeCyPDFMetaEdit, Adept PDF Layout Changer
Изменить размеры страницы - Acrobat Pro + Evermap AutoPagex , A-PDF Page Master, Neevia PDFtoolbox,  
Измененить/исправить размер страниц с масштабированием содержимого
Изменить размеры страницы, изменить масштаб контента, сдвинуть контент, замаскировать часть страницы и многое другое - Acrobat Pro + Evermap AutoPagex
Исправить наклон страниц -  Acrobat Pro + Evermap AutoPagex/ISI Toolbox, A-PDF Deskew, A-PDF Scan Optimizer  
Наложить PDF на PDF, страницу поверх страницы (Overlay)
О технологии MRC с примерами - 1, 2
Работа с изображениями (подрезка, масштаб, сжать/растянуть) - Inkscape
Преобразование изображений, текста в оттенки серого или в ч/б - A-PDF to Black White или Acrobat Pro + Quite A Box Of Tricks/ISI Toolbox
Извлечение растровых изображений из PDF
Удалить текст без замены, в т.ч. кириллицу - PDF Text Deleter
Удалить растровые ватермарки - PDF Watermark Remover или PDF Logo Remover, в сложных случаях - Foxit PDF Editor с макросом, Acrobat Pro + Preflight, CallasPDF Toolbox
Удаление любых ватермарков - We PDF Watermark Remover
Как/чем узнать Свойства растровых изображений в PDF: битность, цвет, dpi/ppi, разрешение px, формат сжатия, размер mm, наличие маски и т.д. - 1, 2
Редактировать текст - PDF-XChange Editor, Acrobat Pro, FineReader 14 (не OCR-модуль) и новее, Infix PDF Editor, Foxit PDF Editor, PixelPlanet PdfEditor
Удалить или заменить часть текста или текстовые ватермарки - Acrobat Pro, A-PDF Text Replace
Конвертация PDF таблиц в Excel - PDF2XL (da best!)
Заменить цветное векторное изображение на серое - Acrobat Pro + Preflight
Растровый редактор и манипуляции с изображениями в PDF - Foxit PDF Editor и Acrobat Pro + ImageWorks из Crackerjack
Удалить/заменить/создать текстовый слой в PDF файле с помощью Acrobat Pro
Растеризовать pdf - Digitzone PDF Converters
Один из вариантов решения проблем с кракозябрами: видео (зеркало)
* - Quite Imposing Plus
 
 
Если вы задаете вопрос по поводу проблем с PDF файлами, обязательно выкладывайте небольшой пример (только не сотни метров!) такого файла. Это упростит задачу для желающих вам помочь и сделает обсуждение предметным.

Всего записей: 122 | Зарегистр. 01-06-2002 | Отправлено: 03:40 13-11-2005 | Исправлено: useretail, 17:00 11-02-2024
tmrx

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys
 
RSVG-Convert
ImageMagick
Ghostscript?
Poppler?

Всего записей: 207 | Зарегистр. 27-01-2016 | Отправлено: 12:53 07-11-2023
esys

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Это может сделать Orpalis PDF Reducer. Есть портабельный вариант.

Сработало. Спасибо! Качество векторное.

Всего записей: 340 | Зарегистр. 22-06-2016 | Отправлено: 13:14 07-11-2023
Dracula



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Всем привет!
 
Скачал я We PDF Watermark Remover 6.3.0.0 (зарегил) и попробовал удалить данный водяной знак здесь:
1 разворот книги в PDF
 
Не удаляет - не видит даже его.
Хотя другие водяные знаки, которые были внизу или наверху страницы (в колонтитулах) и написаны прямым шрифтом (слева направо по горизонтали) он удалил на раз из всей книги за 2 секунды (сотни водяных знаков).
 
Может данный водяной знак был наложен на текст (или подложен) и потом сохранён как рисунок? То есть выглядит как водяной знак, но уже 100% рисунок? Такое не удалить?
Кстати другие проги удаления водяного знака тоже ничего не дали.

----------
+=._.=++=._.=++=._.=++=._.=++=._.=++=._.=++=._.=+

Всего записей: 3501 | Зарегистр. 22-12-2003 | Отправлено: 16:45 07-11-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dracula

Цитата:
попробовал удалить данный водяной знак здесь

Данный pdf-файл представляет собой картинку в формате jpg и больше ничего.
Ватермарки был наложены на сканы страниц и стали неотъемлемой частью страниц.
Быстро удалить их обычными способами с качественным сохранением текста - невозможно.
Но в принципе удаление из возможно, например, с помощью Photoshop.
 

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 17:14 07-11-2023
Dracula



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
Но в принципе удаление из возможно, например, с помощью Photoshop.  

Это вообще не вариант. К тому же я в этом полный ноль - да даже знал бы - там каждую страницу обрабатывать пришлось бы - конечно на одной странице сделать обработку полную и потом слои копировать - 250-500+ раз - легче найти доступ к книге без водяных знаков.
 
 
 
Добавлено:
Если у меня есть уже готовая PDF книга и я хочу добавить к ней OCR-слой с FineReader 15 версии.
Но, конечно же не вставлять сам PDF в FineReader 15 b не сохранять оттуда PDF с OCR слоем - будет жуткое качество PDF - только OCR слой выдрать.
 
Вопрос - как выдрать OCR слой из FineReader 15 и вставить в мой PDF так (из шапки значится):
PDF-XChange Editor/Pro 9.0 -> Организация -> Наложить  
 
Но как из FineReader 15 выдрать этот OCR слой? Раньше когда я делал DJVU книги я знал - но сейчас уже вылетело из головы.

----------
+=._.=++=._.=++=._.=++=._.=++=._.=++=._.=++=._.=+

Всего записей: 3501 | Зарегистр. 22-12-2003 | Отправлено: 03:34 08-11-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dracula
хе-хе. И я хотел бы знать ответ на ваш вопрос. Задачку переноса слоя "правильно", со структурой документа.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 07:33 08-11-2023
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dracula

Цитата:
как из FineReader 15 выдрать этот OCR слой?

Как вариант cpdf:

Код:
 
cpdf -draft book.pdf -o ocr.pdf
 

Но это при условии, что окромя OCR слоя в pdf только изображения.

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 07:43 08-11-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dracula

Цитата:
Это вообще не вариант. К тому же я в этом полный ноль - да даже знал бы - там каждую страницу обрабатывать пришлось бы - конечно на одной странице сделать обработку полную и потом слои копировать - 250-500+ раз - легче найти доступ к книге без водяных знаков.

Если бы вы могли найти доступ к книге без водяных знаков - то и вопроса бы не было?
Почему не вариант? Спросите помощи в теме по Photoshop - для специалиста это элементарная операция - там же одноцветный штамп в одном определённом месте. Есть разные способы - убрать этот цвет, сделать маску и т.д. На youtube полно видосов на эту тему. А для повторения операции на множестве изображений можно написать экшн (макрос по фотошопски). Образец страницы с ватермарком у вас есть. Вот если в теме по Фотошопу никто не поможет - тогда увы.
 

Цитата:
как из FineReader 15 выдрать этот OCR слой

Не понял, что значит "выдрать слой" из FineReader?
Какой слой, откуда, как он там оказался, почему обязательно из ФайнРидера?
И почему будет жуткое качество?
 
 
Добавлено:
TelecomUral

Цитата:
И я хотел бы знать ответ на вопрос. Задачку переноса слоя "правильно", со структурой документа.

Не понял. А в чём проблема?
Вот прямо сейчас Ctrl+C текст из одного pdf и Ctrl+V в другой pdf.
Тестовый pdf - это журнал, так что проверить сохранение структуры там можно отлично.
Но, так как это был тест, то это были два идентичных pdf, один из которых имел текстовый слой (из FR16 и PDF-XChange).

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 11:55 08-11-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
jourmager
Не понял. А в чём проблема?

в личку отвечу сейчас

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 13:12 08-11-2023
Dracula



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
для специалиста это элементарная операция

Ух ты - не думал, что это можно сделать быстро. Но, во-первых - ладно там 1 раз попросить - пойдут на уступки - а когда мне нужно выкачивать много таких книг и каждый раз просить - это уже задолбёжка будет. Но буду знать на будущее. Сейчас не нужно, т.к. есть без водяных знаков у меня книга.
 

Цитата:
Не понял, что значит "выдрать слой" из FineReader?  

Ну я имел ввиду, как в DJVU книге если создавать её - там есть программа DjvuOCR 2.1 - в FineReader распознаёшь сначала и потом с помощью данной проги выдираешь OCR слой в блокнот и добавляешь уже в мой PDF готовый.

Цитата:
почему обязательно из ФайнРидера?

Потому что он распознаёт лучше всех.  

Цитата:
И почему будет жуткое качество?

Это если просто вставить мой PDF (типа 622 МБ) в FineReader - распознать там и сразу же сохранить из FineReader опять в PDF тот же - думаю качество будет хуже, чем было до - поэтому и хочу внедрить OCR слой, по типу как делается это для DJVU с помощью DjvuOCR 2.1 - только для PDF существует такая прога тоже?
 

Цитата:
Вот прямо сейчас Ctrl+C текст из одного pdf и Ctrl+V в другой pdf.

Вы имеете ввиду нужно сделать так:
скопировать мой PDF в FineReader - распознать там и сохранить как копию данного PDF уже с OCR слоем.
затем в PDF-XChange Editor вставить эти 2 файла (один без OCR и второй с OCR и скопировать с PDF где OCR текст и вставить в PDF где нет OCR и сохранить - так?

----------
+=._.=++=._.=++=._.=++=._.=++=._.=++=._.=++=._.=+

Всего записей: 3501 | Зарегистр. 22-12-2003 | Отправлено: 13:37 08-11-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dracula

Цитата:
ладно там 1 раз попросить ... и каждый раз просить - это уже задолбёжка будет.  ... Сейчас не нужно

Речь шла не о том, чтобы за вас кто-то что-то сделал, а о том, чтобы специалист в пару строк написал как и что нажимать. Photoshop - это очень обширная программа с массой возможностей. В такой программе самое трудное - это знать каким способом она может сделать, а нажимать нужные кнопочки - это уже пустяк. Может я ошибаюсь, но по ваших постах у меня сложилось впечатление, что имея понятную инструкцию, составленную на конкретном примере, вы бы смогли применить полученные знания на других объектах и уже не просить кого-либо.
По моему опыту, то, что сейчас не нужно, обязательно потом понадобится в самый неподходящий момент.
Я бы сам попросил бы, но у меня сейчас Фотошоп нерабочий, а теория без практики - мертва.
Кроме того, вам могут не ответить, или ответить не тем и не так.

Цитата:
Это если просто вставить мой PDF (типа 622 МБ) в FineReader - распознать там и сразу же сохранить из FineReader опять в PDF тот же - думаю качество будет хуже, чем было до

Я понял. Всё зависит от версии FineReader и от режима распознавания. Вполне возможно распознавание без потери качества (без пережатия картинки). В ABBYY сидели не звёздные программисты, но и не полные идиоты, чтобы после выполнения их программой её основной функции - распознавания - гробилось качество исходной картинки.

Цитата:
Вы имеете ввиду нужно сделать так

Имеется pdf-файл с названием "Оригинал". Делаем две его копии: "Первый" и "Второй".
"Первый" открываем в FineReader 16 -> Open -> Open and Edit -> PDF Document -> Select File to Open
Затем выбираем из меню Recognize -> Recognize Document -> выбираем язык -> жмём кнопку Recognize -> ждём пять минут на распознавание -> по окончании жмём Close и сохраняем файл.
Получим файл с OCR. Но нужно понимать, что можно получить бяку при определённых настройках Файнридера, которые не совсем интуитивны.
Потом открыть оба файла в PDF-XChange Editor. На "Первом" Content -> Select -> All Text -> Copy.
 На "Втором" Content -> Page 1 -> Paste
Профит.

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 19:57 08-11-2023 | Исправлено: jourmager, 20:13 08-11-2023
Dracula



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
Photoshop

Даже если бы и сделали для меня скрипт - мучаться потом обрабатывать, удалять - это морока ещё та. Мне итак хватает щас другого всего, без фотошопа.
 

Цитата:
Всё зависит от версии FineReader и от режима распознавания.

У меня FineReader 15 версия (на Windows 7 16 версия не поддерживается уже). И я выбирал в распознавании Русский (со словарной поддержкой), Английский и цифры. Распозналось отлично.
 

Цитата:
Имеется pdf-файл с названием "Оригинал". Делаем две его копии: "Первый" и "Второй".  

 
Я открыл ABBYY FineReader 15 OCR-редактор и в ней работал.
Но я ждал 20 минут на распознавание, а не 5 минут, хотя у меня 32 ГБ ОЗУ и 7 процессор. Я заметил там как-то тормознуто распознавало - может из-за JPEG2000 (высшее качество) в PDF для PNG я выбрал? Я заметил, даже при пролистывании в PDF просто рывками идёт - видимо нужно всё-таки было сохранить в JPEG (высшее качество) - т.к. картинка изначально отличная и такое пошло бы. А что будет на компах, когда студент себе запишет, а у него 4 ГБ ОЗУ - там вообще мега рывками будет у него просматриваться видать? Лучше переделать - да?
 
О это что-то было - если бы я так не сделал - я бы щас себя корил. Уже 5 раза создавал "Второй" )))
 
Я в FineReader картинки выделил как "Картинки", а не текст или вообще не выделял типа. Но при Вашем
Цитата:
На "Первом" Content -> Select -> All Text
- именно Text - при переводе на второй PDF переводит только текст - сами картинки при нажатии не выделяются, как это было при создании DJVU - там мы отдельно текст и картинки выделяли и картинки обрабатывали и вставляли отдельно - поэтому они при выделении копировались сразу же.  
 
Если сохранить только как Текст - то на всём PDF выделяется только текст - если нужно рисунок тоже скопировать - нужно уже тогда самому его выделять аккуратно - если захватишь и фон, то и фон перенесётся в Word.
 
Если сохранить как
Цитата:
На "Первом" Content -> Select -> All
и перенести во второй документ - то переносит и картинки и текст - но переносит это как-то по-особому - видимо всё копирует и фон даже, что уже не белый фон на втором PDF, а какой-то серый становится и уже вообще рывками пролистывает.  
Но уже картинки выделяются при нажатии.  
Но и размер уже стал, не 241 МБ, а 551 МБ - то есть он просто наложил друг на друга 2 PDF короче. Такое не пойдёт конечно же.
 
А нельзя сделать так, чтобы и размер не увеличивался и картинки выделялись в готовом OCR PDF?
 


----------
+=._.=++=._.=++=._.=++=._.=++=._.=++=._.=++=._.=+

Всего записей: 3501 | Зарегистр. 22-12-2003 | Отправлено: 13:23 10-11-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dracula

Цитата:
ABBYY FineReader 15 OCR-редактор

Комплект ABBYY FineReader 15 и 16 состоит из 4 (5) exe-файлов:
ABBYY FineReader PDF, ABBYY FineReader PDF OCR Editor, Comparator, ScreenshotReader, 5-й может быть или нет - HotFolder.
По моих наблюдениях:
- ABBYY FineReader PDF OCR Editor заменяет оригинальные изображения на свои, переконвертированные в jpeg2000
- ABBYY FineReader PDF создаёт pdf с OCR и с сохранением внутренних изображений, если для распознания нажать кнопку Recognize и выбрать Recognize Document. После распознавания нажать Ctrl+S для сохранения распознанного файла с именем по умолчанию filename_recognized.pdf.
В принципе, я это написал ранее.
Если при распознавании в ABBYY FineReader PDF будет открыт ABBYY FineReader PDF OCR Editor, то произойдёт пересжатие картинок в jpeg2000.

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 17:21 10-11-2023
Dracula



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
Комплект ABBYY FineReader 15 и 16 состоит из 4 (5) exe-файлов:

Ну да у меня так же.
 

Цитата:
По моих наблюдениях:
- ABBYY FineReader PDF OCR Editor заменяет оригинальные изображения на свои, переконвертированные в jpeg2000  

Ну это если открывать в ABBYY FineReader OCR мой PDF - распознавать его и сохранять тут же - не применяя PDF-XChange Editor для перевода с одного на второй PDF OCR слоя.
 

Цитата:
- ABBYY FineReader PDF создаёт pdf с OCR и с сохранением внутренних изображений, если для распознания нажать кнопку Recognize и выбрать Recognize Document.

Значит сделал я так сейчас и Вы упадёте щас - он распознавал без 15 минут ровно 2 часа - я в диком шоке. Ничего больше не работало - только FineReader (обычный, не OCR).
 
Вчера на FineReader OCR 20 минут распознавал - сегодня на FineReader без OCR приставки около 2 часов - и кстати тот же самый документ, что и вчера (241 МБ который).  
 

Цитата:
В принципе, я это написал ранее.  

Я просто не понимал FineReader без OCR приставки - я думал там вообще голый он какой-то - ничего нет - как там работать вообще, а оказывается тоже можно.
 

Цитата:
Если при распознавании в ABBYY FineReader PDF будет открыт ABBYY FineReader PDF OCR Editor, то произойдёт пересжатие картинок в jpeg2000.  

У меня не открыло. Распознавалось там же.
 
Ну это не дело же - 2 часа ждать распознавания - где мне столько времени брать - 1 книга тратить столько дней - нафиг нужно тогда всё это.
 
В FineReader OCR если распознавать можно же, как вчера - я же не собираюсь сохранять из FineReader OCR сразу там же в FineReader OCR открытый и распознанный мой PDF - мне FineReader OCR нужен же только для распознанного текста, я же выдру текст с помощью PDF-XChange Editor и вставлю в оригинальный (который не побывал в FineReader и не подцепил никакой гадости от него).
 
P.S. И почему Вы пишете названия команд в FineReader на английском? У Вас нет русской версии?

----------
+=._.=++=._.=++=._.=++=._.=++=._.=++=._.=++=._.=+

Всего записей: 3501 | Зарегистр. 22-12-2003 | Отправлено: 20:07 10-11-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dracula

Цитата:
он распознавал без 15 минут ровно 2 часа

Странно это. Сегодня как раз скачал файл - 253 МБ, внутри jpg 300 dpi, 226 страниц.
Распознавание:
FineReader PDF 16 - 6 мин 30 сек - внутри остались те же jpg
FineReader PDF OCR Editor 16 - 4 мин 20 сек - внутри всё перекодировалось в jpeg2000
 
Посмотрите в настройках:  
FineReader PDF -> Files -> Options -> Other -> Number of processor cores to use for OCR
 
Может ещё какие-то настройки OCR или PDF влияют?
 

Цитата:
почему Вы пишете названия команд в FineReader на английском?

У меня по возможности все программы имеют интерфейс на английском.
Моего словарного запаса средней школы хватает для пунктов меню типа Files, Options, Recognize.
А при непонятках с программами легче найти информацию на английском.

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 00:10 11-11-2023
galina2000

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Здравствуйте. Подскажите, пожалуйста, в каком редакторе pdf (под Win) можно удалять разрывы строк в выделенном тексте. Спасибо.

Всего записей: 475 | Зарегистр. 21-08-2006 | Отправлено: 07:04 11-11-2023
73



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
galina2000
Читай шапку, последние строки красным.

Всего записей: 1151 | Зарегистр. 18-08-2012 | Отправлено: 07:42 11-11-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Прошу пардона.
Данные по скорости распознавания в моём предыдущем посте относились к FineReader 16.
Для FineReader 15 цифры другие:
FineReader PDF 15 - 19 мин 30 сек
FineReader PDF OCR Editor 15 - 5 (3+2) мин
Такая разница потому, что FineReader PDF OCR Editor 15 при распознавании использует все потоки процессора, а FineReader PDF 15 мне удалось заставить работать только на 2 потоках. Говнокод.
Ну и настройка числа ядер не через Files, как в 16-м, а через Tools.
 
Добавлено:
Провёл эксперимент.
Имеется "pdf-1" с jpg внутри.
Распознал его в FineReader PDF OCR Editor 15.
Получился "pdf-2" с текстом и jpeg2000 внутри.
В PDF-XChange Editor в "pdf-2": Content -> Select -> Text -> Ctrl+C и затем в "pdf-1" Content -> page 1 -> Ctrl+V.
Текст полностью скопировался. Получен новый pdf без перекодирования изображений и с распознанным текстом.
Профит.

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 10:52 11-11-2023
Dracula



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
FineReader PDF -> Files -> Options -> Other -> Number of processor cores to use for OCR  

У меня "Default" стоит - нужно выбрать максимально "7" - так? Тогда и в 7 раз быстрее будет распознавать?
 

Цитата:
А при непонятках с программами легче найти информацию на английском.

Ну да это так. Быстрее инфа найдётся для англ. языка. )))
 

Цитата:
"Первый" открываем в FineReader 16 -> Open -> Open and Edit

Вот это я искал и не нашёл тогда.
Нет такого "Open and Edit" in FineReader 15 PDF
И вообще - я делал так
ABBYY Finereader PDF 15 открывал там сразу нажимал в "Open" > "Open PDF Document" и выбирал мой PDF - затем Recognize - там 2 языка и Цифры и 2 часа распознавалось.
 
Здесь скорее всего нужно сделать так:
На моём PDF документе, что нужно распознать я нажимаю ПКМ и выбираю Открыть в ABBYY FineReader PDF 15 и открывается и там уже выбираю языки распознавания и т.д.
 
Хотя это видимо одно и тоже. Просто в ABBYY FineReader 15 OCR-редактор (и в старых версиях) позволяет сохранить документ, потому что когда свет раньше отключался у меня - ничего не сохраняло, что я делал в документе - как в Word последние 10 минут не сохранит только. Может щас они позволяют при выключении света снова документ открыть на том месте, где остановилось распознавание - не пробовал.
 
Вот щас снова пробую и за 45 минут распознал 125 страниц (половину) только (значит где-то 1 час и 30 минут будет полное распознавание, почти как и тогда 1 час и 40 минут вроде было). Одно и тоже короче. Потоки вообще здесь не помогают видать. И это с 7 потоками в настройках (может с 2 -мя как у Вас).
 

Цитата:
Такая разница потому, что FineReader PDF OCR Editor 15 при распознавании использует все потоки процессора, а FineReader PDF 15 мне удалось заставить работать только на 2 потоках.

Как узнать сколько потоков работают в ABBYY FineReader PDF 15? У меня стоит 7 сейчас - они должны упасть до 2 или это в настройках процессора смотреть нужно при распознавании?
 

Цитата:
Распознал его в FineReader PDF OCR Editor 15.


Цитата:
Получен новый pdf без перекодирования изображений и с распознанным текстом.

Значит можно работать в ABBYY FineReader 15 OCR-редакторе - всё равно мы же не сохраняем вставленный в последний PDF документ и распознаём и там же просто нажимаем кнопку "Сохранить" и уже этот документ используем дальше - мы же его только для OCR используем - затем выдираем OCR слой в PDF-XChange Editor и вставляем в оригинальный PDF - поэтому нам (в данном случае) не нужно использовать будет (мне) ABBYY FineReader PDF 15 - пусть перекодирует в ABBYY FineReader 15 OCR-редакторе в JPEG2000 - нам же это не будет мешать при переводе OCR слоя в PDF-XChange Editor?
 
Добавлено:

Цитата:
Сегодня как раз скачал файл - 253 МБ, внутри jpg 300 dpi

У меня же PNG внутри (оригинал Вы видели) и они сохранены в PDF с настройками PNG Цветные JPEG2000 (высшее качество) - может в этом дело, у Вас же просто JPEG (может среднее качество).

----------
+=._.=++=._.=++=._.=++=._.=++=._.=++=._.=++=._.=+

Всего записей: 3501 | Зарегистр. 22-12-2003 | Отправлено: 15:36 11-11-2023 | Исправлено: Dracula, 16:14 11-11-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dracula
Насколько я понял, FineReader при default задействует все потоки процессора. Если может. По моих наблюдениях, у FineReader PDF 15 (не OCR Editor) глюк, который выражается в невозможности использовать более 2 потоков процессора при распознавании.
Посмотреть сколько потоков использует процессор можно а виндузовом Диспетчере задач (вызов по Ctrl+Alt+Del), но как конкретно это делается в Windows 7 и где там смотреть я не помню. Я про Win 7 забыл более 5 лет назад.

Цитата:
нам же это не будет мешать при переводе OCR слоя в PDF-XChange Editor?

Да. Наверное. Пробуйте.

Цитата:
У меня же PNG внутри

Нет у вас png внутри pdf. И ни у кого нет. Потому что pdf не может хранить внутри себя png в чистом виде. Только в перекодированном. У вас внутри, как в тех pdf что вы показывали, или jpg или jpeg2000. Как мы выяснили, применение jpeg2000 ведёт к ухудшению скорости и комфорта просмотра, поэтому лучше применять jpg. Для этого я и предложил 2-ступенчатую схему добавления текстового слоя в pdf с jpg. Сначала распознаём в FineReader PDF OCR Editor 15 (потому что он работает со всеми потоками процессора и у вас это занимает 20 минут). Потом из получившегося pdf с jpeg2000 вытаскиваем текстовый слой в PDF-XChange Editor и вставляем его в pdf с jpg. У меня так получилось. Но на одном файле.
 
И ещё. Лично я, чтобы не тратить много времени на операции с целыми файлами, обычно эктрактирую 1-10-100 страниц из оригинального файла в тестовый с помощью PDF-XChange Editor (Organize -> Extract Pages). Но нужно обязательно снять галку с пункта Delete pages after extraction.
 

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 13:22 12-11-2023
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183

Компьютерный форум Ru.Board » Компьютеры » Программы » Закладки » Редактирование PDF файлов


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru