fbm
Junior Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Когда-то давно в теме был задан вопрос: Цитата: ... Делаю OCR растровых pdf-ов. Перепробовал несколько программ - везде одна и та же проблема: после подкладывания текстового слоя в выходном файле заметно искажается исходная растровая графика. Я как-то привык с djvu, что там при OCR картинку можно не трогать совсем. Можно ли сделать аналогичное с pdf? Посоветуйте подходящий софт, пожалуйста! | Я для себя решил проблему следующим образом. Необходим следующий софт: Acrobat с установленным Enfocus PitStop Pro, ABBYY PDF Transformer (или его аналог), PDF-XChange Tools, XnConvert 0. Делаешь удаление невидимого текстового слоя в исходном pdf (если он есть), для чего в меню Acrobat Document -> Examine Document ставим галочку на "Hidden text", снимаем галочки со всех остальных элементов, жмем кнопку в нижней части окна "Remove". 1. Делаешь pdf файл с OCR слоем (например, посредством ABBYY PDF Transformer) 2. (данный пункт делать обязательно, иначе итоговый файл оптимизацией не дожмешь до исходного размера) Открываешь PDF с OCR слоем в Acrobat и удаляешь графику Меню - Plug-Ins - Enfocus PitStop Pro - Run Global Change (Alt-Ctrl-G), в появившемся окошечке выбираешь Standart - Remove Graphics. Проследи, чтобы Run on - Complete Document, All, Show Results - Always, а в настройках окошечка (кнопка вверху справа - Edit... ), отжимаешь галочку на Text, Area - Inside Area, галочку на Overlapping the area. Делаешь Run. Результат сохраняешь. 3. Открываешь PDF-XChange Tools, выбираешь "Перекрывающий PDF". Первым открываешь pdf с OCR, затем открываешь pdf с изображением. Проследи, чтобы стояла галочка на "Поместить файл перекрытия на передний план", иначе получится, что текстовый слой будет отображаться поверх графики. (Если порядок открытия файлов перепутал, тогда убери галочку с "Поместить файл перекрытия на передний план".) Остальные сопутствующие параметры оставляешь по умолчанию. Если после перекрытия текст просвечивает через графику, значит она полупрозрачная и придется делать весь текст в pdf невидимым. Для чего его придется закрыть белым цветом: 4. Сохраняешь страницы исходного PDF в формате tiff (Save As...) 5. Конвертируешь их через XnConvert, чтобы залить все полученные изображения белым цветом. Для этого: а) Во вкладке Входные данные - Добавить папку с tiff файлами. Проследи, чтобы добавленные файлы были отсортированы по имени в правильном порядке. б) Во вкладке Действия задаешь след. последовательность действий: Изменение глубины цвета - Черно-белое, Изменение глубины цвета - 24 бита, Замена цвета Черного на Белый с допуском ноль. В Предпросмотр - После убедится в заливке исходного изорбражения белым цветом. в) Во вкладке Выходные данные: Исходная папка, Имя файла - ####, Формат TIF, LZW, LZW, Удалять исходный файл. г) Жмешь Преобразовать. 6. В Acrobat делаешь из полученных tiff файлов Combine - Merge Files into a Single PDF... Результат желательно проконтролировать по иконкам страниц. 7. Перекрываешь файл с OCR слоем файлом с белой заливкой страниц. Результат желательно проконтролировать по иконкам страниц. 8. Перекрываешь полученный файл с OCR слоем и с белой заливкой страниц исходным PDF файлом. Немножко заморочено, но позволяет получать желаемый результат. | Всего записей: 165 | Зарегистр. 04-02-2006 | Отправлено: 15:03 26-09-2013 | Исправлено: fbm, 15:07 26-09-2013 |
|