Shangry
Full Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору corrector Цитата: На входе - 640 страниц tiff-ов (600 dpi, b/w, сжатие: Group 4 Fax Encoding в терминах IrfanView), весьма качественных сканов, общим размером 64,8 Мб. 1) в FR11 сохраняю изображения в pdf - получаю файл1 размером в 1315 Мб; | Скорее всего дело в том, что FineReader сохраняет ч/б сканы в PDF вообще без сжатия (только не спрашивайте меня зачем здесь нужен такой идиотизм ). Тогда как раз примерно столько и должно набежать. Проверить достаточно просто - посмотрите этот PDF в Акробатовском Preflight. Там где-то есть пункт, позволяющий увидеть характеристики упакованных в PDF изображений. Frantishek Цитата: 1. Какую версию FR для этого использовать, является ли он вообще лучшим решением из возможных на рынке OCR для этих целей? | Для произвольной смеси из файловых форматов на непредсказуемо каких языках пока что наиболее оптимален FineReader. Старый русский (до 1920-го) знает только он, за толковую работу с DjVu других универсальных распознавашек ( в смысле, ориентированных на любые форматы) пока что слышать не приходилось. Из версий, в смысле качества разметки на блоки и качества распознавания, предпочтительнее 11-я. Цитата: можно ли это выполнять на автомате (подсунул папку и ушел курить)? | С тех пор, как с 10-й версии в FineReader ввели пакетную обработку (тамошний HotFolder), засовывать целой папкой стало вполне решаемой задачей. Но если нужен легальный софт, то 10-ю версию уже нигде не купишь (разве что по случаю), а в 11-й на пакетную обработку навешали кучу ограничений. Теперь там осталась не более чем демонстрашка пакетника. Цитата: Какой оптимальный выходной формат должен быть для распознанных документов (djvu ?), | А это в зависимости от: а)для чего они дальше нужны (в смысле на какое дело пойдут); б)из чего состоит исходная куча - сплошные сканы в ч/б или же смесь ч/б и цветных; в)надо ли делать выходной объем как можно меньше или же это не очень критично. Цитата: какие настройки следует произвести для более качественного распознавания | Включить предобработку изображений (кроме ориентации страниц), языком распознавания выставить комплект из всего, что там в принципе может оказаться. Ну и разумеется галочка на "Тщательном распознавании" (оно и так по умолчанию стоит, но все-таки проверить). Цитата: допускается ли унификация всего процесса | Обработка всех файлов из входной папки происходит по одному и тому же комплекту настроек. Цитата: может ли программа пробежаться по входному каталогу с данными и выдать на экспорт аналогичный каталог с уже распознанными документами, | Поставить галочку на "Обрабатывать подпапки". Тогда можете давать на вход не одну единственную папку, а хоть целое дерево, а на выходе получать копию этого дерева Цитата: может ли она различать и не заниматься распознаванием тех документов, где это не требуется | В обработку идут или файлы заданного в настройках формата, или любые файлы с изображениями (соответствующий пункт в списке форматов). Все форматы, которые по своим спецификациям не могут содержать изображения, пропускаются, в обработку не идут. Цитата: И наконец, можно ли по результату выдать отчет - что получилось, а что нет, и насколько? | Вроде бы нет, но твердо не уверен (пока ни разу не возникало такой потребности). | Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 12:08 04-02-2013 | Исправлено: Shangry, 13:45 04-02-2013 |
|