ABBYY FineReader (Часть 2) - [4] :: Программы :: Компьютерный форум Ru.Board

jourmager

Цитата:

Попробовал на исходнике. FineReader распознает, но лажает, особенно в таблицах, которые почти вся книга, особенно 16-я версия, 15-я у меня распознавала в таблицах лучше.
Из чистого интереса обработал на скорую руку в СканТейлоре и снова распознал в FR15. Распознал только первые 34 страницы, потому что жарить свой процессор час-полтора нет желания. Распознал, конечно, с ошибками, но лучше чем ничего.
Вот результат
Как правильно заметил l0cky, ФайнРидер любит разрешение 300-400 dpi, если будет как в исходнике 72 dpi, то распознавание будет лажать. Кроме того, сам pdf с какими-то ошибками и ещё больше половины страниц в jpeg2000, которые обрабатывать намного сложнее, чем обычный jpg.

Вопрос, если не секрет, а для чего вам поименный список офицеров японской армии и флота 1868-1945 годов?
List of Japanese Army and Navy Officers, compiled by Furukawa Toshiaki
—From the Meiji Era Establishment to the End of the War—

P,S, файл по ссылке имеет внутри изображения в jbig2. Такое впечатление, что при перекодировании jbig2 в zip скорость распознавания ФайнРидером увеличилась в 2 раза, но и размер файла вырос в 2 раза. Кроме того, есть ощущение, что обычного распознавание японского текста достаточно быстрое, а вот распознавание японского текста в таблицах весьма тормознутое.

l0cky

Цитата:

* размер страниц огромный, а разрешение то ли 72, то ли 140 dpi
Finereader распознает, но хочет 400 dpi ( старым версиям хватала 300 ), сам FR изменять разрешение не умеет. Не знаю насколько это сказывается на конечном результате, но ошибку выдаёт.

* чтобы сохранить результат, надо выделить страницы диапазона, на который FR не ругается, сохранить результат, удалить. Затем добить остальные страницы.
* чтобы не тратить время и не мучить себя, софт и железо, лучше предварительно сделать сплит файла в Acrobat Pro или отключить распознавание при загрузке и затем использовать схему, которую я описал выше, обрабатывая по 100 страниц (или подберете сколько ваша машина может разово переварить)

Замечу, что хотя ограничение частично и связано с железом, но и сам софт упирается в 4000 страниц, даже когда ресурсов как воды в море.

Cпасибо за подробный обзор. Сама книга создана с вертикальным текстом, который для FR как понимаю проблематичен для корректного распознавания. Вообще, сабж работать с иероглифами, наверное, не очень хорошо заточен. Ну и, конечно, многое зависит от источника. Здесь согласен качество ниже среднего, что явно сказывается тоже на выходном результате. Сама книга представляет для меня интерес по военно-исторической теме, и в особенности в части справочников по генеральскому составу IJA. Книги эти редкие.
А вот, что новость для меня, так это то, что последним версиям FR нужно оптимальное разрешение ниже 400 dpi. Я всегда сканирую в 300, поскольку полагал это эталоном для качественной оцифровки без раздувания размеров, как в 600 dpi. Сканирую в TIFF 300 LZW.

P.S.
Никто не в курсе, чем объясняется нелюбовь разработчика к Грузии. Или грузинский язык настолько своеобразен, что его до сих пор нельзя никак добавить в программу?
P.P.S.
Многие в теме хвалят 12-ю версию FR. Попробывал перейти на нее с 15-й...не то. Может в качестве распознавания 12-я лучше, но интерфейс как по мне намного удобен и практичен в 15-й.

Модерирует : gyra, Maz
Версия для печати • Подписаться • Добавить в закладки
Страницы: 1 2 3 4 5 6 7