daa2013
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Как подключить, было показано в третьем видео. 1. Распознать страницы в FR 2. Сохранить OCR-проект. 3. В подпапке data этого проекта запустить парсер, получить файл result.bookmarks 4. Поместить его в подпапку out\ocr проекта СК 5. В окне MW на закладке page -> кнопка special -> закладка More2 включить язык/языки распознавания (русский или русский+английский для всех страниц) 6. "На все страницы" команда распространяется кликом ПКМ в ячейке и выбором Apply option to all marked 7. Перейти в RV, кликнуть ПКМ, в опциях выбрать закладку OCR, и там задать OCR mode=FR 8. Далее, как мне помнится, в том же RV по ПКМ команда Special - > OCR page создаст много файлов *.focr, т.е. не только для текущей, но для каждой страницы. Если я ошибаюсь, то выполнить пункт 11. Однако, можно подключать FR, можно тессеракт. Иногда лучше срабатывает тессеракт. Для задействования тессеракта следует: 9. В опциях СК задать путь к файлу tessdata2\eng.traineddata (меню File - Options - Apps) 10. Если этого не было сделано ранее, в More2 задать языки распознавания 11. В том же окне MW из меню запустить команду Result -> OCR Outpiut files -> All Можно вызывать распознавание и постранично в окне RV. Командой Special - > OCR page, когда OCR mode=Tesseract или Combined. Если для FR создавались сразу все возможные файлы *.focr, то для этих методов будет создан файл *.tocr только для текущей распознаваемой страницы. Но ИМХО, чтобы не ждать каждый раз, лучше заранее сделать сразу все tocr для всех страниц. То есть выполнить указанную в пункте 11 команду из MW. А уже потом в случае необходимости переключаться между вариантами OCR. Tesseract хуже распознает буквы, но FR иногда с ячейками лажает. |