bolega
Silver Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Цитата: Как я понимаю, ОСR-ить надо уже финализированные страницы, полученные из оригинальных сканов? | Да, реставрацию имеет смысл делать на самом последнем этапе. Я бы еще рекомендовал сначала удалять изолированные марашки, и только потом делать ocr в tesseract/fr. Будет меньше "ложных" букв. Особенно падкий на них tesseract, часто принимает их за "г" или "т". В fr нужно отключить всякие предварительные улучшалки (исправление перекоса, геометрии и т.д.), чтобы не нарушить соответствие между координатами букв на скане и в bookmark-файле. И конечно же после распознавания fr никаких исправлений ручками в самом fr. По крайней мере так предупредил автор утилиты NME Добавлено: Цитата: А копи-паст что выдаёт - крякозябры? А что за инструмент для создания PDF использовался? | Копи-паст выдает крякозябры, если там, куда пастится, стоит английская раскладка. Если же включить русскую, то пастится нормально. Типичная проблема для не-юникодного текста в кармане. Инструмент - СК )) Цитата: Для более ранних версий - типа 8, где текст ещё привязан к страничкам и находится в файлах frf, версии инструмента не будет? | Надо просить gencho. Его djvuocr в принципе все умеет, только нужно организовать соответствующий вывод в файл. Помню, что очень давно он по моей просьбе какой-то вывод добавлял, забыл какой, и сейчас не могу проверить, нет ничего под рукой. | Всего записей: 4231 | Зарегистр. 09-09-2002 | Отправлено: 08:52 26-04-2022 | Исправлено: bolega, 09:08 26-04-2022 |
|