alexarbuzik
BANNED | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору SVN75 Цитата: Мне попалось несколько djvu-файлов, отсканированных мало того, что в маленьком разрешении, но ещё и большим процентом букв «и», «в» и «н» напрочь перепутанными. Вы меня понимаете, классика маразматического жанра, словосочетание «в немногих» превратилось в «н иемиогнх» и т. д.. | Это давно известная проблема djvu-конвертирования. Такие явления происходят тогда, когда сканы очень низкого качества, а главное, разрешения. Исправить этот дефект в готовом djvu, думается, практически невозможно, разве что, "прогнав соответствующие страницы" в СК, затем их редактировать, чтобы буквы «и», «в» и «н» поставить на свои места. На плохих сканах с низким разрешением алгоритм сжатия в djvu не справляется с правильным определением этих букв. Любая программа OCR (а движок этой технологии запатентован компанией AABBYY, и иные компании должны брать лицензию у них на использование) прежде всего рассчитана на отличный скан, где каждая буква достаточно хорошо прорисована и выделена на общем фоне. Иначе, результатом OCR будет большое количество ошибок, которые надо будет исправлять вручную, но, опять таки, это имеет смысл для текстового слоя, картинка (изображение) текста, так и останется с дефектом. Мне думается, самым правильным будет для вас дефектные по тексту страницы файла djvu "прогнать" через СК, тщательно каждую букву дефектную отредактировать, после чего все снова завернуть либо в djvu, либо PDF. Либо запустите этот djvu-файл в FineReader и сделайте распознавание, затем опцией проверки все тщательно проверьте. Полученный текстовый слой наложите сверху изображения и тогда все огрехи изображения исчезнут сами по себе. Аллахьу Ахад Аллахьу асСамад Аллахьу Экбэр! Добавлено: SVN75 Цитата: Если даже нет, то помогите, пожалуйста, понять для чего Tesseract вообще можно использовать в СК и как именно это делается (ссылок будет достаточно). | Tesseract нужен для создания текстового слоя, чтобы затем его подставлять в djvu, либо PDF, чтобы обеспечить возможность поиска по тексту в таких документах. Лично я не пользовался пока еще Tesseract (но, попробую ради интереса ин шэ Аллаh), потому что самый лучший OCR это у AABBYY, а значит в программе их же - FineReader (советую брать версию 12, но не 15, она стала хуже), потому что у них разработаны прекрасные словари на очень многие языки, особенно на русский, аглицкий и иные европейские и неевропейские языки. Все специалисты считают, что более точного распознавания (OCR) не дает ни одна программа, как это делает FineReader! Аллахьу Ахад Аллахьу асСамад Аллахьу Экбэр! Добавлено: А в целом, уважаемый bolega, я прихожу к вводу о том, что версия 6.71 проще в пользовании, чем 5.96.2. Вы просто запутали многих тем, что в VR переменяли местами кнопки, и пришлось снова обучаться их расположению, не могу понять, почему Вы это сделали... |