ghosty
Gold Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору bolega Цитата: Это хорошо, если всегда. Тогда можно будет предусмотреть просто поправку, типа Auto+10, Auto+20. | Пока мои выводы основаны только на результатах обработки одной книги. В ней имеются страницы с плохо пропечатанными областями. Наиболее существенные ошибки - именно на таких страницах. Не знаю, как работает автоматический режим, но, может быть, например, имеет смысл при определении разбивать страницу на некоторое количество равных прямоугольных областей? И если разброс вычисленных порогов будет слишком велик, то... либо исходить из среднемаксимального, либо спросить пользователя - тут даже не знаю Цитата: Но есть еще противные случаи, когда ошибается, напр., если сбоку - вертикальный текст. | Если имеется в виду текст повернутый по вертикали (на 90 град.), то у меня такой уже встречался - ошибки не было. Если имеется в виду текст, вынесенный на поля - сбоку от основного блока текста, то это действительно плохо: при обработке текста с нумерацией строк народ очень мучается. Можно ли ввести в DK наряду с "text vert. sensitivity" также и "text horiz. sensitivity"? Цитата: Сейчас работаю над тем, чтобы распознавались буквы типа "и", "н", чтобы в случае рваной перемычки сохранить то, что от нее осталось на скане. | Как всегда снимаю шляпу, но как же это можно сделать при отсутствии OCR? Представьте себе что мы сделали выборку символов, собрав из определенной книги все значительно искаженные "и" и "н". Теперь предъявим их группе людей, попросив определить, где "и", а где "н". Уверен, процент ошибок будет очень велик (~50%). Если же мы предъявим те же буквы другой группе, но уже в составе слов, процент распознавания будет приближаться к 100%. Если не способен определить человек, будет не способен и любой алгоритм (основанный на анализе битмапа одного символа), разве нет? | Всего записей: 6809 | Зарегистр. 21-09-2002 | Отправлено: 16:33 26-06-2009 | Исправлено: ghosty, 16:47 26-06-2009 |
|