ghosty
Gold Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Оценить объективно разницу между 7-8-9 версиями не представляется возможным. Слишком много аспектов пришлось бы рассматривать, делать массивную выборку из разных текстов. У меня установлены пока все 3 версии, я им "скармливал" наиболее трудные страницы, на мой взгляд - много картинок, мусора, фрагменты текстов и словосочетания на разных языках. Поэтому такой блиц-обзор. Вначале об отзывах, которые я видел здесь. Удивительные отзывы. Странная болезненная тенденция наблюдается - людям позарез хочется поставить новейшую версию продукта только затем, чтобы в очередной раз сделать вывод о том, что все прежние версии были лучше Некоторые сетуют на то, что, якобы, 9-й FR намного сильнее загружает систему, и поэтому все тормозит. Может быть, все остальное действительно тормозит, но FR9 пашет по полной, т.к. он задействует технологию HyperThreading. К примеру, если я открываю многостраничный TIFF с распознаванием, то процессы открытия страниц из TIFFa и их распознавания разбиваются на два потока, обрабатываемых параллельно, отсюда и "полная загрузка" процессора. Это хорошая новость, а не плохая Понятно, что производительность при этом возрастает отнюдь не в два раза, а дай бог на 10-15%. Да к тому же, по всему видно, разработчики "навесили" дополнительных новых алгоритмов обработки, вроде автоматического определения языка, так что мне пока не понятно, увеличилась общая производительность, или все-таки снизилась Автоматическое же определение языка - тоже хорошо, но в полной мере, возможно, оно себя покажет еще через версию. Пока это может лишь приводить к ошибкам распознавания. Одну или две таких ошибки я уже наблюдал (в 7 и 8 версиях эти ошибки не проявились) на текстах с несколькими языками. Это, а может быть, и что-то иное привело также к тому, что теперь намного больше символов помечаются как неуверенно распознанные (в 7 и 8-й версиях такое случалось, если выбрать больше 3-х словарей). Если неуверенно распознанных символов действительно стало больше из-за добавления автоматического определения языка, это плохо. Если же просто изменены правила определения таковых, это хорошо, т.к. раньше FR часто не маркировал ошибочно распознанные символы. Судя по неверно распознанному символу "г" в слове "гендерный" в таблице, приведенной ниже, верна все-таки вторая гипотеза (только в 9-й версии "г" обозначена как неуверенно распознанная), но я не уверен. Улучшилась работа OCR в случае "замусоренного" текста. К примеру, я скормил трем версиям страницу на которой при сканировании отобразился волос - он залез сразу на 6 строк. В 7-й версии это привело к 5 ошибкам распознавания. В 8-й и 9-й - всего к двум. В целом, если рассматривать вопрос именно качества OCR текста, то можно сказать, что есть некоторый прогресс между 7-й и 8-й версиями, но видимого продвижения между 8-й и 9-й практически нет. Возможно, это связано с тем, что авторы в основном сконцентрировались на том, чтобы не допустить снижения качества OCR при условии автоматического определения языка текста - задача, ИМХО, не из легких. С этой задачей они, похоже, справились. С точки зрения качества сегментирования, определения зон, также можно заметить некоторый прогресс. Я попытался продемонстрировать его на на следующих скриншотах: Хотя и здесь в 9-й версии иногда проявляются глюки, которых не было в прежних версиях. Вывод: в общем и в целом FR все-таки улучшается. Но процесс улучшения практически незаметен, и складывается из сложного отношения различных багов к фичам, появляющихся и исчезающих от версии к версии. Больше внимания авторы уделяют вещам, не имеющим прямого отношения к собственно OCR - нехватка специалистов? Это напомнило мне задачку "повышенной сложности" из старого школьного задачника по математике - об улитке, которая ползет по столбу, преодолевая 3 метра в день, и сползая на два. Когда она доползет до верхушки, да и зачем ей туда надо, бог ее знает Добавлено: VadimirTT Цитата: А никто не пробовал DjvuOCR работает с проектом от девятки, или они опять все там поменяли? | Опять
---------- пропадет-растает |
| Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 02:58 21-10-2007 | Исправлено: ghosty, 04:27 21-10-2007 |
|