Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ABBYY FineReader (Часть 1)

Модерирует : gyra, Maz

Maz (20-12-2023 09:13): ABBYY FineReader (Часть 2)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

JediMaster_Dragon



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
ABBYY FineReader
7, 8, 9, 10 (Pro, Corp, Home), 11 (Pro, Corp), 12 (Pro, Corp) и 14 (Pro, Corp, Ent)

 

 
Полный список языков распознавания для FR15
 

Русский интерфейс
 
Ответ на вопрос о сохранении проекта смотрим тут


Если  хотите, чтобы ваша проблема была рассмотрена, (решение не гарантируется), необходимо представить такие сведения:
1. Версия FineReader.
2. Версия Windows, версию пакета обновлений (SP), разрядность (для Vista и выше).
3. Если проблемы со сканированием, то называем ещё и модель сканера. Обновите драйвера своего сканера, до последней версии имеющейся на сайте поддержки вашего сканера.


Как можно получить церковнославянские тексты при помощи сканирования FineReader'ом
Как отключить "искусственный интеллект" FineReader
Как выбрать опции, чтобы FR10 распознавал простейшие формулы
FineReader не распознает сложные формулы и рукописный текст, не задавайте вопросов на эту тему.  
Версии FR для Linux пока не существует, только Engine, который вам явно не нужен.

Для понимания формата XPS программой FineReader нужен Framework 3.0. Только для XP и 2000.
Совет по распознаванию файлов DjVu Читать
Электронные текстовые книги - OCR, вычитка, оформление

Всего записей: 354 | Зарегистр. 18-01-2002 | Отправлено: 09:07 26-01-2003 | Исправлено: Maz, 19:24 26-01-2020
ALEX666999



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А если программа при этом еще и честно куплена, так вообще никаких проблем.

Угу, до первой тщательной проверки.
А обнаружат — первым спишут (c последущим, вероятно, увольнением)
из ЗП "умника", принесшего на флешке "лекарство", напару с сисадмином, дозволившим установку.
Штрафы, думаю, за такие "фиксы" приличные.

Всего записей: 6652 | Зарегистр. 20-05-2004 | Отправлено: 00:57 15-11-2014 | Исправлено: ALEX666999, 00:59 15-11-2014
hogu77

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Shangry
<...> боюсь, что здесь ничего не сделаешь, кроме как лигатуру сооружать.

Зачем же сразу "лигатуру сооружать"? Это же Вам, поди, не санскрит где верхние и нижние индексы, или как там это называется, прописывать надо. В ФР есть лимит на количество лигатур, если текст с всякими прибамбасами то не сил не возможностей может не хватить.
Почему нельзя сделать напр. вот так?:
   
текст всё равно будет векторизированным, насколько я понял из сообщения выше.

Всего записей: 118 | Зарегистр. 14-02-2012 | Отправлено: 01:20 15-11-2014
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
hogu77

Цитата:
Почему нельзя сделать напр. вот так?:  

Ну и какими символами по вашему должны будут распознаваться с одной стороны огрызок "f", а с другой "y" с непонятного происхождения хвостиком? С учетом того, что здесь вы не распознаете, а делаете обучение FR внешнему виду этих символов.
 
Для обучения ведь надо задавать типичные ситуации, которые далее многократно воспроизводятся. А здесь скорее всего разовое сочетание. Можно конечно и так попробовать, но в отношении результатов я больше скептик, чем оптимист.
 

Цитата:
В ФР есть лимит на количество лигатур, если текст с всякими прибамбасами то не сил не возможностей может не хватить.  

Ну, а варианты?
Лигатурой, согласен, не очень. Так и показанной вами разбивкой тоже не особо лучше.
 
Здесь надо уже разработчикам отписывать, чтобы на будущее подкорректировали разметку на символы.
 

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 18:19 25-11-2014 | Исправлено: Shangry, 18:23 25-11-2014
hogu77

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Shangry
Ну и какими символами по вашему должны будут распознаваться с одной стороны огрызок "f", а с другой "y" с непонятного происхождения хвостиком?

Очевидно что "f" и "y"!)  
К сожалению Ves не уточнил что в итоге он хочет увидеть, или векторизированный PDF, fb2 и пр. пр. виды форматированного текста, или же PDF/А, DjVu, т.е. просто добавить OCR к документу. Но даже в случае с последним, клятвенно вас заверяю, текст в djvu чувствует себя нормально. Несколько раз попадались и мне такие вот, размашистые фонты.

Цитата:
А здесь скорее всего разовое сочетание.

Оригинал смотреть надо, а не часть слова, не могу утверждать обратное, разовое это сочетание или абзац, весь текст.

Цитата:
Здесь надо уже разработчикам отписывать, чтобы на будущее подкорректировали разметку на символы.

И как вы себе это представляете, разраб будет грузить и обучать программу всеми возможными начертаниями всех возможных фонтов? О чём говорить когда ФР иероглифы в ариале не сходу узнаёт, "переспрашивает" столбцом, а мы здесь про каллиграфические шрифты.
 
ПС. Да, у "y" хвостика может и не быть, ничего не мешает потянуть верхнюю горизонтальную линию вниз.

Всего записей: 118 | Зарегистр. 14-02-2012 | Отправлено: 20:43 25-11-2014
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
hogu77

Цитата:
Очевидно что "f" и "y"!)  

Причем с уверенностью, что и в следующий раз эта связочка, слитно набранные "fy", тоже будут распознаны именно как "f" и "y". Что в данном раскладе увы не гарантируется.
 

Цитата:
К сожалению Ves не уточнил что в итоге он хочет увидеть,  

Для начала, думаю, он хочет увидеть нормально распознанный текст . Как и во что потом выводить распознанное - это уже вторично.
Для чего в свою очередь надо FR обучить этому курсивному шрифту, с чем как видите проблемы.  
 

Цитата:
И как вы себе это представляете,

Очень даже просто - вместо сегодняшнего вертикального прямоугольника дать рамке для выделения символа возможность превращаться в ромб. Тогда с захватом курсивных символов не будет никаких проблем.
 

Цитата:
Да, у "y" хвостика может и не быть, ничего не мешает потянуть верхнюю горизонтальную линию вниз.

Тогда в слове скорее всего появится лишний символ - FR будет пытаться хоть как-то интерпретировать хвостик, оставшийся от "f".
Тоже не фонтан.
 
ALEX666999

Цитата:
Угу, до первой тщательной проверки

Пришли, проверили. Документы на покупку FineReader есть, в соответствующем окошке программы прописано, что это серийник такой-то, зарегистрированный на покупателя такого, активация выполнена.  
Лезть после этого еще и в Program Files, чтобы сверить хэши двух файлов (да еще надо знать каких именно) одной из многих установленных на компе программ будут только завзятые параноики . Которых среди проверяющих обычно не водится.

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 17:31 26-11-2014 | Исправлено: Shangry, 17:42 26-11-2014
ALEX666999



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ещё раз: вы надеетесь на "авсоь", а это любительский подход.
Если у вас ООО "Рога/Копыта", и с проверяющим вы вообще "на Вась-Вась",
то тут и распыляться не стоит. А если серьёзная контора, то идея с заменой - говно.

Всего записей: 6652 | Зарегистр. 20-05-2004 | Отправлено: 21:18 26-11-2014
hogu77

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Shangry
<...> в данном раскладе увы не гарантируется.

ФР последних моделей вообще мало что гарантирует, иногда съедает целый абзац распознанного текста, при сохранении в fb2.

Цитата:
Для начала, думаю, он хочет увидеть нормально распознанный текст

Тогда пусть запасается временем и терпением. Весь вопрос в том что дольше, набрать текст самому или горбатиться над ФР-кой.

Цитата:
Тогда в слове скорее всего появится лишний символ <...>

Да, ваша правда, так и есть.

Всего записей: 118 | Зарегистр. 14-02-2012 | Отправлено: 00:03 27-11-2014 | Исправлено: hogu77, 00:04 27-11-2014
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ALEX666999

Цитата:
А если серьёзная контора, то идея с заменой - говно.

Достаточно серьезная - федеральный уровень. И тем не менее особо выраженной паранойи у проверяющих не наблюдается.
 
Опять же говорится это не в смысле "все дружными рядами и немедленно" . Да и момент этот совсем к другой теме относится, здесь чисто случайно всплыл.
Просто оцениваю такой вариант, как вполне проходимый - опять же с учетом конкретной ситуации.
 

Цитата:
Ещё раз: вы надеетесь на "авсоь", а это любительский подход.  

Ни на что я особенно не надеюсь . Просто не раз приходилось видеть разнообразные проверки и проверяющих. И наблюдать за тем, как они работают, на что обращают внимание, а на что не особо смотрят.
 
Возможно у вас другой опыт, здесь спорить не буду.
 
hogu77

Цитата:
Тогда пусть запасается временем и терпением.

На обучение его всегда изрядно уходит - здесь уж ничего не поделаешь.  
Да и переносимость полученного шаблона на другие машины часто из разряда "как выйдет, так и получится".

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 12:21 27-11-2014 | Исправлено: Shangry, 12:23 27-11-2014
1ANP



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Друзья, подскажите, падает ли качество фотографий при сканировании их в ABBYY FineReader 11 и последующем сохранении их в Tiff без сжатия. Просто где-то читал, что лучше сканировать фото сразу в Tiff софтом сканера, а FineReader типа пережимает фото.

Всего записей: 796 | Зарегистр. 30-05-2007 | Отправлено: 11:43 29-11-2014
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
1ANP
Фотографии сканируются не столько в "ABBYY FineReader", сколько на сканере таком-то, с настройками такими-то.  
Так что ответ на вопрос будет зависеть именно от этих двух пунктов - технические возможности сканера и настройки, которые вы выставите.
 

Цитата:
Просто где-то читал, что лучше сканировать фото сразу в Tiff софтом сканера, а FineReader типа пережимает фото.

Единственная разница между первым и вторым вариантом - у сканерного софта набор настроек сканирования и сохранения обычно богаче, чем у FR.
В остальном же все, как обычно - что выставишь, то и получишь. Выставишь форматом сохранения явно пережатый JPEG, ну так он и получится . В любом сканирующем софте.
 
Сохранять же всегда практичнее именно в несжатый TIFF (или LZW-сжатый) - если конечно хватает места на винте. Если места таки маловато, то в JPEG с Q=80-90-100.  
Тем более, что при создании FR-пакета исходные изображения все одно будет преобразованы в какой-то несжатый bitmap.

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 12:17 01-12-2014 | Исправлено: Shangry, 12:25 01-12-2014
luxor



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Подскажите, как сделать?
Что-бы при сканировании, например в .pdf, после окончания не запускалось автоматом распознавание.
Искал в настройках, не нашёл...

Всего записей: 1760 | Зарегистр. 19-10-2004 | Отправлено: 15:59 08-12-2014
vrogin



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Искал в настройках, не нашёл...

а разве не здесь  
Настройки>Сканировать/Открыть
сними флажок Автоматически обрабатывать добавленные страницы

Всего записей: 412 | Зарегистр. 31-01-2004 | Отправлено: 08:25 09-12-2014
Ves

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Для обучения ведь надо задавать типичные ситуации, которые далее многократно воспроизводятся. А здесь скорее всего разовое сочетание. Можно конечно и так попробовать, но в отношении результатов я больше скептик, чем оптимист.

Это сочетание букв воспроизводится довольно часто. Распознаваемый текст - большой шведский словарь.
 

Цитата:
Оригинал смотреть надо, а не часть слова, не могу утверждать обратное, разовое это сочетание или абзац, весь текст.

Сочетание далеко не разовое. Оригинал есть здесь:
http://rghost.ru/59533872
 

Цитата:
Да и переносимость полученного шаблона на другие машины часто из разряда "как выйдет, так и получится".

Мне как раз нужно передавать эталон на другие машины. Можно подробнее? Переносимость эталона остаётся плохой даже если на машинах установлены одинаковые версии FR?

Всего записей: 36 | Зарегистр. 13-02-2003 | Отправлено: 12:28 10-12-2014
araka



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А с Office 2013x64 эта прога работает???

Всего записей: 546 | Зарегистр. 14-02-2006 | Отправлено: 16:09 14-12-2014
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ves

Цитата:
Это сочетание букв воспроизводится довольно часто.

Здесь дело не столько в том, какое повторяется сочетание самих букв, сколько в повторяемости именно пиксельного рисунка этого сочетания. Обучение производится для того, чтобы в дальнейшем на странице отлавливалось именно это характерное сочетание пикселов.
Соответственно если буквы те же, а их пиксельный рисунок от раза к разу плавает, то обучение потребует большего времени. Да и точность дальнейшего отлавливания, уже на автомате, тоже может плавать.
 

Цитата:
Мне как раз нужно передавать эталон на другие машины. Можно подробнее? Переносимость эталона остаётся плохой даже если на машинах установлены одинаковые версии FR?

Не знаю, как в этом смысле у 12-й версии, но у 11-й перенос шаблонов был сделан изрядно бестолково.  
Шаблон, как таковой, перенести было нельзя, только сочетание "шаблон + набор текущих настроек". Заработает как надо или нет все это на новой машине - иногда да, иногда нет. По причинам, мало кому понятным.
 
araka

Цитата:
А с Office 2013x64 эта прога работает???

В смысле генерирует ли она файлы формата DOCX? Давно уже умеет.
 
 

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 15:59 17-12-2014 | Исправлено: Shangry, 16:01 17-12-2014
cuneiform

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Кто плиз может сказать почему все 4 портабельные версии ФР12 перестали запускаться на ХР СП3 с диагнозом при запуске class not registered.
 
Антивирус ничего не находит.
 
Сайт ABBYY утверждает:
 
The following error message appears when the program starts: Class not registered.
Reason
MSXML is not installed on your computer.
 
Но они ведь запускались раньше! Как это может быть?

Всего записей: 2097 | Зарегистр. 27-04-2006 | Отправлено: 20:48 18-12-2014 | Исправлено: cuneiform, 20:48 18-12-2014
laprad

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
cuneiform
Я не в первый раз встречаю замечания что старые версии файнридера лучше распознают материал,чем новые, но еще ни разу никто не предоставил доказательств. Или хранят молчание, или пишут что никому ничего не обязаны доказывать.  
То, чем гугл распознает по миллиону книг в день - нашел упоминание про Google Tesseract OCR. Гугл продвигает свои разработки (например, http://habrahabr.ru/post/219767/) Не сочти за труд кинуть ссылку на пруф про то что гугл принципиально использует 8-ю версию файнридера

Всего записей: 404 | Зарегистр. 19-01-2009 | Отправлено: 22:05 18-12-2014
cuneiform

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
laprad
 
Скачай статистически необходимое количество любых книг N с гугла.  
В каждой распознанной книге написано, чем она распознана.
Далее берешь книгу со сложной полиграфией 3-4 шрифта разной конфигурации (типа, без засечек и с засечками, курсив и нормальный, и жирный,  2-3 столбца текста на страницу - типа, словарь). Сканируешь 400 дпи. Далее распознаешь сам лично нужной версией ФР и смотришь, что получилось -- войдет ли 1 распознанная страница на А4 (ок) или только на А3. Делаешь выводы. Всё. Вопрос решен. Надеюсь.  
 

Всего записей: 2097 | Зарегистр. 27-04-2006 | Отправлено: 01:07 19-12-2014 | Исправлено: cuneiform, 01:32 19-12-2014
oshizelly



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
cuneiform 00:07 19-12-2014
Цитата:
Сканируешь 400 дпи.

Разве рекомендуемое разрешение при сканировании книг не 300 DPI?

Всего записей: 6524 | Зарегистр. 18-09-2004 | Отправлено: 11:44 19-12-2014
cuneiform

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
oshizelly

Цитата:
Разве рекомендуемое разрешение при сканировании книг не 300 DPI?

 
Книги ж разные по шрифту. А 300 дпи это для А4 офиса - там основной шрифт 12 пунктов.
А в книгах ссылки могут быть и мелким шрифтом.  
Поэтому считаю крайний минимум для книг будет как раз 400 дпи.  

Всего записей: 2097 | Зарегистр. 27-04-2006 | Отправлено: 12:25 19-12-2014 | Исправлено: cuneiform, 12:28 19-12-2014
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ABBYY FineReader (Часть 1)
Maz (20-12-2023 09:13): ABBYY FineReader (Часть 2)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru