Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ABBYY FineReader (Часть 1)

Модерирует : gyra, Maz

Maz (20-12-2023 09:13): ABBYY FineReader (Часть 2)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

JediMaster_Dragon



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
ABBYY FineReader
7, 8, 9, 10 (Pro, Corp, Home), 11 (Pro, Corp), 12 (Pro, Corp) и 14 (Pro, Corp, Ent)

 

 
Полный список языков распознавания для FR15
 

Русский интерфейс
 
Ответ на вопрос о сохранении проекта смотрим тут


Если  хотите, чтобы ваша проблема была рассмотрена, (решение не гарантируется), необходимо представить такие сведения:
1. Версия FineReader.
2. Версия Windows, версию пакета обновлений (SP), разрядность (для Vista и выше).
3. Если проблемы со сканированием, то называем ещё и модель сканера. Обновите драйвера своего сканера, до последней версии имеющейся на сайте поддержки вашего сканера.


Как можно получить церковнославянские тексты при помощи сканирования FineReader'ом
Как отключить "искусственный интеллект" FineReader
Как выбрать опции, чтобы FR10 распознавал простейшие формулы
FineReader не распознает сложные формулы и рукописный текст, не задавайте вопросов на эту тему.  
Версии FR для Linux пока не существует, только Engine, который вам явно не нужен.

Для понимания формата XPS программой FineReader нужен Framework 3.0. Только для XP и 2000.
Совет по распознаванию файлов DjVu Читать
Электронные текстовые книги - OCR, вычитка, оформление

Всего записей: 354 | Зарегистр. 18-01-2002 | Отправлено: 09:07 26-01-2003 | Исправлено: Maz, 19:24 26-01-2020
KChernov



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ovsyan
Adobe InDesign устроит?

Всего записей: 2471 | Зарегистр. 20-04-2004 | Отправлено: 23:49 24-02-2011
Ovsyan



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
KChernov
Ох...спасибо, попробую Ваш совет (если не разберусь, то отпишусь). Всем большое спасибо, за помощь!!!!!

Всего записей: 103 | Зарегистр. 26-09-2009 | Отправлено: 16:27 25-02-2011
PGT



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Блин поставил ФР10 только потому что прочитал о сканировании разворотов без затемнений , ток в самой проге никак не найду как это сделать  .

Всего записей: 42 | Зарегистр. 01-03-2011 | Отправлено: 10:28 03-03-2011
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
PGT
Где это Вы такое чудо обнаружили? Не верю! (с) Этого не может быть, потому что не может быть никогда.

----------
Per warez ad scientiam

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 11:18 03-03-2011
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Astra55

Цитата:
Этого не может быть, потому что не может быть никогда

А что здесь особо невозможного?  
Обыкновенная доводка скана на предмет зачистки заданных областей.  Во многих профессиональных скан-программах такое уж не помню сколько лет имеется, как штатная функция.

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 14:32 03-03-2011
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Shangry
Не путайте кислое с мягким, то бишь, железо с софтом. Профессиональные софты идут с профессиональными сканерами, а ФР работает с чем попало.

----------
Per warez ad scientiam

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 15:16 03-03-2011
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Профессиональные софты идут с профессиональными сканерами, а ФР работает с чем попало.

Я у ABBYY на "кухню" не заглядывал, так что судить не берусь.  
Но если какая-то возможность была реализована в сканирующих программах (именно в программах, а не в микрокоде сканеров) еще в конце 90-х, то не вижу что может помешать народу реализовать ее еще раз сейчас.
 
Это вполне мог бы даже Болега у себя в Сканкромсаторе сделать, если бы вдруг такое в голову пришло (а м.б. и сделал - там много чего заряжено). А уж большая софт-контора - и подавно.

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 18:57 03-03-2011 | Исправлено: Shangry, 18:59 03-03-2011
Jans



Silver Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
подскажите, ни с того, ни с сего, при сканинге и дальнейшей передаче в M$Word(2010) прога стала вываливать ошибку
 

 
то же и в 10-ке

Всего записей: 2361 | Зарегистр. 07-12-2006 | Отправлено: 07:57 05-03-2011
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Так обычно выглядят окошки про ошибки отработки кода программы. Поэтому кроме самих разработчиков вряд ли кто разберется.
 
От себя могу предложить не "передавать в Word", а сохранить распознанное в DOC/RTF/DOCX, а потом открыть в том же Word.

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 17:53 09-03-2011
Arech

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Здравствуйте!
 
Распознаю документы и хочу сохранять их в виде "картинка поверх текста", т.к. очень часто субж не распознаёт то, что человек прекрасно понимает. Т.е. я хочу, чтобы читатель видел исходную картинку, а локальный поисковик бы ещё видел распознаный текст, который можно индексировать.  Допустим, картиночный pdf -> pdf "картинка+текст" или djvu->pdf "картинка+текст".
 
Но совершенно не устраивает то, как в дефолтном виде сохраняет документы субж версии 10...130. Он почему-то сохраняет в качестве картинки преобразованное однобитное изображение, которое видимо поступает на вход алгоритма распознавания. Соответственно, для человека качество такой картинки в высшей степени мерзостное, вместо полутонов - рваные края. Уже, по моему, все 100500 вариантов настроек перепробовал, чтобы заставить субж сохранять исходную картинку, но никакого результата
 
Подскажите, пожалуйста, как сделать так, чтобы в качестве картинки сохранялся бы исходник, а не рваная порнография?

Всего записей: 169 | Зарегистр. 28-12-2005 | Отправлено: 22:31 09-03-2011
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Подскажите, пожалуйста, как сделать так, чтобы в качестве картинки сохранялся бы исходник, а не рваная порнография?

Поставить в настройках выводного формата нужную разновидность графики. Сейчас там похоже что-нибудь вроде TIFF G4, ну так замените его на то, что вам требуется.

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 14:32 10-03-2011
Collapse Troll

Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Добрый день!
 
Подскажите пожалуйста - можно прикрутить Finereader к своей собственной программулине? или для этого нужно использовать только Engine

Всего записей: 791 | Зарегистр. 05-08-2006 | Отправлено: 17:06 10-03-2011
Arech

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Поставить в настройках выводного формата нужную разновидность графики. Сейчас там похоже что-нибудь вроде TIFF G4, ну так замените его на то, что вам требуется.

 
Где это?
Опции/Сохранить/PDF/Качество картинок ? Пробовал все варианты ставить - результат одинаковый... (формат сохранения - "текст под изображением страницы" - картинка страницы нужна наверху, её должен видеть юзер)
 
Если сделать формат "текст поверх изображения страницы", то для глаза, конечно, приятно, но вылазят все косяки распознавания, а мне распознавание нужно только для возможности индексации поисковиком и этот вариант не подходит.

Всего записей: 169 | Зарегистр. 28-12-2005 | Отправлено: 17:08 10-03-2011
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Где-то рядом с "Опции/Сохранить/PDF/Качество картинок" должно быть окошко для выбора формата (оно обычно так и подписано "Формат").

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 18:14 10-03-2011
Arech

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Где-то рядом с "Опции/Сохранить/PDF/Качество картинок" должно быть окошко для выбора формата (оно обычно так и подписано "Формат").  

 
Нет у меня такого... Есть только дропдаун "Качество картинок", где 4 варианта - низкое/среднее/высокое/пользовательское. При выборе "пользовательского" появляется диалог где можно указать разрешение картинок (96/200/300dpi/оригинал) и формат. В формате стоит "JPEG, цветной (для фотографий)", ползунок качество - 80%.
И в результате всё равно, текст который я ожидаю видеть качественной картинкой, отображается рваной однобитной низкокачественной картинкой. Если сделать увеличение побольше, то четкие границы пикселей, составляющих буквы, становятся очень хорошо видны. А должны быть - полутоновые переходы.
 
Что тут не так? Скрины настроек и результата сделать?
 
Добавлено:
ADD: причём даже цветный картинки он при это сохраняет черно-белыми однобитными. Что за *&$&#%*&@$ !!!

Всего записей: 169 | Зарегистр. 28-12-2005 | Отправлено: 20:06 10-03-2011
zhe_zho



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Arech Скрин из 8 версии
 
http://s008.radikal.ru/i305/1103/8a/05e5c4a76f6b.png

----------
Мысли они искривляют мозг, а соображение выпрямляет и способствует кровообращению.
Фридрихсен, учёный
"Убить дракона"

Всего записей: 2916 | Зарегистр. 24-04-2008 | Отправлено: 00:57 11-03-2011 | Исправлено: zhe_zho, 00:58 11-03-2011
Arech

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
zhe_zho
, спасибо, у меня иначе:
 
Настройки ( http://i064.radikal.ru/1103/1f/72e8ed742bcd.jpg )
   
 
Исходная картинка текста и результат даю ссылкой http://s19.radikal.ru/i192/1103/de/75a60b5e7bce.jpg , 84кб, но широкая, может порвать разметку форума.
 
Причём, ЧСХ, так поганит она только области текста (такое впечатление, что в качестве картинки оно сохраняет специально подготовленное однобитное изображение, которое скармливается распознавателю. Реальные картинки, которые и были в исходном тексте картинками передаются нормально, с теми настройками, что указаны. А на отображение картинкой текста похоже настройки вообще никак не влияют.
 
Либо я что-то не так делаю, либо глюк в программе. Но раз никто больше не ругается, видимо это я где-то косячу, вопрос где?
 
 
 
Добавлено:
Бииииип... Кажется нашёл...
Очень говорящая настройка:
---------------
Использовать смешанное растровое содержание (MRC)
Отметьте эту опцию, если вы хотите, чтобы при сильном сжатии документа сохранилось высокое качество текста и изображений. В результате размер конечного файла будет небольшим, а качество текста и иллюстраций будет высоким.
--------------
Как это я сразу не догадался? Ну очевидно же, хочешь нормальное качество картинки текста - отключай настройку, которая это качество типа повышает!
 
Она и есть главное зло. Отключил её и стало сохраняться нормально с полутонами, теперь глаза не режет.
 
Большое все спасибо за участие, может кому мой опыт пригодится, нигде о таком не видел.
 
------------------------------------------------------------
 
Другой вопрос по распознаванию
У меня есть довольно странные документы в PDF, в которых есть страницы полностью распознанные, а есть не распознанные вообще. Вопрос: а есть ли тулзы чтобы программно прошерстить всю библиотеку и хотя бы просто отобрать подобные документы? Глазками я умру их выискивать....

Всего записей: 169 | Зарегистр. 28-12-2005 | Отправлено: 10:58 11-03-2011
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Arech

Цитата:
Нет у меня такого...  

Значит это проблема версии.  
В восьмой есть, в девятой - точно не помню, но вроде должен быть, десятую не смотрел. Если там нет, значит ABBYY в неизмеримой мудрости своей, решила, что пользователю такое усложнение интерфейса нафиг не нужно.
 

Цитата:
Использовать смешанное растровое содержание (MRC)  

Это появилось начиная с девятой версии. Что-то вроде DjVu или LDF, только в зачаточном состоянии (в смысле качества деления на слои). Выходной результат - обычно так себе (в чем вы наглядно убедились).  
Причем то, что на приведенной вами картинке - это еще из разряда "очень прилично".
 
 
 
 
Добавлено:

Цитата:
У меня есть довольно странные документы в PDF, в которых есть страницы полностью распознанные, а есть не распознанные вообще. Вопрос: а есть ли тулзы чтобы программно прошерстить всю библиотеку и хотя бы просто отобрать подобные документы?

На предмет чего?  
В смысле, может ваша задача решаема и без такой рассортировки.

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 15:44 11-03-2011 | Исправлено: Shangry, 15:50 11-03-2011
Arech

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Цитата:
У меня есть довольно странные документы в PDF, в которых есть страницы полностью распознанные, а есть не распознанные вообще. Вопрос: а есть ли тулзы чтобы программно прошерстить всю библиотеку и хотя бы просто отобрать подобные документы?
 
На предмет чего?  
В смысле, может ваша задача решаема и без такой рассортировки.

 
Я хочу иметь полный поиск по своей библиотеке. Для этого нужно, чтобы весь текст в документах был бы индексируемым. Соответственно, в тех документах, где есть нераспознанные страницы - текст на таких страницах идексирован не будет и поиска по ним тоже не будет, а это не айс.
Поэтому, в идеале, мне надо найти только нераспознанные страницы во всех документах библиотеки, распознать их и вставить обратно на своё место уже вместе с подложенным текстом. Ну или хотя бы просто отобрать документы с нераспознанными страницами из всего массива документов в библиотеке, о чём я и спрашиваю
 
Я понимаю, что задачка на самом деле совсем не такая простая, как кажется, ибо требуется программно различить наличие текста на странице (ведь на странице может быть, например, фотография, которую и не надо распознавать), но совершенно уверен, что она решаема с приемлемой точностью (собсно файнридер решает её в процессе препроцессинга при определении текстовых зон на картинке).
 
Альтернативой является полный прогон распознавалки по всей библиотеке, но что-то мне не хочется на неделю комп загружать, да и размер уже правильно распознанных или чисто текстовых файлов от этой операции только разбухнет (ибо придётся сохранять в виде "текст под картинкой").
 
Что думаете?

Всего записей: 169 | Зарегистр. 28-12-2005 | Отправлено: 17:20 11-03-2011
regist123



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
решил с помощью FR10 распознать отсканированный текст с нестарным шрифтом (имитация рукописного английского), разумеется на автомате на выходе практически чушь. Запустил режим обучения пользовательского эталона обучил его одной странице, запускаю опять на автомате эту же страницу указываю использовать только пользовальский эталон, распознал но опять довольно скверно. В чем дело не подскажете?
 
Потом ещё вопрос (он интересует ещё больше) шрифт хоть и имитация под рукописный, но печатный, тоесть все буквы написаны одинаковые. Следовательно по идее я ему раз десять к примеру должен указать, что это буква "а", а это буква "б" а на он уже должен ведь сам её распознавать ? а пока он просто мне подставляет вариант этой буквы и мне надо жать обучить, я уже даже практически не смотрюна автомате жму обучить, он довольно грамотно их узнаёт но спрашивает у меня. Как сделать чтоб те буквы которые о уже запомнил (наверно есть у программы возможность отличить уверенно распознанные буквы от сомнительно) и чтоб он меня про эти буквы уже не спрашивал а автоматом их опознавал. Заранее спасибо ответ.
 
Добавлено:
и ещё один вопрос, можно ли как-то во время обучения программы сохранить промежуточный результат, а потом продолжить её обучать с этого места.

----------
Раздачи и акции

Всего записей: 7189 | Зарегистр. 20-03-2009 | Отправлено: 18:24 11-03-2011
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ABBYY FineReader (Часть 1)
Maz (20-12-2023 09:13): ABBYY FineReader (Часть 2)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru