Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ABBYY FineReader (Часть 1)

Модерирует : gyra, Maz

Maz (20-12-2023 09:13): ABBYY FineReader (Часть 2)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

JediMaster_Dragon



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
ABBYY FineReader
7, 8, 9, 10 (Pro, Corp, Home), 11 (Pro, Corp), 12 (Pro, Corp) и 14 (Pro, Corp, Ent)

 

 
Полный список языков распознавания для FR15
 

Русский интерфейс
 
Ответ на вопрос о сохранении проекта смотрим тут


Если  хотите, чтобы ваша проблема была рассмотрена, (решение не гарантируется), необходимо представить такие сведения:
1. Версия FineReader.
2. Версия Windows, версию пакета обновлений (SP), разрядность (для Vista и выше).
3. Если проблемы со сканированием, то называем ещё и модель сканера. Обновите драйвера своего сканера, до последней версии имеющейся на сайте поддержки вашего сканера.


Как можно получить церковнославянские тексты при помощи сканирования FineReader'ом
Как отключить "искусственный интеллект" FineReader
Как выбрать опции, чтобы FR10 распознавал простейшие формулы
FineReader не распознает сложные формулы и рукописный текст, не задавайте вопросов на эту тему.  
Версии FR для Linux пока не существует, только Engine, который вам явно не нужен.

Для понимания формата XPS программой FineReader нужен Framework 3.0. Только для XP и 2000.
Совет по распознаванию файлов DjVu Читать
Электронные текстовые книги - OCR, вычитка, оформление

Всего записей: 354 | Зарегистр. 18-01-2002 | Отправлено: 09:07 26-01-2003 | Исправлено: Maz, 19:24 26-01-2020
Drusus



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
не силён я в программировании а банальный макрос - запись нажатий клавиш здесь не пойдёт, поищу готовый макрос

Всего записей: 119 | Зарегистр. 03-08-2005 | Отправлено: 09:08 30-04-2008
Drusus



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
вот нашёл что-то похожее

Всего записей: 119 | Зарегистр. 03-08-2005 | Отправлено: 15:33 30-04-2008 | Исправлено: Drusus, 15:35 30-04-2008
bdfy

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Хочу сделать пользовательский язык с минимумом встречающихся в тексте спец. символов. в основном это греческие дельты и тп.  
Создаю новый словарь а там в греческом одни квадратики c этим что можно сделать ?  

Всего записей: 977 | Зарегистр. 21-04-2004 | Отправлено: 01:35 07-05-2008
Shulhan

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Народ, я обычно стараюсь доходить до всего своим умом, порой даже получается, но сейчас времени нет совершенно. ТАк что прошу совет.  
 
Есть девятый ABBYY FineReader. Есть Word-2007 английский. Всё установлено под WIN XP русский . Есть несколько более-менее качественно отсканированных книг в форматах pdf  и в djvu. Языков в книгах два и в  больших количествах - русский и иврит (ну, живу я здесь..)Открыватся они, распознаются и сохраняются в формат pdf без явных  проблем. Иврит не распознаётся, но он и не должен.  Сложности начинаются позже, когда я пытаюсь сделать из нх документ Word. Документ-то получается, но вместо всего иврита  получаются не какие-то там "нераспознанные символы", а абракадабра на кириллице. С преобразованием документа в формат html те же грабли. Мне крайне желаемо получить эти книги в редактируемых форматах для русского языка . Вопрос - ошибки появляются в результате моих личных глупостей и незнания матчасти? Или подобное преобразование не относится к элементарно простым?  
 
Натравить на книги ещё и распознавалку иврита не успел, ибо раздобыл её только сейчас. Да и хотелось бы получить решение в общем виде, ибо столкнуться могу и ещё с парочкой неподдерживаемых языков.

Всего записей: 914 | Зарегистр. 04-04-2005 | Отправлено: 02:49 08-05-2008 | Исправлено: Shulhan, 02:51 08-05-2008
vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Shulhan
Можно образец абракадабры (снимок экрана)? Если квадратики, то это могут быть последствия кривого взлома.

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 10:19 08-05-2008
Shulhan

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
 Если бы квадратики- мир был бы прост и ясен... квадратики - это класика вареза.  Как раз распознанный текст - русский - передаётся идеально, а нераспозннный - иврит - меняется на непонятки.  Ну через часок-другой  я отойду от последствий сегодняшнего празднования нашего  Дня Независимости и сделаю скриншоты.

Всего записей: 914 | Зарегистр. 04-04-2005 | Отправлено: 20:16 08-05-2008
vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Shulhan
Я вот не совсем понял. Я вас есть текст на русском и иврите, вы распознаете его в сабже с языком распознавания русский и в результате иврит превращается в кириллическую абракадабру? Если все так, то ФР все делает правильно - откуда ему знать, что часть символов - вовсе даже не кириллица?

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 20:56 08-05-2008
Shulhan

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Прошу прощения, замотался с этими праздниками и с экспериментами по распознаванию, однако выяснл, что  проблема неэлементарная.
 
Распознаётся текст грамотно. Русский распознаётся, иврит не распознаётся и остаётся картинками.. Сохраняется в файл PDF на  отлично. Далее я этот файл пытаюсь конвертировать в формат ворда,  что мне должно дать русский редактируемый распознанный текст и иврит в виде картинок. С русским всё отлично - но вместо картинок ивритовских слов получаются какие-то куски слов на русском!
 
Я катил на сабж - но попробовал парочку других конверторов PDF=Doc. Получился набор  сбоев - местами иврит вышел именно картинкой, местами набором русскошрифтового абсурда, с русским изначальным всё хорошо. При этом работать с получившимся файлом на 120 страниц  невозможно - ворд грузит трёхгигагерцный пень полностью и еле шевелится, оперативки ему более чем много. А это для меня критично, с книжками работать надо.  
 
Я думаю, что решение этой проблемы не лежит на поверхности и очень может быть, что Finereader тут может оказаться вообще ни при чём. Надо прогнать все конверторы, до которых я смогу дотянуться, лишь тогда делать выводы.  Так что  благодарю за стремление помочь, мы к этой интересной проблеме ещё вернёмся.

Всего записей: 914 | Зарегистр. 04-04-2005 | Отправлено: 04:58 15-05-2008 | Исправлено: Shulhan, 05:00 15-05-2008
Goul

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Shulhan
Ключевой вопрос в том, что вы хотите получить на выходе вместо иврита. Если текст - то это будет белиберда - в данном случае, кириллицей. Если вместо иврита должно быть пусто, надо вручую удалить все фрагменты текста на иврите из разметки страниц. Если хотите получить на месте иврита картинки - то надо сделать так, чтобы FineReader не экспортировал текст, который он распознал на месте этих картинок. Как вариант, могу предложить попробовать сохранять PDF в формате Text and pictures only с опцией Replace uncertain words with images (ориентируюсь по седьмой версии FR, в девятой должно быть как-то похоже). Может быть, после этого файл в Word'е получится такой, как надо.

Всего записей: 704 | Зарегистр. 28-05-2004 | Отправлено: 14:50 15-05-2008
bdfy

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Shulhan
Infix для редактирования pdf пробовали ? а вообще я бы на форум лингво сходил. мне там помогли.  
опция
Цитата:
Replace uncertain words with images
есть только для пдф. и все равно форматирование бывает слетает (на девятке проверял). и конвертация потом все равно отдельный геморрой.  
Есть галка "подсветить неуверенно распознанный текст" в ворде. Можно попробовать выделить по формату весь такой текст и заменить пробелами или удалить.  

Всего записей: 977 | Зарегистр. 21-04-2004 | Отправлено: 15:33 15-05-2008
Dmb_2007

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А зачем загонять в ПДФ, чтобы в итоге получить документ Ворд? Почему не напрямую?
Или я отстал от жизни? В 8-ке это без проблем.

Всего записей: 341 | Зарегистр. 07-05-2004 | Отправлено: 18:53 15-05-2008
Djkorvin

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Народ подскажите как заставить finereader распознавать маркированный список (может он его и распознает, но булетты не ставит), и второе текст в рамке - 9-й  файнридер его распознает без рамки, хотя в настройках стоит искать только явно заданные таблицы, если я этот блок обвожу заново (с рамкой) и ставлю тип таблица, то он делает все правильно, но автоматом он выделяет блок аккурат внутри рамки и ставит тип текст.

Всего записей: 2 | Зарегистр. 17-05-2008 | Отправлено: 11:00 17-05-2008
Sish



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Djkorvin
В настройках стоит полное сохранение макета?
 
Распознанный текст куда передаёшь?

Всего записей: 25337 | Зарегистр. 09-06-2004 | Отправлено: 07:51 19-05-2008
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Djkorvin
Вот здесь вроде бы есть ответ на ваш вопрос (или, по крайней мере, на часть его):
 
http://www.abbyy.ru/finereader/forum/actualthread.aspx?tid=594
 
 
Добавлено:
 Shulhan

Цитата:
Как вариант, могу предложить попробовать сохранять PDF в формате Text and pictures only с опцией Replace uncertain words with images

 
Есть еще один момент, который здесь надо учесть.  
У FineReader есть дурная привычка распознавать символы одного языка, как символы другого языка и, притом, делать это со стопроцентной уверенностью. Тогда не спасает даже упомянутая установка "Заместить неуверенно распознанные символы их изображениями".
 
Так что, если и в PDF, сделанном по совету Goul, все равно пойдет  мусор, то придется вручную размечать проблемные места с ивритом, как картинки.  
Геморрой, конечно, но что поделаешь .
 

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 15:59 20-05-2008
reanimator



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Стоит 9.0.0.724 фр + 2007 офис сп1, под хр
 
Распознаю книгу из djvu, сохраняю как doc (либо в docx). Вот ту начинаются проблемы. 2007 офис видит только 4 страницы, хотя пишет, что в документе 12к слов. 2003 офис открывает документ нормально.
Причем если сохранять в pdf, то сохраняются все страницы.
 
В чем может быть проблема?

Всего записей: 2260 | Зарегистр. 16-01-2004 | Отправлено: 21:08 28-05-2008
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Всем кто разбирался с форматом файлов ФР (знаю что такие были - раз есть утилита от Генчо)
 
Народ напишите утилиту батч-анализа - количество-блоков на каждой из страницы в пакете + количество ошибок и неуверенно-распознанных символов. Идеально еще добавить возможность пакетно удалять блоки из страниц по размеру, номеру и т.п. Это бы столько времени могло сэкономить.
 
 
Уже запостил это среди других предложений по усовершенствованию на форуме Абы, но боюсь если они это и сделают то в SDK или какой-нибудь версии за кучу КБаксов, что хрен достанешь.

Всего записей: 3674 | Зарегистр. 17-09-2001 | Отправлено: 22:32 08-06-2008
vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
niccolo
Скорее всего с форматом разобрался (точнее, его угадал) Генчо, думаю, ему стоит в первую очередь написать. Если, конечно, еще не написали

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 01:38 09-06-2008
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
vitaly1
Сдается мне, что у Генчо несколько иная задача, пусть лучше он ее решит в первую очередь. Остальное сугубо вторично

----------
Per warez ad scientiam

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 06:40 09-06-2008
Sobchak



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ABBYY FineReader 9 Portable Edition (Full) скачал. Не видит astra 6700 таймаут сервера в настройках проги, вкладка сканер, любо путь не найден в ///ScanManager. Где курить?

Всего записей: 195 | Зарегистр. 03-02-2002 | Отправлено: 13:15 11-06-2008
tyrty



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
ABBYY FineReader 9 Portable Edition (Full) скачал. Не видит astra 6700 таймаут сервера в настройках проги, вкладка сканер, любо путь не найден в ///ScanManager. Где курить?

 
Точно такая же фигня с Epson 2480. Кто-нибудь поборол?

Всего записей: 60 | Зарегистр. 13-03-2008 | Отправлено: 16:35 11-06-2008
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ABBYY FineReader (Часть 1)
Maz (20-12-2023 09:13): ABBYY FineReader (Часть 2)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru