Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » DjvuOCR

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Открыть новую тему     Написать ответ в эту тему

vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
DjvuOCR
by gencho

Программа для добавление OCR информации в djvu-книги с помощью программы распознавания текста ABBYY FineReader версий 7-9. Есть также другие полезные функции для работы с djvu.
 
Текущая версия: 2.4 beta
 
Офсайт  
Софт на ЯДиске

Авторская документация к DjvuOCR (в формате HTM)  
 
 
FR9frfPatch для автоматического исправления перепутанных страниц после распознавания в FineReader 9 на многоядерном процессоре
 
Статья Создание в djvu-файле текстового слоя и интерактивного содержания
 
Статья OCR в djvu файлах - новый подход к старым возможностям (немного устаревшая).
 
Статья OCR && DJVU || DJVU && OCR или есть ли текст в дежавю? (немного устаревшая).

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 22:28 28-02-2007 | Исправлено: TelecomUral, 13:44 22-07-2020
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
gencho
Спасибо! Но мне тогда все-равно пришлось решать проблему в лоб - написал специальный скриптик, который на каждой странице выделял маленький квадратик и распознавал его

Всего записей: 6791 | Зарегистр. 21-09-2002 | Отправлено: 08:16 12-01-2008
Dracula



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Сорри конечно - но выйдёт ли версия для ABBYY FineReader 9.0 - очень жду.
Заранее спасибо.

----------
+=._.=++=._.=++=._.=++=._.=++=._.=++=._.=++=._.=+

Всего записей: 3304 | Зарегистр. 22-12-2003 | Отправлено: 14:40 05-02-2008
bormant



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
На некоторых файлах от fr8 frfgrab v1.12 выдает "Invalid FRF format (5) offset=00000029".
Не поделится ли кто описанием структуры frf, насколько это известно, хотелось бы это дело разгрызть.
 
Добавлено: после проверки орфографии меняется заголовок и добавляются в него данные (тут--9 байт, видел до 18) было / стало:

0000000000: 46 52 35 53 0F 02 02 xx | 00 xx 00 02 xx 00 xx 00
0000000010: 00 00 24 00 01 02 C0 C7 | B9 C7 0C 6B C8 01 00 00
0000000020: 00 00 00 00 00 35 43 00 | 3A 00 5C 00 44 00 6F 00
---------------------------^
0000000000: 46 52 35 53 0F 02 02 xx | 00 xx 00 02 xx 00 xx 00
0000000010: 00 00 24 00 01 02 C0 C7 | B9 C7 0C 6B C8 01 01 02
0000000020: E0 66 D3 48 0D 6B C8 01 | 00 00 00 00 00 00 35 43
---------------------------++ ++ ++   ++ ++ ++ ++ ++ ++ ^

 
Добавлено 2: Если к старому заголовку с прежнего смещения (в данном случае 0x25, красным помечен байт длины перед именем файла) прилепить новое содержимое, то файл обрабатывается нормально. Отсюда напрашивается вывод о том, что эту добавку в заголовке можно успешно игнорировать, нужно только продвинуться дальше при анализе заголовка.
 
p.s. Вопрос о структуре frf в части, не охваченной frfgrab -v ..., остается в силе.

Всего записей: 107 | Зарегистр. 06-10-2003 | Отправлено: 13:37 09-02-2008 | Исправлено: bormant, 02:49 10-02-2008
gencho



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dracula
Пока версия для FR9 не хочеть вообще заработать, там много изменении.
 
bormant
Вы будете удивлены, но я тоже не знаю формат FRF файлов. У меня FRFGrab сделан на основе конечного автомата, а он обучался (вручную) на образцах из файлов.
 
Все же некоторые знания есть. Вот для ваш пример:
 
Некоторые блоки формата именют длина, зависящая от их содержание. Например, в конкретном случае, байт на офсет 1Е = 00 означает что блок пуст. Значение 01 в данном месте означает что там есть один масив из 4-байтних слов, а следующий байт на офсет 1F = 02 означает, что количество слов = 2. Значит содержимое блока: два слова, E0 66 D3 48 и 0D 6B C8 01 (похоже на дата и время). После них есть 00, что означает что следующий блок (а у него формат может быть совсем другой) пуст. Заметте, в верхный пример есть 7 x 00 (офсет 1Е), a в нижнем - 6 x 00 (офсет 28), так как одна из них там превратилась в непустой блок.
 
Если блок до этого момента не проявлялся (программа игнорировала, как начинающий с 00), то FRFGrab спотыкается, так как не знает как его обработать. Если у вас есть такие файли, то давайте их мне на мыло - оно в программе DjvuOCR, на лицевом панеле стоит.

Всего записей: 321 | Зарегистр. 20-06-2003 | Отправлено: 15:06 10-02-2008
Dracula



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
gencho

Цитата:
Пока версия для FR9 не хочеть вообще заработать, там много изменении.  

Очень жаль, но спасибо за то, что откликнулись - буду знать, что Вы работаете над этим.

----------
+=._.=++=._.=++=._.=++=._.=++=._.=++=._.=++=._.=+

Всего записей: 3304 | Зарегистр. 22-12-2003 | Отправлено: 17:10 10-02-2008
bormant



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
gencho,

Цитата:
Если блок до этого момента не проявлялся (программа игнорировала, как начинающий с 00), то FRFGrab спотыкается, так как не знает как его обработать. Если у вас есть такие файли, то давайте их мне на мыло - оно в программе DjvuOCR, на лицевом панеле стоит.  

Выслал. Если вдруг не дойдет, прошу тут отписать. Готов протестировать у себя исправленный вариант -- есть на чем. Судя по предыдущему посту исправлений не сильно много, буду ждать с нетерением.
Насчет обработки этого нового блока. Поскольку он появляется после прохождения проверки орфографии на странице, логично предположить, что содержимое этого блока не имеет отношения к расположению глифов на странице, а потому может быть проигнорировано без какого-либо ущерба для конечного результата.

Всего записей: 107 | Зарегистр. 06-10-2003 | Отправлено: 19:47 10-02-2008 | Исправлено: bormant, 20:39 10-02-2008
gencho



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bormant
Спасибо. Очень важная корекция получилась. Попробую на моя коллекция FRF-файлов, и выложу для пользование. Ну я обещал себе, до конца идущей недели выложить скоректированная версия DjvuOCR для FR8 с полная документация...

Всего записей: 321 | Зарегистр. 20-06-2003 | Отправлено: 02:41 11-02-2008
vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
gencho

Цитата:
скоректированная версия DjvuOCR для FR8  

А что будет исправлено?

----------
Топик по украинскому языку

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 10:23 11-02-2008
Dracula



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
gencho

Цитата:
до конца идущей недели выложить скоректированная версия DjvuOCR  

Было бы супер поиметь хотя бы для 8 версии исправленный вариант - кстати, что нового там будет?

----------
+=._.=++=._.=++=._.=++=._.=++=._.=++=._.=++=._.=+

Всего записей: 3304 | Зарегистр. 22-12-2003 | Отправлено: 21:36 12-02-2008
bormant



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
gencho,

Цитата:
Ну я обещал себе, до конца идущей недели выложить скоректированная версия DjvuOCR для FR8 с полная документация...

Подготовка полной документации -- вопрос серьезный и длительный, мне редко когда удается с уверенностью сказать, сколько потребуется времени.  
Нельзя ли пока выложить скорректированные exe-шники djvuocr и frfgrab на какой-нибудь обменник без документации?
Спасибо.
 
Добавлено: Вот и дождались. Цитата с офсайта:
19.02.2008: Наконец то! Новая, последная версия для FineReader 8:  
DjvuOCR 2.3, FRFGrab 1.13  
Основные изменения:  
- Добавлен руский контекстный Help-файл. Пока английского нет.  
- Добавлена возможность смена языка интерфейса.  
- Добавлен режим построчного, пословного и посимвольного OCR  
- Добавлена возможность drag & drop файлов прямо с папка в програму.  
Drag & Drop можно указывать как djvu-файли, так и имена папки, и имена  
других типов файлов – в контекст режима.  
- Добавлены новые возможности в режим “Извлечь OCR слой”  
Исправлены все известные ошибки.  
 

Всего записей: 107 | Зарегистр. 06-10-2003 | Отправлено: 18:45 19-02-2008 | Исправлено: bormant, 10:37 20-02-2008
gencho



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ну опередили меня

Всего записей: 321 | Зарегистр. 20-06-2003 | Отправлено: 15:00 20-02-2008
Dracula



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
gencho
Ты забыл в шапке указать новую верстю 2.3 - я исправил шапку.

----------
+=._.=++=._.=++=._.=++=._.=++=._.=++=._.=++=._.=+

Всего записей: 3304 | Зарегистр. 22-12-2003 | Отправлено: 16:56 20-02-2008
BooBoo



Junior Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
После разпознования и ПРАВКИ текста столкнулся с проблемой внедрения OCR  
 
версия 2.3
Invalid FRF format
offset = 00000049
На ВСЕХ страницах прошедших правку
При использовании версии 2.2 beta такой проблемы не обнаружено
 
То же самое и на другой книге
после правки текста версия 2.3 пишетInvalid FRF format
offset = 00000049
А версия 2.2 beta делает всё на ура  
 
Да забыл сказать в версии 2.3 проблему можно решить по методу ghosty
 
http://forum.ru-board.com/topic.cgi?forum=5&topic=22673&start=60#21

Цитата:
Недавно добился желаемого путем написания специального скрипта, которы выделял на каждой странице маленький блок текста и распознавал его (спасибо octopus'у за идею).  


Всего записей: 61 | Зарегистр. 26-03-2006 | Отправлено: 13:08 05-04-2008 | Исправлено: BooBoo, 11:05 06-04-2008
shalunov

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
BooBoo, подобные ошибки встречались мне как раз при использованиии версии 2.2 beta в режиме "Ручной OCR", а вот в версии 2.3, используя режим "Пакетный OCR", всё сработало хорошо. Возможно, дело в выборе режима? По-моему, где-то в справке я встречал совет от gencho - использовать режим "Пакетный OCR".  

Всего записей: 111 | Зарегистр. 02-12-2007 | Отправлено: 03:21 07-04-2008 | Исправлено: shalunov, 03:22 07-04-2008
BooBoo



Junior Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
shalunov
Вот в том и дело, что ручной OCR в 2.2 beta прекрасно работает,
а в версии 2.3 ни ручной ни пакетный не хотят внедрять OCR "Invalid FRF format
offset = 00000049 "
P.S.  ФР - восьмёрка

Всего записей: 61 | Зарегистр. 26-03-2006 | Отправлено: 08:31 07-04-2008 | Исправлено: BooBoo, 08:34 07-04-2008
gencho



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
BooBoo
Давайте FRF файлы на мыло, посмотрю.

Всего записей: 321 | Зарегистр. 20-06-2003 | Отправлено: 05:38 09-04-2008
vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Надо бы добавить немного места для количества страниц при раскодировании дежавюшек. Сейчас все цифры не помещаются, если в книге больше тысячи страниц:
 
   

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 18:26 24-04-2008 | Исправлено: vitaly1, 18:31 24-04-2008
vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
gencho
Можно ли в пакетном режиме вставки текстового слоя указать несколько проектов ФР - по одному для каждой книги?
 
Если нет, то могли бы вы такую возможность добавить?

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 15:57 05-05-2008
Dracula



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
gencho
Что там слышно по поводу версии для FineReader 9.0 724? Очень хотелось бы уже поюзать!

----------
+=._.=++=._.=++=._.=++=._.=++=._.=++=._.=++=._.=+

Всего записей: 3304 | Зарегистр. 22-12-2003 | Отправлено: 20:11 27-05-2008
gencho



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Так, извините, долго здесь не был - хотел сказать добрые вести, а получалось наоборот.
 
Ну, воть, версия DjvuOCR 2.4 beta работающая с FineReader 9 вышла на сайт
Пока BETA версия, надо еще увеличить статистика, но работать можно - я разпознал около 40 книг, хотя однотипные, математические. Не пробовал проверка орфографии, редактирование текста после распознавания - пробуйте Вы. С орфографии впольне вероятно появятся проблемы.
 
Жду коментарии и файли с ошибки для пополнение статистики.
Там внутри есть файл - README для FR9, там я указал как надо настроить опции, поделился и впечатления. Пока мне вполне достаточно пользоваться FR8.

Всего записей: 321 | Зарегистр. 20-06-2003 | Отправлено: 02:02 04-07-2008
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Компьютерный форум Ru.Board » Компьютеры » Программы » DjvuOCR


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.Board
© Ru.Board 2000-2020

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru