DjvuOCR - [5] :: Программы :: Компьютерный форум Ru.Board

Перейти из форума на сайт.

Новости • Файловые архивы
Поиск • Активные темы • Топ лист
Правила • Кто в on-line?

Вход • Забыли пароль? • Первый раз на этом сайте? • Регистрация

Компьютерный форум Ru.Board » Компьютеры » Программы » DjvuOCR

Модерирует : gyra, Maz
Версия для печати • Подписаться • Добавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Открыть новую тему

Написать ответ в эту тему

Gold Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

DjvuOCR
by gencho

Программа для добавление OCR информации в djvu-книги с помощью программы распознавания текста ABBYY FineReader версий 7-9. Есть также другие полезные функции для работы с djvu.

Текущая версия: 2.4 beta

Офсайт
Софт на ЯДиске

Авторская документация к DjvuOCR (в формате HTM)

FR9frfPatch для автоматического исправления перепутанных страниц после распознавания в FineReader 9 на многоядерном процессоре

Статья Создание в djvu-файле текстового слоя и интерактивного содержания

Статья OCR в djvu файлах - новый подход к старым возможностям (немного устаревшая).

Статья OCR && DJVU || DJVU && OCR или есть ли текст в дежавю? (немного устаревшая).

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 22:28 28-02-2007 | Исправлено: TelecomUral, 13:44 22-07-2020

ghosty

Gold Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

gencho
Спасибо! Но мне тогда все-равно пришлось решать проблему в лоб - написал специальный скриптик, который на каждой странице выделял маленький квадратик и распознавал его

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 08:16 12-01-2008

Silver Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Сорри конечно - но выйдёт ли версия для ABBYY FineReader 9.0 - очень жду.
Заранее спасибо.

----------
+=._.=++=._.=++=._.=++=._.=++=._.=++=._.=++=._.=+

Всего записей: 3501 | Зарегистр. 22-12-2003 | Отправлено: 14:40 05-02-2008

Junior Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

На некоторых файлах от fr8 frfgrab v1.12 выдает "Invalid FRF format (5) offset=00000029".
Не поделится ли кто описанием структуры frf, насколько это известно, хотелось бы это дело разгрызть.

Добавлено: после проверки орфографии меняется заголовок и добавляются в него данные (тут--9 байт, видел до 18) было / стало:

0000000000: 46 52 35 53 0F 02 02 xx | 00 xx 00 02 xx 00 xx 00
0000000010: 00 00 24 00 01 02 C0 C7 | B9 C7 0C 6B C8 01 00 00
0000000020: 00 00 00 00 00 35 43 00 | 3A 00 5C 00 44 00 6F 00
---------------------------^
0000000000: 46 52 35 53 0F 02 02 xx | 00 xx 00 02 xx 00 xx 00
0000000010: 00 00 24 00 01 02 C0 C7 | B9 C7 0C 6B C8 01 01 02
0000000020: E0 66 D3 48 0D 6B C8 01 | 00 00 00 00 00 00 35 43
---------------------------++ ++ ++ ++ ++ ++ ++ ++ ++ ^

Добавлено 2: Если к старому заголовку с прежнего смещения (в данном случае 0x25, красным помечен байт длины перед именем файла) прилепить новое содержимое, то файл обрабатывается нормально. Отсюда напрашивается вывод о том, что эту добавку в заголовке можно успешно игнорировать, нужно только продвинуться дальше при анализе заголовка.

p.s. Вопрос о структуре frf в части, не охваченной frfgrab -v ..., остается в силе.

Всего записей: 107 | Зарегистр. 06-10-2003 | Отправлено: 13:37 09-02-2008 | Исправлено: bormant, 02:49 10-02-2008

gencho

Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Dracula
Пока версия для FR9 не хочеть вообще заработать, там много изменении.

bormant
Вы будете удивлены, но я тоже не знаю формат FRF файлов. У меня FRFGrab сделан на основе конечного автомата, а он обучался (вручную) на образцах из файлов.

Все же некоторые знания есть. Вот для ваш пример:

Некоторые блоки формата именют длина, зависящая от их содержание. Например, в конкретном случае, байт на офсет 1Е = 00 означает что блок пуст. Значение 01 в данном месте означает что там есть один масив из 4-байтних слов, а следующий байт на офсет 1F = 02 означает, что количество слов = 2. Значит содержимое блока: два слова, E0 66 D3 48 и 0D 6B C8 01 (похоже на дата и время). После них есть 00, что означает что следующий блок (а у него формат может быть совсем другой) пуст. Заметте, в верхный пример есть 7 x 00 (офсет 1Е), a в нижнем - 6 x 00 (офсет 28), так как одна из них там превратилась в непустой блок.

Если блок до этого момента не проявлялся (программа игнорировала, как начинающий с 00), то FRFGrab спотыкается, так как не знает как его обработать. Если у вас есть такие файли, то давайте их мне на мыло - оно в программе DjvuOCR, на лицевом панеле стоит.

Всего записей: 321 | Зарегистр. 20-06-2003 | Отправлено: 15:06 10-02-2008

Silver Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

gencho

Цитата:

Пока версия для FR9 не хочеть вообще заработать, там много изменении.

Очень жаль, но спасибо за то, что откликнулись - буду знать, что Вы работаете над этим.

----------
+=._.=++=._.=++=._.=++=._.=++=._.=++=._.=++=._.=+

Всего записей: 3501 | Зарегистр. 22-12-2003 | Отправлено: 17:10 10-02-2008

Junior Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

gencho,

Цитата:

Если блок до этого момента не проявлялся (программа игнорировала, как начинающий с 00), то FRFGrab спотыкается, так как не знает как его обработать. Если у вас есть такие файли, то давайте их мне на мыло - оно в программе DjvuOCR, на лицевом панеле стоит.

Выслал. Если вдруг не дойдет, прошу тут отписать. Готов протестировать у себя исправленный вариант -- есть на чем. Судя по предыдущему посту исправлений не сильно много, буду ждать с нетерением.
Насчет обработки этого нового блока. Поскольку он появляется после прохождения проверки орфографии на странице, логично предположить, что содержимое этого блока не имеет отношения к расположению глифов на странице, а потому может быть проигнорировано без какого-либо ущерба для конечного результата.

Всего записей: 107 | Зарегистр. 06-10-2003 | Отправлено: 19:47 10-02-2008 | Исправлено: bormant, 20:39 10-02-2008

gencho

Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

bormant
Спасибо. Очень важная корекция получилась. Попробую на моя коллекция FRF-файлов, и выложу для пользование. Ну я обещал себе, до конца идущей недели выложить скоректированная версия DjvuOCR для FR8 с полная документация...

Всего записей: 321 | Зарегистр. 20-06-2003 | Отправлено: 02:41 11-02-2008

Gold Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

gencho

Цитата:

скоректированная версия DjvuOCR для FR8

А что будет исправлено?

----------
Топик по украинскому языку

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 10:23 11-02-2008

Silver Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

gencho

Цитата:

до конца идущей недели выложить скоректированная версия DjvuOCR

Было бы супер поиметь хотя бы для 8 версии исправленный вариант - кстати, что нового там будет?

----------
+=._.=++=._.=++=._.=++=._.=++=._.=++=._.=++=._.=+

Всего записей: 3501 | Зарегистр. 22-12-2003 | Отправлено: 21:36 12-02-2008

Junior Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

gencho,

Цитата:

Ну я обещал себе, до конца идущей недели выложить скоректированная версия DjvuOCR для FR8 с полная документация...

Подготовка полной документации -- вопрос серьезный и длительный, мне редко когда удается с уверенностью сказать, сколько потребуется времени.
Нельзя ли пока выложить скорректированные exe-шники djvuocr и frfgrab на какой-нибудь обменник без документации?
Спасибо.

Добавлено: Вот и дождались. Цитата с офсайта:
19.02.2008: Наконец то! Новая, последная версия для FineReader 8:
DjvuOCR 2.3, FRFGrab 1.13
Основные изменения:
- Добавлен руский контекстный Help-файл. Пока английского нет.
- Добавлена возможность смена языка интерфейса.
- Добавлен режим построчного, пословного и посимвольного OCR
- Добавлена возможность drag & drop файлов прямо с папка в програму.
Drag & Drop можно указывать как djvu-файли, так и имена папки, и имена
других типов файлов – в контекст режима.
- Добавлены новые возможности в режим “Извлечь OCR слой”
Исправлены все известные ошибки.

Всего записей: 107 | Зарегистр. 06-10-2003 | Отправлено: 18:45 19-02-2008 | Исправлено: bormant, 10:37 20-02-2008

gencho Member	Редактировать \| Профиль \| Сообщение \| Цитировать \| Сообщить модератору Ну опередили меня
	Всего записей: 321 \| Зарегистр. 20-06-2003 \| Отправлено: 15:00 20-02-2008

Silver Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

gencho
Ты забыл в шапке указать новую верстю 2.3 - я исправил шапку.

----------
+=._.=++=._.=++=._.=++=._.=++=._.=++=._.=++=._.=+

Всего записей: 3501 | Зарегистр. 22-12-2003 | Отправлено: 16:56 20-02-2008

BooBoo

Junior Member

Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору

После разпознования и ПРАВКИ текста столкнулся с проблемой внедрения OCR

версия 2.3
Invalid FRF format
offset = 00000049
На ВСЕХ страницах прошедших правку
При использовании версии 2.2 beta такой проблемы не обнаружено

То же самое и на другой книге
после правки текста версия 2.3 пишетInvalid FRF format
offset = 00000049
А версия 2.2 beta делает всё на ура

Да забыл сказать в версии 2.3 проблему можно решить по методу ghosty

http://forum.ru-board.com/topic.cgi?forum=5&topic=22673&start=60#21

Цитата:

Недавно добился желаемого путем написания специального скрипта, которы выделял на каждой странице маленький блок текста и распознавал его (спасибо octopus'у за идею).

Всего записей: 61 | Зарегистр. 26-03-2006 | Отправлено: 13:08 05-04-2008 | Исправлено: BooBoo, 11:05 06-04-2008

shalunov

Junior Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

BooBoo, подобные ошибки встречались мне как раз при использованиии версии 2.2 beta в режиме "Ручной OCR", а вот в версии 2.3, используя режим "Пакетный OCR", всё сработало хорошо. Возможно, дело в выборе режима? По-моему, где-то в справке я встречал совет от gencho - использовать режим "Пакетный OCR".

Всего записей: 111 | Зарегистр. 02-12-2007 | Отправлено: 03:21 07-04-2008 | Исправлено: shalunov, 03:22 07-04-2008

BooBoo

Junior Member

Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору

shalunov
Вот в том и дело, что ручной OCR в 2.2 beta прекрасно работает,
а в версии 2.3 ни ручной ни пакетный не хотят внедрять OCR "Invalid FRF format
offset = 00000049 "
P.S. ФР - восьмёрка

Всего записей: 61 | Зарегистр. 26-03-2006 | Отправлено: 08:31 07-04-2008 | Исправлено: BooBoo, 08:34 07-04-2008

gencho Member	Редактировать \| Профиль \| Сообщение \| Цитировать \| Сообщить модератору BooBoo Давайте FRF файлы на мыло, посмотрю.
	Всего записей: 321 \| Зарегистр. 20-06-2003 \| Отправлено: 05:38 09-04-2008

Gold Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Надо бы добавить немного места для количества страниц при раскодировании дежавюшек. Сейчас все цифры не помещаются, если в книге больше тысячи страниц:

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 18:26 24-04-2008 | Исправлено: vitaly1, 18:31 24-04-2008

Gold Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

gencho
Можно ли в пакетном режиме вставки текстового слоя указать несколько проектов ФР - по одному для каждой книги?

Если нет, то могли бы вы такую возможность добавить?

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 15:57 05-05-2008

Silver Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

gencho
Что там слышно по поводу версии для FineReader 9.0 724? Очень хотелось бы уже поюзать!

----------
+=._.=++=._.=++=._.=++=._.=++=._.=++=._.=++=._.=+

Всего записей: 3501 | Зарегистр. 22-12-2003 | Отправлено: 20:11 27-05-2008

gencho

Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Так, извините, долго здесь не был - хотел сказать добрые вести, а получалось наоборот.

Ну, воть, версия DjvuOCR 2.4 beta работающая с FineReader 9 вышла на сайт

Пока BETA версия, надо еще увеличить статистика, но работать можно - я разпознал около 40 книг, хотя однотипные, математические. Не пробовал проверка орфографии, редактирование текста после распознавания - пробуйте Вы. С орфографии впольне вероятно появятся проблемы.

Жду коментарии и файли с ошибки для пополнение статистики.
Там внутри есть файл - README для FR9, там я указал как надо настроить опции, поделился и впечатления. Пока мне вполне достаточно пользоваться FR8.

Всего записей: 321 | Зарегистр. 20-06-2003 | Отправлено: 02:02 04-07-2008

Открыть новую тему

Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Компьютерный форум Ru.Board » Компьютеры » Программы » DjvuOCR

Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC