Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » DjvuOCR

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Открыть новую тему     Написать ответ в эту тему

vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
DjvuOCR
by gencho

Программа для добавление OCR информации в djvu-книги с помощью программы распознавания текста ABBYY FineReader версий 7-9. Есть также другие полезные функции для работы с djvu.
 
Текущая версия: 2.4 beta
 
Офсайт  
Софт на ЯДиске

Авторская документация к DjvuOCR (в формате HTM)  
 
 
FR9frfPatch для автоматического исправления перепутанных страниц после распознавания в FineReader 9 на многоядерном процессоре
 
Статья Создание в djvu-файле текстового слоя и интерактивного содержания
 
Статья OCR в djvu файлах - новый подход к старым возможностям (немного устаревшая).
 
Статья OCR && DJVU || DJVU && OCR или есть ли текст в дежавю? (немного устаревшая).

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 22:28 28-02-2007 | Исправлено: TelecomUral, 13:44 22-07-2020
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Smokeer
Ну, если получится, выкладывайте рядышком. Хорошее соседство не повредит ),
 
По поводу моей утилитки. В редких случаях может потребоваться установка VS2008Sp1 Redistributable packages. Возможно, это как раз ваш случай...  

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 17:24 09-02-2010
Smokeer

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
MSI инсталятор DjvuOCR 2.4
ярлыки на рабоем столе и пуске для всех пользователей системы
по-умолчанию ставится в програм-файлс

Всего записей: 781 | Зарегистр. 25-09-2005 | Отправлено: 15:04 24-02-2010
j52

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
All
Народ, получил при проверке вот такие грабли:

Цитата:
FRFGrab.exe" -t -q *.frf  
 
** File "0001.frf"...
Invalid FRF format (6) offset=00000078
** File "0002.frf"...
Invalid FRF format (6) offset=00000078
** File "0006.frf"...
Invalid FRF format (6) offset=00000078
** File "0013.frf"...
Invalid FRF format (6) offset=00000078
** File "0021.frf"...
Invalid FRF format (6) offset=00000078
** File "0025.frf"...
Invalid FRF format (6) offset=00000078

и так до 149 стр., на которой проверка вообще вешется...
При извлечении текста - естественно извлекаются только стр.3,4,5,7 и т.д.
Исходные данные: WinXP_SP3; FR9.0.0724; DjvuOCR 2.4 c FRFGrab.exe version 1.14 r2 beta
 
Отчего это м.быть? И как это м.исправить? (кроме как выкинуть 300 распознанных стр. в корзину).
 

Всего записей: 534 | Зарегистр. 05-05-2004 | Отправлено: 16:28 12-08-2010
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
j52
после распознания в фр запускал проверку орфографии?
если да, то нужно на этих страницах например немного изменить границы какой-либо области или другим способом добиться того, чтобы на превьюшке не было зеленой галки, обозначающей, что страница проверена.. попробуй на нескольких страницах, если ошибка исчезнет - меняй остальные..

Всего записей: 1279 | Зарегистр. 26-07-2007 | Отправлено: 18:36 13-08-2010
j52

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
NME

Цитата:
после распознания в фр запускал проверку орфографии?

Да. (? Но проверка орфографии была на ВСЕХ подряд страницах, а ругается он только на отдельные ?)
Спасибо за совет - попробую...
 

Всего записей: 534 | Зарегистр. 05-05-2004 | Отправлено: 19:33 13-08-2010
LonerDergunov



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Имеются сканы журналов.
Один вариант сканов - не очень качественные, зато с OCR-слоем в формате djvu.
Второй вариант - получше, но без OCR - в djvu и ocr.
Можно ли программой DjvuOCR (если нет - то какой) вытянуть из одного djvu-файла OCR-слой, и вставить в другой djvu-файл?
Можно ли вытянуть из djvu-файла и чем-то вставить в pdf?

Всего записей: 2972 | Зарегистр. 11-07-2007 | Отправлено: 17:04 21-08-2010 | Исправлено: LonerDergunov, 17:06 21-08-2010
ILHS

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LonerDergunov

Цитата:
Можно ли программой DjvuOCR (если нет - то какой) вытянуть из одного djvu-файла OCR-слой, и вставить в другой djvu-файл?  

Можно, если только разница в этом.

Цитата:
Можно ли вытянуть из djvu-файла и чем-то вставить в pdf?  

Это мне тоже интересно было бы знать.

Всего записей: 597 | Зарегистр. 06-12-2004 | Отправлено: 19:34 21-08-2010 | Исправлено: ILHS, 19:37 21-08-2010
ycheff



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Можно ли ...

Если изменились координаты слов (резанием изменены размеры страниц, например), то не получится.  Может и получиться, но использовать будет неудобно.  
А разве сделать ocr - проблема?

Всего записей: 249 | Зарегистр. 27-09-2008 | Отправлено: 21:57 21-08-2010
LonerDergunov



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Спасибо. Похоже, разница только в этом, хотя пока точно не знаю, но на всякий случай решил задать вопрос
 

Цитата:
А разве сделать ocr - проблема?

Не доводилось, боялся, что это долгое и нудное занятие. Буду учиться. Просто много материала нужно обработать, и если можно перенести слой с одного файла на другой - хотелось упростить процесс.

Всего записей: 2972 | Зарегистр. 11-07-2007 | Отправлено: 02:26 24-08-2010
are



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
перенести ОРС-слой из джвю в пдф совсем не простая задача, и вообще из-за особенностей формата пдф нет стандартных средств вставлять в пдф некий заранее приготовленный ОРС-слой.

Всего записей: 552 | Зарегистр. 06-03-2005 | Отправлено: 17:23 25-08-2010
BeMyGuest



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Доброго времени суток всем,
 
Столкнулся с проблемой. При попытке сделать OCR слой с djvuOCR и FR9, djvuOCR выдает пустые страницы текста и слой не добавляет, хотя FR текст распознал без больших проблем. Все делал по инструкции в хелпе. Кто подскажет, как поправить?  
 
Делал я так:  
переписал djvuOCR 2.4beta во временную папку
установил Fine Reader 9.0.0.1297 Professional Edition с фикс файлами
Запустил FR, убрал галки настроек как описано в !!!NEW_FR9_Readme.txt djvuOCR мануале от gencho ("Do not process acquired page images", "Correct Image skew", "Look for barcodes")
Добавил в FR 300+ tif файлов, полученных от ScanTailor'a (нормальный чистый текст в 600dpi)
FR автоматом обработал и распознал текст, а я сохранил все через Save FineReader Document (изменений в тексте не делал)
FR закрыл, запустил djvuOCR->Batch Mode OCR Manager
В окошке DjVu File List добавил djvu файлик, собранный из вышеупомянутых tif`ов ранее через Document Express Enterprise 5.1.0
Указал FineReader Project Directory, куда ранее FR сохранил проект
Поставил галку на Save produced OCR layers as TXT files в отдельную папку
Нажал Test project, в новом окне красная полоска пробежала до конца и окно закрылось без ошибок
Нажал Process, снова новое окно, полоска добежала до конца, окно закрылось
В папке djvu файл остался тот же, время изменения файла не поменялось (галка Burn DjVu books стоит)
В папке с текстовыми файлами OCR появились txt и html файлы без, как я понимаю, текстового содержания. Например, txt файл:

Код:
 
# -------------------------------------
select 1
remove-txt
set-txt
(page 0 0 3159 5035
)
 
.
 
# -------------------------------------
select 2
remove-txt
set-txt
(page 0 0 3159 5035
)
 
.


Всего записей: 76 | Зарегистр. 23-07-2008 | Отправлено: 09:54 01-09-2010
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
BeMyGuest
скорее всего билд 1297 не поддерживается..
ставь более раннюю версию (поищи в топике, какая версия точно поддерживается), а лучше - ставь 8-ку и проблема отпадет.. я вот именно так и сделал..

Всего записей: 1279 | Зарегистр. 26-07-2007 | Отправлено: 15:15 01-09-2010
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А gencho между прочим, появляется на Руборде. Вот его последний пост - от 22-10-2010 - т.е. меньше месяца назад:
 
http://forum.ru-board.com/topic.cgi?forum=93&topic=3019&start=1080#8
 
Но на ПМ-сообщения не отвечает. Сайт явно заброшен. Актуальный е-мейл неизвестен ИМХО.
 
Добавлено:
ИМХО сейчас правильнее просить ABBYY реализовать функционал DjVuOCR в Файнридере, чем ещё хоть как-то надеяться на Генчо.
 
Как вариант, можно попытаться взять Файнридер для Линукса http://ocr4linux.com/ , и попытаться использовать его под виндой. Просто он командно-строчный и умеет выдавать OCR-слой в виде XML.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 20:14 16-11-2010 | Исправлено: monday2000, 20:22 16-11-2010
amaid



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
сорри, случайно не в тот топик сообщение закинул

Всего записей: 553 | Зарегистр. 25-01-2006 | Отправлено: 00:27 26-11-2010 | Исправлено: amaid, 16:38 26-11-2010
skrt



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
are

Цитата:
перенести ОРС-слой из джвю в пдф совсем не простая задача, и вообще из-за особенностей формата пдф нет стандартных средств вставлять в пдф некий заранее приготовленный ОРС-слой.

У adobe есть распознавание встроенное, но оно, мягко говоря, паршивое. Вот как-нибудь вместо него можно ли использовать FR?

Всего записей: 321 | Зарегистр. 26-01-2003 | Отправлено: 01:18 26-12-2010
vladlen666



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
 
У adobe есть распознавание встроенное, но оно, мягко говоря, паршивое. Вот как-нибудь вместо него можно ли использовать FR?
А почему бы просто не использова FR для создания PDF? Или для распознавания PDF. Мне кажется FR отлично работает с PDF, в отличии от DJVU, который он понимает но не создает (кажется какая-то проблема с лицензированием).

Всего записей: 271 | Зарегистр. 20-11-2008 | Отправлено: 01:36 20-01-2011
regno



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
После неудачного укрощения FR9 патчем ::: создала пакет-задание в (любом) FR8 для соблюдения порядка страниц и открыла её для дальнейшей обработки в FR9.  

Всего записей: 12 | Зарегистр. 12-03-2009 | Отправлено: 09:58 26-01-2011
gjc

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Товарищи!!!
Господа!!!
Помогите!
 
Долбаюсь уже несколько дней и никак не получается с помощью FR и DJVU OCR добавить в джвюшку распознанный текст!
Язык книги - беларусский (возможно это важно).
Пробовал FR 10, 9 и 8.
Винда - ХР SP 3.
 
OCR всё время выдаёт ошибку
 
Invalid FRF format  
с различными числовыми значениями offset
 
Базовое распозавание Document Express Editor'ом тоже не помогает - половина текста коверкается (даже при выборе беларуского для распознавания) при копировании.
 
Очень надеюсь на помощь ибо больше её уже искать просто негде.

Всего записей: 4 | Зарегистр. 04-02-2011 | Отправлено: 14:53 04-02-2011
ycheff



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Проверил - в FR 8.0 нет выбора белорусского языка.   Когда-то работал с украинским языком - вроде хорошо получалось.
В DjVu Editor'e есть белорусский язык.   Если качество низкое - может быть низкое качество у самого djvu-файла.   Можно попробовать улучшить ситуацию, прогнав через СканТейлор, повысив там толщину текста (при выводе в черно-белом режиме установить - Жирнее - пунктов на 10-15).   Иногда помогает.

Всего записей: 249 | Зарегистр. 27-09-2008 | Отправлено: 18:49 04-02-2011
gjc

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Качество отличное, так что мне нужно разобраться с этой ошибкой в DJVU OCR - других вариантов вроде ведь не существует..

Всего записей: 4 | Зарегистр. 04-02-2011 | Отправлено: 19:13 04-02-2011
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Компьютерный форум Ru.Board » Компьютеры » Программы » DjvuOCR


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.Board
© Ru.Board 2000-2020

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru