Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » DjvuOCR

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Открыть новую тему     Написать ответ в эту тему

vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
DjvuOCR
by gencho

Программа для добавление OCR информации в djvu-книги с помощью программы распознавания текста ABBYY FineReader версий 7-9. Есть также другие полезные функции для работы с djvu.
 
Текущая версия: 2.4 beta
 
Офсайт  
Софт на ЯДиске

Авторская документация к DjvuOCR (в формате HTM)  
 
 
FR9frfPatch для автоматического исправления перепутанных страниц после распознавания в FineReader 9 на многоядерном процессоре
 
Статья Создание в djvu-файле текстового слоя и интерактивного содержания
 
Статья OCR в djvu файлах - новый подход к старым возможностям (немного устаревшая).
 
Статья OCR && DJVU || DJVU && OCR или есть ли текст в дежавю? (немного устаревшая).

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 22:28 28-02-2007 | Исправлено: TelecomUral, 13:44 22-07-2020
vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
же можно сразу распознать tiff, а потом как-то использовать результат распознавания для создания djvu?  

Можно. Для этого и нужен DjvuOCR

----------
Топик по украинскому языку

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 03:15 10-09-2008
comp3v

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:

Цитата:
же можно сразу распознать tiff, а потом как-то использовать результат распознавания для создания djvu?  
Можно. Для этого и нужен DjvuOCR  
Ну тогда, совсем для тормозов - в каком порядке действовать? вот распознал я tiff, а дальше - какой из режимов DjvuOCR запускать? Я думал, что ему в любом случае нужно указать на djvu файл, в который он будет внедрять OCR - не так?
 
пока что у меня, кстати, вообще какие-то проблемы:
 (это, наверное, к gencho) когда нажимаю "Test project", то он для каждого frf файла выдаёт ошибку типа:
Код:
Invalid FRF формат
(7) offset=000BC
(FRF файлы могу прислать, если надо). Может, это проблемы 9го ФР, попробую потом на 8ом...
 
 
и ещё - никому случайно не доводилось работать с многостраничными tiff'ами? а то у меня ФР такой файл нормально открывает, читает и распознаёт, но вот в папке проекта создаёт одностраничные tiff'ы (по файлу на страницу), которые больше ни одна программа прочитать не может...

Всего записей: 6 | Зарегистр. 07-01-2002 | Отправлено: 10:10 10-09-2008 | Исправлено: comp3v, 10:20 10-09-2008
gencho



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
comp3v
Пришлите FRF файли, исправим ошибки
 
FR9 создает в папке проекта собственный формат TIFF'ы, так что их нельзя использоват для других целей.  Вообще, мой советь не отказываться от восмерке.

Всего записей: 321 | Зарегистр. 20-06-2003 | Отправлено: 18:32 10-09-2008
comp3v

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Пришлите FRF файли, исправим ошибки
 
FR9 создает в папке проекта собственный формат TIFF'ы, так что их нельзя использоват для других целей.  Вообще, мой советь не отказываться от восмерке.  

 
файлы отправил на email. Насчёт восьмёрки - да, пока что вернусь к ней (только у меня она урезанная - если кто-нибудь поделится файликами итальянского языка для FR8 - amd, amm, amt - буду очень рад...).
 
и да, основной глупый вопрос так и остался - как лучше действовать, если исходные файлы в tiff? - в окне DjvuOCR, как я вижу, нужно указывать djvu файл - то есть, я должен сначала tiff'ы преобразовать в djvu, потом распознать, и только потом всё это собрать, так?

Всего записей: 6 | Зарегистр. 07-01-2002 | Отправлено: 23:40 10-09-2008
gencho



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
comp3v
Надо читать документацию В последная версия DjvuOCR есть HELP-файл, я там постарался описать часто встречаемые стратегии.
 
В вашей ситуации решение следующее: можете загрузить tiff'ы в FineReader и распознать их, и паралельно сделать DJVU файл из них. Только потом можно с помощью DjvuOCR перенести информация с FineReader на DJVU файл. Сам DjvuOCR tiff'ы не понимает, он работает только с готовый DJVU-файл.
 
Можно конечно сделать и по другому: сперва сделать DJVU, а потом из него извлечь tiff'ы и загрузить в FineReader. Если DJVU компрессор как-то обрезает страницы (пока такое не замечено), или если после создания DJVU с помощью редактора вставили пустые страницы, то второй вариант предпочительнее - тогда текст будеть корректно совмещен с графическое изображение.

Всего записей: 321 | Зарегистр. 20-06-2003 | Отправлено: 14:42 11-09-2008
gencho



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
comp3v
Исправил ошибки, послал на мыло. Там внутри и файли для италианского.

Всего записей: 321 | Зарегистр. 20-06-2003 | Отправлено: 01:15 13-09-2008
comp3v

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Исправил ошибки, послал на мыло. Там внутри и файли для италианского.

Спасибо! я ответил на мыло.
На самом деле, я понял что мне точно имеет смысл оставаться на 8ом. Дело в том, что у меня сейчас tiff-файлы - отсканированные развороты книги, и мне удобно пользоваться функцией "Делить разворот книги" - тогда он из одного файла делает две страницы. Но это получается уже другая "структура", на которую текст не наложится. Поэтому приходится создавать djvu файл не из исходных tiffов, а из тех, что создаёт FR. Но tiff от FR8 для этого использовать можно, а вот от FR9 - уже нет...

Всего записей: 6 | Зарегистр. 07-01-2002 | Отправлено: 04:26 13-09-2008
fbm

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Никто не подскажет, как все-таки отличить djvu с OCR от djvu без OCR? В том смысле, чтобы можно было сделать поиск по некоторой сигнатуре в файлах djvu, и получить список незаOCRенных.

Всего записей: 165 | Зарегистр. 04-02-2006 | Отправлено: 16:10 13-09-2008
alexsak

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Никто не подскажет, как все-таки отличить djvu с OCR от djvu без OCR? В том смысле, чтобы можно было сделать поиск по некоторой сигнатуре в файлах djvu, и получить список незаOCRенных.  
 

В djvu  с OCR текстовый слой можно как я заметил выделить как в обычном текстовом редакторе, в djvu без OCR этого слоя просто нет и выделение невозможно. Поправьте если я не прав

Всего записей: 122 | Зарегистр. 22-10-2002 | Отправлено: 19:08 13-09-2008
ILHS

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
alexsak
fbm наверно не это имел ввиду. А каким способом определить (не открывая файлы) какие djvu с OCR и какие без.

Всего записей: 597 | Зарегистр. 06-12-2004 | Отправлено: 09:50 14-09-2008 | Исправлено: ILHS, 10:00 14-09-2008
gencho



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ILHS
Я для этого пользую DjvuOCR, "Извлечь OCR слой" (Extract OCR layers). с включенная опция "Сохранить в HTML" (Convert to HTML). Загружаю целую папку в DjvuOCR, извлекаю слои, и потом смотрю (сортирую по) размер HTML файлов. Маленькие по размеру (хорошо все таки просмотреть что в файле, так как и маленькие DJVU с OCR генерируют маленькие HTML файли) соответствуют на DJVU без OCR.

Всего записей: 321 | Зарегистр. 20-06-2003 | Отправлено: 15:41 14-09-2008 | Исправлено: gencho, 15:42 14-09-2008
gencho



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Скоректировал еще несколько проблем, улучшил работа с FineReader 9.
Release 4 на офф-сайт.

Всего записей: 321 | Зарегистр. 20-06-2003 | Отправлено: 17:06 16-09-2008
juvaforza

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
gencho
Архив кажется поврежден.

Всего записей: 2895 | Зарегистр. 26-11-2005 | Отправлено: 23:16 18-09-2008
gencho



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
У архива есть запись востановления, можно восстановить с помощью WinRAR. Или скачайте сновам с другое место - может у вас корпоративная firewall кешировала только часть.

Всего записей: 321 | Зарегистр. 20-06-2003 | Отправлено: 00:12 19-09-2008
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
gencho
Melirius придумал способ, как распознавать в FR 8, не запуская его GUI. Описание тут:
 
http://mihd.net/64brsaf
 
Нельзя ли воплотить эту возможность в DjvuOCR?

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 09:00 19-09-2008 | Исправлено: monday2000, 16:06 19-09-2008
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Вот выдержка из того хелпа с подробным описанием:
 
http://www.djvu-soft.narod.ru/fr_auto.htm

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 16:05 19-09-2008
juvaforza

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
gencho
Востановление архива помогло, но я несколько раз качал архив, и каждый раз при тестировании появляется ошибка. (WinRar 3.80 beta 5) Вот такая.

Всего записей: 2895 | Зарегистр. 26-11-2005 | Отправлено: 22:21 19-09-2008 | Исправлено: juvaforza, 22:31 19-09-2008
fbm

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
gencho
Спасибо за наводку. Но это наверное не есть оптимальный способ, если таких файлов - ну очень много.
Может в файле djvu существует структура, сообщающая в том числе и о наличии OCR слоя? Это бы сильно упростило поиск.

Всего записей: 165 | Зарегистр. 04-02-2006 | Отправлено: 16:36 30-09-2008
terminat0r



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
juvaforza

Цитата:
и каждый раз при тестировании появляется ошибка.  

Это не ошибка архива, а ошибка цифровой подписи. Для дела несущественно

Всего записей: 2084 | Зарегистр. 31-03-2002 | Отправлено: 20:37 30-09-2008
ycheff



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Никто не подскажет, как все-таки отличить djvu с OCR от djvu без OCR?  

 
Это можно было бы сделать извлечением слоя OCR из копии файла и сравнением размеров 2 файлов (или контрольных сумм).

Всего записей: 249 | Зарегистр. 27-09-2008 | Отправлено: 21:58 30-09-2008
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Компьютерный форум Ru.Board » Компьютеры » Программы » DjvuOCR


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.Board
© Ru.Board 2000-2020

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru

Рейтинг.ru