Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Закладки » DjvuOCR

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Открыть новую тему     Написать ответ в эту тему

vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
DjvuOCR
by gencho

Программа для добавление OCR информации в djvu-книги с помощью программы распознавания текста ABBYY FineReader версий 7-9. Есть также другие полезные функции для работы с djvu.
 
Текущая версия: 2.4 beta
 
Офсайт  
Софт на ЯДиске

Авторская документация к DjvuOCR (в формате HTM)  
 
 
FR9frfPatch для автоматического исправления перепутанных страниц после распознавания в FineReader 9 на многоядерном процессоре
 
Статья Создание в djvu-файле текстового слоя и интерактивного содержания
 
Статья OCR в djvu файлах - новый подход к старым возможностям (немного устаревшая).
 
Статья OCR && DJVU || DJVU && OCR или есть ли текст в дежавю? (немного устаревшая).

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 22:28 28-02-2007 | Исправлено: TelecomUral, 13:44 22-07-2020
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ycheff
Ага, понял, спасибо. Перераспознал, получилось.  
Из того пакета я удалил несколько страниц - может быть, поэтому была ошибка.

----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 12:49 27-05-2009
shenpen

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
День добрый.
Представляется необходимым начать обмениватся информацией о формате  
сохранения результатов распознавания в программе FineReader
это позволит корректировать программы сборки DjVu документов
и также использовать результаты распознавания FineReader в других программах
исходный проект FineReader здесь  
http://www.buddism.ru//yagpo/TibetanOCR/FRF_format.zip
материалы обсуждения и результаты описания формата сохранения
результатов распознавания (Fine Reader FRF file format) здесь
http://www.buddism.ru/yagpo/TibetanOCR/index.php
картинка формата  здесь
http://www.buddism.ru//yagpo/TibetanOCR/FRF_format.jpg
 
Пусть будет всем хорошо!

Всего записей: 1 | Зарегистр. 23-06-2009 | Отправлено: 21:30 23-06-2009
ber2004



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Может уже было, тогда извините...
В книге - списки литературы после глав, и в них попадается на одной странице половина на русском, половина на английском. DjvuOCR 2.3 такие страницы (всего 3 штуки в разных главах) не принял. Пробовал варианты с двумя текстовыми блоками на странице (рус и англ) и с одним, объединенным, (рус-англ). Распознавал FR8.
Симптомы: при стоящей галочке "игнорировать ошибки" - шуршит, но в файл не внедряет, при снятой галочке - выдает "ошибки в ..." и - номера этих страниц. Текст сообщения не записал, но думаю должно воспроизводиться.
При этом нажатие на кнопку "тест проекта" ошибок не показывает.
 
Побороть удалось, только присвоив этим блокам свойство "язык" - "по умолчанию" (т.е. русский).
Вариант, когда на странице единственный блок , но английский - не пробовал.

Всего записей: 143 | Зарегистр. 04-12-2004 | Отправлено: 01:54 23-07-2009
ycheff



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Проверьте пакет FR - в нем не должно оставаться нераспознанных страниц.   Если происходит постоянная ошибка с некой страницей, можно попытаться заменить ее на такую же другого графического формата (ошибки иногда связаны с форматом страницы).
Для этого удаляем страницу из пакета, добавляем новую и новую перенумеровываем на номер удаленной.
Бывало, что полкниги отработав, FR выдает ошибку в остальных страницах - сохраняю пакет, перегружаю комп и распознаю нераспознанные страницы - обычно все работает.   Вряд ли сбои связаны с OCR DJVU - выложите странички - проверю.

Всего записей: 250 | Зарегистр. 27-09-2008 | Отправлено: 09:15 23-07-2009 | Исправлено: ycheff, 09:15 23-07-2009
vladlen666



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Друзья не может ли кто-нибудь мне сказать с чем может быть связана ошибка
Распознаю в FR9 книгу. Все окей. Все распознано. Сохраняю проект. Добавляю его в DJVUOCR и в тоге ОСR добавляется но порядок страниц другой!!! Страницы меняются местами.  Бред какой-то. Как вообще такое может происходить? В чем может быть ошибка....
Добавлю... В FR все страницы показаны правильно последовательно.

Всего записей: 271 | Зарегистр. 20-11-2008 | Отправлено: 04:26 23-08-2009 | Исправлено: vladlen666, 04:32 23-08-2009
albel



Moderator
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
vladlen666
там что-то странное в последних версиях FR
Я, когда хотел проверить багу djvuocr, пробовал перекинуть из каталога проекта первые три страницы: 001.frf, 002.frf, 003.frf + картинки 001.tif, 002.tif, 003.tif + системные файлы - в новый каталог. Открыв новый каталог в FR, я с удивлением обнаружил, что отображаются страницы 2, 3, 10 (т.е. нумерация страниц не соответствует реальности). Может, дело в этом?

Всего записей: 11003 | Зарегистр. 30-08-2002 | Отправлено: 05:14 23-08-2009
ycheff



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Проверьте нумерацию страниц в наборе картинок, картинки надо нумеровать так 0001-0002-0003 и т.д., но не 1-2-3 и т.д., иначе проблем не избежать - загрузка в FR идет не по номерам, а по символам.

Всего записей: 250 | Зарегистр. 27-09-2008 | Отправлено: 12:27 23-08-2009
Smokeer

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Что вечно мешает єто невозможность вшивать проєктьі с ошибками... ну не понимает DjVuORC 5-6страниц из тьісячи.. ну проигнорировал бьі и вшил всё остальное...

Всего записей: 781 | Зарегистр. 25-09-2005 | Отправлено: 18:18 23-08-2009
ycheff



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Иногда DjVu Editor не вставляет страничку в книгу (это также дает сбой страниц djvu-книги и пакета FR).   Editor выводит предупреждение (но не пишет номеров страниц) - его нельзя игнорировать.    Надо обязательно найти эти страницы.   Страницу можно загрузить в графический редактор и, ничего не меняя, сохранить.   Обычно после этого страница вставляется в книгу.

Всего записей: 250 | Зарегистр. 27-09-2008 | Отправлено: 19:00 23-08-2009 | Исправлено: ycheff, 19:02 23-08-2009
sashko1980



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
vladlen666

Цитата:
Сохраняю проект. Добавляю его в DJVUOCR и в тоге ОСR добавляется но порядок страниц другой!!! Страницы меняются местами.  

 
albel

Цитата:
там что-то странное в последних версиях FR  

 
Ну вот, хоть кто-то еще с этим багом столкнулся, а то я уж думал что это только мне фатально не везет с ФР9 и DJVUOCR. А я просто долго не мог понять, почему у меня в книгах встречаются участки, где ОСR и текст совпадают, а где - не совпадают.
Вот как с этим бороться? Или просто при работе с DJVUOCR перейти на ФР версией ниже?

Всего записей: 323 | Зарегистр. 01-03-2006 | Отправлено: 22:26 23-08-2009
albel



Moderator
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
ycheff

Цитата:
Проверьте нумерацию страниц в наборе картинок, картинки надо нумеровать так 0001-0002-0003 и т.д., но не 1-2-3 и т.д., иначе проблем не избежать - загрузка в FR идет не по номерам, а по символам

ну, нумерация - это святое, этим кромсатор сам занимается, так что лидирующие нули есть всегда по умолчанию, не в этом трудность
 
sashko1980
ну, я пока перешёл на PDF+текст под изображением страницы, это можно сделать прямо из интерфейса FR.  
Если критичны djvu, то проще всего откатиться на восьмую версию FR (благо изменений не так много, а уж критических - так и вообще нет), с которой проблем нет.

Всего записей: 11003 | Зарегистр. 30-08-2002 | Отправлено: 22:36 23-08-2009
vladlen666



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Проверьте нумерацию страниц в наборе картинок, картинки надо нумеровать так 0001-0002-0003 и т.д., но не 1-2-3 и т.д., иначе проблем не избежать - загрузка в FR идет не по номерам, а по символам  
 
Ах если бы ах если бы. Я тоже подумал что сам напутал порядок.
 
Короче я делал по разному
1. распознал в FR9 DJVU книгу, но на некоторых страницах были сообщения, яркость не та, или язык. Я затем распозновал эти страницы заново. Сохранял проект и далее как описано. добавлял OCRчерез DjvuOCR в книгу и нумерация страниц перевернута. То есть я даже не связывался с названиями файлов
 
2. Во вторйо попытке, я распотрошил дежавю в кратинки, назвал их именно так 001,002, 003  и до 331. Распознал опять. Опять кстати ни разу у меян не получалось распознать всю книгу без единой ошибки (мне кажется в этом проблема). результат тот же
 
Пробовал и так и сяк. Пробовал страниц ыместами менять  в проекте. Но ошибок слишком много. То есть думаю каждая десятая страницы с ошибкой.
 
С FR7 хренотени никогда не было.
Интересно в чем же косяк. В FR9 или DjvuOCR. (Файнридер понимает свои проекты без отказно, страницы там где надо, )
 
 
Добавлено:
1. в DjvuOCR  распотрошил книгу. В FR9 распознал только первые десять страниц. Добился распознавания без ошибок с первого раза. Сохранил проект.
Создал 10 страничный Djvu-документ. И к нему без проблем добавил ОСR.
 
Видимо нужно добиваться распознавания без ошибок с первого раза. Что геморно если документ большой.
 
Известно что проект FR с ошибками на страницах в DjvuOCR  не поддерживается.  
А если в уже распознанном документе FR9 повторно распознать "ошибочные" (в кавычках, так как на деле все распознано, только сообщение прорвете мол язык, или добавить яркость) страницы (как я делал) получается этот бред со страницами.
 
Все бы ничего. если бы эти идиотские ошибки (Почему нет возможности их отключит!) в FR9 появлялись на одной и той же странице. Так он требовал проверить язык каждый раз на разных страницах, то ему не нравилось что нет текста там где его нет, то яркость.
 
короче вот мои наблюдения. Простите за Ламерство. я всего лишь студент-биолог.  
 
Главный вопрос? Может можно как-нибудь заставить FR9 не быть таким придирчивым к страницам.

Всего записей: 271 | Зарегистр. 20-11-2008 | Отправлено: 01:25 24-08-2009
Smokeer

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ycheff
При чем тут єдитор? Проєкт отбраковуется на єтапе проверки самьім DjVuOCR'ом. И список страниц там прилагается... приходится лезть в файнридер и тьікать кнопочки... перераспознавать єти отдельньіе страницьі... лениво
 
Добавлено:
vladlen666
Думаю єто должно решаться через DjVuOCR, а не файнридером))) Весьма вероятно что формат проєктов 9ой версии просто еще не полностью поддерживается... посему у меня стоит 8ая

Всего записей: 781 | Зарегистр. 25-09-2005 | Отправлено: 01:57 24-08-2009
vladlen666



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Так все таки что вызывает перетасовку страниц... то что FR9 приходиться перераспозновать странички с "ошибками"? И это в свою очередь вызывает глюк у DjvuOCR.
Это моя ламеровская версия
Дело же не в том что приходиться
Цитата:
перераспознавать єти отдельньіе страницьі.
а в том что после таких манипуляций DjvuOCR  глючит обрабатывая такой проект

Всего записей: 271 | Зарегистр. 20-11-2008 | Отправлено: 02:18 24-08-2009
Smokeer

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Если честно, то я так и не понял в каких случаях путаются страници и как исправить...
Закончилось дело 8ьім FineReader'ом..

Всего записей: 781 | Зарегистр. 25-09-2005 | Отправлено: 05:20 24-08-2009
ycheff



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Косяки могут быть на любом этапе - даже при декодировании картинок.   Если FR не смог распознать страницу - OCR DjVu не сможет завершить работу.   В этом случае страничка в пакете FR будет помечена красным значком.   Надо сохранить пакет (если не сохранить - возможно спонтанное закрывание FR), далее заменить эту страничку на новую (старую загружаю в графический редактор, чищу, поворачиваю, сохраняю в том же формате или другом - иногда tiff и jpg не проходят, а bmp - проходит).
Можно попытаться просто изменить разрешение изображения на странице прямо в FR, поменять 300 dpi на 300 dpi и снова включить распознавание - иногда помогает (но иногда именно в этом месте FR вылетает совсем).

Всего записей: 250 | Зарегистр. 27-09-2008 | Отправлено: 18:17 24-08-2009
Smokeer

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ycheff
 
В ФР есть галочка которая позволяет игнорировать такие ошибки без заморочек с распознаваниями - чистками.
Вьіделяете страницу - и щелкаете игнор-игнор-игнор... нормально вшивает... но лучше б DjVuOCR просто пропускал страницьі которьіе не понимает ))))))))))))))))
 
Добавлено:
ycheff

Цитата:
Косяки могут быть на любом этапе - даже при декодировании картинок.   Если FR не смог распознать страницу - OCR DjVu не сможет завершить работу.   В этом случае страничка в пакете FR будет помечена красным значком.   Надо сохранить пакет (если не сохранить - возможно спонтанное закрывание FR), далее заменить эту страничку на новую (старую загружаю в графический редактор, чищу, поворачиваю, сохраняю в том же формате или другом - иногда tiff и jpg не проходят, а bmp - проходит).  
Можно попытаться просто изменить разрешение изображения на странице прямо в FR, поменять 300 dpi на 300 dpi и снова включить распознавание - иногда помогает (но иногда именно в этом месте FR вылетает совсем).

Вообще вопрос не в ФР, так как распознает он нормально... вопрос в тому что DjVuOCR почему-то самовольно меняет порядок страниц в проєкте ФР9... иногда не меняет... в каких случая - зависит от погодьі в Гандурасе.

Всего записей: 781 | Зарегистр. 25-09-2005 | Отправлено: 19:04 24-08-2009
vladlen666



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
В ФР есть галочка которая позволяет игнорировать такие ошибки без заморочек с распознаваниями - чистками.
Вьіделяете страницу - и щелкаете игнор-игнор-игнор... нормально вшивает... но лучше б DjVuOCR просто пропускал страницьі которьіе не понимает ))))))))))))))))  

Для тупых, скажите пожалуйста где эта галочка, я не нашел
 
А вообще, так заморочился, уйду наверно сразу к FR7. С ним никогда не было проблем. Надеюсь он меня простит за временное увлечение FR9

Всего записей: 271 | Зарегистр. 20-11-2008 | Отправлено: 19:31 24-08-2009 | Исправлено: vladlen666, 19:32 24-08-2009
ycheff



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
У меня FR8, кнопочки не видел, поищу.   FR9 ставил, но вернулся к 8.0, 9.0 лез без спросу текст распознавать, а мне это не нужно.

Всего записей: 250 | Зарегистр. 27-09-2008 | Отправлено: 21:41 24-08-2009
myual



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Скажите, у кого-нибудь DjvuOCR 2.4 beta R4 сработал нормально с FR 9.0.0.1042 Corp?
У меня на всех проектах выдает ошибку

Цитата:
**File "..."
Invalid  FRF format
... offset=...
.
Хотя с FR 9.0.0.7** и 8.* подобных ошибок нет.
Хотелось бы знать, с чем связана данная ошибка?

Всего записей: 245 | Зарегистр. 06-12-2006 | Отправлено: 14:58 26-09-2009
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Компьютерный форум Ru.Board » Компьютеры » Программы » Закладки » DjvuOCR


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru