Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » DjvuOCR

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Открыть новую тему     Написать ответ в эту тему

vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
DjvuOCR
by gencho

Программа для добавление OCR информации в djvu-книги с помощью программы распознавания текста ABBYY FineReader версий 7-9. Есть также другие полезные функции для работы с djvu.
 
Текущая версия: 2.4 beta
 
Офсайт  
Софт на ЯДиске

Авторская документация к DjvuOCR (в формате HTM)  
 
 
FR9frfPatch для автоматического исправления перепутанных страниц после распознавания в FineReader 9 на многоядерном процессоре
 
Статья Создание в djvu-файле текстового слоя и интерактивного содержания
 
Статья OCR в djvu файлах - новый подход к старым возможностям (немного устаревшая).
 
Статья OCR && DJVU || DJVU && OCR или есть ли текст в дежавю? (немного устаревшая).

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 22:28 28-02-2007 | Исправлено: TelecomUral, 13:44 22-07-2020
basilio_ef



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty
 
Пожалуйста, если это возможно, то перешлите текст оглавления, который Вы показали на картинке на мой E-mail. Возможно  Вы мой E-mail еще не выбросили в корзину.
Попытаюсь сделать bookmark.htm.  К сожалению, с картинки я не могу скопировать текст.
Заранне спасибо.
 
P.S.
bookmarks.htm для фрагмента оглавления, что на картинке Ghosty. Сгенерирован файл DJVUmark,  
входной файл для  DJVUmark.
Конечно, адресация не согласована.  
Поскольку я как-то прочитал текст, то моя просьба отменяется.

Всего записей: 340 | Зарегистр. 15-03-2004 | Отправлено: 19:41 11-12-2009 | Исправлено: basilio_ef, 22:12 11-12-2009
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
basilio_ef
Вот как я оформил оглавление в конечном счете:  
http://rapidshare.com/files/311196519/THE_ORIGIN_AND_GROWTH_OF_PLATO_S_LOGIC_Lutoslawsky.djvu
 

Цитата:
bookmarks.htm для фрагмента оглавления, что на картинке Ghosty. Сгенерирован файл DJVUmark,  
входной файл для  DJVUmark.
Нет, совсем не пойдет. Все-таки каждый метод хорош в своей области применения.  
Об автоматизации создания древовидного оглавления в таких случаях, ИМХО, лучше забыть - не стоит это тех усилий.
 
А чем Вам мой вариант не нравится?


----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 00:38 12-12-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty
Ваш вариант не нравится мне.
 
Из-за слишком жирных букв в OCR-слое очень много ошибок.
Процентов 20 троек превратилось в восьмерки, то же самое с пятерками - они стали шестерками.
Просто скопируйте текст оглавления и вставьте его в текстовый редактор - и вы сами все увидите.
 
Поэтому без предварительной (и очень тщательной) вычитки делать гиперссылки поверх TOC-оглавления (и страницы индексов) - imho - некорректно. Пользоваться результатом будет невозможно.
 
Bookmark-оглавление в данном случае применимо с большими оговорками - по той причине, что каждая строка в bookmark-оглавлении должна быть ссылкой на одну страницу, а данное оглавление - это немного по совместительству индекс, т.е. в нескольких случаях один и тот же элемент относится к разным диапазонам страниц.
 
Тем не менее, используя Microsoft Word(не забываем, что в его поиске-замене можно задавать и такие символы как ^p - перенос строки, и ^# - произвольное число) и Djvu Bookmarker (для контроля монотонности возрастания страниц - т.е. исключения последовательности ссылок на страницы 235 - 285 - 236, где 285 - ошибка распознавания, и последующего задания соотвествия страниц и структуры иерархии) мне удалось получить следующий результат:
 
html:
http://www.onlinedisk.ru/file/291255/
djvu:
http://www.onlinedisk.ru/file/291252/
 
Спасибо за интересный пример оглавления. Появилась еще пара идей по улучшению Djvu Bookmarker.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 07:38 12-12-2009
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare

Цитата:
djvu:  
http://www.onlinedisk.ru/file/291252/
Спасибо большое. Скажите, каков процент ручного труда в этом процессе?
 
Я все же действительно думаю, что в тех случаях, когда структура оглавления очень сложна и объем его велик, нагляднее будет вариант с разметкой оригинального оглавления на странице.  
 
Другое дело, если Ваш метод позволит автоматически отфильтровать ошибки OCR... В общем, интересует, прежде всего наименее затратный по времени метод - книг много, а времени на них все меньше.
 
Была у меня тут  в виде сырых сканов книжка эксклюзивная и очень всем нужная - объем 22405 РАЗВОРОТОВ (!!!). Меня 3 года пинали, просили выложить хотя бы в сыром виде (1/2 DVD). А я все вертел носом, говорил, что, мол, пока не обработаю, не разрежу развороты, не распознаю, не составлю какой-никакой индекс, ничего выкладывать не буду. Довыпендривался - пока размышлял, как бы это все лучше да побыстрее сделать, люди нашли те же сырые сканы, запихнули их все в PDF и выложили на гигапедии. Со мной теперь общаются неохотно. Вот я и думаю после этого, куда бы мне этот свой перфекционизм запихнуть. Ведь подобных книг, нужных другим людям, а мне - лишь постольку поскольку, у меня навалом...

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 14:57 12-12-2009 | Исправлено: ghosty, 14:58 12-12-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Львиную долю времени заняло придумывание последовательности замен в Worde. С опытом и количеством оглавлений думаю может дойти до минут пяти. Главное тут - не удалить полезную информацию, и не потерять нужные пробелы.
 
Получилось что-то типа
 
' удалил все переносы строк
    Replace "^p", ""  
' заменил длинный дефис переносом строк
    Replace "^+", "^p"
' добавил перенос строк после закрывающихся скобок
    Replace ")", ")^p"
' удалил сокращения страница, страницы
    Replace "(pp.", ""
    Replace " p. ", " "
' удалил лишние пробелы  
   For i = 1 To 4
        Replace "  ", " "
    Next
' удалил запятые перед нумерацией
    For i = 1 To 9
        Replace ", " & i, " " & i
    Next
' выделил главы в отдельную строку
    Replace "Chapter", "^pChapter"
' удалил вторую часть диапазонов страниц в конце строки
    Replace "-^#^#^#)^p", "^p"
    Replace "-^#^#)^p", "^p"
    Replace "-^#^#^#^p", "^p"
    Replace "-^#^#^p", "^p"
 
Кроме того перед запуском последовательности (после они уже не так выделялись) ручками прошелся по оглавлению, удалил остатки колонтитулов, объединил главы с текстом глав, а для третьей главы задал номер страницы, чтобы она могла иметь подглавы. Замечу, что в более простых случаях поиск колонтитулов можно было бы доверить Djvu Bookmarker, но не в вашем случае, потому что мы по сути заново создали разметку строк.
 
После запуска еще выделил все ссылки на страницы 3xx и сделал замену " 8" => " 3",
для пятисотых сделал замену " 6" => " 5" - против ошибок распознавания.
 
Затем текст выгрузил в Djvu Bookmarker, который по нарушению монотонности возрастания номеров страниц нашел остальные ошибки распознавания в номерах.
Кроме того, пришлось разлепить слипшиеся строки оглавления, в которых OCR не распознал длинный дефис - это вручную, задание на внимательность.
Потом закинул текст в иерархию, шаблоном CHAPTER автоматически создал структуру дерева. Вручную задвинул содержимое в подглавы третьей главы. И выдвинул индекс, попавший в последнюю главу.
Далее задал сдвиг нумерации по верхней строчке оглавления, проверил на последней - все сошлось, удаленных страниц не было.
Экспорт.
Все.
 
Работа в Djvu Bookmarker заняла минут пять-семь.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 17:52 12-12-2009
basilio_ef



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty  
 
Спорить с Вами не хочу.  Потеря времени.  
 
Обратите внимение в оглавлении на контекст  "LIST OF 500  PECULIARITIES"; там почему-то длина списка превратилась в ссылку на страницу.

Всего записей: 340 | Зарегистр. 15-03-2004 | Отправлено: 20:59 12-12-2009
fenix32



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Прошу прощения, может я чего не понял из темы, но в 9й версии Abbyy FineReader давно уже есть поддержка формата DjVu при помощи двух библиотек:
1. Image.Format.DjVu.dll  
2. Image.Helper.DjVu.dll  
А с некоторых релизов 9й версии поддержка уже встроена в дистрибутив.  
10ю не упоминаю, т.к. на неё нет (не встречал) пока нормальной таблетки.
Формат DjVu открывается и обрабатывается так же, как картинки и PDF.

Всего записей: 2 | Зарегистр. 12-12-2009 | Отправлено: 23:46 12-12-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
fenix32
Есть поддержка импорта DjVu - т.е. использования DjVu как источника изображений для распознавания. А здесь идет речь о программе для экспорта результатов распознавания в DjVu-файл в виде OCR-слоя.
Ссылка на обсуждение темы на форуме finereader
 
Добавлено:
basilio_ef

Цитата:
Обратите внимение в оглавлении

Еще там некоторые сссылки на страницы наоборот не распознались (126, 136). А вот строка 367 b.c. в элемент оглавления не превратилась корректно. Чудеса..
ghosty
Ваша книжка - это тот еще тест на внимательность - склеенные строки после макроса остаются не потому, что не распозналось длинное тире, а потому, что это результат еще одного выделения структуры - курсивом с новой строки. И у меня что-то нет идей как автоматом хотя бы перенести их на новую строку. Насколько я понимаю ворд не позволяет, задав цифру (^#) в шаблоне поиска использовать ее в шаблоне замены (если бы позволял, можно было бы попробовать просто удалить все длинные тире, а переносы строк делать шаблонами типа
", ^#^#^# " => ", ^#^#^#^p").  
Разве что делать подобные вещи не вордом, а через регулярные выражения.
 
А если присмотреться, то в оглавлении есть еще и курсив не с новой строки - похоже, что тоже выделение структурных единиц.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 00:49 13-12-2009
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Что-то Генчо молчит. А что, если он вообще больше не будет делать программу?
 
Как альтернатива, можно просить ABBYY сделать экспорт OCR-слоя в DjVu.
 
Для этого нужно на форуме ABBYY просить эту фичу. Можно хоть в этом
Цитата:
Ссылка на обсуждение темы на форуме finereader
топике.
 
Или тут: http://finereader.abbyy.ru/forum/actualthread.aspx?tid=344&pg=24
 
Прошу всех отписаться на форуме ABBYY по этой теме.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 11:25 21-12-2009 | Исправлено: monday2000, 11:25 21-12-2009
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000
так вроде бы ответ на это предложение уже был озвучен http://finereader.abbyy.ru/forum/actualthread.aspx?tid=867
или флеймом завалим их форум, пусть таки покупают лицензию

Всего записей: 1498 | Зарегистр. 26-07-2007 | Отправлено: 19:43 21-12-2009
Smokeer

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Дополнительные зеркала:
http://cm0k.info/soft/djvuocr/djvuocr-2.4beta.7z <- самая новая на данный момент версия.
http://cm0k.info/soft/djvuocr/djvuocr-2.3.7z
http://cm0k.info/soft/djvuocr/djvuocr-2.2beta.7z
http://cm0k.info/soft/djvuocr/djvuocr-2.0pre.7z
 
Пожато в 7z.

Всего записей: 782 | Зарегистр. 25-09-2005 | Отправлено: 13:57 03-02-2010 | Исправлено: Smokeer, 14:01 03-02-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Перенес свой патч в шапку темы. Заодно добавил статью с инфанаты про DjvuOCR (и Djvu Hyperlinks Editor).

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 16:23 03-02-2010
Smokeer

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
как данным патчем пользоваться?

Всего записей: 782 | Зарегистр. 25-09-2005 | Отправлено: 23:07 07-02-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Переименовал более адекватно, а то может создаться впечатление, что патчится DjvuOCR.. Исходники включать не стал - они не изменились.
FR9frfPatch
Smokeer
Все очень просто - подсовываете патчу папку проекта FR9 после распознавания перед вставкой в djvu с помощью DjvuOCR. Он делает необходимые правки в frf-файлах.
Необходимо учесть, что решается только одна проблема связки FR9+DjvuOCR, проявляющаяся в перепутывании страниц в OCR-слое.Cтарожилы форума утверждают, что это далеко не все проблемы данной связки и рекомендуют FR8, даже не смотря на основное преимущество FR9 - эффективное использование многоядерных процессоров, в результате чего время распознавания уменьшается раза в полтора на двухядернике.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 08:00 08-02-2010 | Исправлено: StanFreeWare, 21:10 08-02-2010
vladlen666



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Спасибо за патч, я из-за этих глюков вообще вернулся на 7-ю версию. У меня кстати в FR9 такой прикол возникает, при открытии (просто открытии) страниц он меняет их местами, хотя названия файлов идут по алфавиту, напрмиер book001, book002,... bookNNN. Мучился черт знает сколько, пока не переименовал картинки в Изображение 001, Изображение 002, ИзображениеNNN. В таком виде все открылось на своих местах.

Всего записей: 272 | Зарегистр. 20-11-2008 | Отправлено: 08:48 08-02-2010
Smokeer

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare
У меня этот патч вываливается ошибкой "The application failed to initialize property (0xc0000135). Click on OK to terminate the application."
 
Добавлено:
файл FR9frfPatch.pdb напичкан какими-то левыми путями

Всего записей: 782 | Зарегистр. 25-09-2005 | Отправлено: 22:17 08-02-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
При загрузке или во время обработки? Если второе, то сделайте архив с папкой проекта FR и выложите на Onlinedisk.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 22:21 08-02-2010
Smokeer

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
при запуске. ваш патч вообще не запускается.
 
Добавлено:
да и мелковатый он какой-то... всего 12+24+2Кб

Всего записей: 782 | Зарегистр. 25-09-2005 | Отправлено: 03:07 09-02-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Smokeer
Прошу прощения, забыл предупредить, он использует .NET 2.0.  
Если очень нужно, могу переписать на дельфях, размер будет 1 Мб.
В принципе, логика предельно проста, можно хоть на бейсике написать патч )

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 10:29 09-02-2010
Smokeer

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare
...у меня стоит 3.5 вроде как... все предыдущие включены по идее
 
Добавлено:
надо будет поморочиться с простым VBScript'om заодно немного подучу его... и будет мне счастье =)

Всего записей: 782 | Зарегистр. 25-09-2005 | Отправлено: 17:13 09-02-2010
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Компьютерный форум Ru.Board » Компьютеры » Программы » DjvuOCR


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru