Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » DjvuOCR

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Открыть новую тему     Написать ответ в эту тему

vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
DjvuOCR
by gencho

Программа для добавление OCR информации в djvu-книги с помощью программы распознавания текста ABBYY FineReader версий 7-9. Есть также другие полезные функции для работы с djvu.
 
Текущая версия: 2.4 beta
 
Офсайт  
Софт на ЯДиске

Авторская документация к DjvuOCR (в формате HTM)  
 
 
FR9frfPatch для автоматического исправления перепутанных страниц после распознавания в FineReader 9 на многоядерном процессоре
 
Статья Создание в djvu-файле текстового слоя и интерактивного содержания
 
Статья OCR в djvu файлах - новый подход к старым возможностям (немного устаревшая).
 
Статья OCR && DJVU || DJVU && OCR или есть ли текст в дежавю? (немного устаревшая).

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 22:28 28-02-2007 | Исправлено: TelecomUral, 13:44 22-07-2020
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Друзья мои, а в чем собственно проблема-то? 8,9,10 версии FR абсолютно ничем не отличаются по качеству распознавания от 7-й. В чем-то даже хуже. Более того, для текстового слоя особо не актуально это самое качество - всегда вполне хватает кач-ва 7-8-х версий.
Так зачем извращаться и что-то там улучшать?

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 19:48 22-11-2009
omgFiRE

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty
Так зачем извращаться и что-то там улучшать?
 
В 9-ке есть многопоточность. На моём двухядернике это позволяет вместо часа распознать книгу за пол часа (т.к. разные страницы распознаются разными потоками, то масштабирование на ядра почти идеальное). На четырёх и более ядрах это должно быть ещё более заметно.

Всего записей: 5 | Зарегистр. 11-08-2005 | Отправлено: 19:56 22-11-2009
are



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
omgFiRE
а зато можно пользоваться 8-й версией и одновременно распознавать несколько книг

Всего записей: 552 | Зарегистр. 06-03-2005 | Отправлено: 20:30 22-11-2009
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
omgFiRE

Цитата:
В 9-ке есть многопоточность. На моём двухядернике это позволяет вместо часа распознать книгу за пол часа (т.к. разные страницы распознаются разными потоками, то масштабирование на ядра почти идеальное).
Насколько я помню, там по-другому: один поток - на загрузку страниц, другой - на распознавание (т.е. разные потоки под разные задачи). Поэтому если и будет увеличение производительности, то не в два раза.  
Во всяком случае на HT я резкого увеличения производительности не заметил. Вы на двухядернике действительно замеряли разницу во времени между 8-й и 9-й или говорите на глазок?
 
 
Добавлено:
are

Цитата:
а зато можно пользоваться 8-й версией и одновременно распознавать несколько книг
Вот, да, кстати

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 20:40 22-11-2009
omgFiRE

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
are
а зато можно пользоваться 8-й версией и одновременно распознавать несколько книг
 
Так получается что у меня не бывает двух книг которые надо одновременно распознать.
 
ghosty
один поток - на загрузку страниц, другой - на распознавание
Нет, я сначала загружаю страницы без распознавания, потом распознаю. Счётчик распознанных страниц увеличивается парами.
 
Вы на двухядернике действительно замеряли разницу во времени между 8-й и 9-й
Я замерял разницу между 9-й и 9-й запущенной на одном ядре и на обоих.
 
Но только сегодня и только для вас сделаю тесты 9 vs 8 и засеку время работы.

Всего записей: 5 | Зарегистр. 11-08-2005 | Отправлено: 20:58 22-11-2009
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
omgFiRE

Цитата:
Но только сегодня и только для вас  сделаю тесты 9 vs 8 и засеку время работы.
Спасибо! Ждем

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 21:08 22-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
По-моему, коректнее говорить не о потоках, а о процессах. Потоков в FR, я так думаю поболее 2х будет..
И, не выдержал, еще шлифанул патч. Теперь, по-идее, должен наводить порядок для всех подверсий FR9.
http://www.onlinedisk.ru/file/274628/
Если нет, скиньте непонятые frf-ки сюда. Ну или сами поправьте исходнике, если шар(п)ите ))

Цитата:
Но только сегодня и только для вас

Я думаю, интересно будет не только ghosty )
 

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 21:33 22-11-2009
omgFiRE

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Итак тестирование.
Процессор:  старенький двухъядерник Intel Core 2 Duo T7500, памяти 4GB, vista x64. Книга: Кнут - Искусство программирования, том 4, выпуск 3. Генерация всех сочетаний и разбиений 208 страниц.
 
8.0.0.1126 справился за 25 минут, загрузка процессора 50% т.е. потраченное процессорное время (ориентировочно) 25 минут.
 
9.0.0.662 справился за 16 минут, загрузка процессора 100% т.е. потраченное процессорное время (ориентировочно) 16x2 = 32 минуты.
 
Девятка сильно притормозила во время загрузки тифок (я тестировал её первой). Т.е. первые несколько минут девятка не загружала процессор, а скрипела жестким диском. Когда тестировал 8-ку обращений к диску почти не было (кэш файлов операционной системы). Но перезагружаться уже не буду.

Всего записей: 5 | Зарегистр. 11-08-2005 | Отправлено: 22:18 22-11-2009
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
omgFiRE
Я так и думал - максимум в полтора раза. И то удивительно.  
Но все-таки люди при переходе с 8-й на 9-ю словили кучу неприятных косяков - по-моему, Astra55 об этом писал. Особенно что-то стремное было со спецсимволами. Поэтому я остался на 8-й. gencho, вроде, тоже рекомендовал с 8-й не спешить слезать...

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 22:41 22-11-2009
are



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
8-я версия позволяла запускать полностью пакетное распознавание (т.е. можно взять 1000 джвю книг и все подряд распознать за неделю работы, без вмешательства пользователя и без GUI вообще). А работает ли эта процедура с 9-й и 10-й версиями, неизвестно.

Всего записей: 552 | Зарегистр. 06-03-2005 | Отправлено: 23:52 22-11-2009 | Исправлено: are, 23:53 22-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ну, значит мы говорим о тех людях, у которых, скажем, уже установлен ФР9. И которые вдруг решили по-быстрому сделать OCR-слой в паре-тройке DjVu-книжек...
 
Кстати, если патч вдруг не заработает, то, возможно, придется доставить еще 4Мб Redistributable Packages. Ну и должен быть NET Framework 2.0, хотя скорее всего достаточно будет Packages.
http://www.microsoft.com/downloads/details.aspx?familyid=A5C84275-3B97-4AB7-A40D-3802B2AF5FC2&displaylang=en
 
Добавлено:
Кто-нибудь, подскажите - проект DjVu Hyperlinks Editor еще жив? В интернете какие-то разрозненные ссылки, офсайта не найду. У Monday2000 на сайте старая версия, похоже..

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 08:08 23-11-2009
ILHS

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
are

Цитата:
8-я версия позволяла запускать полностью пакетное распознавание (т.е. можно взять 1000 джвю книг и все подряд распознать за неделю работы, без вмешательства пользователя и без GUI вообще).

Разве 8-я версия позволяет распознавать джвю?

Всего записей: 610 | Зарегистр. 06-12-2004 | Отправлено: 08:46 23-11-2009
are



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ILHS
не позволяет напрямую, но достаточно того, что из джвю можно автоматически сделать тифф файлы с именами, как в пакетах ФР, после чего ФР можно заставить работать в автоматическом режиме. (Думаю, разработчики ФР этого не предусматривали.) Работает даже под линуксом через wine, очень удобно - поставил пачку файлов и ушёл пить чай, через неделю результаты.

Всего записей: 552 | Зарегистр. 06-03-2005 | Отправлено: 11:16 23-11-2009
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare

Цитата:
проект DjVu Hyperlinks Editor еще жив?

скорее мертв, чем жив.. где-то проскакивала информация (не знаю насколько достоверная), что автор забил на проект (хотя исходниками готов был поделиться)..
а что, есть желание реанимировать? было бы здорово)) программе очень недостает возможности редактировать гиперлинки ручками (с визуальным отображением результата).. приходится потом эдитором править, а там тоже кривовато это дело организовано..

Всего записей: 1427 | Зарегистр. 26-07-2007 | Отправлено: 20:33 23-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
На самом деле, при наличии стандартного оглавления-дерева в djvu результат работы Hyperlink, не то чтобы бесполезен, но, наверное, избыточен. Вот если бы была возможность автоматизировать вставку оглавления-дерева, то я бы, возможно, заинтересовался. А то инструментария djvu editorа при 10-страничных оглавлениях явно недостаточно...

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 20:48 23-11-2009
omgFiRE

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare
Вот если бы была возможность автоматизировать вставку оглавления-дерева
Я тебе отправил сообщение на инфанате о создании оглавления с помощью DjVu Bookmark Tool, к нему бы редактор не помешал, а то руками писать html-ку муторно.

Всего записей: 5 | Зарегистр. 11-08-2005 | Отправлено: 20:56 23-11-2009
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare
Я уже раздавал пакет для автоматического создания оглавления в топике по сканированию/обработке. Искать в версии для печати по ключ.слову TOC.
 

Цитата:
На самом деле, при наличии стандартного оглавления-дерева в djvu результат работы Hyperlink, не то чтобы бесполезен, но, наверное, избыточен.
Представьте, что у Вас вот таких страничек с оглавлением (см. ниже) около 10-15  - сейчас как раз такую книжку делаю. Как Вы без Hyperlink это оглавление сделаете?


----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 21:13 23-11-2009 | Исправлено: ghosty, 21:17 23-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty
Проблема в алгоритме автоматизации создания? Или в том, как будет выглядеть такое содержание в виде иерархии?  
 
Посмотрел 4 версии форума по сканообработке - все ссылки на TOC-скрипты давно мертвы... Видимо, вы ими и сами не пользуетесь, иначе бы просто скинули на тот же onlinedisk, вместо того, чтобы гонять по форумам...

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 21:37 23-11-2009 | Исправлено: StanFreeWare, 21:38 23-11-2009
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare
Вообще, это здесь оффтопик. И я не виноват, что они мертвы - значит, Вы первый, кому они понадобились. Не понимаю, почему я должен перед Вами оправдываться...
 
Update: в соотв. топике выложил все, что нужно.

----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 21:48 23-11-2009 | Исправлено: ghosty, 22:04 23-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Не понимаю, почему я должен перед Вами оправдываться...

Согласен, не должны.
 
Просто обычно ссылки на топики даются ссылками. http://forum.ru-board.com/topic.cgi?forum=93&topic=3172&start=260#6 - может, кому еще понадобится...
 
И спасибо за то, что выложили. Буду разбираться.  
 
Добавлено:
И за что люди так любят рапиду...  
 
Добавлено:
Серьезно - переложите, пожалуйста, на onlinedisk - не дает скачать рапида проклятая...

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 22:16 23-11-2009
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Компьютерный форум Ru.Board » Компьютеры » Программы » DjvuOCR


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru