Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » DjvuOCR

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Открыть новую тему     Написать ответ в эту тему

vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
DjvuOCR
by gencho

Программа для добавление OCR информации в djvu-книги с помощью программы распознавания текста ABBYY FineReader версий 7-9. Есть также другие полезные функции для работы с djvu.
 
Текущая версия: 2.4 beta
 
Офсайт  
Софт на ЯДиске

Авторская документация к DjvuOCR (в формате HTM)  
 
 
FR9frfPatch для автоматического исправления перепутанных страниц после распознавания в FineReader 9 на многоядерном процессоре
 
Статья Создание в djvu-файле текстового слоя и интерактивного содержания
 
Статья OCR в djvu файлах - новый подход к старым возможностям (немного устаревшая).
 
Статья OCR && DJVU || DJVU && OCR или есть ли текст в дежавю? (немного устаревшая).

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 22:28 28-02-2007 | Исправлено: TelecomUral, 13:44 22-07-2020
amaid



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
качество кодирования djvu там регулируется ползунком как тебе надо - хуже, лучше
http://i76.fastpic.ru/big/2016/0111/1c/aca00b4595e7ac3b47de58949c94691c.png

Всего записей: 553 | Зарегистр. 25-01-2006 | Отправлено: 06:11 11-01-2016
lemor



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
amaid

Цитата:
качество кодирования djvu там регулируется ползунком как тебе надо - хуже, лучше  
Спасибо.  
Если поставить на максимум то размер выходного djvu файла увеличивается а вот качество изображения выходного djvu файла все равно хуже djvu оригинала.
Что-то АББУ недоработало.

Всего записей: 180 | Зарегистр. 21-04-2007 | Отправлено: 23:18 11-01-2016 | Исправлено: lemor, 23:19 11-01-2016
amaid



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
чепуха, алгоритмы кодирования djvu одни и те же, поэтому при одинаковых настройках качество выйдет одно и то же и у эбби и у неэбби. Другое дело, что у djvu small настроек побогаче для разных типов доков и кодирует он пошустрее, поэтому я лично им пользуюсь
 

Всего записей: 553 | Зарегистр. 25-01-2006 | Отправлено: 09:27 12-01-2016
lemor



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
amaid

Цитата:
чепуха, алгоритмы кодирования djvu одни и те же, поэтому при одинаковых настройках качество выйдет одно и то же и у эбби и у неэбби.

полностью согласен с этой теорией но на практике почему-то качество изображения выходного djvu файла хуже djvu оригинала

Всего записей: 180 | Зарегистр. 21-04-2007 | Отправлено: 23:10 12-01-2016
Narak_zempo

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ну да.
Обычно делаю книжки в DEE (профиль "нормальный", качество "почти без потерь")
Если сохранять дежавю в файнридере, даже на максимальном качестве, получается заметно хуже. Это при том, что распознаётся не дежавю, а несжатые сканы.
 
Добавлено:
Подскажите, пожалуйста, как всё-таки импортировать текстовый слой в файл при помощи DjvuOCR?
Стоит FR12, в сохранённом пакете программа не находит какого-то файла с расширением frf.
Но в инструкции написано, что если сохранять распознанный текст в *.doc, пакет не нужен. Но у меня при попытке импорта и из *.txt, и из *.doc сразу выдаёт ошибку.

Всего записей: 150 | Зарегистр. 16-09-2008 | Отправлено: 17:56 17-06-2016 | Исправлено: Narak_zempo, 17:58 17-06-2016
muhaha

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Подскажите, какую последнюю версию FineReader поддерживает DjvuOCR 2.4beta и ждать ли в будущем обновлений программы?
Спасибо автору за работу.

Всего записей: 167 | Зарегистр. 06-09-2006 | Отправлено: 12:09 31-05-2017 | Исправлено: muhaha, 12:13 31-05-2017
renats84



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
сайт сдох

Всего записей: 1629 | Зарегистр. 18-03-2010 | Отправлено: 07:43 31-08-2017
1ANP

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Сотоварищи, подскажите, чем можно отсортировать DJVu-файлы на наличие/отсутствие в них текстового слоя (отсортировать DJVu от DjvuOCR)???  
Аналогично нужно поступить с PDF и PDF/A файлами.

Всего записей: 652 | Зарегистр. 30-05-2007 | Отправлено: 15:56 19-09-2017
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Можно поиском файлов по маске *.djv*   и с текстом TXTz

Всего записей: 723 | Зарегистр. 14-12-2005 | Отправлено: 18:58 19-09-2017
1ANP

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235
к сожалению TC так находит файлы и с текстовым слоем и без него.

Всего записей: 652 | Зарегистр. 30-05-2007 | Отправлено: 19:19 19-09-2017
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Как это..? Если чанк TXTz есть, он не может быть пустым...  Учитывать регистр галка стоит?
В крайнем случае можно конечно батником, вызывающим утилиты djvulibre  определять слой..

Всего записей: 723 | Зарегистр. 14-12-2005 | Отправлено: 21:45 19-09-2017
1ANP

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235
Покорнейше вас благодарю , в теме про тотал-коммандер мне сказали что нет такого способа
Разобрался, просто в выдаваемых результатах в одном из файлов, на одной странице в середине книжки, в тексте был спрятан текстовый слой из двух букв, видимо инициалов сканирующего. Поэтому не мог понять, как файл без текста оказывается в куче с текстом.

Всего записей: 652 | Зарегистр. 30-05-2007 | Отправлено: 22:30 19-09-2017 | Исправлено: 1ANP, 22:35 19-09-2017
skrt



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Можно поставить архивариус, проиндексировать базу файлов, затем отсортировать по размеру текста. Файлы в которых он равен нулю (в основном djvu) или совсем мал (это больше к pdf) - искомые.
 
Философский вопрос - а сейчас кто-нибудь развитием DjvuOCR занимается?
Хочется всё-таки в нем внедрение ocr в pdf...

Всего записей: 321 | Зарегистр. 26-01-2003 | Отправлено: 15:17 12-11-2017
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Для внедрения ocr в pdf уже существует несколько программ, например: Acrobat, Fine Reader, Tesseract.

Всего записей: 723 | Зарегистр. 14-12-2005 | Отправлено: 18:10 13-11-2017
skrt



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Мне автоматически, без пересоздания pdf, если с распознаванием - то с качественным, как у FR, например.  
Tesseract не в курсе что это. Посмотрю.
 
DjvuOCR привлекает отсутствием необходимости контроллить процесс.

Всего записей: 321 | Зарегистр. 26-01-2003 | Отправлено: 00:21 16-11-2017
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
skrt

Цитата:
...автоматически, без пересоздания pdf...

http://forum.ru-board.com/topic.cgi?forum=5&topic=17599&start=1220#7

Всего записей: 2703 | Зарегистр. 31-05-2010 | Отправлено: 02:28 16-11-2017
Dimock



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Пришло время оживить эту ветку
 
Недавно один товарищ сделал из моих серых сканов словарей книжку в форматах DjVu и PDF по методу ClearScan. Какой получается OCR-слой по этой технологии, знают все. В связи с этим вопрос: что нужно сделать, чтобы его улучшить? Сначала удалить слой, а потом добавить новый с помощью ФайнРидера 12 и DjvuOCR или же извлечь тиффы, распознать и добавить их уже с новым слоем?
 
Я так понял, что DjVu Small утратила свои позиции и больше не котируется?
 
Ссылки в шапке сдохли и находятся только с помощью сайта https://web.archive.org
 
Вот кстати еще одна интересная статья о программе -
Полуавтоматическая работа с программой DjvuOCR по распознаванию файлов большими группами
http://vedomo.ru/a/s/paketnaia/DjvuOCRspravka.html

----------
Не дай своему компьютеру "засохнуть" - отдай его в добрые руки!

Всего записей: 715 | Зарегистр. 06-02-2006 | Отправлено: 21:41 10-02-2018
VadimirTT



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Просьба, обновите ссылку на программу.

Всего записей: 2294 | Зарегистр. 22-03-2005 | Отправлено: 07:17 02-05-2018
TelecomUral

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
перенос из темы про Формат DjVu
http://forum.ru-board.com/topic.cgi?forum=35&topic=32523&start=1720#10
 
gerxer
 
У вас так?
1) главное окно, жмете "Ручной режим"

 
2) выбираете папку проекта, у меня на скриншоте это fr8_fejgenberg

 
3) жмёте "Тест проекта", на всякий случай. Вдруг полезут ошибки. Бывает для нескольких языков и для отсутствующего текста на странице.
 
4) жмёте "Обработка", получаете на диске файл fr8_fejgenberg_1.txt
 
gerxer
так у вас в этой папке со скриншота файлы frf имеются? Ошибка как будто вы в имени папки или в пути ошиблись.
 
И я бы: А) не использовал в именах папок русские буквы и пробелы и Б) копипастил полный путь в тоталкоммандере и т.п. файловом менеджере. И В) если винда новая, то включил в свойствах djvuocr.exe режим совместимости с winXP (например).
Хотя я сейчас попробовал ввести в имя папки русские буквы и пробел "ПП ", всё успешно работает.
 
UPD
так версия-то 2.1! Сейчас только обратил внимание.
Вот вам 2.4
https://yadi.sk/d/yWXTL0bZJjVSnw

Всего записей: 1553 | Зарегистр. 15-07-2010 | Отправлено: 13:34 22-07-2020 | Исправлено: TelecomUral, 13:35 22-07-2020
gerxer

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Эта версия работает спасибо.

Всего записей: 551 | Зарегистр. 19-06-2014 | Отправлено: 06:51 23-07-2020
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Компьютерный форум Ru.Board » Компьютеры » Программы » DjvuOCR


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.Board
© Ru.Board 2000-2020

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru