Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » DjvuOCR

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Открыть новую тему     Написать ответ в эту тему

vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
DjvuOCR
by gencho

Программа для добавление OCR информации в djvu-книги с помощью программы распознавания текста ABBYY FineReader версий 7-9. Есть также другие полезные функции для работы с djvu.
 
Текущая версия: 2.4 beta
 
Офсайт  
Софт на ЯДиске

Авторская документация к DjvuOCR (в формате HTM)  
 
 
FR9frfPatch для автоматического исправления перепутанных страниц после распознавания в FineReader 9 на многоядерном процессоре
 
Статья Создание в djvu-файле текстового слоя и интерактивного содержания
 
Статья OCR в djvu файлах - новый подход к старым возможностям (немного устаревшая).
 
Статья OCR && DJVU || DJVU && OCR или есть ли текст в дежавю? (немного устаревшая).

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 22:28 28-02-2007 | Исправлено: TelecomUral, 13:44 22-07-2020
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Добрый вечер. Прошу помочь.
 
Есть много дежавю-файлов. В текстовом слое нужно заменить один символ на другой. Ну например, Єє заменить на Її.
 
Как это можно Есть ли программы, которые это делают? Если бы речь шла об одном файле, то я бы перераспознал сканы и перезалил слой. Но файлов много...

Всего записей: 525 | Зарегистр. 04-05-2016 | Отправлено: 17:36 19-11-2020 | Исправлено: asku, 17:40 19-11-2020
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
djvused из djvulibre для извлечения и заливки обратно текстового слоя  + sed или tr для замены символа. Ну и все это в bash или cmd  скрипте с циклом for.

Всего записей: 883 | Зарегистр. 14-12-2005 | Отправлено: 19:28 19-11-2020
AlexeiPetrov

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Тут такая проблема нарисовалась. Если извлеченный текст при помощи DjvuOCR внедрить в DJVU-файл, то почему-то тире часто переносится на другую строчку. Получается что-то типа:
 

Цитата:
 
олжности. — Высказывание Дантона. — Указы, обнародованные при свете  
факелов.  
—  
Господа Майярдо, д'Обиньи и Карль убиты.  
—  
Четыре кельи  
монастыря фельянов.  
—  
Двадцать пять луидоров.  
—  
Законодательное  

 
Хотя все тире должны быть на тех же строчках, что и нижние или верхние фразы. Как-то с этим возможно бороться?

Всего записей: 21 | Зарегистр. 29-08-2021 | Отправлено: 19:23 03-01-2022 | Исправлено: AlexeiPetrov, 19:29 03-01-2022
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
AlexeiPetrov
Надо смотреть файлы откуда извлекается (из ФР или djvu) и куда извлекается и что точно делается.  
Приведите минимальный воспроизводимый пример, тогда будет о чем предметно разговаривать.

Всего записей: 883 | Зарегистр. 14-12-2005 | Отправлено: 21:27 03-01-2022
AlexeiPetrov

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Надо смотреть файлы откуда извлекается

Извлекаю из готового DJVU, или сделанного из FR11, или сконвертированного из PDF. Разницы нет, потому что ошибка и там и там.
Потом извлеченный текст ставлю в чистый DJVU.

Всего записей: 21 | Зарегистр. 29-08-2021 | Отправлено: 21:50 03-01-2022
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
AlexeiPetrov
так и выложите исходный djvu из которого извлекаете и результирующий djvu куда вставляете и где тире как-то неправильно себя ведет.

Всего записей: 883 | Зарегистр. 14-12-2005 | Отправлено: 22:06 03-01-2022
AlexeiPetrov

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
так и выложите исходный djvu из которого извлекаете и результирующий djvu

Разобрался. Проблема не в DjvuOCR, а в конвертере.
Прошу прощения за беспокойство.

Всего записей: 21 | Зарегистр. 29-08-2021 | Отправлено: 23:40 03-01-2022
KPGA

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
сайт сдох

Тогда может ссылки в шапке поправить на Webarxive или продублировать содержимое на какой то доступной открытой площадке?

Всего записей: 193 | Зарегистр. 04-10-2018 | Отправлено: 06:24 26-03-2023
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Добрый вечер.
Хочу извлечь из OCR из дежавю-файла.
Использую программу WinDjView.
 
К сожалению, корректно она извлекает только стандартные кириллические и латинские символы:
 

 
В текстовом файле:
 
М?скуый? Калакм? паддзахв?ндаг Дз?уджыхъ?у?й  
Ручъы ?фц?гм? ф?ндагим? к?м алхынцъ, з?рватыччыты  
ахстоны хуыз?н ПАИ-йы у?ладзыг бад?и к?м ?рбын?ттон,  
уырд?м х?ст?г дардыл ныззылд фыигау л?гъз н?убыдыр. И?  
у?ллаг к?рон — иуу?ладзыгон агъуыст б?рзонд  
м?сыггондим?, хъабахъы хъил?й даргъдаар ц?джындзы цъуппыл нытты’нг.  
и сау т?лмыт? «лалым»—дымг? амон?н. Чысыл ?дд?д?р  
уыцы фезм?лын?ввонг?й л?ууынц рог, тагъд ?ххуысы ?м?  
артаг-с?рд?нлас?н машин?т?.

 
 
Какую программу посоветуете? Спасибо.

Всего записей: 525 | Зарегистр. 04-05-2016 | Отправлено: 00:03 24-10-2023 | Исправлено: asku, 00:04 24-10-2023
VadimirTT



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku
Что есть, то и извлекается. Тупа, распустить на тифа, той же DjvuOCR и распознать заново в ФР, применив правильный язык. Дел, на десять минут.

Всего записей: 2865 | Зарегистр. 22-03-2005 | Отправлено: 00:24 24-10-2023
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku, тут два варианта:  
Или при распознавании указан был неправильный язык, тогда только перераспознать, как сказал VadimirTT.
Или осетинские символы присутствуют в ocr слое, но неправильно отображаются или экспортируются в текстовой файл. Это может связано с отсутствием нужных шрифтов в системе.
 

Всего записей: 883 | Зарегистр. 14-12-2005 | Отправлено: 06:07 24-10-2023
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235
Внутри djvu символы корректные. Если просто в дежавю -проммотрщике скопировать кусок текста, то все буквы, в том числе та, скопируются корректно.

Всего записей: 525 | Зарегистр. 04-05-2016 | Отправлено: 11:59 24-10-2023
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku, файл или страницу из него выложить можете?  

Всего записей: 7322 | Зарегистр. 08-09-2001 | Отправлено: 13:32 24-10-2023
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
los
вот три дежавю файла:
Ссылка на яндекс-диск
Я их сам делал. Вообще сделал наверное более тысячи дежавю с OCR и как-то не задумывался, что при экспорте текстового слоя могут возникнуть такие проблемы.
Может я что-то не так делаю. Поэтому решил разобраться.

Всего записей: 525 | Зарегистр. 04-05-2016 | Отправлено: 15:43 24-10-2023
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku, у djvutxt и у djvused(с ключом '-u') проблем нет. Возможно проблемы в самой программе WinDjView или ее настройках. Возможен вариант что извлекается все нормально, а проблемы у программы для просмотра *.txt.

Всего записей: 7322 | Зарегистр. 08-09-2001 | Отправлено: 16:21 24-10-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku

Цитата:
Использую программу WinDjView. К сожалению, корректно она извлекает только стандартные кириллические и латинские символы. Какую программу посоветуете? Спасибо.

Насколько я понял, у вас проблемы с копированием лигатуры ае в текстовый файл.
У меня эта лигатура копируется корректно из всех ваших трёх djvu в обычный текстовый нотепадовский файл.
Win 10 последняя. SumatraPDF 3.5, WinDjView Extended 3.4
 
P.S. насколько я понял, в файлах могут быть ошибки распознавания диграфов гъ -> гь и подобных.
 

Всего записей: 715 | Зарегистр. 04-11-2019 | Отправлено: 17:40 24-10-2023 | Исправлено: jourmager, 17:43 24-10-2023
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
los сейчас попробовал извлечь программой djvutoy. Тоже все корректно. Спасибо.
 
jourmager

Цитата:
Насколько я понял, у вас проблемы с копированием лигатуры ае в текстовый файл.

Проблема скорее всего в программе WinDjView. А со слоем все норм.

Всего записей: 525 | Зарегистр. 04-05-2016 | Отправлено: 22:46 24-10-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku

Цитата:
Проблема скорее всего в программе WinDjView

Когда-то давно я скачал архив с 6 разными версиями WinDjView - 1.0.2, 1.0.3, 2.1, 3.4
Слова с лигатурой ае копируются правильно из всех этих WinDjView

Всего записей: 715 | Зарегистр. 04-11-2019 | Отправлено: 23:13 24-10-2023
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Компьютерный форум Ru.Board » Компьютеры » Программы » DjvuOCR


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru