Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Формат DjVu и программы для работы с ним

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29

Открыть новую тему     Написать ответ в эту тему

73



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору


Формат DjVu и программы для работы с ним


Программы для печати (виртуальные принтеры в djvu):
Caminova DjVu Virtual Printer 6.5
Two Pilots DjVu Printer Pilot (freeware)
Распечатка в djvu под Suse Linux через Kprinter
Программы для просмотра и редактирования:
Саminova Document Express with DjVu - пакет приложений для создания и просмотра файлов в формате DjVu. Включает DjVu Plugin, DjVu Editor (Pro) и виртуальный принтер. Document Express Еnterprise - для пакетной обработки файлов.
Текущий официальный сайт: Cuminas & Старый офсайт & Бывший владелец
LizardTech DocumentExpress Enterprise 5.1.0.946
Качать по линку с японского сайта http://www.lizardtech.co.jp/download/djvu/modules/windows/enterprise/5.1/
DocumentExpressEnterprise_5.1.0.zip
(201 метр, пароль на архив: enteval). В дистрибутив входят плагин для браузера, виртуал-принтер, IFilter, GhostScript.
 
LizardTech DjVu Editor DocumentExpress Professional 5.0.0.16
Вариант максимум - качать по линку с японского сайта http://www.lizardtech.co.jp/download/djvu/modules/windows/editor/5.0/ProfessionalEditor.zip (55 метров, пароль на архив: editoreval). Ни плагин, ни виртуал-принтер в этот дистрибутив не входят.
 
Если надо, для русификации Эдитора положите файл DjVuEditorRes_0419.dll от Arcand (берем здесь: http://clubrus.kulichki.com/rus/d/Document%20Express%20Editor%205.0.0.16%20.zip <-Качать даунлоадером!) в папку \Program Files\LizardTech\Lizardtech Document Express Editor 5.0\bin.  
По ссылкам на японский сайт LizardTech идет переадресация на японский же филиал Celartem; ссылки на обе версии DocumentExpress с японских серверов не работают.
 
Вариант минимум - неинсталлируемый рип без Iris-OCR и help, русифицированный Arcand, берем здесь (около 2 метров, bmp->rar).
http://www.djvu-soft.narod.ru/DocExpress50016.rar
 
Если нужно только смотреть дежавю, то плагин к браузеру устанавливается без проблем с англоязычного сайта: http://www.lizardtech.com/download/dl_download.php?detail=doc_djvu_plugin&platform=win  
(иногда на сайте плагин обновляется с запаздыванием, последняя доступная версия 6.0.1, Released: 11.2005, Size: 900 Kb to 7.4 Mb)
Если надо, для русификации положите файл djvu0419.dll от Arcand (берем здесь: http://abab.front.ru/LizardTech_DjVu_Browser_Plug-in_6.0.1_rus.zip <-Качать даунлоадером!) в папку с плагином (\Program Files\LizardTech\Lizardtech DjVu Control\).

 
LizardTech DocumentExpress Pro 4.0.1.235 (30 MB) есть здесь: http://arhiv.org.ru/frikzona/programs/djvu/DocExpressPro4.0.exe RuIPs only. Включает в себя плагин и виртуал-принтер.  
 
Русский 4.1.0.333 без справки, слайд-шоу и распознавания, не требующий инсталляции, есть здесь (2.4 MB): http://hamradio.online.ru/ftp3/dw.php?DjVuEditor_Pro.zip
К нему еще бывают запускалки, брать здесь, bmp->rar.
 
Document Express Editor 6.0.1.1394
Document Express Editor 6.5.0.22420
LizardTech Virtual Printer Pro 4.1.7.1394 из Document Express with DjVu Professional Edition 6.0.1.1394 -- виртуальный принтер для создания DjVu-файлов из любого приложения имеющего функцию печати. Скачать. Serial от Document Express with DjVu Professional Edition 6.0 здесь.
PDF2DJVU 5.1 - конвертер из PDF в DjVu.   Читать обязательно!
DjVuToy -- очень полезная DjVu утилита, включающая в себя DjVuMaker, Merger, Splitter, Bookmarker и т.д.
Сайт автора Jian Ma (китайский) - наиболее интересные софты: ComicEnhancer Pro, DjVuToy, FreePic2Pdf, PdgCntEditor, TiffToy Скачать
Для конвертирования DjVu в PDF служит связка из последних версий DjVuToy + PDG Cnt Editor - неплохие результаты, выходной файл pdf сравнительно небольшого размера. Новое место хранения дистрибутивов
DjVuLibre -- open source реализация DjVu, включающая программу просмотра DjView, плагин для броузеров и утилиты.
WinDjView -- программа для просмотра DjVu-файлов на основе библиотек DjVu Libre.  
Обсуждение здесь, автор Андрей Жежерун (AndyZ)
Evince -- программа для просмотра файлов, в т.ч. DjVu. Часть проекта Gnome. Доступна под Windows.
Обсуждение здесь.
WinDjView c Sub Pixel Rendering  (Заметно улучшает отображение текста. Только для LCD мониторов) added by AciN
DjVuOCR -- программа для добавление текстового слоя в djvu-книги с помощью программы распознавания текста ABBYY FineReader версий 7-9.
Тема в Программах
ScanKromsator -- программа для нарезки страниц и обработки отсканированных изображений, изготовления PDF и DjVu.
Тема в Программах
ScanTailor -- программа для нарезки страниц и обработки отсканированных изображений.
Тема в Программах
DjVu Small -- компактная программа для создания DjVu-файлов (Версия 0.4.4).  
DjVu Small Mod -- программа для создания и декодирования DjVu-файлов. Обсуждение здесь
Sumatra Тема в Программах - бесплатная программа для просмотра разных типов файлов с открытым исходным кодом, в том числе и DjVu. Может использоваться как отдельно, так и плагином, например, к Total Commander.  
pdf2djvu -- польская (от Jakub Wilk) программа для конвертирования PDF-файлов. Проект на гитхабе переведён в read-only с ноября 2022г. анонсирован OCR и поддержка конвертирования аннотаций/гиперссылок.
 • Скрипт правки съехавших гиперссылок -- на Python и DjvuLibre  (Ссылка на ЯД).
 
Инструкции по сборке, для новичков
 
Прочее
 
Примечание
Топик был создан из варезного с аналогичным названием, поскольку там сплошной офтоп. Шапка скопирована с зачисткой всех варезных аспектов, которые остались в Варезнике. Здесь можно обсуждать любые темы DjVu, кроме варезных.  Для сканирования, обработки и всего прочего есть топик в eBookz и не только.

Всего записей: 1544 | Зарегистр. 18-08-2012 | Отправлено: 15:33 01-11-2022 | Исправлено: TelecomUral, 09:55 08-05-2024
VadimirTT



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot
Ну и иди лесом, я тебя не знаю и знать не хочу, что ты такое выделываешь не показываешь, только троллить можешь.




Нарушение п. 2.4. главы VIII Соглашения по использованию
Нарушение п. 2.11. главы VIII Соглашения по использованию

Всего записей: 3979 | Зарегистр. 22-03-2005 | Отправлено: 19:02 23-03-2025 | Исправлено: Maz, 19:43 23-03-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
VadimirTT say:
Цитата:
только троллить можешь.

От тролля и слышу.
 





Нарушение п. 2.4. главы VIII Соглашения по использованию
Нарушение п. 2.11. главы VIII Соглашения по использованию

Всего записей: 983 | Зарегистр. 18-05-2023 | Отправлено: 19:08 23-03-2025 | Исправлено: Maz, 19:43 23-03-2025
Jammee



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
У вас 158 кусочков, у меня 18-19 тыс.

это ведь не размер общего символьного словаря (его нет), а количество обнаруженных блитов (shapes?).  
Кодировал в Bitonal 600, Auto Segmentation = off, Manually segmented. Профили Text и ColoredText дают 18328, Lowcolor - 1467. Размер одинаковый.  
Возможно это будет влиять на сжатие когда будет много страниц и словарь начнет использоваться.

Всего записей: 16 | Зарегистр. 27-05-2012 | Отправлено: 11:52 24-03-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Jammee
количество обнаруженных блитов (shapes?)

да - шейпов в самом словаре.
вот у меня тоже 1467 еще получилось, а  158 нифига.  
djvutoy экспортнул 158 кусочков, прикольно.
https://disk.yandex.ru/d/mGoW-ThUZZ3REg
никогда такого не встречал.
 
upd
 
добился повторения. профиль bitonal, dpi=600, сегментация ручная, её вид "Малоцветные фигуры" с методом сжатия "Оптимально для текстов".
 

Всего записей: 3608 | Зарегистр. 15-07-2010 | Отправлено: 11:57 24-03-2025 | Исправлено: TelecomUral, 05:47 27-03-2025
SorokaSV

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Бинаризация почти всегда методом EdgeDiv, window=15-20, coef=65-75
 
Окно 15-20 я понимаю, коэффициент 0,65-0,75? А чему равно Delta?
Пробую разные пороги, и ничего, честно говоря, не получается. Так Otsu всегда оказывается относительно лучше.

Всего записей: 21 | Зарегистр. 31-07-2010 | Отправлено: 11:56 19-04-2025
Jammee



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
SorokaSV
Окно - это по сути детализация (не совсем, но можно и так сказать), малые значения сохраняют мелкие детали букв. Коэффициент для EdgeDiv поднимаете (в Sauvola наоборот) пока не будет достаточно черного. Малые значения окна требуют большего коэффициента, так можно и до 1.0+ дойти, а буквы останутся слишком тонкими. В таком случае поднимите Дельту до 5-15, она утолщает линии. Часто оставляю ее=0.
 
Otsu лучше только в редких специфических случаях для определенных страниц. Это глобальный порог, он не учитывает различное освещение разних частей страницы и редко может вытянуть нормальную детализацию.
 
Вы бы скинули изображения, с которыми работаете. Тогда можно было бы дать конкретный совет.

Всего записей: 16 | Зарегистр. 27-05-2012 | Отправлено: 01:30 27-04-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Jammee

Цитата:
Otsu ... глобальный порог, он не учитывает различное освещение разних частей страницы

Это в теории.  
А на практике в ScanTailor начиная с версии 0.9.1 (2008-12-13) перед собственно бинаризацией, т.е. применением порога (Otsu), автоматически применяется выравнивание освещенности. Tulon, автор ScanTailor-а, при тестировани с применением комбинации выравнивания освещенности плюс порог Otsu получил результаты, полностью его удовлетворившие, поэтому он отказался от использования порогов Wolf и Sauvola в оригинальном ScanTailor, а затем в оригинальном ScanTailor experimental.
В ScanKromsator перед применением порога Auto (Otsu) также стандартно применяют в ручном режиме или предварительную очистку фона или выравнивание освещенности.  
Ну и наконец - "порог" EdgeDiv, который есть в модификации ScanTailor Advanced 1.0.19 от энтузиастов (EdgeDiv нет в оригинальном STA) и в версиях ScanTailor experimental от энтузиастов (EdgeDiv нет в оригинальном ST experimental) - так вот, "порог" EdgeDiv это комбинация порога Otsu с префильтром EdgeDiv, а префильтр EdgeDiv в свою очередь - это комбинация из последовательности префильтров EdgePlus и BlurDiv.
 
Как работает выравнивание освещенности в СканТейлоре его автор (Tulon) описывал в соответствующей теме. Как работают префильтры EdgePlus и BlurDiv широкой общественности неизвестно. По какой логике для глобального порога применяется понятие "окно" лично мне непонятно.

Всего записей: 1016 | Зарегистр. 04-11-2019 | Отправлено: 12:13 27-04-2025 | Исправлено: jourmager, 12:24 27-04-2025
Jammee



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Готовлю страницы в ScanTailor Advanced, раздельно fg / bg. Затем в DjvuSmallMod собираю с профилем Bitonal600, ручная сегментация. При таких настройках никакой обработки кроме сжатия текста быть не должно. Но некоторые страницы почему-то создаются с черным фоном и инвертированным текстом. При просмотре файла на ПК такие страницы выглядят нормально, но на электронной читалке это проблема.  
 
В WinDjView видно состав страницы. Пример:
   0,0 Kb    'INFO'    Page information.
   0,0 Kb    'INCL'    Indirection chunk (dict0025.iff).
  49,2 Kb    'Sjbz'    JB2 foreground mask (2489x3790, 96 dpi).
   0,1 Kb    'BG44'    IW44 background (208x316, 8 dpi).
   0,0 Kb    'BG44'    IW44 background (part 2, 8 dpi).
   0,0 Kb    'BG44'    IW44 background (part 3, 8 dpi).
   0,0 Kb    'BG44'    IW44 background (part 4, 8 dpi).
   0,0 Kb    'FGbz'    JB2 foreground colors (1 color, 780 ccs).
 
Соседние страницы нормальные:
   0,0 Kb    'INFO'    Page information.
   0,0 Kb    'INCL'    Indirection chunk (dict0025_0001.iff).
  13,0 Kb    'Sjbz'    JB2 foreground mask (2489x3790, 96 dpi).
 
JB2 foreground colors – это цветовая маска включилась? Все исходники одинаково черно-белые после ScanTailor.  
Не могу понять закономерности. Кодирую 200 чб страниц - одна "инвертирована". Кодирую еще раз, не меняя настроек - все нормально. В третий раз проблемных страниц уже 2, в других местах.
 
Профиль

Код:
 
# Pseudo-Djvu / Empty profile
# Base / bitonal
tobitonal=true
# Original / Bitonal (600 dpi)
# aggressive=true -->  
dpi=-600
#  
shape-filter-level=0
bg-subsample=2
lossy=true
pages-per-dict=50
segmenter-mode=sep
fg-codec=sep
use-shape-filter=f
multi-core=200000

Лог DSM

Код:
msepdjvu: processing [Page 40]
msepdjvu:  - 2489x3789 foreground,  1 colors, 120935 runs (0 0)
msepdjvu:  - located 1818 ccs
msepdjvu:  - shape clustering done.
msepdjvu:  - encoding as bitonal
msepdjvu: processing [Page 41]
msepdjvu:  - 2489x3790 foreground,  1 colors, 124642 runs (0 0)
msepdjvu:  - located 855 ccs
msepdjvu:  - shape clustering done.
msepdjvu:  - found background (reduction=12)
msepdjvu:  - encoding with color background

Каким образом "found background"?

Всего записей: 16 | Зарегистр. 27-05-2012 | Отправлено: 09:27 10-05-2025 | Исправлено: Jammee, 09:36 10-05-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Jammee
Каким образом "found background"?

вы же сами сказали:

Цитата:
Готовлю страницы в ScanTailor Advanced, раздельно fg / bg

Таки "found" - ? Или таки не "found" ?
 
Как минимум, при создании DSM не приветствовались идиотские 8 и 96 дпи (сканер так не сканирует). Попробуйте для начала поменять (н-р ирфаном) dpi на 600 или сколько там у вас реально.

Всего записей: 3608 | Зарегистр. 15-07-2010 | Отправлено: 13:08 10-05-2025 | Исправлено: TelecomUral, 13:11 10-05-2025
Jammee



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Foreground: 400 страниц page0000.tif
Background: 1 обложка page0000_bg.tif
В режиме ручной сегментации *_bg файлы спариваются с соответствующими текстовыми. Но поскольку остальные 399 страниц не имеют фона, то, согласно руководству DSM, считаются несегментированными. Это я только что увидел.

Цитата:
Если часть изображений остались несегментированными - для них будет выполняться автоматическая сегментация. В этом случае настройки автоматического сегментера будут использоваться, несмотря на то, что формально сегментер стоит в положении "выключен"

То есть у меня настройки сегментера AutoSegmentation=Off, Manually Segmented, Method=fi_sep, и все 399 уже бинаризированных страниц еще проходят сегментацию, которая на некоторых из них как-то находит фон и передний план (msepdjvu:  - found background).
 
Если выбираю метод Glue, то сегментантация текстовых файлов без фоновой пары не происходит (хорошо), но зато сегментируются сами иллюстрации! Вопрос: какие настройки DSM позволят делать то, что подразумевает ручная сегментация? Я уже разделил текст и фон, надо просто собрать.
 

Цитата:
идиотские 8 и 96 дпи

Вы ведь понимаете что dpi - это не разрешение. Это тупо коэффициент для перевода пикселей в сантиметры. В моем примере высота страницы 3790px, делим на 96 dpi = 39.5 дюймов = 100 см.  
Могу поставить хоть 2400dpi, будет страница 4 см. Практическое значение при просмотре файла? Его нет.
Да и к вопросу отношения не имеет, пробовал и другие значения поставить. 96dpi потому что STEX так сохраняет.

Всего записей: 16 | Зарегистр. 27-05-2012 | Отправлено: 14:18 10-05-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Jammee
Вопрос: какие настройки DSM позволят делать то, что подразумевает ручная сегментация? Я уже разделил текст и фон, надо просто собрать.

Я невеликий спец по DSM.
Но чисто по логике могу предположить что вас спасёт генерация пустых белых подложек.
Или ищите по описаниям тот профиль, что жмёт именно передники, не подавая их в автосегментер. А обложку потом приклеите, вроде у DSM есть и такой режим сборки из уже готовых дежавюшек.Без перекодировок. Или экспрессэдитором сложите две дежавюшки. Он ИМХО самый удобный для таких задач добавления обложек да карт.
 

Цитата:
Вы ведь понимаете что dpi - это не разрешение. Это тупо коэффициент для перевода пикселей в сантиметры. В моем примере высота страницы 3790px, делим на 96 dpi = 39.5 дюймов = 100 см.  
Могу поставить хоть 2400dpi, будет страница 4 см. Практическое значение при просмотре файла? Его нет.
Да и к вопросу отношения не имеет, пробовал и другие значения поставить. 96dpi потому что STEX так сохраняет.

К вопросу отношение всё же имеет, но это ладно.
Главное - это далеко не просто "тупо коэффициент". Параметр "dpi" используется при работе алгоритмов автосегментации, это не зря даже в именах профилей указано. И конечно в свойствах (строчках-параметрах) внутри почти каждого профиля. Потому что видимый результат существенно зависит именно от числа точек на полезный глазу микрообъект. Грубо говоря, dpi настраивает, какое число точек отсчета, взятых в конкретный кусок алгоритма внутри сегментера, является нам, людям, важным.Это только машине пофиг, а нам потом читать-смотреть-понимать.
Попробуйте на досуге подавать одну картинку с разными дпи в кодер, результат будет различным. Для одного и того же профиля. Иногда, при грубых ошибках, результат просто явно неудовлетворителен.

Всего записей: 3608 | Зарегистр. 15-07-2010 | Отправлено: 16:42 10-05-2025
Jammee



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
спасёт генерация пустых белых подложек.  

STA создает их для всех страниц, я просто начал удалять пустые, полагая что 600+ лишних файлов замедлит обработку. Получается, надо их оставлять. Я уже столько вариантов перепробовал...
Может кто знает, чем отличаются енкодеры в DjvuSmallMod: fi_sep, glue, vpd_enc?
 

Цитата:
Параметр "dpi" используется при работе алгоритмов автосегментации, это не зря даже в именах профилей указано

Да не используется он там ни в каких алгоритмах. И "число точек на полезный глазу микрообъект" тоже не определяет.  

Код:
#@displayName:Colored text (600 dpi)
colored-text-600: text-only-600
 
#@displayName:Colored text (300 dpi)
colored-text-300: colored-text-600
upsample=2

В этом профиле выбирая 300 вы указываете на то, что хотите сделать апскейл (полезно если исходник низкого разрешения). А при 600 апскейла не делаем. В ином профиле 600 будет понижать разрешение фона в 6 раз, а 300 - в 3 раза.
Все это не имеет прямого отношения к реальному dpi изображения (dpi сканера) или к dpi, указанному в тегах файла. Выбор 600 подразумевает наличие качественного изображения, а выбор 150 – необходимость апскейла (помимо прочих настроек).

Всего записей: 16 | Зарегистр. 27-05-2012 | Отправлено: 17:34 10-05-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Jammee
Да не используется он там ни в каких алгоритмах. И "число точек на полезный глазу микрообъект" тоже не определяет.

Мне сильно лень указать вам соответствующие ссылки в архивах старых сообщений, тутошних форумчан и не только. Год где-нибудь 2005ый, плюс-минус. Поверьте на слово, используется. Можете сами полазить, по слову "профиль" и т.п. Пока МПФ не стали активно применять, эти профили вдоль и поперек излазили, пытаясь добиться идеального кодирования через черный ящик DEE.
Кстати, vpd_enc тоже поискать имеет смысл. Или текстшарику написать (автору DSM).
 
UPD
пара слов про зависимость кодирования от dpi самой картинки
https://disk.yandex.ru/d/ego8p7-P7Vs69Q
внутри pdf с описанием работы и сами файлы.

Всего записей: 3608 | Зарегистр. 15-07-2010 | Отправлено: 18:09 10-05-2025 | Исправлено: TelecomUral, 07:51 11-05-2025
Jammee



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
попробовал всю книгу прогнать с 96 и 1200 dpi. Есть разница в замене символов, и despeckle начинает сьедать точки на 1200, потому что он действительно привязан к dpi. Это то, что произошло в вашем примере kr1200txtagr_0001.

Всего записей: 16 | Зарегистр. 27-05-2012 | Отправлено: 11:33 11-05-2025
Andrea



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Не подскажите, какие файлы должны присутствовать в директории <IRIS_OCR> программ LizardTech-Caminova для возможности распознавания в DJVU только русского и англ. языков? С файлами *.ytr всё ясно, а с остальными (.dll/.dic) - не совсем

Всего записей: 1398 | Зарегистр. 24-12-2015 | Отправлено: 10:44 04-10-2025 | Исправлено: Andrea, 10:54 04-10-2025
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29

Компьютерный форум Ru.Board » Компьютеры » Программы » Формат DjVu и программы для работы с ним


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2025

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru