Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Модерирует : gyra, Maz

articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

   

ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Хотелось бы составить нечто вроде алгоритма действий для тех, кто оцифровывает в разные форматы (а таковых здесь много).
Например, что делать, если у человека есть книга без картинок и формул, если с картинками и формулами, если оригинал плохого качества, если он хочет, чтобы было удобно читать, чтобы файл был наименьшего объема и т.д. и т.п.
Давайте разберемся, какие форматы для каких целей подходят. Проблема отнюдь не надуманная.  


Софт:
1. LizardTech DocumentExpress и DjVu Solo  
2. ScanKromsator: Знаменитый кромсатор для обрезки получаемых при сканировании изображений, а также для разделения страниц, очистки от мусора и т.п. (есть FAQ). Автор: bolega. http://bolega.hotmail.ru/
3. DjVuReader: Альтернативный шустрый ридер для *.djvu. Автор: Dickobraz. http://www.opendjvu.nm.ru/
Обсуждение здесь.
4. AutoScan: Плагин для беспрерывного сканирования под IrfanView. Обновляется при выходе новой версии IrfanView. Автор: EL. autoscan.zip (4 KB)


Полезные ссылки по *.djvu:
http://www.cqham.ru/m2_scan.htm  
http://www.cqham.ru/djvu_print.htm    
http://www.cqham.ru/likbez_djvu.htm    
http://www.cqham.ru/djvu_ocr.htm    
 
Наш маленький FAQ по *.djvu:
1. Q: Что делать, если при конвертации происходит замена одних букв на другие, напр. "и" на "н" (проблема "инь" (с) Astra55)
    A: Возможные варианты рассмотрены здесь.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 18:51 02-03-2004 | Исправлено: ghosty, 03:53 18-12-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
cornborer

Цитата:
Формально, да. А на деле не слишком. Сложное форматирование, особенно с непростым размещением рисунков оказывается PolyEdit'у не по зубам. Впрочем, если быть справедливым, то НИ ОДНОМУ редактору, даже WordPerfect'у это тоже не под силу (если иметь в виду абсолютно точное воспроизведение, "как в Ворде").  

Спасибо за подробный ответ.
 
Таки нет альтернативы кривеющему день ото дня *.doc?  

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 15:35 23-05-2004
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
2 Meaningless
 
>Погодь, погодь, судя по перечню результатов тебя опять понесло в сравнение например PostScript
>текста полученного при помощи txt2pdf с РАСТРОВОЙ графикой полученной при помощи DJVU. Это совсем,
>совсем разные вещи. Я понимаю к чему ты клонишь, т.к. ЛЮБЫЕ документы надо хранить в каком то
>формате, но так мы совсем запутаемся, пусть текст будет текстом, есть СУПЕР форматы для хранения
>чистого или форматированного ТЕКСТА, которые по размеру уроют любой DJVU, но я бы предпочёл
>говорить только о сравнении ОТСКАНИРОВАННОГО изображения.
>Т.е. исходником для всех сравнений и преобразований пусть является BMP или TIFF Group4.
 
Какая разница? После печати в файл из ФайнПринта любая инфа становится графикой. Значение содержание уже не имеет, там не текст, а рисунок в виде текста.
 
>К сожалению совсем не понятно с какими параметрами, что и во что преобразовывалось.
>По ЦВЕТНЫМ изображениям я даже не собираюсь спорить, тут DJVU впереди, адаптивная компрессия в
>Акробате помогает но только при очень низких требованиях к изображению (я например использую её
>для хранения всякой "побочной" документации типа квитанций, отсканированных конвертов от писем и
>посылок и т.п.)
 
Был взят многостраничный черно-белый tif, из которого и конвертился исходный файл djvu. Так что про  
цвет речи не было.
 
>- ни о каком "падении качества" тоже речи нет по той же самой причине (способ сжатия то
>одинаковый)
 
Теоретически. Но на практике могу продемонстрировать скриншот, на котором невооруженным глазом видно ухудшение всех знаков в тексте после ФР. Допускаю, что косяк сидит у них, снижают dpi при обработке tif, но альтернативы нет, поэтому такой путь неприемлем.
 
>И ещё, у меня создалось впечатление что ты оцениваешь размер PDF который создал FineReader. Но
>его ведь ещё сжать надо!!!! (FineReader создаёт PDF 1.2, там нет JBIG2 компрессии)
>После того, как ты получил PDF в FineReader открой его Акробатом, выбери в меню Advanced | PDF
>Optimizer и сожми ч/б изображение при помощи JBIG2 Lossy - тогда и получишь сжатие чёрно белых
>изображений такое же как в DJVU.
 
Пробовал, разница уменьшилась, стала порядка 20-25%, но учитывая сказанное выше по поводу качества графики, такое сжатие не имеет смысла. Только в Акробате (у меня 5.0.5СЕ, 6-я версия есть в вариантах, но в ней убрали возможность установки dpi при конвертации, поэтому снес) такой опции я не нашел, сохранил в ps, а потом конвертнул в самый последний протокол.
 
Вчера выяснил наконец для чего нужен виртуальный принтер и что он может. Понадобилось конвертнуть пару софтов из pdf в djvu, один на 33 мега(djvu 3,53 мега), другой на 29,5 мегов(djvu 5,85 мега, но не потому меньше, что исходник лучше, а наоборот), с текстом, цветными картинками, схемами и печатными платами, последнее наиболее существенно, ибо там и цвет, и тонкие черные линии. Для pdf, как оказалось, идеалом является виртуальный принтер, использовал дефолтные установки, но нужно будет повозиться с настройками, это довольно тонкая штука, как я понял. Сегодня еще добавил - из 17,4 мега pdf получилось 2,93 djvu, из 13,3 - 3 мега. Результат меня впечатлил,  качество, очень близкое к исходному, о размере файла судите сами. Полное отсутствие размытости на цветах и четкие черные линии, при конвертировании в растр, а потом в djvu такого не получается, можете про такую операцию с pdf забыть, речь о цветных изображениях. Выигрыш в размерах после pdf был всегда, независимо от цвета или его отсутствия. Никакое сжатие pdf не может дать такой выигрыш по размеру.  ации.
 
Если учесть, что файлы были сделаны японцами, фонты при печати портятся, поэтому пришлось все печатать как изображение. Может кто подскажет как подгрузить в Акробат 5 отсутствующие фонты? В частности Helvetica и Helvetica Bold? Только поподробнее, я как-то пытался проделать такую штуку, результат был нулевой. Софт по фонтам любой есть, в том числе Адобовский.  
 
WBR,
Astra  


----------
Per warez ad scientiam





за нарушение п.2.8. Имитация подписи расценивается как флуд. Техническая возможность автоматически ставить подпись появляется со статусом Member.

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 18:12 23-05-2004 | Исправлено: Widok, 10:07 12-06-2004
ZZmiy



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Astra55
 
Не знаю откуда у тебя такие результаты, но я перевожу пдф 8.8М  
через виртуальный принтер djvu и получаю 9М djvu!  
Но это при условии, что я поставил настройки djvu такие,  
чтобы получить фотографии в djvu такого же качества как в пдф.  
 
Уменьшив разрешение в принтере я получил djvu меньше пдф, но потерял качество!

Всего записей: 430 | Зарегистр. 05-04-2003 | Отправлено: 23:39 23-05-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Astra55

Цитата:
Только в Акробате (у меня 5.0.5СЕ, 6-я версия есть в вариантах, но в ней убрали возможность установки dpi при конвертации, поэтому снес) такой опции я не нашел, сохранил в ps, а потом конвертнул в самый последний протокол.  

В этом смысле PDF Enhancer все же удобнее...

Цитата:
Вчера выяснил наконец для чего нужен виртуальный принтер и что он может. Понадобилось конвертнуть пару софтов из pdf в djvu, один на 33 мега(djvu 3,53 мега), другой на 29,5 мегов(djvu 5,85 мега, но не потому меньше, что исходник лучше, а наоборот),  

А не пробовал сохранить эти же пдфы в виде тиффов, после чего произвести конв-ю при помощи ДокЕкспресса и сравнить результаты? Проблема Виртуального Принтера, как я ее вижу, состоит в том, что он разделяет слои очень странным образом - практически и не разделяет вовсе -  поэтому он эффективен только для обработки "идеального" текста без картинок, фона и мусора. Но даже и в этом случае ДокЕкспресс его опережает, что и вовсе странно...

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 01:15 24-05-2004
vito333



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty
судя по твоим требованиям - тебе подойдет только РТФ.
но не тот, что выдает Ворд на выходе (он слишком велик), а компактный вариант - типа того, что может давать на выходе Atlantis (в 4 раза меньше обычного вордовского).
Правда сам Atlantis, впрочем как и другие, как отметил cornborer с таблицами не особо )
Я не знаю, какая твоя цель, но мне кажется, что оптимальным для тебя было бы (если тексты русскоязычные) использовать ртф формат ворда и простой конвертер, который тебе и будет из ртф-вордовского делать ртф-компакт.
Меня например, формат атлантиса устраивает и все книги я стараюсь (и успешно) держать в таком формате + РАР. Лучше по сочетанию качеств ничего не знаю.
Глянь например мой редакторик _http://vito.rbcmail.ru/Mark.zip (~20 kb) - открой им простой ртф - без таблиц (я над этим не работал) и сохрани его - посмотри размер.
Такой ртф отлично понимается вордом и я думаю, таблицы при конверте не должны страдать, а пожатый раром файл будет иметь минимальные размеры.
 
Размер такого ртф приближается к размеру простого текста - суди сам.

Всего записей: 3322 | Зарегистр. 13-05-2002 | Отправлено: 06:24 24-05-2004 | Исправлено: vito333, 06:26 24-05-2004
cornborer



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty

Цитата:
Таки нет альтернативы кривеющему день ото дня *.doc?

Поскольку он стал стандартом "де факто", то очевидно, что нет...
vito333
Вариант    
Тем не менее: 2003-й стал делать гораздо более компактные файлы. Файлы *.doc  меньше по размеру, чем упомянутые выше *.etf (специально проверял файлы со сложными графикой и таблицами).

Всего записей: 5122 | Зарегистр. 09-12-2001 | Отправлено: 06:51 24-05-2004 | Исправлено: cornborer, 06:53 24-05-2004
Meaningless

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Astra55

Цитата:
еоретически. Но на практике могу продемонстрировать скриншот, на котором невооруженным глазом видно ухудшение всех знаков в тексте после ФР. Допускаю, что косяк сидит у них, снижают dpi при обработке tif,

 
у них никаких косяков не сидит :)
Сколько dpi получается после сохранения - выставляется в настройках. Если ты там выставил (или по умолчанию стоит) 200, то до 200 и снижается.
У меня стоит 300.
 
Ещё небольшое изменение возможно из-за опции по умолчанию "выпрямлять страницы автоматически", но опять таки - всё это настраивается.
 
Очевидные вещи, в общем-то.  
 
Можешь ещё поразвлекаться сохраняя PDF'ки после других OCR программ - ReadIris, OmniPage - может они закладывают чуть меньше мусора. Хотя большого смысла не вижу, так, для эксперимента.
 
Повторюсь - смотри структуру полученного тобой файла PDF в Акробате - там подробно перечислено что в конкретном документе занимает сколько места. Отпадут многие вопросы.

Всего записей: 1042 | Зарегистр. 17-01-2003 | Отправлено: 13:19 24-05-2004
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Сей секунд специально попробовал сохранить в tif и конвертнуть страницу А4 - отличие почти в два раза:
pdf > djvu       - 15 423
pdf > tif > djvu - 28 660, размер исходного tif 34 857 258, 8 бит, 600dpi.
 
На формате А3 при 600 dpi и 24 битах размер исходного tif 104 423 108:
pdf > djvu       - 116 526  
pdf > tif > djvu - 138 503  
 
Вроде не такая большая разница, но один очень существенный момент - при 600dpi сильно портятся конечные изображения в djvu, сразу лезет растр, искажаются мелкие детали, а при прямом конвертировании djvu выглядит точно так же, как и оригинал. Я сам был удивлен, поскольку до этого не считал виртуальный принтер чем-то заслуживающим особого внимания. На черно-белом такой разницы нет.  
Когда сам крутил настройки сжатия во все стороны, ничего путного не получалось, вернул на дефолт, тогда все пошло. Вот я и говорю, что там достаточно критичные установки. Не собираюсь навязывать свое мнение кому бы то ни было, хотите - пользуйтесь, а нет, так нет. Желающим могу подослать по мылу файлы для сравнения.  
 
WBR,
Astra


----------
Per warez ad scientiam





(2-е предупреждение из 3) за нарушение п.2.8. Имитация подписи \Widok/

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 16:18 24-05-2004 | Исправлено: Widok, 00:30 29-06-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
vito333

Цитата:
судя по твоим требованиям - тебе подойдет только РТФ.

Похоже, ты прав. Я сам об этом думал уже.

Цитата:
использовать ртф формат ворда и простой конвертер, который тебе и будет из ртф-вордовского делать ртф-компакт.  

Правильно! Надо найти надежный конвертер. Кто-нибудь слышал про такие?
Думаю, что в этом случае объем получаемого файла будет более предсказуемым.  
Те же проблемы, которые я сейчас имею с форматом *.doc описаны, напр., здесь:
http://forum.ru-board.com/topic.cgi?forum=5&topic=5811&start=260
 
Astra55

Цитата:
Желающим могу подослать по мылу файлы для сравнения.  

Пошли первый вариант в заархивированном виде. Даже интересно стало. А ты в documenttodjvu.conf настройки менять не пробовал?

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 17:59 24-05-2004
max67

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Товарищи энтузиасты,
может кто-нибудь подсказать как пользовать djvused для прикручивания outlines (это типа букмарков в pdf).
Пошушарил документацию и гугл, просветления не наступило.
Пробовал комманды output-ant и output-all на примере от дикообраза, но ничего доступного для редактирвания в блокноте не обнаружил.
 
Может djvuxml более дружественный? Есть ли его бинарники под native win32?
 
Добавлено
Выражусь точнее. Файлы dsed с анотациями не то чбо бы совсем редактировать невозможно, просто все буквы представленны цифровыми кодами вида П = \317 причем несовпадающими с UTF8. Может кто-нибудь уже изладил подходящий транслятор?
Dickobraz ?

Всего записей: 835 | Зарегистр. 10-06-2002 | Отправлено: 19:45 01-06-2004 | Исправлено: max67, 19:47 01-06-2004
Dickobraz

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
max67
Могу поправить исходники djvused, но после 26 июня, т.к. 7 уезжаю в командировку.
 
Добавлено
выложить все утилиты из djvulibre руки не доходят, но может и успею до 7 числа. Если сделаю, будут на opendjvu.nm.ru

Всего записей: 32 | Зарегистр. 19-05-2004 | Отправлено: 17:55 03-06-2004
max67

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dickobraz
Спасибо. Будем ждать.
У меня то всё мысль вертелась о макросе для перекодировки sed-скрипта - сказываются штампы пользования уварованным проприетарным софтом.
Перекомпилировать сам djvused это был бы идеальный вариант. Под native win32?

Всего записей: 835 | Зарегистр. 10-06-2002 | Отправлено: 18:39 03-06-2004
xalex

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dickobraz
 
Не могли бы вы скомпилировать под Windows утилиту cjb2 из  
djvulibre 3.5.13.pre14-3 ?  
 
В этой преверсии добавлен кардинально улучшенный (в 2 раза) алгоритм  
для lossy режима.  
 
max67
 
Наверное это в IFF формате.  

Всего записей: 818 | Зарегистр. 19-01-2003 | Отправлено: 20:57 03-06-2004 | Исправлено: xalex, 21:02 03-06-2004
Dickobraz

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xalex

Цитата:
Не могли бы вы скомпилировать под Windows утилиту cjb2 из  
djvulibre 3.5.13.pre14-3 ?  

Попробую, если update до версии 3.5.13 пройдет успешно, но еще раз повторю - сильно быстро не получиться, т.к. очень не хватает свободного времени.
 
Кстати, если посмотреть командой tdump -ee djvupro.exe какие функции экспортирует djvupro.exe, то можно увидеть все описания классов из djvulibre. Идея такая - использовать менеджер для подготовки файлов к сжатию свой, в котором можно навернуть все что угодно, а компрессор вызывать из djvupro, как из dll. Проблема в одном - кто бы взялся? В принципе ничего сложного, просто рутины много...

Всего записей: 32 | Зарегистр. 19-05-2004 | Отправлено: 07:32 04-06-2004
Dickobraz

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
На opendjvu.nm.ru выложил утилиты из пакета djvulibre-3.5.13

Всего записей: 32 | Зарегистр. 19-05-2004 | Отправлено: 05:36 08-06-2004
juliab



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А как сделать экспорт в графику всего файла djvu
DocExpress позволяет вытягивать только по одной страничке?
 
А то надо с десяток журналов перепаковать- 70 листов серой графики 300 точек 24 бита, в итоге каждый файл по 12 метров, хочу меньше, но по одной странице переделывать - застрелишься

Всего записей: 46 | Зарегистр. 19-06-2002 | Отправлено: 10:09 08-06-2004
max67

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
juliab
Под Win, наверное, проще всего воспользоваться лизардтеховской консольной утилитой:
DjVuDecode.exe
Ей удобно перегонять многостраничные djvu в многостраничные же несжатые tif.
Вот возможные опции:

Цитата:
Usage: (DjVu Version: 3.6.100)
 
        DjVuDecode.exe [options] <input> <output> ... <file|dir>
  --output-format=<format> Selected Desired output format of pnm, pgm,
 
                pbm, bmp, tif, jpeg, ps, pict.
  --layer=<layer>            Select the layer to decode.  One of all, mask,
 
                foreground, background.
  --config=<filename>  Use a non-standard configuration file.
  --profile=<name>     Use the options under 'name' profile.
  --verbose            Print verbose messages.
  --filelist=<filename> Specify a text file containing a list of
 
                       input files.
  --help               Print the usage instructions.
  --page-range=<range> Specify the ranges of pages to convert.
 
                         Ranges are specified like "1-5,10,11".
  --dpi=<25-1200>      Dots (pixels) Per Inch.
  --hflip              Horizontally flips the output.
  --vflip              Vertically flips the output.
  --rotate=<angle>     Rotate the output either 90, 180, or 270 clockwise.
  --togray             If input is color, reduce to gray scale.
  --tobitonal[=<1-255>] Reduces to bitonal, optional threshold.
  --upsample=<factor>  Upsample the image by the specified factor.
  --subsample=<factor> Subsample the image by the specified factor.
  --resize=<width>x<height> Resize the image to the specified size.
  --crop=<x0>,<y0>,<width>x<height> Crop the image to the specified region.

 
Могу выслать по почте (1.5 Mb)
 
Так же можно пользовать ddjvu из DjvuLibre, которую постом выше выложил Dickobraz (По случаю, большое спасибо)
 
 
 

Всего записей: 835 | Зарегистр. 10-06-2002 | Отправлено: 12:11 08-06-2004
xalex

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dickobraz
max67
Есть ли какая-нибудь программа для декодирования словаря  
(indirect djvu формата) в картинки символов (содержащихся в этом словаре) ?
 

Всего записей: 818 | Зарегистр. 19-01-2003 | Отправлено: 21:05 08-06-2004
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
juliab
Еще один вариант - использовать IrfanView 3.90 (и выше) !
 
Правда из-под GUI он декодирует  только в BMP. Серые картинки при этом получатся довольно приличного размера. Положение может несколько улучшить сохранение на NTFS-том с компрессией.
 
А вот из командной строки можно задать самому формат для сохранения  
(сам только сейчас обнаружил):
 
i_view32.exe c:\multipage.djvu /extract=(c:\temp,tif)
c:\multipage.djvu      - исходный djvu
c:\temp                    - целевая папка
tif                             - формат для сохранения  
       (возможные варианты можно посмотреть в диалоге IrfanView Save/SaveAs)

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 22:00 08-06-2004 | Исправлено: estimated, 22:02 08-06-2004
cornborer



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
max67

Цитата:
Могу выслать по почте (1.5 Mb)  

А можно мне закинуть: cornborer{друг человека}pisem.net ?

Всего записей: 5122 | Зарегистр. 09-12-2001 | Отправлено: 06:44 09-06-2004
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu
articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru