Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Модерирует : gyra, Maz

articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

   

ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Хотелось бы составить нечто вроде алгоритма действий для тех, кто оцифровывает в разные форматы (а таковых здесь много).
Например, что делать, если у человека есть книга без картинок и формул, если с картинками и формулами, если оригинал плохого качества, если он хочет, чтобы было удобно читать, чтобы файл был наименьшего объема и т.д. и т.п.
Давайте разберемся, какие форматы для каких целей подходят. Проблема отнюдь не надуманная.  


Софт:
1. LizardTech DocumentExpress и DjVu Solo  
2. ScanKromsator: Знаменитый кромсатор для обрезки получаемых при сканировании изображений, а также для разделения страниц, очистки от мусора и т.п. (есть FAQ). Автор: bolega. http://bolega.hotmail.ru/
3. DjVuReader: Альтернативный шустрый ридер для *.djvu. Автор: Dickobraz. http://www.opendjvu.nm.ru/
Обсуждение здесь.
4. AutoScan: Плагин для беспрерывного сканирования под IrfanView. Обновляется при выходе новой версии IrfanView. Автор: EL. autoscan.zip (4 KB)


Полезные ссылки по *.djvu:
http://www.cqham.ru/m2_scan.htm  
http://www.cqham.ru/djvu_print.htm    
http://www.cqham.ru/likbez_djvu.htm    
http://www.cqham.ru/djvu_ocr.htm    
 
Наш маленький FAQ по *.djvu:
1. Q: Что делать, если при конвертации происходит замена одних букв на другие, напр. "и" на "н" (проблема "инь" (с) Astra55)
    A: Возможные варианты рассмотрены здесь.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 18:51 02-03-2004 | Исправлено: ghosty, 03:53 18-12-2004
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
max67
Ты знаешь, я еще только на пути к нормальному пониманию всех этих параметров. И пока не могу так сразу сказать, какие как работают и какие были бы лучше. Какой upsampling ты имеешь ввиду? Основной слой (или как это называется?), вроде бы и там и там остается один-к-одному (updample=1, subsample=1). Background в профиле 150 dpi остается в этом же разрешении, а в профиле 300dpi его разрешение уменьшается в 3 раза...  
 
"conservative= true"
 - сейчас вот почитал в help'е, что это означает:

Цитата:
Preserves more detail than the {--normal } option, but slightly increases encoding time and the size of the resulting DjVu file. Use this option when you want the DjVu image to be nearly lossless.  

Можно конечно и без него попробовать, но похоже, это как раз один из параметров, за счет которых и достигается улучшение качества...
Короче, экспериментировать нужно.
 
 
DOE_JOHN
[email]>Про добавление файлов не по-человечески я имел ввиду их обратный порядок
На самом деле это особенность не DjVu Solo, а самой Windows. В ее стандартном диалоге открытия файлов если ты выбираешь несколько файлов, то можешь в строке чуть ниже видеть, что первый и последний файлы поменялись местами. Некоторые программы потом сами корректируют такое поведение Windows (напр. EAC), некоторые пытаются, но получается еще большая путаница (Adobe Acrobat). В данном случае в DjVu Solo достаточно делать выборку файлов, как я уже чуть выше написал.
 
Посмотрел я присланные тобой файлы.  
Сами исходники имеют плохое качество. Во-первых, их разрешение не 300, а 150 dpi.
В свойствах самих файлов это не указано, но легко вычисляется исходя из количества реальных точек 1062 x 1583 и известного размера исходной бумажной страницы - A4, т.е. 8.3 x 11.7 дюймов. Получается, с учетом легкой обрезки краев, как раз 150 dpi. То, что отображается при конвертации в DjVu Solo, - 300 dpi - является значением по умолчанию Djvu Solo, если в свойствах файла не найдено значение dpi.
Если бы при этих 150 dpi сохранились бы нормальные градации серого (8 бит на пиксел), то можно было бы получить еще вполне приемлемое качество. Но при емеющихся формально 4 bpp, а реально 2bpp (т.е. 4 цвета), контуры текста получились очень корявыми. Для djvu нужны плавные ровные заливки.
 
В общем, конвертация таких исходников в djvu в градациях серого не имеет смысла. DjVu Solo будет лишь пытаться сохранить имеющиеся артефакты, что негативным образом сказывается как на качестве, так и на размере конечного djvu.
 
 
Единственное, что могу тебе предложить в созавшейся ситуации: конвертировать все исходники в djvu bitonal - т.е. черно-белый. Какая-то чаcть информации при этом потеряется (напр. текст на сером фоне, если такой где-то имеется), но учитывая плохое качество исходников, этим можно пренебречь.
 
Перед этим внеси такие изменения в файл  
папка с DjVu Solo\profiles\documenttodjvu.conf :
 
1. Найди строку

Цитата:
bitonal:

и вставь после нее строку

Цитата:
pages-per-dict=10000

 
2. И, заоодно уже, вставь точно такую же строку после после строки:

Цитата:
H-normal-quality:

 
После этого открой первый файл в DjVu Solo, потом добавь все остальные. Сохраняй в DJVU как 150 dpi bitonal.
 
Результат должен получиться по объему в 2-5 раз меньше, чем исходник.
 
Ну и пиши, что получилось.

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 15:56 22-08-2004 | Исправлено: estimated, 16:00 22-08-2004
max67

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
estimated

Цитата:
Какой upsampling ты имеешь ввиду?

Я и сам очень скромно разбираюсь во всех этих нюансах. Имелось в виду следующее:
Для профиля SCANNED в случае 150 dpi по умолчанию прописан upsampling, т.е. используется профиль H-150dpi-up. Для 300 dpi по умолчанию используется обычный профиль H-300dpi. Таким образом, имея на входе 300 dpi gif и используя профиль SCANNED получалось бы:
                     150 dpi        300 dpi
 
mask             600             300
forground       50               25
background    200              100
 
Т.е. двухкратный upsampling.
Ну а раз уж исходники оказались в 150 dpi то теперь это не имеет значения.
 
DOE_JOHN
По поводу конвертации в b/w.  Для сканов в 150 dpi заметно помогает предварительный upsample. Например двухкратный. Делает ли это по умолчанию Djvusolo я не знаю.
Можно поэкспериментировать с программой Skankromsator от bolega из топика по физмат книгам.
Или пошлите и мне (на мыло из профиля) несколько страниц для экспериментов.
 
p/s Наверное уже жалеете, что связались с такими бодрыми доброжелателями
 

Всего записей: 835 | Зарегистр. 10-06-2002 | Отправлено: 17:40 22-08-2004
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
max67

Цитата:
Для профиля SCANNED в случае 150 dpi по умолчанию прописан upsampling, т.е. используется профиль H-150dpi-up.

А, точно. Это я в предыдущем посте ошибочно исходил из того, что просто H-150dpi.
Но я что-то все равно не могу понять, как ты пришел к указанным тобой цифрам в случае применения профиля scan150 (H-150dpi-up) к исходникам 300 dpi. Не мог бы объяснить?  
И еще: я как то до сих пор толком не представляю, что такое mask? Как это лучше понимать и как это работает?

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 18:39 22-08-2004
max67

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
estimated
Я человек далёкий от полиграфии и соображения по этому поводу у меня смутные.  
Как я понимаю, dpi - это не свойство самого рисунка, а параметр либо устройства ввода (сканер) либо устройства вывода (монитор, принтер). Конкретный графический формат файла может, как содержать информацию об исходном/желаемом dpi, так и не содержать.  
Для форматов используемых в полиграфии, dpi является важным параметром, например в тифах он как правило прописан (но бывают и обломы).  
Формат gif вообще не предусматривает хранения информации о dpi. Просто сжатый bmp. Какое устройство отображения используешь, такой dpi и получишь.
 
Тем не менее информация об исходном dpi необходима при обработке изображения. Например, при очиске от мусора. Скажем есть у нас один и тот же текст в 300 и 600 dpi. В первом случае точки над i будут шириной ~ 5 пикселей, а во втором 10. Соответсвенно надо и выбирать порог для отсева мусора.
 
Когда мы подсовываем djvu кодёру gif сосканированный реально в 300 dpi, а говорим что это 150 scaned. То кодёр ни сколько не морочась проводит над этой картинкой апсэмплинг по схеме H-150dpi-up.  Т.е. рассчитывает базовый dpi по формуле:  
original*2/3
Таким образом формально получается 300*2/3=200 вместо 150*2/3=100. Т.е. за счет эксраполяции кодёр пытается сохранить (сгладить) больше информации для последующего сжатия. В свойства файла на выходе, конечно же запишутся dpi по формуле 150*2/3=100, т.е 300:100:25.  
 
Маска, это чась изображения, которую кодёр считает ровными заливками. Маска кодируется с разрешением не ниже 200 dpi, битонально по алгоритму jb2. Если 0 - маска принимает цвет background'а, еси 1 - forground'а.
 
p/s извиняюсь за многословность. что-то меня понесло.

Всего записей: 835 | Зарегистр. 10-06-2002 | Отправлено: 20:33 22-08-2004
DOE_JOHN

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
estimated вообще то там размер страницы примерно половина А4. Такой формат был у журнала в начале 90-х. Качество исходного материала согласен не блещет. Но все равно спасибо, будем пробовать.
max67
Отправил

Всего записей: 1595 | Зарегистр. 09-05-2004 | Отправлено: 00:58 23-08-2004
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
max67: спасибо за подробный ответ. Я наверное от полиграфии еще дальше чем ты
Сейчас даже не могу вспомнить, что такое собственно ресэмплинг и чем он отличается от ресайзинга
 

Цитата:
рассчитывает базовый dpi по формуле:  
original*2/3  

Т.е. берем реальный dpi (300 в нашем примере) и умножаем на значение upsample, а потом делим на значение subsample. Стоп, а почему реальный? Может надо подставлять заданный пользователем (150)?
Пока еще не понял, что при этом происходит с обрабатываемым изображением, и итоговое значение - "базовый dpi" - имеет ли какой-нибудь эквивалент в английской терминологии, применяемой в DjVu Solo/Editor ?
 
Ага, далее все величины вычисляются на основе этого "базового dpi":
"базовый dpi" * mask-upsamle = mask (200*3=600)
"базовый dpi" / bg-subsample = background (200/1=200)
"базовый dpi" / fg-subsample = foreground (200/4=50)
 
DOE_JOHN
Это ж надо. А в конце 80-х, когда я его последний раз читал, это был А4.
Ну что ж, А5 при таком разрешении - получается где-то 200 dpi.
(Т.е. можно попробовать конвертировать как bitonal 200 dpi.)

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 02:15 23-08-2004
EL

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

AutoScan 1.6
============
http://labun.com/autoscan.zip
 
History
-------
...
1.5 [2004-05-12]
[+] IrfanView 3.91 is now supported
[*] minor improvements
 
1.6 [2004-08-24]
[+] IrfanView 3.92 is now supported
[+] shows next filename before scanning
[+] resume after cancel is possible

Всего записей: 48 | Зарегистр. 02-04-2004 | Отправлено: 13:27 24-08-2004 | Исправлено: EL, 13:29 24-08-2004
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
2 EL
 
А может послать Ирфану свою наработку, пусть поглядит на идею и сделает такое же прямо в IV?

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 17:12 24-08-2004
EL

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Astra55
Да я и сам собирался написать ему. Там еще и других предложений как раз насобиралось. Но все нет времени, чтобы сесть и все это как следует изложить.
Если вдруг кто-нибудь другой не сочтет за труд написать насчет AutoScan, я возражать не буду.

Всего записей: 48 | Зарегистр. 02-04-2004 | Отправлено: 14:14 25-08-2004
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Ирфан - толковый мужик, он потихоньку воплощает мои тайные вишесы . Чего стоит появление в версии 3.92 конвертации многостраничных файлов в любой формат, это же песТня! Получается, что на сегодня IV3.92 - единственный, кто может конвертнуть на автомате djvu во что угодно за пару щелчков мышкой. Еще немного доработать опции сканирования и еще кое-какие мелочи, и тогда IV будет полным фидорулезом для всех, кто занимается OCR и прочими подобными вещами.
 
BTW, у кого есть возможность, обзаведитесь вполне русской программой RasterID, у меня она с пиратского сидюка, версия 2.1. Суперская штука для обработки изображений. Заточена под чертежи, извлекает из них штампы и все такое прочее. Кое-какие функций нет даже в монстровых редакторах, типа ФотоШопа. В то же время, все просто, понятно и удобно. Сайт программы - http://www.csoft.com/  
 

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 18:11 25-08-2004
DOE_JOHN

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
estimated
max67
в b/w как то не совсем устраивает качество. Но всё равно спасибо за помощь. Вот  вопрос м.б. эти gif предварительно конвертнуть в к-н промежуточный формат?

Всего записей: 1595 | Зарегистр. 09-05-2004 | Отправлено: 00:28 28-08-2004
Dickobraz

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Давно хотел написать
После сканирования необходимо скорректировать перекосы страницы. Для этого используем FAR + Microsoft Office Document Imaging. В FAR-е выделяем все сканы и выбириаем «Применить команду»(Ctrl+G). Вводим команду:
 
start /wait C:\PROGRA~1\COMMON~1\MICROS~1\MSPaper\mspview.exe -o !.!
 
Ключ -o позволяет пропускать файлы, прошедшие через MODI, это полезно, когда обрабатывать сканы приходиться в несколько этапов. Чтобы не запоминать какие прошли обработку, а какие нет, используйте этот ключ. Остальные ключи смотрите в справке. Только не забудьте перед использованием MODI, запустить его и настроить язык распознования, а то может попереворачивать не так как надо.
После того, как это детище M$ отработает, все сканы будут более-менее правильно выравнены. Есть, правда, недостаток: MODI при сохранении использует TIF файл с JPG сжатием внутри (если это grayscale). Для исправления этого, пропускаю сканы через XnView, где в параметрах указываю tiff с LZW и 300dpi.  

Всего записей: 32 | Зарегистр. 19-05-2004 | Отправлено: 21:27 30-08-2004
Meaningless

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dickobraz
Извращенец :)
 
Возьми Eistream Imaging Pro и используй приблуду под названием Flow. Это типа скрипта сканирования, в том числе со встроенным выравниванием перекосов, и TIFF'ы твои сохранит с любой компрессией, в том числе LZW.

Всего записей: 1042 | Зарегистр. 17-01-2003 | Отправлено: 09:53 31-08-2004
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

 
А вот если надо на сканах провести принудительные линии таблицы, в оригинале отсутствующие (подразумевающиеся).  Существует ли пакетный способ?
 
Задача-минимум - отрезать вертикалями поля, потому что значки на полях важны, но не должны мешаться с текстом.
 
Задача-максимум - провести и горизонтальные линии между строчками основного текста там, где находятся значки на полях.
 

Всего записей: 17126 | Зарегистр. 14-10-2001 | Отправлено: 18:21 31-08-2004
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LevT
Может, попробовать запрограммировать в CorelDRAW на встроенном VB Script ?

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 20:29 01-09-2004
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

estimated
 
Это гадание или реальный опыт возможного?
 
 

Всего записей: 17126 | Зарегистр. 14-10-2001 | Отправлено: 00:49 02-09-2004
Dukavaal



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Раз уж вы занимаетесь сканированием, нужны ли вам полные плагины ACDSEE ldf и lfw?  
На оффсайте плагин ldf стоит 100$.  
Идеальная вещь для сканирования! Плагин специально создан для сканирования текста!  
Незаменимая вещь при переводе Gray, Color скана в BlackWhite (Ч/Б). Ни одна  буква текста не будет черной или темной, все можно прочитать!  
Еще может ужимать color tiff 300 dpi A4 в файл размером 100 кб! При этом текст без проблем можно читать!  
А lwf более распространенный, но не бесплатный, формат. Позволяет сжимать Tiff до размеров Jpeg почти без потери качества. Jpeg гораздо отстойнее сжимает, даже на максимальном качестве.

Всего записей: 64 | Зарегистр. 10-07-2004 | Отправлено: 01:38 02-09-2004
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LevT
Я бы назвал это просто идеей. Ну, если хочешь, можно назвать гаданием Сам я этого не делал. Просто слышал, что Corel встраивает в свои программы лицензированый у MS VBA/VBS. И  если оно там работает аналогично MS Office, то наверное тоже должна быть возможность включить запись макроса, выполнить нужные действия вручную (в это время будут записываться команды VB) - а потом просмотреть эти команды и подредактировать по своему усмотрению.

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 04:35 02-09-2004
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
DOE_JOHN
Может кто-то из профи что-то сумеет с ними сделать. Исходя из своих знаний, я бы с этими сканами не мучался, оставил бы просто как есть без перевода в djvu. Извини, больше ничего подсказать не могу.

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 17:42 02-09-2004
EL

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Просьба к тем, кто пробовал AutoScan, сообщить, нормально ли он работал. Просто напишите: да/нет, версию операционки и марку сканера. Спасибо.
А то на форуме ixbt http://forum.ixbt.com/0013/016946-3.html уже два человека пожаловались на ошибку "несоответствие типа" (type mismatch). И я пока не пойму, с чем это связано - то ли с ошибкой в скрипте, то ли с конкретными условиями применения, то ли люди делают что-то неправильно.

Всего записей: 48 | Зарегистр. 02-04-2004 | Отправлено: 12:23 22-09-2004
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu
articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru