Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Модерирует : gyra, Maz

articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

   

ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Хотелось бы составить нечто вроде алгоритма действий для тех, кто оцифровывает в разные форматы (а таковых здесь много).
Например, что делать, если у человека есть книга без картинок и формул, если с картинками и формулами, если оригинал плохого качества, если он хочет, чтобы было удобно читать, чтобы файл был наименьшего объема и т.д. и т.п.
Давайте разберемся, какие форматы для каких целей подходят. Проблема отнюдь не надуманная.  


Софт:
1. LizardTech DocumentExpress и DjVu Solo  
2. ScanKromsator: Знаменитый кромсатор для обрезки получаемых при сканировании изображений, а также для разделения страниц, очистки от мусора и т.п. (есть FAQ). Автор: bolega. http://bolega.hotmail.ru/
3. DjVuReader: Альтернативный шустрый ридер для *.djvu. Автор: Dickobraz. http://www.opendjvu.nm.ru/
Обсуждение здесь.
4. AutoScan: Плагин для беспрерывного сканирования под IrfanView. Обновляется при выходе новой версии IrfanView. Автор: EL. autoscan.zip (4 KB)


Полезные ссылки по *.djvu:
http://www.cqham.ru/m2_scan.htm  
http://www.cqham.ru/djvu_print.htm    
http://www.cqham.ru/likbez_djvu.htm    
http://www.cqham.ru/djvu_ocr.htm    
 
Наш маленький FAQ по *.djvu:
1. Q: Что делать, если при конвертации происходит замена одних букв на другие, напр. "и" на "н" (проблема "инь" (с) Astra55)
    A: Возможные варианты рассмотрены здесь.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 18:51 02-03-2004 | Исправлено: ghosty, 03:53 18-12-2004
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
http://www.cqham.ru/m2_scan.htm
http://www.cqham.ru/djvu_print.htm
 
WBR,
Astra
 
Добавлено
http://www.cqham.ru/likbez_djvu.htm
 
Добавлено
http://www.cqham.ru/djvu_ocr.htm

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 20:38 02-03-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Итак, с самого начала я столкнулся с проблемой невозможности пакетного преобразования страниц отсканированных в *.tiff1 в формат *.djvu. Вся сложность состояла в том, что страницы помимо текста (Т) включали фон (Ф) и фотографии (К). Преобразование2 шло в теч. 8 часов, после чего программа отказалась работать, сославшись на нехватку памяти, и вылетела без сохранения. Я не пожалел времени на досуге и решил получше исследовать причины своих неудач. Результаты "исследования" показаны в таблице.
В начале я преобразовывал оригинальный тифф в режиме scanned. Получил отвратительные результаты.
Далее я решил проверить, влияет ли размер файла на скорость и кач-во преобразования. Для этого я преобразовал tiff в jpg. Та же картина.
Потом я преобразовал оригинальный тифф в режиме Black & White. Результат оказался весьма посредственным, но скорость была достаточно велика, а объем полученного файла оказался наименьшим.
Преобразование в режиме clean дало высокую скорость, но объем файла не сильно отличался от первых попыток, к тому же качество отображения текста было хуже.
Посмотрев на то, что у меня оказывалось в разных слоях, я сделал вывод, что данный софт абсолютно не переносит растр в фотографиях и фоне. Осознав это, я открыл ориг. тифф в Фотошопе и наложил легкий Blur. В результате получил высокую скорость, относительно небольшой размер файла и неплохое качество. Единственный минус - часть текста целиком отошла в Background.  
Победил же в конце концов метод, подсказанный мне уважаемым FonBerg. Перевод из тифф в пдф, а затем - в дежавю. Единственное, чего я не понял, почему при этом вся картинка оказывается в бэкграунде, разделения не происходит.


1 Исходный формат - *.tiff 300dpi серый 8bit  
2 Программа сжатия - Document Express Pro 4.0.1 Build  235
 
Формат Размер 1 (Mb) Время (мин, сек) Размер 2 (Mb) B&W Background Foreground Качество (ТКФ 5б)    
tiff 6,94 8,35 1,84 Ткф к*ф Ткф 511    
jpg 3,80 8,19 1,86 Ткф к*ф Ткф 511    
tiff (B&W) 6,94 0,05 0,22 ТКФ -- ТКФ 311    
tiff (clean) 6,94 0,55 1,69 Тк**ф** К**ф** Тк** 355    
tiff [blur] 6,94 1,03 0,37 Тк тКФ Тк 555    
pdf 1,65 0,05 0,17 -- TКФ -- 555  

В столбце 1 круглые скобки означают действия, производимые в DocExpress, квадратные - в Фотошопе. В столбцах 5-7 большая буква обозначает, что, грубо говоря, 90-100% информации по данному виду изображения отошло к соотв. слою.
* - как картинка, так и фон в данном слое представляют собой единое, неразличимое пятно. Контуры не просматриваются.
** - часть картинок целиком перешли в слой Background, часть картинок целиком перешли в слой Foreground.

----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 02:05 03-03-2004 | Исправлено: ghosty, 05:45 07-03-2004
Aegis



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty
 
1. Не совсем понятно чем все это дело жалось. Тут программ всяких модификаций много развелось, у них результаты разные.
2. Странно, но ни  разу не имел проблем с компрессией тифа в дежаву.  
3. С джипегом никогда стараюсь не связываться. Потому как он даст графические артефакты, которые дежаву-компрессор обязательно будет пытаться сохранять, что приведет к увеличению конечного файла.
4. Переход текста в фон это то, чего надо избегать как заразы. Тогда уж проще просто в джипег сохранять свои файлы, разница небольшая. Весь смак дежаву - крохотный финальный файл, что достигается именно выводом деталей и текста на передний план.

Всего записей: 665 | Зарегистр. 06-09-2001 | Отправлено: 03:42 03-03-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Aegis

Цитата:
Не совсем понятно чем все это дело жалось. Тут программ всяких модификаций много развелось, у них результаты разные.

Не успел еще написать:
Исходный формат - *.tiff 300dpi серый 8bit
Программа сжатия - Document Express Pro 4.0.1 Build  235

Цитата:
Переход текста в фон это то, чего надо избегать как заразы.

В том-то и вопрос теперь, как этого избежать. Я не специалист в обработке изображений. Может есть "более другой" метод сглаживания в изображениях?

----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 03:58 03-03-2004 | Исправлено: ghosty, 04:04 03-03-2004
dosya



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Спасибо за тему, наконец то она переросла варезник.
 
Есть ли варианты автоконвертации каталога с bmp в djvu и желательно с последующим склеиванием в один файл?

Всего записей: 738 | Зарегистр. 27-02-2003 | Отправлено: 15:11 06-03-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
В погоне за скоростью и качеством победил в конце концов метод, подсказанный мне уважаемым FonBerg. Перевод из тифф в пдф, а затем - в дежавю. Единственное, чего я не понял, почему при этом вся картинка оказывается в бэкграунде, разделения не происходит. Кто-нибудь может мне объяснить такой парадокс (см. таблицу)?

----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 05:49 07-03-2004
FonBerg



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А кто хочет высказаться,как витруал-принтер от лизарда тачку загружает?
У меня чтото на 100% загрузка проца.И тормозят естественно другие приложения.Хотя АтлонХР2200+ и 1024 памяти.Или тачка неправильно настроена,или принтер такой?Пользуюсь VPD 4.0 из набора DocExpress 4.0
 
Добавлено
Причём,смотрю,память то не жрёт,а именно проца грузит,гад !
На прошлой машине(селик 1,1 гб/256 памяти) он именно память кушал,а проц грузил на  50-60%.
Вот и вопрос-у меня с машиной трабл,или глючит принтер?
 
Добавлено
И вот ещё глюк всплыл-счас конвертил из акробата 5.05СЕ ,так текст из латиницы получился иероглифами,именно не крякозяблами,а иероглефическими крякозяблами,смесь китайских,арабских и каких то инопланетных.Что за глюки-вот ЭТО впервые!Имено с Акробата-эту страницу попробовал -всё нормально сконвертилось.Из других приложений тоже норма.
Вот файлик,что с акробата вышел- ftp://212.7.2.22/model-fbt.djvu

----------
FonBerg!

Всего записей: 297 | Зарегистр. 30-09-2003 | Отправлено: 19:19 07-03-2004
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Вы, господа, почитайте по приведенной мной ссылочке, что там написано. Есть там и пакетный конвертер в djvu с GUI, и еще много чего. Если Акробат конвертит криво, тогда при отправке файла на печать поставить птичку в Print as image и все будет ОК. Таких ужасов по загрузке проца и требуемом времени никогда не было, даже на куда более слабых тачках. Все делается достаточно быстро, речь даже о часе не идет. Не зацикливайтесь на DjVu Editor, пока еще приходится применять Соло, иначе народ начинает ныть что не может посмотреть файл, старые плагины не берут новый кодек.
 
WBR,
Astra

----------
Per warez ad scientiam

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 21:59 07-03-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
FonBerg

Цитата:
А кто хочет высказаться,как витруал-принтер от лизарда тачку загружает?  

Astra55

Цитата:
Таких ужасов по загрузке проца и требуемом времени никогда не было, даже на куда более слабых тачках.

А это зависит, на самом деле. Например, в моем случае при преобразовании из пдф в дежавю процесс вдруг начинал загружать машину на всю катушку, а затем и вовсе выходил с ошибкой на предпоследней странице. По закону подлости. Посмотрел я эту страницу. Оказалось, что там текст на темно-сером фоне, состоящем из точек. Попробовал эту страницу отдельно преобразовать - загрузка проца сразу 100%, далее идет загрузка оперативки, далее своп, потом она загружает виртуальную память полностью и выходит. Попробовал на 100dpi преобразовать - долго мучалась, а в результате получились "веселые картинки" - она из точек фона пытается построить "гештальты", узоры всякие, текста не видно, естественно. Опять оригинальный тифф пришлось через фотошоп пропустить, потом в пдф --> дежавю. Сразу все поняла.
В том же случае, когда я преобразовывал просто качественный текст на белом фоне загрузка ЦПУ шла прим. на 60-70%, а память не использовалась.
Вывод: прога, действительно, не любит мусора. От мусора нужно избавляться на стадии сканирования. Она еще очень плохо умеет отделять сигнал от шума.  
В первом случае у меня не было времени настроить процесс сканирования оптимально - получил глюки.
FonBerg

Цитата:
И вот ещё глюк всплыл-счас конвертил из акробата 5.05СЕ ,так текст из латиницы получился иероглифами,именно не крякозяблами,а иероглефическими крякозяблами,смесь китайских,арабских и каких то инопланетных.Что за глюки-вот ЭТО впервые!

Astra55

Цитата:
Если Акробат конвертит криво, тогда при отправке файла на печать поставить птичку в Print as image и все будет ОК.  

В этих случаях оптимально все же открывать через GSView и выводить на печать оттуда.

----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 02:44 08-03-2004 | Исправлено: ghosty, 02:45 08-03-2004
FonBerg



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Хе,господа-это не виртуал крякозябла рисует,а Акробат дуркует!(через файн-принт тоже самое).Если сам не разберусь-появлюсь в теме акробата.(впервые такая лажа)
Вопрос о загрузке проца в силе(повторяю-память не жрёт).

----------
FonBerg!

Всего записей: 297 | Зарегистр. 30-09-2003 | Отправлено: 03:37 08-03-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
FonBerg

Цитата:
Хе,господа-это не виртуал крякозябла рисует,а Акробат дуркует!(через файн-принт тоже самое).Если сам не разберусь-появлюсь в теме акробата.

Ну, так и мы о том же С этой проблемой можно разобраться, либо распечатывая из Акробата как рисунок (мне не нравится), либо пользуясь GSView. Там глюков еще не видел.


----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 04:01 08-03-2004
FonBerg



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty

Цитата:
либо распечатывая из Акробата как рисунок (мне не нравится),  

мне тоже не нравиться.Вот как он выстёбываеться-акробатус- http://212.7.2.22:8000/Acroebatiki
 
Добавлено
А вот как он грузит при использовании DocExpress-а - http://212.7.2.22:8000/Acroebatiki/ZAGRUZKA%20NA%20DJVU.jpg
 
Добавлено
Так вот я и не пойму-это тачка сконфигурирована неправильно,или всёже дежавю-совтины такие-кстати,при конвертации файн-принтом в тифф (если большая пачка стр.-пробовал 50 стр.из акробата в монохроиный тифф на 1200 dpi- теже 100% загр.процессора,НО НЕ ПАМЯТИ!).
Или мне пора в другой теме вопрос поднять уже по поводу работы компа?

----------
FonBerg!

Всего записей: 297 | Зарегистр. 30-09-2003 | Отправлено: 04:12 08-03-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
FonBerg
Отослал дежавюшку, полученную из GSView.
При распечатке из Акробата процесс занял около 10 сек, и загружал проц на 100%. При этом у меня получились те же иероглифы.
При выводе с GSView - 15 сек, 100% и без иероглифов

Цитата:
Или мне пора в другой теме вопрос поднять уже по поводу работы компа?

Похоже, у меня то же самое. Вот только, судя по приведенному графику, у тебя процесс преобразования одной страницы занимает фиг знает сколько времени. Это так?

----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 05:11 08-03-2004
FonBerg



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty

Цитата:
у тебя процесс преобразования одной страницы занимает фиг знает сколько времени. Это так?

нет.не так-это когда я  пачку тифоф весом в пару гиг пиханул в докекспресс.Тот график.
А в  остальном-быстро,но всё равно грузит на все 100

----------
FonBerg!

Всего записей: 297 | Зарегистр. 30-09-2003 | Отправлено: 05:24 08-03-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
FonBerg

Цитата:
но всё равно грузит на все 100  

Действительно, у меня тоже всегда на все сто, даже на самых легких документах. Разница только по времени...

----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 05:40 08-03-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Кто-нибудь знает, откуда взять от Генчо обновленную утилитку (1.8, кажется)?

----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 06:33 10-03-2004
cornborer



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
FonBerg

Цитата:
Хе,господа-это не виртуал крякозябла рисует,а Акробат дуркует!(

Все-таки у Акробата в чем-то, да вылезают глюки с кодировками. В 6-й версии проблема при распечатке документов: цифровая подпись (английская!) печатается крякозябрами. Хорошо, что в 6 се - это уже поправлено. Однако вылезла проблема с переводом в формат pdf со сканера (обсуждалось в соответст. топике).
 
После долгих раздумий и мытарств, я лично все-таки отказался от массового перевода в документов формат djvu. Поскольку, если просят документ (например, оттиск статьи), то должно быть как у людей: стандартно и общепринято. И тут pdf - он и в Африке pdf. Стандарт публикаций де факто.

Всего записей: 5118 | Зарегистр. 09-12-2001 | Отправлено: 09:18 10-03-2004
Aegis



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
cornborer

Цитата:
После долгих раздумий и мытарств, я лично все-таки отказался от массового перевода в документов формат djvu

 
Э-э, батенька....  Это все равно что сказать: я лично все таки отказался от массового перевода картинок в jpg. Все таки tif и gif рулят и беспотерьно...
 
Если есть файлы, их приходится сохранять. И в каждом конкретном случае избирается соответствующий медиум. И как только ты знакомишься с djvu то отказаться от его использования очень трудно.  
 
Ибо удобен он, проклятый...
 
 
ghosty

Цитата:
Вывод: прога, действительно, не любит мусора. От мусора нужно избавляться на стадии сканирования.  

 
И один из способов уменьшения шума - отказ от jpg и сглаживание при скане.
 

Цитата:
>Переход текста в фон это то, чего надо избегать как заразы.  
 
В том-то и вопрос теперь, как этого избежать. Я не специалист в обработке изображений. Может есть "более другой" метод сглаживания в изображениях?

 
Тут надо не сглаживать а наоборот, увеличить контраст. Дежавушка любит выводить на передний план только контрастные части, справедливо считая их более важными (это закон зрения известный каждому художнику - более далекие сцены теряют цвет и контраст из-за пыли в воздухе). Если текст будет контрастен и черен - он выйдет вперед. Что и требуется.

Всего записей: 665 | Зарегистр. 06-09-2001 | Отправлено: 23:23 10-03-2004
cornborer



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Aegis

Цитата:
удобен он, проклятый...  

Если только для себя - согласен, удобен. А вот если для людей, особенно не слишком искушенных, то это только создавать им проблемы. Возьмем, к примеру, многостраничный djvu. Удобен, спору нет и раза в 3 меньше, чем тот же pdf, в 3-4 раза меньше, чем многостраничный tiff, запакованный как best в rar или zip архив. Однако, этот формат не поддерживает (надеюсь что только пока) никто из графических вьюеров, кроме djvu editor от Lizardtech. Ни Solo, ни DJVuerPro. Ни тем более ACDSee и иже с ними.

Всего записей: 5118 | Зарегистр. 09-12-2001 | Отправлено: 08:07 11-03-2004
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu
articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru