Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Модерирует : gyra, Maz

articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

   

ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Хотелось бы составить нечто вроде алгоритма действий для тех, кто оцифровывает в разные форматы (а таковых здесь много).
Например, что делать, если у человека есть книга без картинок и формул, если с картинками и формулами, если оригинал плохого качества, если он хочет, чтобы было удобно читать, чтобы файл был наименьшего объема и т.д. и т.п.
Давайте разберемся, какие форматы для каких целей подходят. Проблема отнюдь не надуманная.  


Софт:
1. LizardTech DocumentExpress и DjVu Solo  
2. ScanKromsator: Знаменитый кромсатор для обрезки получаемых при сканировании изображений, а также для разделения страниц, очистки от мусора и т.п. (есть FAQ). Автор: bolega. http://bolega.hotmail.ru/
3. DjVuReader: Альтернативный шустрый ридер для *.djvu. Автор: Dickobraz. http://www.opendjvu.nm.ru/
Обсуждение здесь.
4. AutoScan: Плагин для беспрерывного сканирования под IrfanView. Обновляется при выходе новой версии IrfanView. Автор: EL. autoscan.zip (4 KB)


Полезные ссылки по *.djvu:
http://www.cqham.ru/m2_scan.htm  
http://www.cqham.ru/djvu_print.htm    
http://www.cqham.ru/likbez_djvu.htm    
http://www.cqham.ru/djvu_ocr.htm    
 
Наш маленький FAQ по *.djvu:
1. Q: Что делать, если при конвертации происходит замена одних букв на другие, напр. "и" на "н" (проблема "инь" (с) Astra55)
    A: Возможные варианты рассмотрены здесь.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 18:51 02-03-2004 | Исправлено: ghosty, 03:53 18-12-2004
asdfg2003



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
в старом кром. очень не хватает более интеллектуальной очистки от черных полос по краям страницы..бегунки для обрезания хорошо работают если размер полей (линия начала текста) на всех страницах примерно одинакова, но вот если скажем на одной поле 10 см а на другой 30см с величиной черной полосы в 20 см, то бегунок приходится сдвигать в ручную, при большой неоднородности страниц по полю это очень уж утомительная операция..вот бы сделать функцию, где разделительная линиия автоматически пыталась определить границу между черной полосой и началом текста  
и тоько где полоса наезжает на текст ставить в ручную..как с этим в новой версии?

Всего записей: 169 | Зарегистр. 03-03-2003 | Отправлено: 11:26 28-06-2004
Dickobraz

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
как идет развитие ридера для *.djvu от Dickobraz?

 
Повторю bolega
 

Цитата:
Идет подготовка новой версии, терпение.  
Слишком много нового.

 

Всего записей: 32 | Зарегистр. 19-05-2004 | Отправлено: 12:48 28-06-2004
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asdfg2003
Если имеется ввиду draft-kromasate (автоматическое определение контуров текста и  черновая расстановка резаков), то дела обстоят намного лучше.
 

Всего записей: 4547 | Зарегистр. 09-09-2002 | Отправлено: 13:46 28-06-2004
asdfg2003



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
да именно это..ждем с нетерпением...

Всего записей: 169 | Зарегистр. 03-03-2003 | Отправлено: 17:48 28-06-2004
amv



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Одно соображение о задежавючивании чёрно-белых (1 бит/пиксель) сканов
    Для ч/б картинок есть два формата с большой степенью сжатия:
  1. CPC
  2. DJVU
DJVU бывает lossless и lossy, у lossy степень сжатия значительно выше, но при таком сжатии всё же пропадают очень тонкие детали и иногда случаются существенные ошибки, например, путаются буквы "и" и "н" и т.п.
 
CPC сжимает лучше, чем DJVU-lossy и никакой видимой на глаз порчи оригинала не происходит. (Однако этот формат не является lossless. Авторы используют термин nondegrading.)
Недостаток CPC в том, что он не так удобен и прывычен в использовании, как DJVU.
 
Хотелось бы соединить достоинства двух форматов. Можно поступить так: возьмём tiff, полученный сканированием, и осуществим конвертирование tiff --> cpc --> tiff (лучше повторить этот цикл 2-3 раза, tiff при этом стабилизируется). Если теперь задежавючить полученный tiff  в режиме lossless, он окажется примерно того же размера, что djvu-lossy от исходного tiff! (Можно, конечно, и после cpc применить djvu-lossy, но разница будет не очень велика, так что не стоит жадничать ).
 
Пример:
Исходный tiff (32 стр., 300dpi): 1117K
От него djvu-lossless: 570K, djvu-lossy: 172K
После tiff-cpc-tiff циклов, djvu-lossless: 127K
(djvu делалось через djvu-solo3.1,
lossy означает конфигурацию по умолчанию (т.е. normal=true, pages-per-dict=10)
lossless означает lossless=true, pages-per-dict=10000)).
(Если интересно, размер cpc: 92K)
 
Пара соображений:
 
То, что cpc жмёт лучше djvu не должно очень удивлять, cpc -- формат только для чёрно-белой графики, djvu -- в большей степени для цветной.
 
Вообще, наверно, в описанном трюке особой мистики нет. Если вместо cpc использовать djvu-lossy, будет тот же эффект (в плане размера, смысл, конечно, исчезнет ).
CPC (как и любой не совсем lossless метод) сжимает за счёт удаления структур очень похожих на уже встречавшиеся, при восстановлении cpc-->tiff, эти очень пожие структуры становятся одинаковыми и теперь уже могут использоваться lossless-методом...

Всего записей: 762 | Зарегистр. 19-03-2004 | Отправлено: 03:50 29-06-2004 | Исправлено: amv, 04:01 29-06-2004
xalex

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
amv

Цитата:
lossy означает конфигурацию по умолчанию (т.е. normal=true, pages-per-dict=10)

А какой будет размер, если выставить agressive=true ?
 
Попробовал - путает "c"/"e".
 
За читалку просят денег, алгоритм засекречен - не вдохновляет как-то.  
 

Цитата:
После tiff-cpc-tiff циклов, djvu-lossless

А смысл ? Исходный CPC все равно меньше по размеру.

Всего записей: 818 | Зарегистр. 19-01-2003 | Отправлено: 07:25 29-06-2004
amv



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xalex
Цитата:
За читалку просят денег, алгоритм засекречен - не вдохновляет как-то.
Да Поэтому его вряд ли стоит использовать в окончательном файле. Но если с его помощью можно на выходе получить лучший djvu -- почему не использовать? Читалка тогда не нужна (кстати, есть бесплатная light версия).
В плюс CPC то, что в нём хранятся сканы www.jstor.org -- можно предположить, что протестированная технология...

Цитата:
       Цитата:
     После tiff-cpc-tiff циклов, djvu-lossless
А смысл ? Исходный CPC все равно меньше по размеру.
В конце хочется djvu -- у djvu есть хорошие, быстрые, свободные/бесплатные и распространённые смотрелки, и формат открытый, и ocr, и тот же формат годится для цветных файлов.

Всего записей: 762 | Зарегистр. 19-03-2004 | Отправлено: 08:27 29-06-2004 | Исправлено: amv, 08:37 29-06-2004
xalex

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
amv

Цитата:
кстати, есть бесплатная light версия

Она не совместима с последними версиями IE.  

Всего записей: 818 | Зарегистр. 19-01-2003 | Отправлено: 08:59 29-06-2004
amv



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xalex
Цитата:
Она не совместима с последними версиями IE.
Правда... Но она и не нужна, если использовать cpc только для "улучшения" tiff'а перед задежавючиванием.
Кстати, конвертор tiff-->cpc имеет ограничение в 1000 стр., под Linux оно символическое, в Windows я не разбераюсь, надеюсь, что тоже не проблема...
По модулю этой глупости конвертор удобный и быстрый.

Всего записей: 762 | Зарегистр. 19-03-2004 | Отправлено: 17:59 29-06-2004
castleofmusic



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
amv
спасибо за указание на формат CPC. Вот сейчас я попробовал им воспользоваться. Результаты действительно интересные. По-видимому CPC - это какой-то оптимизированный JBIG2 encoder с домашними разработками.
 
Исходный файл: 186 стр. TIFF : 11.8 MБ. Скан 300 дпи, чёрно-белый, как почти все мои сканы. Оригинал нормального качества. Под пингвиновозом ограничение конвертора CPC<->TIFF на 1000 страниц тривиально преодолимо (пишется shell script на 3 строчки).
 
TIFF-> cjb2 (page by page) -> lossless djvu: 6.3 MB
TIFF-> cjb2 -lossy -clean (page by page) -> lossy djvu: 2.3 MB
TIFF -> any2djvu (no OCR, all pages at once) -> lossy djvu: 1.65 MB*
TIFF -> CPC (page by page) -> lossy CPC: 1.55 MB
TIFF ->  CPC (all pages at once) -> lossy CPC: 1.66 MB
TIFF -> CPC (page by page) -> TIFF -> cjb2 (page by page) -> lossless djvu: 2.11 MB**
TIFF -> CPC (page by page) -> TIFF -> cjb2 -lossy -clean (page by page) -> lossy djvu: 1.95 MB**
TIFF -> CPC (page by page) -> TIFF -> any2djvu (no OCR, all pages at once) -> lossy djvu: 1.54 МB**
* в этом файле на куске мелкого текста артефакт "ни" -> "нн"
** в этих файлах на куске мелкого текста найден артефакт  "она" -> "оиа"
зрительно, качество текста почти не изменилось. (не считая артефакта)
вывод: в общем стоит пробовать CPC.

----------
--- castleofmusic.nm.ru / index1.html

Всего записей: 2613 | Зарегистр. 07-05-2003 | Отправлено: 13:20 10-07-2004
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Есть пара вопросов, может кто сталкивался.
 
Есть старый djvu, в котором один словарь на каждые десять страниц. Как переделать его, чтобы был один словарь на весь документ?  
 
Перепаковку делать не хочу, т.к. документ grayscale, и во-первых пакуется очень долго, а во-вторых, там ведь все слои, кроме foreground, сохраняются с jpeg-подобным сжатием, боюсь, что при перепаковке Solo будет пытаться сохранить артефакты этого сжатия, что только ухудшит соотношение качество/размер. Хотя, может это напрасные опасения?
 
Кому интересно, параметры относительно словаря выставляю так:
profiles\documenttodjvu.conf -> раздел "H-normal-quality:" -> параметр "pages-per-dict=10000"
Так он действует на все битональные/серые картинки.

 
Еще один вопрос, связанный с предыдущим.
Заметил, что при перестановке страниц местами в DjVu Solo, размер документа вырастает, т.к., как я установил, перемещенные страницы теперь сохраняют всю информацию в себе, без ссылки на словарь. Причем, это происходит даже в тех случаях, когда на весь документ только один словарь!  
 
Например свойства страницы (всего в документе в 581 страница):
До перемещения: 0.0 Kb 'INCL' Indirection chunk (581_0001.djbz).
После перемещения: 163.0 Kb 'Djbz' JB2 shape dictionary (7257 shapes).

 
Как заставить страницы сохранять ссылки на словарь?

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 14:56 12-07-2004 | Исправлено: estimated, 14:58 12-07-2004
Cheburashka

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Решил немного написать про подготовку изображений для упаковки куда бы то нибыло
1. Сканируем как удобно странички и уклабываем каждую отдельным файликом в bmp с возрастающей нумерацией
2. Запускаю фотожопину и:
  а. Для картинок убираю растр. Т.е. отдельно ручками выделяю картинки и размываю их до исчезновения растра. Если этого не делать картинки смотрятся при увеличении достаточно погано да и сжать их хорошо не получится
  б. Текст который выделен отдельно обрабатывается до чёрно белого состояния. Во первых если потом распознавать это существенно снижает количество ошибок. А во вторых текст без картинок можно сохранять двухцветным что тоже существенно уменьшает размер.
  в. Делаю в фотожопе Action который выполняет все вышеперечисленные действия. И запускаю его на выполнение для директории. Ручками я только выравниваю страничку и выделяю картинки если таковые есть.
 
В результате обработки получаю файлы со страничками которые корректно повёрнуты (FR например ворочает картинки некорректно. Можете попробовать сеточку отсканенную криво повернуть в FR да и ворочать чёрнобелое не есть гуд.) Во вторых легко распознаются практически без ошибок и в третьих имеют минимально возможный размер для графики без сжатия.
 
3. Обычно распознаю в FR и сохраняю в PDFину. Этот формат мне больше нравится. Картинки обычно оставляю в разрешении 300dpi это позволяет при печати получать практически оригинальное качество.

Всего записей: 146 | Зарегистр. 15-05-2002 | Отправлено: 17:02 12-07-2004
andrejka k

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Привет All. При сохранении djvu-файла с помощью Djvu Solo 3.1 появляется "Compression Dialog", содержащий 4 опции: Scanned, Photo, Clean, Bitonal. Разъясните, пожалуйста, кто-нибудь назначение и целесообразность использования каждой из этих опций. Что нужно выбрать для сканированных черно-белых тифов?
Вторая часть вопроса касается lossy и lossless. Есть ли общепринятое мнение, что считать lossy, а что lossless. Как я понял, все это нужно выставлять "ручками" в конфигурационных файлах. А вот конфигурация Djvu Solo по умочанию - это что??? Спасибо.

Всего записей: 1236 | Зарегистр. 13-05-2003 | Отправлено: 12:25 19-07-2004
amv



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
andrejka k
Цитата:
Разъясните, пожалуйста, кто-нибудь назначение и целесообразность использования каждой из этих опций.
RTFM: у программы есть help:  "DjVu Solo 3.1/help/index.html"
Страничка  "DjVu Solo 3.1/help/encoding_settings.html"  отвечает на вопрос.
Цитата:
Что нужно выбрать для сканированных черно-белых тифов?
Как говорит вышеупомянутая страница, bitonal. Tiff'ы обязательно должны быть сжаты g4, другие форматы не воспринимаются как bitonal (баг).
Цитата:
Есть ли общепринятое мнение, что считать lossy, а что lossless.
См. словарь английского языка
Цитата:
конфигурация Djvu Solo
DjVu Solo 3.1/profiles/documenttodjvu.conf
Там в конце есть раздел "BITONAL PROFILES". В нужном разрешении можно использовать
для lossless: lossless=true
для lossy:
  conservative=true
  normal=true (или ничего)
  aggressive=true
Ещё можно добавлять опцию pages-per-dict=<value>
Подробнее об опциях написано в доке к command-line версии DocExpress:
http://www.planetdjvu.com/store/products/document_express_cle/help/whgdata/whlstt0.htm

Всего записей: 762 | Зарегистр. 19-03-2004 | Отправлено: 13:39 19-07-2004 | Исправлено: amv, 13:45 19-07-2004
xalex

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
amv

Цитата:
Подробнее об опциях написано в доке к command-line версии DocExpress:  
_http://www.planetdjvu.com/store/products/document_express_cle/help/whgdata/whlstt0.htm

Можно ли как-то заставить работать в Djvu Solo/Editor  
опцию "--fg-quality=<1-100>" ?

Всего записей: 818 | Зарегистр. 19-01-2003 | Отправлено: 16:30 19-07-2004 | Исправлено: xalex, 16:31 19-07-2004
amv



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xalex
Цитата:
Можно ли как-то заставить работать в Djvu Solo/Editor  
опцию "--fg-quality=<1-100>" ?
Не знаю

Всего записей: 762 | Зарегистр. 19-03-2004 | Отправлено: 16:33 19-07-2004
andrejka k

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
amv
Большое спасибо за разъяснения. Теперь буду знать  
 

Всего записей: 1236 | Зарегистр. 13-05-2003 | Отправлено: 22:46 19-07-2004
dimasic

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xalex
насколько я понимаю, многие опции там просто заблокированы.

Всего записей: 805 | Зарегистр. 09-11-2003 | Отправлено: 11:08 20-07-2004
Meaningless

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Паффф....
 

Цитата:
Luc Vincent, Vice President of Document Imaging at LizardTech, and responsible for DjVu software development, has resigned effective the end of June, 2004. Three other employees have reportedly resigned as well, representing perhaps 15% of the company staff.

 
15%.. хех...
 

Цитата:
Luc was the last of the DjVu format authors at LizardTech, having co-written several technical publications on the DjVu format with the other format authors.
...............
All of this is just cause for concern for the future of the DjVu file format

 
 
 
Добавлено
Ню... и как у нас с бесплатной версией JRA Publish :)

Всего записей: 1042 | Зарегистр. 17-01-2003 | Отправлено: 19:59 20-07-2004
andrejka k

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Привет.
При конвертировании тифов, находящихся в одной папке, с помощью команды  
CPCTool-5111-Win32-X86.exe *.tif -o output.cpс
получил, как и ожидалось, файл output.cpс.
А вот можно ли сделать, так сказать обратное преобразование, чтобы теперь из output.cpс получить ОРИГИНАЛЬНЫЕ ОДНОСТРАНИЧНЫЕ тифы (т.е. столько, сколько их было в самом начале)? В принципе, с помощью
CPCTool-5111-Win32-X86.exe output.cpc -o *.tif
получим ОДИН МНОГОСТРАНИЧНЫЙ тиф, что не совсем удобно для последующего разбиения на ОТДЕЛЬНЫЕ страницы.
Конечно, можно было бы в самом начале написать  
CPCTool-5111-Win32-X86.exe -b *.tif
и потом также в пакетном режиме конвертнуть обратно, т.е. сделать всё так, как и хотелось; но раз уж сразу начал через задницу, может все-таки возможно как-нибудь исправить ситуацию
Спасибо.

Всего записей: 1236 | Зарегистр. 13-05-2003 | Отправлено: 22:34 20-07-2004
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu
articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru