Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Модерирует : gyra, Maz

articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

   

ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Хотелось бы составить нечто вроде алгоритма действий для тех, кто оцифровывает в разные форматы (а таковых здесь много).
Например, что делать, если у человека есть книга без картинок и формул, если с картинками и формулами, если оригинал плохого качества, если он хочет, чтобы было удобно читать, чтобы файл был наименьшего объема и т.д. и т.п.
Давайте разберемся, какие форматы для каких целей подходят. Проблема отнюдь не надуманная.  


Софт:
1. LizardTech DocumentExpress и DjVu Solo  
2. ScanKromsator: Знаменитый кромсатор для обрезки получаемых при сканировании изображений, а также для разделения страниц, очистки от мусора и т.п. (есть FAQ). Автор: bolega. http://bolega.hotmail.ru/
3. DjVuReader: Альтернативный шустрый ридер для *.djvu. Автор: Dickobraz. http://www.opendjvu.nm.ru/
Обсуждение здесь.
4. AutoScan: Плагин для беспрерывного сканирования под IrfanView. Обновляется при выходе новой версии IrfanView. Автор: EL. autoscan.zip (4 KB)


Полезные ссылки по *.djvu:
http://www.cqham.ru/m2_scan.htm  
http://www.cqham.ru/djvu_print.htm    
http://www.cqham.ru/likbez_djvu.htm    
http://www.cqham.ru/djvu_ocr.htm    
 
Наш маленький FAQ по *.djvu:
1. Q: Что делать, если при конвертации происходит замена одних букв на другие, напр. "и" на "н" (проблема "инь" (с) Astra55)
    A: Возможные варианты рассмотрены здесь.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 18:51 02-03-2004 | Исправлено: ghosty, 03:53 18-12-2004
kvk



Moderator
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
andrejka k
сплит для тифов не проблема, но я по ленности кромсатором пользуюсь.
Удачи

Всего записей: 9240 | Зарегистр. 23-12-2001 | Отправлено: 04:36 21-07-2004
andrejka k

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
kvk
Да я и сам только что обнаружил, что Кромсатор поддерживает многостраничные тифы. Очень удобно. Интересно, а почему меняется размер тифа до преобразования в cpc и того же тифа, но только уже извлеченного из cpc? Более оптимальный алгоритм конвертирования???

Всего записей: 1232 | Зарегистр. 13-05-2003 | Отправлено: 10:53 21-07-2004
kvk



Moderator
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
andrejka k
это уже неоднократно обсуждено (возможно в книжном топике). там скорее всего jbig2 при преобразовании в cpc очень похожие кусочки заменяются на один те становятся одинаковыми, что и уменьшает размер тифа (если он жатый конечно).
Удачи

Всего записей: 9240 | Зарегистр. 23-12-2001 | Отправлено: 13:11 21-07-2004
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Напомните, как из многостраничного DJVU (grayscale) сделать DJVU (bitonal) - т.е. сохранить только черно-белые картинки без фона?

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 16:33 11-08-2004
castleofmusic



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
estimated
мне кажется, этого сделать нельзя без полного преобразования в ч-б битмэпы и затем обратно в дежавю.
по крайней мере, у меня ничего не получалось с попытками просто "убрать" серую информацию из дежавю-файла. может, это как-то делается средствами djvulibre, но я не знаю, как.

----------
--- castleofmusic.nm.ru / index1.html

Всего записей: 2613 | Зарегистр. 07-05-2003 | Отправлено: 13:29 14-08-2004
Dickobraz

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
DjVuReader версия 2.0.0.13 от 15 августа 2004.
http://opendjvu.nm.ru

Всего записей: 32 | Зарегистр. 19-05-2004 | Отправлено: 08:46 16-08-2004
DOE_JOHN

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Я в этом деле , попробовал в DjVuSolo собрать в один файл журнал в gif (300dpi Photo). Результат меня поразил размер файла метров 30 против 10 метров (папка с gif) . Хотя есть журналы по 5-7 метров номер, с компакта. Need help, please.

Всего записей: 1595 | Зарегистр. 09-05-2004 | Отправлено: 00:13 18-08-2004
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
DOE_JOHN: вместо "Photo" выбери "Scanned" в DjVu Solo. Надеюсь, результат тебя опять поразит, но на этот раз уже приятно
Кстати, изображения-то какие? Цветные, градации серого или черно-белые? И сколько страниц в одном журнале?  
Эти gif'ы получены путем сканирования бумажных источников или другим путем (напр. напрямую из электронных оригинал-макетов)?  
Ответы на эти вопросы помогут выбрать наиболее оптимальный способ конвертации в DJVU.

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 01:12 18-08-2004 | Исправлено: estimated, 01:18 18-08-2004
DOE_JOHN

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
estimated Журнал Радио с компактов. 1995-2002 там часть в djvu, а часть в gif (CompuServe GIF, colors 4). И вообще они там схалтурили. Некоторых номеров нет, в некоторых номерах не хватает страниц. Хотел пережать в djvu. В Scaned заметно страдает качество. В номерах которые уже в djvu Compression ratio: 271, а у меня Compression ratio: 15.

Всего записей: 1595 | Зарегистр. 09-05-2004 | Отправлено: 00:13 19-08-2004
max67

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dickobraz
Вах, тысячи благодарностей за новую версию ридера.  
Есть ли планы ещё чего-нибудь к нему привинтить?

Всего записей: 835 | Зарегистр. 10-06-2002 | Отправлено: 01:03 19-08-2004
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
DOE_JOHN: для повышения качества на "серых" (т.е. в градациях серого) изображениях, я в DjVu Solo при конвертации задаю в 2 раза меньший DPI, чем реальный. Т.е. в твоем случае - 150. Размер djvu-файла при этом увеличивается в 3-4 раза (также как и время кодирования), но качество деталей сохраняется очень приличное.
 
Эти GIF'ы - как по виду, получены путем сканирования или из электронного документа? (в последнем случае на страницах не будет мусора в виде мелких точек, границы рамок будут идеально ровные и т.п.)

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 01:55 19-08-2004
kvk



Moderator
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
DOE_JOHN
мы делали из подобного набора квант при сохранении качества жмется не сильно.
Удачи

Всего записей: 9240 | Зарегистр. 23-12-2001 | Отправлено: 05:11 19-08-2004
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dickobraz: нельзя ли вкратце о нововведениях в DjVuReader 2.0.0.13 ?

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 05:18 19-08-2004
DOE_JOHN

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
estimated Размер djvu-файла при этом увеличивается в 3-4 раза по моему используем djvu как раз для уменьшения размера.
Цитата:
Эти GIF'ы - как по виду
сканированные, есть с небольшим перекосом. Можно было просто собрать rarом в один файл, но в djvu пользоваться удобнее(использую плагин к explorer нашел который нормально работает с IE60). Уменьшение dpi ухудшает читабельность текста. При 300 dpi и  
 
kvk мы делали из подобного набора квант что такое квант. У меня при сохранении качества размер наоборот увеличился.

Всего записей: 1595 | Зарегистр. 09-05-2004 | Отправлено: 00:18 20-08-2004
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
DOE_JOHN
В DjVu Solo при конвертации в DJVU можно задать/изменить DPI. У тебя там, видимо, по умолчанию стоит 300, вот возьми и измени на 150. Это никак не влияет на исходные изображения, а только на то, как DjVu Solo будет их обрабатывать. В данном случае, будет пытаться сохранить больше деталей.
 
Об увеличении размера конечного DJVU в 3-4 раза я имел ввиду по сравнению не с исходными файлами, а с DJVU, сделанным с установками DPI в DjVu Solo по умолчанию.
 
Квант - журнал, наверное, имеется ввиду.
 
Короче, если исходники - это скан 300 dpi, то ставь в DjVu Solo режим Scanned 150 dpi - и сообщи о результатах. (Качество/размер по сравнению с исходным изображением.)
 
Как открывать исходные изображения, надеюсь, в курсе? Сначала открываешь первое, потом находишь в меню Append и добавляешь все остальные, следя за тем, чтобы они добавились в правильном порядке. Для этого в окне открытия/добавления файлов сначала ставишь курсор на последний файл, потом с нажатым Shift тыкаешь на первый.

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 01:14 20-08-2004 | Исправлено: estimated, 01:15 20-08-2004
DOE_JOHN

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
estimated Ужалось до 4.5 метров 68 страниц scaned 150dpi. Но неприятные эффект обнаружился. На тексте появились пятна. Т.е. вот строчка текста. Она должна быть одного "цвета" равномерная. А в режиме color на ней проявляются более светлые пятна. Текст уже хуже читается. В Black&White исправляется, но выглядит как то грубо.  
Пробовал Photo 150dpi 29,7 МБ. Кстати в нем есть только color и background, остальные режимы чистые.
Может надо пробовать другую программу. С более гибкими настройками. Или они все с 4 предустановленными режимами?
Как открывать исходные изображения, надеюсь, в курсе? не знал. Как то это через одно место
Сейчас нашел програмку deja vu 2.5 Public Beta 3 кто что по нее слышал?

Всего записей: 1595 | Зарегистр. 09-05-2004 | Отправлено: 00:30 21-08-2004
max67

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
DOE_JOHN
Мне кажется не стоит снижать разрешение до 150dpi. Ничего хорошего из этого не получится.
Может лучше отказаться от полутоновых 4bit рисунков? Насколько они принципиальны для журнала (и для вас)?
Если все сконвертировать в b/w, размер должен получиться примерно 5-10 kb на страницу.

Всего записей: 835 | Зарегистр. 10-06-2002 | Отправлено: 00:55 21-08-2004
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
DOE_JOHN
Давай сделаем так. Ты сбросишь мне на email пару типичных страниц, а я посмотрю, что там можно сделать. email сбросил тебе в ПМ.
Настройки можно попытаться менять в файле documenttodjvu.conf. Но для того, чтобы разобраться что там к чему, какие параметры на что влияют, и как это все работает - придется потратить не один десяток часов...

Цитата:
Как то это через одно место  

Наверное. Но предложи лучший метод - и тебе все скажут спасибо.

Цитата:
deja vu 2.5 Public Beta 3

Ссылки?
 
max67
У меня получались неплохие результаты при этих установках, поэтому и посоветовал человеку. Т.е. у меня скан делался в grayscale 8bit, перегон в DJVU как Scanned 150 dpi. Так сохраняется намного больше деталей (по сравнению со Scanned 300 dpi). Это и понятно, т.к. применяются разные установки для конвертации (см. documenttodjvu.conf, профили H-300dpi и H-150dpi). А почему тебе не понравился такой подход?
Согласен, что если вариант b/w подходит - то это лучше всего в плане степени сжатия.

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 02:10 21-08-2004
max67

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
estimated
Извиняюсь - с наскока не разобрался. Думал, что разговор идет про даунсэмплинг 300->150 dpi.  
В данном же случае действительно получается двукратный upsampling. Но тогда стоит обратить внимание на другие параметры, зависящие от dpi:
 
render-size=  
edge-size=
blurring-size=
high-variation-foreground= true
# JB2 clustering must be more conservative
conservative= true
tolerance-percent=
thickening=
 
Может их стоит взять из профиля для 300dpi, а conservative= true вообще нафиг?
И ещё. Исходные 300 dpi это ведь не так и плохо. Стоит ли их вообще апсэмплить.
 
p/s
Цитата:
deja vu 2.5 Public Beta 3

Это вьюер и к фоормату djvu ни какого отношения не имеет.

Всего записей: 835 | Зарегистр. 10-06-2002 | Отправлено: 03:55 21-08-2004
DOE_JOHN

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
estimated отправил. Сори за дубль, забыл файлы.

Всего записей: 1595 | Зарегистр. 09-05-2004 | Отправлено: 01:20 22-08-2004
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu
articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru