Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Модерирует : gyra, Maz

articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

   

ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Хотелось бы составить нечто вроде алгоритма действий для тех, кто оцифровывает в разные форматы (а таковых здесь много).
Например, что делать, если у человека есть книга без картинок и формул, если с картинками и формулами, если оригинал плохого качества, если он хочет, чтобы было удобно читать, чтобы файл был наименьшего объема и т.д. и т.п.
Давайте разберемся, какие форматы для каких целей подходят. Проблема отнюдь не надуманная.  


Софт:
1. LizardTech DocumentExpress и DjVu Solo  
2. ScanKromsator: Знаменитый кромсатор для обрезки получаемых при сканировании изображений, а также для разделения страниц, очистки от мусора и т.п. (есть FAQ). Автор: bolega. http://bolega.hotmail.ru/
3. DjVuReader: Альтернативный шустрый ридер для *.djvu. Автор: Dickobraz. http://www.opendjvu.nm.ru/
Обсуждение здесь.
4. AutoScan: Плагин для беспрерывного сканирования под IrfanView. Обновляется при выходе новой версии IrfanView. Автор: EL. autoscan.zip (4 KB)


Полезные ссылки по *.djvu:
http://www.cqham.ru/m2_scan.htm  
http://www.cqham.ru/djvu_print.htm    
http://www.cqham.ru/likbez_djvu.htm    
http://www.cqham.ru/djvu_ocr.htm    
 
Наш маленький FAQ по *.djvu:
1. Q: Что делать, если при конвертации происходит замена одних букв на другие, напр. "и" на "н" (проблема "инь" (с) Astra55)
    A: Возможные варианты рассмотрены здесь.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 18:51 02-03-2004 | Исправлено: ghosty, 03:53 18-12-2004
juliab



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Спасибо всем.
 
Попробовал и djvuextract и iview - не получается выдернуть все сразу, после первой страницы процесс успешно останавливается и все.
 
а в djvudecode я хочу bmp выдернуть, а после первой страницы он вываливается, я так понимаю, что-то с именем выходного файла надо сделать, как диапазон задать?
 
DjVuDecode.exe --output-format=bmp --layer=all --page-range=1-27 01.djvu 01.bmp
 
** Unrecognized DjVu Message: [Contact LizardTech for assistance]
        ** Message name:  Error
           Parameter: ** Unrecognized DjVu Message: [Contact LizardTech for assistance]
 
           Parameter: ** Message name:  BmpStream.bad_BMP
 
В bmp каждая страница по 16 метров, а потом пакетно конвернуть куда надо - без проблем, а в многостраничном тифе получается каждая страница примерно по 15, и с таким файлом мой комп просто не живет.

Всего записей: 46 | Зарегистр. 19-06-2002 | Отправлено: 08:34 09-06-2004
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
juliab
Ну, в набор файлов (TIF или PNG) - не многостраничный, а каждый по отдельности - конвертнуть получается? Если да, то в чем дальше проблема, чем ты их потом открываешь, что значит "комп не живет", что за комп в конце концов (проц/оперативка)?

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 10:07 09-06-2004
juliab



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
estimated
 
я ирфану говорю сконверти файл такой-то. Он честно берет из него страницу, конвертит в заданный формат и говорит, все, готово. Звездочки не всасывает
 i_view32.exe c:\01.djvu /convert=c:\temp\01.bmp
 
Получается, проблема, как задать выходное имя, чтобы получилось на выходе 70 файлов постранично каждый
 
Такая же проблема с djvuDecode
BMP могу получить только с одной страницы, опять же из-за имени выходного файла неизменного, скорее всего, потому как вылетает на ошибке после первой страницы, а многостраничный тиф размером  в гиг с хвостиком - чего мне с ним делать.

 
Добавлено
все получилось
это русификатор что -ли кривой в ирфане, пункта "многостраничное изображение" не было
Переключился на английский фейс и все нашлось.

Всего записей: 46 | Зарегистр. 19-06-2002 | Отправлено: 10:26 09-06-2004
max67

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
juliab
Вижу что опоздал с рацпредложениями. Ну и хорошо что с ирфаном все получилось.
 
С DjVuDecode можно использовать консольный for-цикл или засунуть все в какой-нибудь коммандный файлик, например:
tobmp.cmd
******************
md .\Out
for /L %%i in (1,1,6) do DjVuDecode.exe --output-format=bmp --page-range=%%i tt.djvu .\Out\%%i.bmp
******************
Наверняка, можно замутить и что-нибудь более универсальное, но это для знатоков консольных извращений.
 
xalex

Цитата:
программа для декодирования словаря  

Никогда про такое дело не слышал. В стандартном наборе утилит от lizardteсh и djvulibre такой возможности нет.
Лучше спросить на офсайте djvulibre.
 
cornborer
Сейчас вышлю. (Если все еще надо.)

Всего записей: 835 | Зарегистр. 10-06-2002 | Отправлено: 11:08 09-06-2004
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
juliab
Значит, через GUI в IrfanView получилось.
А в командной строке ты перепутал "convert" с "extract" и вместо имени целевого файла надо задавать целевую папку. В общем, еще раз внимательно посмотри на формат команды, указаный мной на предыдущей странице.
 

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 12:52 09-06-2004
cornborer



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
max67
10х!

Всего записей: 5122 | Зарегистр. 09-12-2001 | Отправлено: 06:04 10-06-2004
MusicLover



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Народ, я вот что не удобно, что в djvu и pdf нельзя выдрать текст из файлов... Или из pdf в Quark или Photoshop можно достать? Я не проверял пока...

Всего записей: 1877 | Зарегистр. 23-10-2002 | Отправлено: 06:29 10-06-2004
Meaningless

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А как сделать экспорт в графику всего файла djvu

А что, просто в FinePrint напечатать на скорую руку не катит?
Собственно это касается любого формата...

Всего записей: 1042 | Зарегистр. 17-01-2003 | Отправлено: 10:52 10-06-2004
Dickobraz

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
На opendjvu.nm.ru выложил исправленную версию djvused.exe. Теперь при экспорте текста, аннотации и мета-тегов все выводится в символах, а не в восьмеричных кодах. Но требуется глубокое тестирование.

Всего записей: 32 | Зарегистр. 19-05-2004 | Отправлено: 12:07 11-06-2004
Nep



Moderator
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Astra55

Цитата:
WBR,  
Astra

Эмуляция подписи запрещена!

----------
на форуме редко.Модером не являюсь.Татл обман :)

Всего записей: 41940 | Зарегистр. 24-06-2001 | Отправлено: 09:57 12-06-2004
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dickobraz
скачал djvu_utils.zip, там в cjb2.html читаю:

Цитата:
...Lossy compression is enabled by selecting option -lossy or option -clean
...
-clean
Remove flyspecks from the input image. This option enables a heuristic algorithm that removes very small marks. Such marks are often causes by noise and dust during the scanning process. The threshold mark size is chosen according to the resolution specified with option -dpi.

 
Они (составители хелпа) что там, CLEAN со SCAN перепутали?
В cjb2.exe в качестве опций можно использовать и то и другое?

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 14:15 21-06-2004
xalex

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
estimated

Цитата:
Они (составители хелпа) что там, CLEAN со SCAN перепутали?
 
 
Тут (в djvulibre/cjb2) "clean" - глагол,
а в Djvu Solo/Edit "clean" - прилагалельное.
 
Так что все нормально.

Всего записей: 818 | Зарегистр. 19-01-2003 | Отправлено: 17:45 21-06-2004
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xalex: спасибо! теперь понятно

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 22:30 21-06-2004
gencho



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty

Цитата:
У меня сейчас другая проблема - небольшая, но неприятная. После использования утилитки от Генчо при копировании русского текста из созданного файла этот текст неизменно отображается в виде кракозябликов. Пока решения не нашел. Кто-нибудь сталкивался?

 
Побольше подробности можно?  
Проблем еще стоит или все уже в порядке?
Версия FRFGrab с которой дело сделано, языки указанные в FineReader, codepage и локальный язык компутера, на котором сделана обработка?

Всего записей: 321 | Зарегистр. 20-06-2003 | Отправлено: 15:04 23-06-2004
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
2 estimated
 
Косяк судя по всему в винде. Есть такой прикол - если на клаве язык выбран другой, то в некоторых софтах в буфер записывается неизвестно что. Софт Генчо я прогонял тщательно. проблем не было.
 
WBR,
Astra55

----------
Per warez ad scientiam

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 20:12 23-06-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
gencho

Цитата:
Побольше подробности можно?  
Проблем еще стоит или все уже в порядке?  
Версия FRFGrab с которой дело сделано, языки указанные в FineReader, codepage и локальный язык компутера, на котором сделана обработка?  

Спасибо за отклик. Проблема разрешилась. Без моего ведома были изменены языковые настройки системы, а я грешил на твою программу. Мне надо было разобраться вначале.
Благодарим за утилиту.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 01:18 24-06-2004
Meaningless

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Косяк судя по всему в винде

Это не косяк, это фича
 

Цитата:
Есть такой прикол - если на клаве язык выбран другой, то в некоторых софтах

во всех, которые не поддерживают Unicode

Всего записей: 1042 | Зарегистр. 17-01-2003 | Отправлено: 12:52 24-06-2004
gencho



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Meaningless

Цитата:
во всех, которые не поддерживают Unicode

 
Я ето знаю. Но когда я попробовал конвертировать текст с ФайнРидера, не минуя через локальный язык, DjVu browser начал при Copy/Paste иногда выдавать польная чушь. Какой то символ сбивает браузера. Я думаю что ето какая то ошибка в браузере. Поетому и предупреждение стоит в readme, что язык распознавания ФайнРидера должен соответствовать локального языка компутера.

Всего записей: 321 | Зарегистр. 20-06-2003 | Отправлено: 18:03 24-06-2004
asdfg2003



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
давно не слышно новых версий кромсатора..проект закрыт?
как идет развитие ридера для *.djvu от Dickobraz?

Всего записей: 169 | Зарегистр. 03-03-2003 | Отправлено: 14:46 25-06-2004
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
 
давно не слышно новых версий кромсатора..проект закрыт?  

Идет подготовка новой версии, терпение.
Слишком много нового.

Всего записей: 4430 | Зарегистр. 09-09-2002 | Отправлено: 09:53 28-06-2004
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu
articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru