Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Модерирует : gyra, Maz

articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

   

ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Хотелось бы составить нечто вроде алгоритма действий для тех, кто оцифровывает в разные форматы (а таковых здесь много).
Например, что делать, если у человека есть книга без картинок и формул, если с картинками и формулами, если оригинал плохого качества, если он хочет, чтобы было удобно читать, чтобы файл был наименьшего объема и т.д. и т.п.
Давайте разберемся, какие форматы для каких целей подходят. Проблема отнюдь не надуманная.  


Софт:
1. LizardTech DocumentExpress и DjVu Solo  
2. ScanKromsator: Знаменитый кромсатор для обрезки получаемых при сканировании изображений, а также для разделения страниц, очистки от мусора и т.п. (есть FAQ). Автор: bolega. http://bolega.hotmail.ru/
3. DjVuReader: Альтернативный шустрый ридер для *.djvu. Автор: Dickobraz. http://www.opendjvu.nm.ru/
Обсуждение здесь.
4. AutoScan: Плагин для беспрерывного сканирования под IrfanView. Обновляется при выходе новой версии IrfanView. Автор: EL. autoscan.zip (4 KB)


Полезные ссылки по *.djvu:
http://www.cqham.ru/m2_scan.htm  
http://www.cqham.ru/djvu_print.htm    
http://www.cqham.ru/likbez_djvu.htm    
http://www.cqham.ru/djvu_ocr.htm    
 
Наш маленький FAQ по *.djvu:
1. Q: Что делать, если при конвертации происходит замена одних букв на другие, напр. "и" на "н" (проблема "инь" (с) Astra55)
    A: Возможные варианты рассмотрены здесь.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 18:51 02-03-2004 | Исправлено: ghosty, 03:53 18-12-2004
EL

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Astra55
Насчет прикрутки AutoScan к DjVu Editor пока ничего не получилось, да и как сам процесс выглядеть должен, тоже не вполне понятно.
 
Вот, написал еще одну небольшую утилитку. Надеюсь, кому-нибудь еще пригодится.

Цитата:
 
Auto Enable IrfanView
=====================
 
Программа после запуска помещается в правый нижний угол экрана и автоматически
делает доступным окно IrfanView, если по каким-то причинам оно оказалось
недоступным.
 
Например, окно TWAIN-драйвера v2.6 для Umax Astra 4500, в отличие от предыдущих
версий, запускается в модальном режиме, что делает окно IrfanView недоступным.
Вполне возможно, что так же себя ведут и некоторые другие программы для
сканирования. Онако, это очень неудобно, так как для того, чтобы осканировать
несколько изображений, необходимо каждый раз закрывать и вновь открывать окно
TWAIN-драйвера.
 
Теперь проблем нет. Просто запускаем ew.exe - и окно IrfanView в любой момент
доступно.
 

http://labun.com/auto_enable_irfanview.zip
15.8 KB

Всего записей: 48 | Зарегистр. 02-04-2004 | Отправлено: 15:56 06-01-2005 | Исправлено: EL, 20:31 06-01-2005
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Понятно. Но поскольку уже найдена возможность прикрутить AutoRecorder к любому софту, то моя просьба не так актуальна. Беда еще и в том. что Ирфан некорректно работает с TWAINом, во всяком случае, с НР-шным. Звук сканера становится натужным, увеличивается время сканирования, явное не то. Такая же картина с VueScan. Зато через родной WIA все летает, равно как и в ФайнРидере.
 
Добавлено
Забыл добавить: если кто не в курсях - уже имеется рабочая версия Эдитора 5 с OCR, в том числе и с русским. Проблемы решены благодаря mas, за что ему всенародное уважение и признательность.
Русский вариант на подходе.

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 18:10 06-01-2005
VovIK



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Astra55

Цитата:
Забыл добавить: если кто не в курсях - уже имеется рабочая версия Эдитора 5 с OCR, в том числе и с русским. Проблемы решены благодаря mas, за что ему всенародное уважение и признательность.  
Русский вариант на подходе.

 
А где взять-то можно "рабочая версия Эдитора 5 с OCR, в том числе и с русским"???

Всего записей: 7149 | Зарегистр. 31-03-2004 | Отправлено: 18:24 06-01-2005
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
http://www.lizardtech.co.jp/download/djvu/modules/windows/editor/5.0/ProfessionalEditor.zip
56,5 метров. За лекарством в соседнюю ветку. Рипнутые варианты в ближайшее время появятся для закачки.

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 19:55 06-01-2005
EL

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Astra55

Цитата:
Беда еще и в том. что Ирфан некорректно работает с TWAINом, во всяком случае, с НР-шным

imho вряд ли это связано с IrfanView, он ведь не вмешивается в собственно процесс сканирования. Дело скорее всего в родных TWAIN-драйверах HP (проверить легко: при использовании из любого графического редактора, напр. DjVu Editor, должны появиться те же проблемы). Драйвера Windows WIA и от FineReader - это тоже TWAIN-драйвера, только от "сторонних" по отношению к сканеру производителей.
 
Добавлено
Поправочка: драйвер сканера, встроенный в FineReader, конечно же, не является TWAIN, т.к. не предоставляет доступа к нему из других приложений.

Всего записей: 48 | Зарегистр. 02-04-2004 | Отправлено: 20:29 06-01-2005
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Испробовал 5-ю версию. Сравнил с 4-й.
В книге, которую я преобразовывал, в основном содержится текст, немного уравнений и графиков и таблиц.  
4-я версия. Настройки:
documenttodjvu.conf - BITONAL PROFILES:
bitonal300: bitonal
pages-per-dict=1000
dpi=-300
 
При выборе опций в диал. окне сохранения: bundle, 300, bitonal.
Размер файла *.djvu - 714Kb.
 
5-я версия. Настройки:
documenttodjvu.conf - BITONAL PROFILES:
#@displayName:Bitonal (300 dpi)
#@readOnly:true
pages-per-dict=1000
bitonal300: bitonal
dpi=-300
 
При выборе опций в диал. окне сохранения:
Initial Conv. Setting ->
   Profile         -> bitonal
   DPI             -> 300
   Text Quality -> aggressive
Multi Page Setting -> bundle
Размер файла *.djvu - 844Kb.
 
Где я неправ? Откуда при одинаковых настройках (в последнем случае качество текста даже хуже должно быть) лишние 130 Kb?

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 00:38 07-01-2005 | Исправлено: ghosty, 00:43 07-01-2005
TCPIP

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty
23:38 06-01-2005
Цитата:
Откуда при одинаковых настройках (в последнем случае качество текста даже хуже должно быть) лишние 130 Kb?

А номер версии куда он будет пихать! Посмотрите, может он напихал в каждую страницу водяных знаков Слава КПСС!?

Всего записей: 4667 | Зарегистр. 31-01-2003 | Отправлено: 05:24 07-01-2005
andrejka k

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bdfy

Цитата:
 
Господа, а какие операции принято проводить надо зашумленным источником чтобы убрать грязь , шумы и
пр. и улучшить качество сканирования? Использую фотошоп например? я Magic tool пытался приспособить
серую грязь чистить, но выделяет он цвет что-то не на всем рисунке  Еще кривые помогают, но текст
бледнеет при этом и иногда теряет читабельность
Еще способы ? ( ластик не предлагать )
 

На мой взгляд, самым идеальным средством борьбы с грязью на сканах является не так давно анонсированный BookRestorer. Собственно, из названия ясно, для чего предназначена прога. Там IMHO самый лучший despeckle. А хорош он прежде всего тем, что можно выбрать размер спеклов в пикселах (например, 2x2, 3x3,4x4 и т.д.) и, тут же, не отходя от кассы, просмотреть результат. Т.е. найти с увеличением самый маленький элемент, который бы не хотелось потерять в результате despeckle, и просто применить этот инструмент. Результат сразу же виден. Не удовлетворен - изменить размер спеклов. И так далее по получения оптимального результата.
Однако самый большой минус программы (не считая ее "веса" в 15 568 761 байт!!!) - ее триальность Ломать-то ее ломали, но не доломали. В результате после примерно месяца работы исчезает панель со скриптами, т.е. то, без чего программа превращается в груду байт на жестком диске. Этот недостаток был замечен, и, говорят, над ним уже идет работа Разные нехитрые махинации позволяют все-таки запустить программу: для этого достаточно перевести системное время назад. Но это нельзя назвать комфортной работой. Кроме того, там замечательная "выравнивалка" текста с кучей настроек и проч. Одним словом, очень хороший инструмент. Неотъемлнмый аттрибут для Кромсатора (спасибо, Болега!!!), о котором тебе уже сказали. Таково мое личное мнение.
P.S.: Брать можно здесь
hxxp://home.farlep.net/~roman//afina/restorerofbooks.zip

Всего записей: 1236 | Зарегистр. 13-05-2003 | Отправлено: 21:50 07-01-2005
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
RasterID тоже выпрямляет сканы и чистит мусор. Но ограничений по времени у него нет. Сегодня озадачивал его пакетным заданием, все сделал как требовалось.

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 22:47 07-01-2005
fader

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Привет всем!
Сорри за офтоп    
Может ли кто нибудь еще раз выложить DjVuer PRO 2.0b1
Зараннее благодарен

Всего записей: 4 | Зарегистр. 21-02-2004 | Отправлено: 00:16 08-01-2005
dmitin



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
fader
2_0beta1
bmp поменять на rar

Всего записей: 449 | Зарегистр. 22-08-2004 | Отправлено: 01:54 08-01-2005
Arcand

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Astra55
Не знал про RasterID. Можно про этот софт поподробней или где прочитать. А также где взять (я понимаю, яндекс и пр., но здесь самые спецы..., как говорится из первых рук).
Заранее спасибо.
 
Добавлено k
 
andrejka k
Если Вас не затруднит, сообщите, когда BookRestorer долечат.

Всего записей: 2496 | Зарегистр. 28-05-2004 | Отправлено: 06:08 08-01-2005 | Исправлено: Arcand, 06:23 08-01-2005
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
RasterID 2.1 берется на пиратских сидюках с названием типа "Софт Интегратор 2004. Программы для работы со сканерами", девелопер российский, называется
"Consistent Software". Все на русском, единственное, чего я не нашел - подключение OCR, то ли плохо искал, то ли оно заблокировано. Размер дистрибутива - 30 метров.
Вот краткое описание:
--------------------------
Программа RasterID предназначена для обработки и извлечения данных из
чертежных штампов на сканированных изображениях в интерактивном и
пакетном режимах.
Области применения:
Архитектура, строительство, проектирование, документооборот, управление
жилым и нежилым имуществом и недвижимостью.
Поддерживаемые форматы:
Монохромные TIFF, BMP, RLC, CAL, C4, TG4.
Цветные: BMP, PCX, JPG, JPEG, TIF, ECW.
Возможности:
Сканирование с использованием интерфейса TWAIN.
Прямое сканирование на сканерах фирмы CONTEX.
Широкий выбор средств:
  зеркальное отображение;
  повороты на 90, 180, 270 градусов;
  обрезка;
  автоматическое и ручное устранение перекосов;
  коррекция по 4 точкам;
  подгонка к ближайшему формату бумаги;
  разделение по размеру объектов;
  удаление мусора и дырок;
  сглаживание;
  инверсия (негатив).
Набор цветных фильтров.
Пакетный режим.
Распознавание конфигурации штампов и их содержимого.
Экспорт штампов в MS Excel или другую базу данных.
Собственные средства распознавания букв (OCR) с обучением.
Возможность использования программ OCR от других производителей.          
-------------------------

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 08:18 08-01-2005
kvk



Moderator
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Astra55
А как насчет залить ко мне, с последующей раздачей, а то я как забрался на рубоард, так на рынок ходить перестал  
Спасибо!  
Удачи

Всего записей: 9240 | Зарегистр. 23-12-2001 | Отправлено: 12:53 08-01-2005
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
И каким образом я это должен заливать? Сразу скажу, что хттп и фтп для такого объема не катят, провайдер такой у меня. Давайте НЕХАЛЯВНОЕ русское мыло или нормальный зарубеж, залью кусками по метру и не за один раз. Никаких других вариантов я не вижу.

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 18:36 08-01-2005
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Astra55: могу принять на мыло и перебросить kvk любым образом. Мыло бросил в ПМ.

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 01:12 09-01-2005
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TCPIP

Цитата:
А номер версии куда он будет пихать!


Похоже я понял. В пятой версии почему-то не читается эта строка:
pages-per-dict=1000
До сих пор увеличение кол-ва страниц на словарь благотворно сказывалось на степени сжатия. Никто не знает, почему это может не работать в 5-й?
Кстати, думаю, что проблема "инь" может быть решена в частности и путем подбора этого параметра.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 01:57 09-01-2005 | Исправлено: ghosty, 01:57 09-01-2005
Stranger1



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Решил вот книжку отсканировать. Углубился в науку сканирования...
Вопросов масса конечно. Пару дней вот изучаю.
Думаю за это время уже спокойно эту книжку напечатать бы успел
Так пока и не решил в чём делать: PDF или DJVU.
 
У меня вопрос по поводу скрипта к EL, который здесь уже был.
Скрипт работает, но всё сохраняется в 72 dpi, в любом формате.
Как-то удалось решить эту проблему?
 
PS У меня Win2k sp4, Epson Perfection 2400.

Всего записей: 352 | Зарегистр. 08-02-2003 | Отправлено: 16:08 09-01-2005
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty

Цитата:
pages-per-dict=1000
думаю, что проблема "инь" может быть решена в частности и путем подбора этого параметра

что, действительно, получаются разные результаты в плане "инь"? Ведь по идее этот параметр на сам энкодинг влиять не должен.

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 16:11 09-01-2005
xalex

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty

Цитата:
Похоже я понял. В пятой версии почему-то  
не читается эта строка: pages-per-dict=1000  

Значит 5-я версия пока взломана не полностью.
 
А какое значение pages-per-dict реально используется  
при сжатии ?

Всего записей: 818 | Зарегистр. 19-01-2003 | Отправлено: 17:59 09-01-2005
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu
articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru