Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Модерирует : gyra, Maz

articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

   

ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Хотелось бы составить нечто вроде алгоритма действий для тех, кто оцифровывает в разные форматы (а таковых здесь много).
Например, что делать, если у человека есть книга без картинок и формул, если с картинками и формулами, если оригинал плохого качества, если он хочет, чтобы было удобно читать, чтобы файл был наименьшего объема и т.д. и т.п.
Давайте разберемся, какие форматы для каких целей подходят. Проблема отнюдь не надуманная.  


Софт:
1. LizardTech DocumentExpress и DjVu Solo  
2. ScanKromsator: Знаменитый кромсатор для обрезки получаемых при сканировании изображений, а также для разделения страниц, очистки от мусора и т.п. (есть FAQ). Автор: bolega. http://bolega.hotmail.ru/
3. DjVuReader: Альтернативный шустрый ридер для *.djvu. Автор: Dickobraz. http://www.opendjvu.nm.ru/
Обсуждение здесь.
4. AutoScan: Плагин для беспрерывного сканирования под IrfanView. Обновляется при выходе новой версии IrfanView. Автор: EL. autoscan.zip (4 KB)


Полезные ссылки по *.djvu:
http://www.cqham.ru/m2_scan.htm  
http://www.cqham.ru/djvu_print.htm    
http://www.cqham.ru/likbez_djvu.htm    
http://www.cqham.ru/djvu_ocr.htm    
 
Наш маленький FAQ по *.djvu:
1. Q: Что делать, если при конвертации происходит замена одних букв на другие, напр. "и" на "н" (проблема "инь" (с) Astra55)
    A: Возможные варианты рассмотрены здесь.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 18:51 02-03-2004 | Исправлено: ghosty, 03:53 18-12-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
EL
Только что установил Irfan и твой скрипт. Отличная идея!
Есть одно но: можно ли сделать так, чтобы отсканированная страница все-таки отображалась в Irfan? Пока твоя идея работает для идеальных книг с идеальными  для сканирования переплетами. У меня обычно бывает так, что в некоторых случаях страницу приходится пересканировать.
Пока не разобрался, где в скрипте устанавливается задержка по времени м/ду сканами.

----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 07:18 03-04-2004
EL

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty:

Цитата:
можно ли сделать так, чтобы отсканированная страница все-таки отображалась в Irfan?

Да можно, конечно, но это будет дополнительная задержка.

Цитата:
где в скрипте устанавливается задержка по времени м/ду сканами

пока нигде. Сделать, конечно, тоже можно. Но моя цель была: обеспечить как можно большую производительность.
 
Насчет проблемы с переплетами: ты не пробовал сканировать в grayscale?

Всего записей: 48 | Зарегистр. 02-04-2004 | Отправлено: 13:09 03-04-2004
dosya



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
есть такая вещч как perfectscan, который работает и как промежуточный сервер (расшаривает осн. сканер в сети) и позволяет пакетно сканировать

Всего записей: 738 | Зарегистр. 27-02-2003 | Отправлено: 14:42 03-04-2004
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Ентот перфектскан - редкостный отстой, я за ним слежу с момента выхода, на редкость кривой и глючный софт, увы!
То, что сделал ghosty - очень здорово, но лучше бы все это в сам Ирфан встромить. Может написать Ирфану насчет такой доработки? У меня уже была с ним переписка по поводу дежавю, сделать он ничего не сделал, но отвечал исправно.
 
WBR,
Astra
 
 
Добавлено
Прошу прощения, перепутал ники. Автор EL, а не ghosty

----------
Per warez ad scientiam

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 17:14 03-04-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Astra55

Цитата:
Ентот перфектскан - редкостный отстой

Да, снес только что. Глюк на глюке. А хотят за него 200 евро
Есть ведь и другой софт, видимо.
Например, АвтоСкан некий: http://www.visionshape.com/autoscan.html. Не пробовал никто?
EL
Подскажи, как таймер вставить, а то я в NotePad'e попробовал написать, вылезают баги, а среду устанавливать не хочется.

----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 07:26 04-04-2004
EL

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty:

Цитата:
 
AutoScan 1.3
============
http://labun.com/autoscan.zip
 
History
-------
 
1.2 [2004-04-02]
first public release
 
1.3 [2004-04-04]
[+] DelayBetweenScans
 

Всего записей: 48 | Зарегистр. 02-04-2004 | Отправлено: 16:11 04-04-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
EL
Спасибо большое еще раз. Утилитка, действительно, очень полезная. Развивай ее и пиши сюда, пожалуйста, об обновлениях

----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 20:05 04-04-2004
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
У меня работает на HP7400 и родном софте, но вот параметры не задаются, в смысле сканирует на 200 dpi, как ни старался, но не могу заставить запомнить установки в TWAIN. Может в скрипте можно это как-нибудь сделать? Чтобы в TWAIN просто передавались параметры, нечто подобное есть в софте 0X Copy Machine.
 
WBR,
Astra

----------
Per warez ad scientiam

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 21:57 04-04-2004
EL

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty: приятно слышать
 
Astra55:

Цитата:
Может написать Ирфану насчет такой доработки?

Я как то даже не подумал о таком варианте. Но сделать это ему - раз плюнуть. (Просто добавится галочка в опиции "Batch Scan": не открывать окно Twain-драйвера).

Цитата:
не могу заставить запомнить установки в TWAIN

Ну значит, у тебя при сканировании из любого софта через родное GUI Twain-драйвера не запоминаются установки. Запоминать установки - это задача как раз этого GUI.  
 
Поэтому, первый вариант: попробуй поискать, где хранятся установки: посмотри INI-файлы в папках, куда сканер устанавливал свой софт (не только WINDOWS\twain_32). Может быть удастся что-то вручную поменять. На INI-файлах случайно атрибут read only не стоит?
 
Второй вариант: если у тебя одновременно появляется WIA Twain источник - попробуй сканировать через него. Настройки там победнее - но в целом могут оказаться достаточными.
 
Третий вариант: это взаимодействовать с Twain-драйвером напрямую, без GUI
(мой скрипт на самом деле взаимодействует, посредством Irfanview, с драйвером сканера через его GUI. Просто окно GUI остается скрытым.) Примеры: тот же 0X Copier (нашел здесь http://www.port-al.com/copier/ - его ты имел ввиду?) Но через скрипт VBS это так просто сделать не получится, да и GUI надо будет делать. Честно говоря, я сейчас просто не готов этим заниматься. Может все-таки подойдут варианты 1 или 2?

Всего записей: 48 | Зарегистр. 02-04-2004 | Отправлено: 16:02 05-04-2004 | Исправлено: EL, 16:06 05-04-2004
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
2 EL
 
>Я как то даже не подумал о таком варианте. Но сделать это ему - раз плюнуть. (Просто >добавится галочка в опиции "Batch Scan": не открывать окно Twain-драйвера).  
 
Еще нужно будет сделать сканирование через промежуток времени, как в ФайнРидере. У меня уже накопился виш-лист к Ирфану, ладно, накатаю ему письмишко, глядишь что и сделает.
Что до инишных файлов, то этот гребаный софт от НР не имеет таких установок, я уже все обшарил что только можно было, нигде нет. Они еще и сделали несовместимыми свои  новые модели сканеров с другим софтом. У меня есть CFM TWAIN, лицензионный, классная штука, но только под SCSI, я им писал, что НР7400 не работает с софтом, они ответили, мол НР теперь засекретил команды TWAIN, и невозможно добавить поддержку новых сканеров. Вот собаки НР-шные!
WBR,
Astra


----------
Per warez ad scientiam

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 17:18 05-04-2004
IvenGo



Junior Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Как я понял из темы, если нужно перевести pdf gif bmp jpg или tiff в djvu, то лучше всего пользоваться  виртуальным принтером из пакета Document Express Pro 4.01 И 235 . И при этом tiff желательно перед этим конвертнуть в pdf. Так я понял?

Всего записей: 197 | Зарегистр. 19-08-2003 | Отправлено: 13:14 22-04-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
IvenGo
Нет, это был ошибочный путь Лучше пользоваться самим ДокЕкспрессом...

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 14:28 22-04-2004
IvenGo



Junior Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору

Цитата:
Лучше пользоваться самим ДокЕкспрессом...

Но он напрямую pdf не жрет. Переводить в tiff`ы?
Кто нить может вообще по РУсски просветить насчет pdf gif bmp jpg и tiff ? Какой из форматов для чего удобен? как устроен? вкрадце. И действительно ли дежавю круче чем pdf jpg и giff?

Всего записей: 197 | Зарегистр. 19-08-2003 | Отправлено: 12:33 23-04-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
IvenGo

Цитата:
Но он напрямую pdf не жрет. Переводить в tiff`ы?  

Да.

Цитата:
Кто нить может вообще по РУсски просветить насчет pdf gif bmp jpg и tiff ? Какой из форматов для чего удобен? как устроен? вкрадце. И действительно ли дежавю круче чем pdf jpg и giff?

См. в шапке.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 22:00 23-04-2004
EL

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
В IrfanView 3.90 добавился новый формат для сохранения, изменились внутренние цифровые индексы для форматов. Переделал соответствующим образом AutoScan. Добавил проверку на версии IrfanView.
 

Цитата:
 
AutoScan 1.4
============
http://labun.com/autoscan.zip
...
History
...
[+] IrfanView 3.90 is now supported
 

Всего записей: 48 | Зарегистр. 02-04-2004 | Отправлено: 17:25 29-04-2004 | Исправлено: EL, 17:30 29-04-2004
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Новый Ирфан 3.90 научился смотреть многостраничные djvu, что весьма радует.
 
WBR,
Astra

----------
Per warez ad scientiam

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 20:55 29-04-2004
EL

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Astra55: да, это здорово! Эх, ему бы еще лупу по Ctrl, копки by width / by hight на панели и скорость прорисовки увеличить раз в 5 - вообще можно было бы от DJVU-плагина отказаться.
 
 
 
Слегка улучшил AutoScan. Можно забирать по тому же адресу.
 
На будущее сделаю так: здесь буду сообщать только о существенных изменениях (если таковые будут).  
 
Если в ходе работы возникнут какие-то проблемы (хотя до сих пор вроде бы и не возникало, но мало ли) - просто скачайте AutoScan еще раз, может я там как раз что-то улучшил Если проблема не исчезла - напишите здесь, или лучше мне по eMail (адрес в TXT-файле в архиве AutoScan).
 
Адрес загрузки буду держать постоянным: http://labun.com/autoscan.zip .
 
Ну и удачи всем!

Всего записей: 48 | Зарегистр. 02-04-2004 | Отправлено: 23:18 12-05-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
EL
Прибил к шапке. Если хочешь, можешь изменить "рекламный текст"

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 08:51 13-05-2004
EL

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty: годится вполне Коротко и ясно.

Всего записей: 48 | Зарегистр. 02-04-2004 | Отправлено: 14:22 13-05-2004
Dickobraz

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Привет всем!
Ну раз это ветка о djvu, то мне сюда.
Переводом сканов в djvu занимаюсь давно, уже накоплен некоторый опыт. Чуть позже напишу статью как я все это делаю. Сейчас хочу сказать о своей проге DjVuReader. Писал ее как альтернативу плагину от LizardTech, т.к. очень не хватало некоторый функций. Ну вот вышла очередная бетка. Возможности следующие: понимает любой формат, показывает как по одной странице, так и в разворот, при развороте 2 режима- книга (когда первая и последняя стр отдельно) и постер (все страницы в разворот), понимает внедренные в метаданные djvu заголовок, индксы страницы и оглавление...
Ну и так далее. Проект в развитии и все время появляется что-то новое. Что порадовало - многостраничные файлы открывает быстрее чем плагин. Что не порадовало - мелкие лики памяти и глюк при масштабировании в Win2000. Все добро лежит на www.opendjvu.nm.ru

Всего записей: 32 | Зарегистр. 19-05-2004 | Отправлено: 08:40 19-05-2004
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu
articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru