Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Модерирует : gyra, Maz

articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

   

ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Хотелось бы составить нечто вроде алгоритма действий для тех, кто оцифровывает в разные форматы (а таковых здесь много).
Например, что делать, если у человека есть книга без картинок и формул, если с картинками и формулами, если оригинал плохого качества, если он хочет, чтобы было удобно читать, чтобы файл был наименьшего объема и т.д. и т.п.
Давайте разберемся, какие форматы для каких целей подходят. Проблема отнюдь не надуманная.  


Софт:
1. LizardTech DocumentExpress и DjVu Solo  
2. ScanKromsator: Знаменитый кромсатор для обрезки получаемых при сканировании изображений, а также для разделения страниц, очистки от мусора и т.п. (есть FAQ). Автор: bolega. http://bolega.hotmail.ru/
3. DjVuReader: Альтернативный шустрый ридер для *.djvu. Автор: Dickobraz. http://www.opendjvu.nm.ru/
Обсуждение здесь.
4. AutoScan: Плагин для беспрерывного сканирования под IrfanView. Обновляется при выходе новой версии IrfanView. Автор: EL. autoscan.zip (4 KB)


Полезные ссылки по *.djvu:
http://www.cqham.ru/m2_scan.htm  
http://www.cqham.ru/djvu_print.htm    
http://www.cqham.ru/likbez_djvu.htm    
http://www.cqham.ru/djvu_ocr.htm    
 
Наш маленький FAQ по *.djvu:
1. Q: Что делать, если при конвертации происходит замена одних букв на другие, напр. "и" на "н" (проблема "инь" (с) Astra55)
    A: Возможные варианты рассмотрены здесь.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 18:51 02-03-2004 | Исправлено: ghosty, 03:53 18-12-2004
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Astra55: спасибо, все получил. Раздавать в широких масштабах нет возможности, но 3-5 человекам могу перебросить. В случае чего пишите пм. Сам софт пока не пробовал.

Цитата:
Я поотстал от жизни

я наверное, отстал еще больше Что такое "колхоз" и где он находится?

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 23:37 12-01-2005
dmitin



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
estimated

Цитата:
Что такое "колхоз" и где он находится?

Про доступ к колхозному FTP см. в шапке топика по поиску физматхимбиомедлит в Варезнике. Колхозный сторож - Basilz.

Всего записей: 449 | Зарегистр. 22-08-2004 | Отправлено: 23:53 12-01-2005 | Исправлено: dmitin, 23:55 12-01-2005
Stranger1



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Попробую упростить вопрос.
 
С каким dpi (300, 600, 1200, 4800...) и в каком формате (bmp, tiff...) отсканировать
книгу с большим количеством фотографий, чтобы получить высокое качество
в выходном конечном файле djvu или pdf?
 
Вроде бы все сканированием и оцифровкой занимаются,
неужели никто не подскажет?

Всего записей: 352 | Зарегистр. 08-02-2003 | Отправлено: 00:24 13-01-2005
Aegis



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
2 Stranger1
 
сохраняй в TIF с компрессией, сканируй в зависимости от качества принта в книжке (какой там растр) - от 300 до 600. По идее 300 должно хватить заглаза.
Ну и с первого же скана на Дежаву кинь и увидишь чего хватает, чего не годится...

Всего записей: 665 | Зарегистр. 06-09-2001 | Отправлено: 00:38 13-01-2005
Stranger1



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Aegis
Спасибо.
 
А если планируется в дальнейшем распознать текст, то лучше всё-таки наверно в 600?
Или я не прав. Качество книжки отменное.

Всего записей: 352 | Зарегистр. 08-02-2003 | Отправлено: 00:47 13-01-2005
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
dmitin: спасибо за инфу!
 
Stranger1
Не знаю, что там лежит на http://fishchel.amillo.net/knigi.html, но тот Маргулис, что есть у меня (pdf 45.053.221 bytes) - это никакой не OCR, а настоящая оригинальная электронная версия книги (русский перевод 2001 года с "Professional Photoshop б: the classic guide to color correction", 2000). Потому и качество идеальное. Такого сканированием и распознаванием просто не добиться (или затраты будут в несколько раз превышать стоимость книги с доставкой в любую точку мира). И цветопередача у сканера должна быть идеальная. И человек должен обладать опытом профессиональной верстки. И т. д. Так что Маргулис - неудачный выбор для оцифровки.
 
Кстати, а что нового в этом 4-м издании? Оно случайно не "стереотипное"?

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 04:42 13-01-2005 | Исправлено: estimated, 04:48 13-01-2005
Arcand

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
На офсайте анонсирован RasterID 3.1 Как бы .... ???

Всего записей: 2493 | Зарегистр. 28-05-2004 | Отправлено: 08:25 13-01-2005
kvk



Moderator
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
estimated
Растер ИД у меня можно заберать без проблем, для такого объема скорость терпимая. По логину scib:sci в папке soft ip через gv/ Я в отъезде так что могу отвечать не быстро.
 
Stranger1
Замотан я извинения. 1. плотно прижимать к сканеру. 2. если время и объем не напрягают то 600 (лучше 1200 но уж это излишество). 3. пдф djvu по гамбургскому счету разница только в объеме (мне пдф кажется чуть поудобнее).
 
сканирование идет в тиффы их и кромсатору и фр скармливаем а уж потом делаем пдф или djvu
Далее сканировать прийдется в цвете как я понял.
если много фотографий поискать в кромсаторе фичу исключения областей (фотографий из обработки) и тогда уж в djvu лучше (цифровать файнридером и оср добавлять утилиткой от Gencho в последней версии не сложно).
если фотографий цветных разумное количество и хочется расмер поменьше то я делаю так вырезаю фотографии в отдельные файлы то что осталось обрабатываю кромсатором распознаю далее варианты
1. пдф из фр сохраняю в пдф (при сохранении текст под изображение ну и с качеством настройки посмотреть). Далее конвертирую фото в пдфки (каждый отдельный файл) и вставляю их в пдф в нужные места как вотермарки (меню документ в акробате) (работа ручная так что если много то запаришься). После чего оптимизирую пдф в акробате (аккуратно с настройками, позже напишу разумные с моей точки зрения).
если качество хорошее а объем хочется поменьше то можно то что без картинок после кромсатора через cpc прогнать несколько раз (это и для djvu полезно)
2. для djvu в обработанные текстовые файлы (с вырезанными фотографиями и ч/б) вклеиваю фотогравии и сохраняю как цветные приходится, но фона хоть нету. (в принципе и djvu с фоном разбирается, см случай когда много) после чего собираю djvu (solo или новый едитор (в этом случае после вклеивания ocr понижаю версию, утилита есть в колхозе)) и утилитой от Gencho добавляю ocr  
Если есть вопросы еще спрашивайте.
Удачи

Всего записей: 9240 | Зарегистр. 23-12-2001 | Отправлено: 11:44 13-01-2005
Stranger1



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
estimated

Цитата:
Так что Маргулис - неудачный выбор для оцифровки.

Зато он один из очень немногих (для меня), кого действительно хочется оцифровать.
 

Цитата:
Кстати, а что нового в этом 4-м издании? Оно случайно не "стереотипное"?

Да вроде нет. Автор пишет, что "...материал издания обновлён более чем наполовину..."
Да и так видно, что много нового.
 
kvk
Да, я понимаю, со временем и у меня сейчас напряжёнка. Ответ вполне исчерпывающий.
 
Всем спасибо! Осталось запастись терпением и временем...

Всего записей: 352 | Зарегистр. 08-02-2003 | Отправлено: 20:18 13-01-2005
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Stranger1: ну, тогда удачи! Мне Маргулис тоже очень нравится. (Я уже даже пожалел, что перед этим так категорично высказался.)

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 21:55 13-01-2005
amv



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Новая программка
 
DjVu FancyViewer Plugin 1.5 version 0.8 build 33-1
Copyright(c) 2004 Janusystem Technology Co.,Ltd
All Right Reserved.
Powered By Lizardtech Technology.
 
www.janusystem.com/_download/bookmark-editor.zip

Всего записей: 762 | Зарегистр. 19-03-2004 | Отправлено: 20:31 14-01-2005
EL

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Stranger1

Цитата:
i_view32.exe /scanhidden - 72 и всё тут  
А можно ещё через какую-нибудь программу попробовать  
с аналогичными ключами? Не в курсе?  

так, навскидку, не в курсе... надо брать каждую и проверять...
 
all
Хочу вот одну книжку оцифровать в DJVU, но никак не получается достигнуть оптимального результата. Прошу вашего совета (желательно в виде алгоритма действий).
 
Вот типичная оригинальная страничка: скан 150 dpi (738 KB), скан 300 dpi (2.93 MB) - формат TIFF LZW
 
Вот что мне удалось из нее получить обычными средствами
(levels correction, sharpen, decrease colors depth to 4 colors):
150 dpi (61.1 KB), 300 dpi (208 KB) - формат PNG
 
Что касается DJVU, то скриншоты там получаются настолько размытыми, что даже неприлично показывать...
 
 
Да, OCR делать не планируется. (Это я к тому, что советы от kvk прочитал, но они поэтому не очень подходят для моего случая.)

Всего записей: 48 | Зарегистр. 02-04-2004 | Отправлено: 21:53 14-01-2005
woodim18



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Как из формата PNG перевести в DJVU (DJVU editor PNG не поддерживает )?

Всего записей: 481 | Зарегистр. 08-01-2003 | Отправлено: 23:35 15-01-2005
dmitin



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
woodim18
IrfanView понимает и PNG, и DJVU.  
 
Или перегнать каким-либо другим графическим конвертором (например, PMView) в формат, который понимает DocExpress.

Всего записей: 449 | Зарегистр. 22-08-2004 | Отправлено: 01:09 16-01-2005
woodim18



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
dmitin
 
Нашел простой способ - распечатал PNG файлы через DJVU принтер.

Всего записей: 481 | Зарегистр. 08-01-2003 | Отправлено: 01:44 16-01-2005
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu
articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru