Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Модерирует : gyra, Maz

articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

   

ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Хотелось бы составить нечто вроде алгоритма действий для тех, кто оцифровывает в разные форматы (а таковых здесь много).
Например, что делать, если у человека есть книга без картинок и формул, если с картинками и формулами, если оригинал плохого качества, если он хочет, чтобы было удобно читать, чтобы файл был наименьшего объема и т.д. и т.п.
Давайте разберемся, какие форматы для каких целей подходят. Проблема отнюдь не надуманная.  


Софт:
1. LizardTech DocumentExpress и DjVu Solo  
2. ScanKromsator: Знаменитый кромсатор для обрезки получаемых при сканировании изображений, а также для разделения страниц, очистки от мусора и т.п. (есть FAQ). Автор: bolega. http://bolega.hotmail.ru/
3. DjVuReader: Альтернативный шустрый ридер для *.djvu. Автор: Dickobraz. http://www.opendjvu.nm.ru/
Обсуждение здесь.
4. AutoScan: Плагин для беспрерывного сканирования под IrfanView. Обновляется при выходе новой версии IrfanView. Автор: EL. autoscan.zip (4 KB)


Полезные ссылки по *.djvu:
http://www.cqham.ru/m2_scan.htm  
http://www.cqham.ru/djvu_print.htm    
http://www.cqham.ru/likbez_djvu.htm    
http://www.cqham.ru/djvu_ocr.htm    
 
Наш маленький FAQ по *.djvu:
1. Q: Что делать, если при конвертации происходит замена одних букв на другие, напр. "и" на "н" (проблема "инь" (с) Astra55)
    A: Возможные варианты рассмотрены здесь.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 18:51 02-03-2004 | Исправлено: ghosty, 03:53 18-12-2004
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
dmitin
Попробуй так (download-менеджером):
url: http://files5.webfile.ru/get/121843781/DVP20b1.zip
referer: http://www.webfile.ru/130571

----------
Только немногие из тех, кому нечего сказать, молчат.

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 02:45 21-12-2004
dmitin



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
estimated
 Большое спасибо!

Всего записей: 449 | Зарегистр. 22-08-2004 | Отправлено: 03:20 21-12-2004
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
У меня тоже большие сомнения. Внешние приложения не могут передать файл в Эдитор, он ругается. Когда через его интерфейс, тогда все работает.

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 09:07 21-12-2004
Xeonc_II



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Пожалуйста, посоветуйте, как можно распознать книгу 1917 года ( ять, твёрдый знак и прочее)?  
Может, у кого-то есть сконфигурированный язык для FineReader? Или как его сделать?
Довольно интересная книга, а 350 страниц в сканах многовато
 
Спасибо.

Всего записей: 253 | Зарегистр. 22-12-2004 | Отправлено: 18:08 28-12-2004 | Исправлено: Xeonc_II, 15:33 29-12-2004
dmitin



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Xeonc_II
В ABBYY FineReader 7.0 среди дополнительных языков распознавания есть и "русский (старая орфография)".

Всего записей: 449 | Зарегистр. 22-08-2004 | Отправлено: 19:41 28-12-2004
Xeonc_II



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
dmitin
 
Спасибо большое. Как обычно, под носом не видел
 
Его можно выковырять из пакета остальных дополнительных языков (OtherLang.exe).  
Также для редактирования поставил два шрифта Royal (можно скачать отсюда _http://rus-sky.com/history/font.htm)  
Надеюсь, теперь  получится
 
Спасибо ещё раз.

Всего записей: 253 | Зарегистр. 22-12-2004 | Отправлено: 15:32 29-12-2004
bdfy

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Господа, а какие операции принято проводить надо зашумленным источником чтобы убрать грязь , шумы и пр. и улучшить качество сканирования? Использую фотошоп например? я Magic tool пытался приспособить серую грязь чистить, но выделяет он цвет что-то не на всем рисунке  Еще кривые помогают, но текст бледнеет при этом и иногда теряет читабельность
Еще способы ? ( ластик не предлагать )

Всего записей: 977 | Зарегистр. 21-04-2004 | Отправлено: 05:46 01-01-2005
cornborer



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bdfy
FineReader. Команда "Очистить изображение от мусора"

Всего записей: 5118 | Зарегистр. 09-12-2001 | Отправлено: 04:35 02-01-2005
bdfy

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
cornborer
хреновенько чистит этот despekle ... даже явные кляксы не убрал и черноту между страницами , серый фон и подавно. фотошоп 7 про , если что.

Всего записей: 977 | Зарегистр. 21-04-2004 | Отправлено: 06:38 02-01-2005
cornborer



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Да нет, если шум мелкозерный, то FR7 справляется неплохо. Если крупный, то да, было дело использовал Фотошоп CS + плагин от AlienSkin Image Doctor.

Всего записей: 5118 | Зарегистр. 09-12-2001 | Отправлено: 07:29 02-01-2005
dmitin



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
bdfy
По поводу чистки сканов: как насчет ScanKromsator (от bolega)?

Всего записей: 449 | Зарегистр. 22-08-2004 | Отправлено: 07:43 02-01-2005
Arcand

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bdfy
Для этих целей я пользую ScanKromsator (см. шапку).
Еще вариант (пока не освоил) - BookRestorer. Инфа была на 11 странице.

Всего записей: 2493 | Зарегистр. 28-05-2004 | Отправлено: 07:44 02-01-2005 | Исправлено: Arcand, 08:11 02-01-2005
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
2 cornborer
 
Откуда возьмутся большие пятна, если оригинал в норме и сканер исправный? Если есть, то на автомате ни одна софтина этого не сделает, у ей мозгов нетути .
Когда задаешь слишком большие размеры мусора, то начинает сильно искажаться текст. Очевидно, что нижним порогом автомата будут точки, запятые и хвостик в букве "й". Дальше все ручками чистить придется.
А что может этот плагин от AlienSkin Image Doctor?

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 09:18 02-01-2005
cornborer



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Astra55

Цитата:
Откуда возьмутся большие пятна, если оригинал в норме и сканер исправный? Если есть, то на автомате ни одна софтина этого не сделает, у ей мозгов нетути  

конечно

Цитата:
А что может этот плагин от AlienSkin Image Doctor?

Много чего. Весьма полезный плагин. Если есть выход на Взор, поищи Alien Skin Eye Candy 5: Nature. Не пожалеешь.

Всего записей: 5118 | Зарегистр. 09-12-2001 | Отправлено: 14:07 02-01-2005 | Исправлено: cornborer, 14:09 02-01-2005
bdfy

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
все скачал , вечером буду мучать
cornborer
Зачем Взор ( мне например с динамическим АйПи афаик не светит)? я в яндексе минут за пять нашел( правда только ссылка пятая рабочей оказалась ) , вот только там 7 метров - ночью стяну. Ссылку кидаю в варезник, в плагины шоповские.
К слову Eye Candy 4000 у меня есть , огонь прикольно малюет , только вот его разрешение маловато , а насройки я не вижу
 
добавлено:
А вот  AlienSkin Image Doctor только на оф. сайте нашел киньте кто кейген в варезник, заценить охота.

Всего записей: 977 | Зарегистр. 21-04-2004 | Отправлено: 20:16 02-01-2005 | Исправлено: bdfy, 21:40 02-01-2005
cornborer



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bdfy

Цитата:
я в яндексе минут за пять нашел

Ну и отлично.

Всего записей: 5118 | Зарегистр. 09-12-2001 | Отправлено: 21:36 02-01-2005
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Скачал я этот 5-й Эдитор, поставил, скоренько попробовал. Мда, видел много муд...рецов, но Лизард похоже решил всех опередить. Этим долбо...носам не хватило нескольких лет, чтобы сделать хоть мало-мальски приличный софт. Резюме: что есть поле для серийника - обнадеживает, это лучше, чем их долбаные картриджи, сломать должно быть легче. OCR в русском варианте - ацтой! Генчо со своей примочкой к ФР опережает на две головы ихний Ирис, который был, есть и будет барахлом, несмотря на размер в 50 с хвостом мегов. Ладно, пойдет, пока что номер в розыске . Отвинтить от Ириса будет несложно, размер дистрибута получится небольшой.

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 23:29 02-01-2005
Arcand

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Astra55
Это надо бы в варезник (сами знаете куда). Похоже промазали .

Всего записей: 2493 | Зарегистр. 28-05-2004 | Отправлено: 07:36 03-01-2005
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Мда, бывает . Последствия встречи Нового года...

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 09:58 03-01-2005
Cheburashka

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Господа, а какие операции принято проводить надо зашумленным источником чтобы убрать грязь , шумы и пр. и улучшить качество сканирования? Использую фотошоп например? я Magic tool пытался приспособить серую грязь чистить, но выделяет он цвет что-то не на всем рисунке  Еще кривые помогают, но текст бледнеет при этом и иногда теряет читабельность  
Еще способы ? ( ластик не предлагать )
А ты выложи картинку народ попробует почистить и выложит обратно с рекомендациями. А то на пальцах объснять как то не очень

Всего записей: 146 | Зарегистр. 15-05-2002 | Отправлено: 11:19 03-01-2005
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu
articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru