Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Модерирует : gyra, Maz

articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

   

ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Хотелось бы составить нечто вроде алгоритма действий для тех, кто оцифровывает в разные форматы (а таковых здесь много).
Например, что делать, если у человека есть книга без картинок и формул, если с картинками и формулами, если оригинал плохого качества, если он хочет, чтобы было удобно читать, чтобы файл был наименьшего объема и т.д. и т.п.
Давайте разберемся, какие форматы для каких целей подходят. Проблема отнюдь не надуманная.  


Софт:
1. LizardTech DocumentExpress и DjVu Solo  
2. ScanKromsator: Знаменитый кромсатор для обрезки получаемых при сканировании изображений, а также для разделения страниц, очистки от мусора и т.п. (есть FAQ). Автор: bolega. http://bolega.hotmail.ru/
3. DjVuReader: Альтернативный шустрый ридер для *.djvu. Автор: Dickobraz. http://www.opendjvu.nm.ru/
Обсуждение здесь.
4. AutoScan: Плагин для беспрерывного сканирования под IrfanView. Обновляется при выходе новой версии IrfanView. Автор: EL. autoscan.zip (4 KB)


Полезные ссылки по *.djvu:
http://www.cqham.ru/m2_scan.htm  
http://www.cqham.ru/djvu_print.htm    
http://www.cqham.ru/likbez_djvu.htm    
http://www.cqham.ru/djvu_ocr.htm    
 
Наш маленький FAQ по *.djvu:
1. Q: Что делать, если при конвертации происходит замена одних букв на другие, напр. "и" на "н" (проблема "инь" (с) Astra55)
    A: Возможные варианты рассмотрены здесь.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 18:51 02-03-2004 | Исправлено: ghosty, 03:53 18-12-2004
Arcand

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty

Цитата:
Об этом, вроде, все тут знают. Проблема состояла, видимо, в том, как избежать "инь" в случае применения режимов, отличных от "lossless".  

Тогда, извините, не вижу проблемы. Если кто-то хочет (грубо) рыбку съесть и на ... сесть, то это его проблемы... Подчеркиваю, это ИМХО.

Всего записей: 2493 | Зарегистр. 28-05-2004 | Отправлено: 08:54 11-01-2005
Stranger1



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
kvk

Цитата:
но вопрос много ли фотографий (10 - десятки - сотни)

 
Вообще то это "Руководство по цветокоррекции" Маргулиса.  
Так что фотографии там почти на каждой странице.
Спасибо.

Всего записей: 352 | Зарегистр. 08-02-2003 | Отправлено: 09:02 11-01-2005
arslan77



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Stranger1
 
 

Цитата:
"Руководство по цветокоррекции" Маргулиса

 
уже было http://fishchel.amillo.net/knigi.html
 
правда не знаю какое качество (цветные фотографии или ч\б), надо спросить в топике по электронным книжкам на русском языке.

Всего записей: 202 | Зарегистр. 28-09-2002 | Отправлено: 10:58 11-01-2005
Stranger1



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
arslan77
 

Цитата:
уже было http://fishchel.amillo.net/knigi.html

Это у меня есть. Качество хорошее.
 
А у меня 4-е издание (дочь подарила к новому году )
Вот и хочу в электронный вид перевести.

Всего записей: 352 | Зарегистр. 08-02-2003 | Отправлено: 11:08 11-01-2005
xalex

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty
 
"Проблема "н"/"и" " - неправильное название  
для этого неустранимого дефекта djvu.  
 
Посмотрите например djvu книги  
Рисс-Надь Лекции по фун. анализу из Колхоза
 - там на стр. 8 внизу "раз"написано как "раэ"
те через "э" вместо "з".  
 
Кроме того djvu портит матформулы,  
что согласитесь значительно серьезнее.

Всего записей: 818 | Зарегистр. 19-01-2003 | Отправлено: 16:45 11-01-2005 | Исправлено: xalex, 17:08 11-01-2005
dmitin



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
xalex

Цитата:
Кроме того djvu портит матформулы,  
что согласитесь значитедьно серьезнее

Можно пример?

Всего записей: 449 | Зарегистр. 22-08-2004 | Отправлено: 17:00 11-01-2005
xalex

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
dmitin
 
А самому поискать ?
(если этот вопрос вас действительно интересует)
 
Если уж она ошибается на крупных символах,
то тем более она будет ошибаться на мелких,
коих (в качестве элементов) в матформулах
предостаточно.
 
Я приводил 2-а примера в ветке про  
научные книжки, один из Пенроуза-Риндлера
другой из Боголюбова-Логунова-Тодорова.

Всего записей: 818 | Зарегистр. 19-01-2003 | Отправлено: 17:18 11-01-2005
romanef



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
то тем более она будет ошибаться на мелких,  
коих (в качестве элементов) в матформулах  
предостаточно.  


Цитата:
то тем более она будет ошибаться на мелких,  
коих (в качестве элементов) в матформулах  
предостаточно.  

 
  1. сканируйте и жмите в 600 дпи
  2. последний эдитор 5 версии вроде пока не замечен в ошибках

Всего записей: 668 | Зарегистр. 14-11-2003 | Отправлено: 17:21 11-01-2005
dmitin



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
xalex

Цитата:
Я приводил 2-а примера в ветке про  
научные книжки, один из Пенроуза-Риндлера  
другой из Боголюбова-Логунова-Тодорова.

 
Спасибо за ссылки. К сожалению, я не нашел Вашего примера с Пенроузом-Риндлером. Но нашел с Боголюбовым-Логуновым-Тодоровым здесь:

Цитата:
Вот кстати еще один артефакт djvu lossy :  
 
Боголюбов Логунов Тодоров Основы аксиоматического  
подхода в квантовой теории поля Наука, 1969,  
страница 23  - в предложении перед самой формулой (1.1.11)  
"эпсилон" заменился после djvu lossy на "в".

 
На DVD с Колхозом есть три файла с этой книгой: два на диске 2, один на диске 6. Все в 300 dpi. И всюду, как Вы и говорили, четко пропечатана "в" вместо "эпсилон". Не сочтите за назойливость, но в исходнике точно не типографская опечатка?
 
Я поэтому и спрашивал здесь, что неплохо бы посмотреть вместе с исходным тиффом, что можно сделать.
Дело в том, что проблема, с легкой руки Astra55 названная проблемой "инь", в тексте совершенно не критична - текст содержит достаточно избыточной информации для восстановления. В матформулах аналогичный эффект был бы более критичен (хотя и не обязательно) - поэтому меня и заинтересовало Ваше утверждение, что

Цитата:
djvu портит матформулы.

 

Цитата:
А самому поискать ?  
(если этот вопрос вас действительно интересует)  

Мне известны случаи, когда в дежавю матформулы нечитаемы, но тогда и весь текст был аналогичного качества (Когда оцифровывались книги, не заметить этого было нельзя). А вот с "инь" на первый взгляд всё может выглядеть нормально, и проблемы становятся заметны при более внимательном рассмотрении. Аналогичные ситуации с матформулами мне неизвестны.

Всего записей: 449 | Зарегистр. 22-08-2004 | Отправлено: 03:44 12-01-2005
kvk



Moderator
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
rasterID помаленьку выкладывается в папку soft по логину scib:sci
Спасибо!  
Удачи

Всего записей: 9240 | Зарегистр. 23-12-2001 | Отправлено: 04:08 12-01-2005
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
проблема, с легкой руки Astra55 названная проблемой "инь", в тексте совершенно не критична - текст содержит достаточно избыточной информации для восстановления.

Наконец-то. Я уж думал, тут одни перфекционисты собрались
Ясно одно: необходимо всегда внимательно просматривать полученный файл на предмет "инь", и если смысл текста, действительно, искажается, сделать все, чтобы эту проблему исправить (вплоть до повторного сканирования).

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 05:52 12-01-2005 | Исправлено: ghosty, 05:53 12-01-2005
Arcand

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
помаленьку выкладывается в папку soft по логину scib:sci  

Самое время спросить – где это и как туда зайти. Извините не знаю, догадываюсь, что там море полезного софта, аж слюнки текут .

Всего записей: 2493 | Зарегистр. 28-05-2004 | Отправлено: 06:27 12-01-2005
TbIrbIDbIM



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Народ, чем распознать djvu?

Всего записей: 479 | Зарегистр. 26-10-2003 | Отправлено: 14:17 12-01-2005
dmitin



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
TbIrbIDbIM
Если тиффы сканить и распознавать из ФайнРидера, то потом можно пользоваться примочкой от gencho (есть в kolxo3/_djvu/DjVu%20software/Windows/).
Знатоки утверждают, что результат на русском много лучше, чем Iris-OCR, встроенный в DocExpress.
Если у Вас уже дежавю (в смысле не у Вас, а Ваш файл ), то можно перегнать Ирфаном в тиффы и распознавать тем же FR.

Всего записей: 449 | Зарегистр. 22-08-2004 | Отправлено: 15:23 12-01-2005 | Исправлено: dmitin, 18:20 12-01-2005
off7

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Я делал так: в djvu solo 3.1 сохранял каждую страницу в формате bmp.
Затем с помощью finereader 7.0 открывал эти изображения и сохранял в пакете.
После - распознавал.
Получалось довольно прилично.

Всего записей: 198 | Зарегистр. 04-11-2004 | Отправлено: 15:34 12-01-2005
pjuv



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Чтобы не париться с сохранением каждой страницы в djvu solo, можно воспользоваться утилитой от Gencho:
djvu2graf.exe - front-end программа для djvudecode, Win32 версия.
Использует DJVUDECODE.EXE
Упрощает распаковку книг. В командной строке задается файл djvu, диапазон извлекаемых страниц, выходной формат (pnm,pgm,pbm,bmp,tif,jpeg,ps,pict).
Пока работает, может выпить кофе.

Всего записей: 4 | Зарегистр. 22-12-2004 | Отправлено: 18:01 12-01-2005
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Последняя часть архива с РастромИД уехала по прежним адресам. Дальше дело за народом с приличным хостингом.

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 19:36 12-01-2005
kvk



Moderator
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
dmitin
dmitin
off7
Вообще то 2 (бета) версия утилитки от Gencho и тифы выгоняет оптом и ocr добавляет и gui имеет, так что и думать не нужно только кнопочки нажимать.
Astra55
Получено, выложено! Огромное спасибо!
Приличность моего канала вопрос отдельный , но кому нужно утянут.
Удачи

Всего записей: 9240 | Зарегистр. 23-12-2001 | Отправлено: 21:12 12-01-2005
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
2 kvk
 
Я поотстал от жизни, где можно взять 2-ю версию утилит Генчо? И в привате подскажите где теперь лежит РастерИД, чтобы можно было подсказать если попросят.

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 23:06 12-01-2005
dmitin



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Astra55, kvk
Спасибо за РастерИД.  
 

Цитата:
dmitin  
dmitin  
off7  
Вообще то...

О, у меня раздвоение личности...
 
Добавлено
Astra55

Цитата:
Я поотстал от жизни, где можно взять 2-ю версию утилит Генчо?

kolxo3/_djvu/DjVu%20software/Windows/DjvuOCR_From_FineReader7_gehcno_2.0pre.rar и другие там же.

Цитата:
где теперь лежит РастерИД

kvk/soft/RasterID/RasterID.part??.rar

Всего записей: 449 | Зарегистр. 22-08-2004 | Отправлено: 23:09 12-01-2005
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu
articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru