Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Модерирует : gyra, Maz

articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

   

ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Хотелось бы составить нечто вроде алгоритма действий для тех, кто оцифровывает в разные форматы (а таковых здесь много).
Например, что делать, если у человека есть книга без картинок и формул, если с картинками и формулами, если оригинал плохого качества, если он хочет, чтобы было удобно читать, чтобы файл был наименьшего объема и т.д. и т.п.
Давайте разберемся, какие форматы для каких целей подходят. Проблема отнюдь не надуманная.  


Софт:
1. LizardTech DocumentExpress и DjVu Solo  
2. ScanKromsator: Знаменитый кромсатор для обрезки получаемых при сканировании изображений, а также для разделения страниц, очистки от мусора и т.п. (есть FAQ). Автор: bolega. http://bolega.hotmail.ru/
3. DjVuReader: Альтернативный шустрый ридер для *.djvu. Автор: Dickobraz. http://www.opendjvu.nm.ru/
Обсуждение здесь.
4. AutoScan: Плагин для беспрерывного сканирования под IrfanView. Обновляется при выходе новой версии IrfanView. Автор: EL. autoscan.zip (4 KB)


Полезные ссылки по *.djvu:
http://www.cqham.ru/m2_scan.htm  
http://www.cqham.ru/djvu_print.htm    
http://www.cqham.ru/likbez_djvu.htm    
http://www.cqham.ru/djvu_ocr.htm    
 
Наш маленький FAQ по *.djvu:
1. Q: Что делать, если при конвертации происходит замена одних букв на другие, напр. "и" на "н" (проблема "инь" (с) Astra55)
    A: Возможные варианты рассмотрены здесь.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 18:51 02-03-2004 | Исправлено: ghosty, 03:53 18-12-2004
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
2 bdfy
 
Запросы у Вас, юноша . Фонта SchoolDL  я не нашел, поэтому задачу решайте самостоятельно. Все это делается в два щелчка мышкой. Есть масса софта для извлечения текста из pdf. Но с такими дебильными фонтами даже не знаю, может и не сработать.  Так что Вы уж как-нибудь сами, врукопашную .
 
Добавлено
2 estimated
[quote]
ты не ошибся случайно? это слишком много для этих 6 файлов.  
Исходный размер (формат TIFF G4) суммарно составляет 325.588 байт.  
DJVU через DjVuer Pro 1.7 (в виде 6 файлов, искажения пока не замечены) получается суммарно 98.032 байт.  
(Если их соединить в один с пом. DjVuBundle или DjVU Solo, то получается 98.116 байт)
[quote]
 
Я не ошибся. Задача стояла получить нормальные djvu без "инь", меньших размеров, чем приведенные кривые. Это было сделано, других задач я не ставил перед собой. Была бы оригинальная книга, был бы другой разговор и другие размеры. К тому же, я ясно сказал, что развороты были поделены со всеми вытекающими последствиями. Итого 17 файлов.  
 
Добавлено
2 bdfy
 
Ладно уж, мне стало интересно можно ли без этого фонта получить текст. Можно. Акробаты тут не при чем. ГленнАлкотт и ФайнПринт сделали это без вопросов. Файл ушел на мыло, проверять я его не стал, чтобы жизнь медом не казалась.

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 18:31 18-12-2004 | Исправлено: Astra55, 19:13 18-12-2004
bdfy

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Astra55
респект к слову фонт то этот я запостил в архиве на прошлой странице

Всего записей: 977 | Зарегистр. 21-04-2004 | Отправлено: 21:00 18-12-2004
dmitin



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
10000000

Цитата:
на каждом печатном листе каждой контрольной работы есть какие-то пометки преподавателя, который проверял их: исправления, замечания, галочки и другой "мусор".  

Можно ПЕРЕД тем, как в FineReader распознавать текст и вставлять формулы как картинки, почистить сканы в ScanKromsator (бэту 5.03 с .dll'ками можно взять на http://bolega.hotmail.ru/, а бэта 5.05 лежит в Колхозе в папке bolega.)
 

Цитата:
Но как в этих картинках математических формул потом редактировать (исправлять) допущенные ошибки?  

Если после всего этого какие-то формулы всё равно нужно будет отредактировать, то именно их прийдется перенабрать. Тогда будет текст распознан, часть формул в редактируемом формате, часть формул в графическом формате.
Выглядит, имхо, несколько убого, конечно. Но что делать... Альтернатива - только перенабрать все формулы (тут TeX рулит ).
 
Можно, конечно, еще русский текст распознавать в Fine Reader, а математические формулы в Infty Reader, а потом с помощью Copy/Paste комбинировать, но, наверно, получится не быстрее, чем перенабрать. Вот такой вот изврат.

Всего записей: 449 | Зарегистр. 22-08-2004 | Отправлено: 22:08 18-12-2004 | Исправлено: dmitin, 22:09 18-12-2004
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
2 bdfy
 
http://redhammer.h14.ru/font.rar
Sun Dec 19 00:14:58 2004 HTTP/1.0 404 Not Found
 
Добавлено
Лучше его мне на мыло кинуть, я в Инете нашел, что народ его юзает. Мало ли где пригодится.

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 22:15 18-12-2004
bdfy

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Astra55
сорри... ссылку дал , а собственно на фтп залить  забыл попробуй еще раз.

Всего записей: 977 | Зарегистр. 21-04-2004 | Отправлено: 23:19 18-12-2004
ZZmiy



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Я не против формата djvu - я его давно использую для архивного хранения сканов, а также для пересылки отсканированных книг другим OCRщикам для последующего распознавания. Но я-то изначально использую для этого DjVuer Pro 1.7, который не дает ошибок "инь" (по-крайней мере с параметрами по умолчанию)!
А все вокруг используют или Solo, или DocumentExpress DjVu Editor благодаря "методикам", расписанным на разных сайтах. А потом почему-то в интернете появляются djvu с "инь"... Причем не только физмат и иже с ним, но и художка...
 
Astra55

Цитата:
У меня с первого раза тоже ничего не получилось. Но в отличие от ничего не предлагающих критиков

Угу, это если не учитывать, что djvutest.rar сформировал я, вариант с DjVuer Pro 1.7 предложил я и лежит архив на моей страничке...

Цитата:
Сами сканы не лучшего качества, можно даже сказать, кривые. Строки идут волнами, на изображении много мусора.  

Может и кривые - так сосканились, но ФР на них делает меньше ошибок, чем djvu с "инь"...

Цитата:
А предложенные tif файлы я все же конвертнул в djvu, результат 241,5 кил,


Цитата:
Я не ошибся. Задача стояла получить нормальные djvu без "инь", меньших размеров, чем приведенные кривые.  

Файлы djvu (которые без ошибок "инь"), сделанные DjVuer Pro 1.7 -  
98,116 (v-a.djvu) + 139,943 (v-b.djvu) = 238,009 (v-a.djvu + v-b.djvu - bundled)
- что меньше чем "241,5 кил"...
 
Как получить вариант, соизмеримый по размеру с -
61,711 (e-a1.djvu) + 102,470 (e-b1.djvu) = 164,138 (e-a1.djvu + e-b1.djvu - bundled)
- и без ошибок "инь" ?
 
К примеру - весь словарь (фрагмент которого в каталоге A) при конвертировании в djvu через DjVuer Pro 1.7 получается 42,694,061 и без ошибок, а хотелось бы меньше - например в районе -
(42,694,061 * 164,138) / 238,009 = ~29,443,078, что на 13М меньше и что актуально при пересылке в инете...
 
И дело в тестах не в -  

Цитата:
порезал развороты и убрал пустую страницу

- иначе порезанные лежали бы в djvutest.rar и в тестах рассматривались бы другие размеры...

Всего записей: 430 | Зарегистр. 05-04-2003 | Отправлено: 02:22 19-12-2004
xalex

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ZZmiy

Цитата:
Но я-то изначально использую для этого DjVuer Pro 1.7, который не дает ошибок "инь" (по-крайней мере с параметрами по умолчанию)!  
А все вокруг используют или Solo, или DocumentExpress DjVu Editor  

А что DjVuer Pro теперь умеет делать многостраничные файлы ?
И где взять взломанную версию ?

Всего записей: 818 | Зарегистр. 19-01-2003 | Отправлено: 04:22 19-12-2004
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
2 ZZmiy
 
У меня нет желания делать картошку "фри" из картофельного пюре. Я не собираюсь ничего доказывать на чужих, кривоватых сканах. Шла бы речь о книге, которая у меня есть - другое дело. DjVuer PRO никогда не поддерживал многостраничные файлы, поэтому разговора о нем нет. Книга на 400 страниц А4 у меня заняла меньше 8 мегов, там текст и масса рисунков, русский и латынь. Поглядел бы я сколько времени заняло OCR-енье такого фолианта. Это 800 страниц в обычном стандарте А5. Не нравится djvu - да ради Бога, я же не призываю никого заменить им OCR. Но и сказок тоже не стоит рассказывать о том, какой это плохой формат.

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 18:11 19-12-2004
dmitin



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
xalex
Насчет проблемы "инь" (по терминологии Astra55) понятно.  
А как насчет того, о чем Вы писали в аналогичном топике в Варезнике:

Цитата:
формат, который ... рекламируется именно как формат для сжатия физ-маткниг, но на поверку как оказывается беспощадно портит матформулы  

Всё-таки

Цитата:
Нельзя ли пример? Именно по поводу матформул. Хотелось бы посмотреть исходный тифф (или линк, или одну страницу где-то выложить или на мыло).

 
ZZmiy, xalex, and ALL
А где сейчас обитает DjVuer Pro? А то я на http://www.feith.com не нахожу.

Всего записей: 449 | Зарегистр. 22-08-2004 | Отправлено: 18:19 19-12-2004
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
2 dmitin
 
Они спрятали свой софт Но можно вот так - http://www.feith.com/DjVuer/djvuerproin.exe
 
У меня есть версия 2beta1, кейген от CORE подходит без проблем.

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 19:23 19-12-2004
dmitin



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Astra55

Цитата:
Но можно вот так - http://www.feith.com/DjVuer/djvuerproin.exe

У Вас точно получается качать по этому линку? А то у меня:

Цитата:
Sun Dec 19 18:08:48 2004 Соединение с www.feith.com:80
Sun Dec 19 18:08:48 2004 Соединяемся с www.feith.com [IP=192.251.93.71:80]
Sun Dec 19 18:08:48 2004 Соединение установлено
Sun Dec 19 18:08:48 2004 GET /DjVuer/djvuerproin.exe HTTP/1.1
Sun Dec 19 18:08:48 2004 Host: www.feith.com
Sun Dec 19 18:08:48 2004 Accept: */*
Sun Dec 19 18:08:48 2004 Referer: http://www.feith.com/DjVuer
Sun Dec 19 18:08:48 2004 User-Agent: Mozilla/4.0 (compatible; MSIE 5.00; Windows 98)
Sun Dec 19 18:08:48 2004 Pragma: no-cache
Sun Dec 19 18:08:48 2004 Cache-Control: no-cache
Sun Dec 19 18:08:48 2004 Connection: close
Sun Dec 19 18:08:49 2004 HTTP/1.1 404 Not Found
Sun Dec 19 18:08:49 2004 Date: Sun, 19 Dec 2004 16:08:46 GMT
Sun Dec 19 18:08:49 2004 Server: Apache
Sun Dec 19 18:08:49 2004 Content-Length: 283
Sun Dec 19 18:08:49 2004 Connection: close
Sun Dec 19 18:08:49 2004 Content-Type: text/html; charset=iso-8859-1
Sun Dec 19 18:08:49 2004 Ошибка!

Всего записей: 449 | Зарегистр. 22-08-2004 | Отправлено: 20:09 19-12-2004
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Мда, похоже DjVuer скончался . На сайте еще остались ссылки, но там 404. Могу закинуть на какой-нибудь сайт, если есть желание. У меня остался архив их софта, включая "лекарства".

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 22:32 19-12-2004
dmitin



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Astra55
Будьте любезны.

Всего записей: 449 | Зарегистр. 22-08-2004 | Отправлено: 23:22 19-12-2004
ZZmiy



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
dmitin

Цитата:
где сейчас обитает DjVuer Pro

Ваш файл djvuerpro17.rar (размер 2297 кбайт) доступен по адресу: webfile.ru/129474 в течение 7 дней до 01:10 27.12.2004.
 
DjVuer Pro многостраничные не делает, но bundled можно сделать при помощи Solo или DocumentExpress DjVu Editor из одностраничных файлов, закодированных в DjVuer, т.к. перекодировки исходных djvu в них при этом не происходит.

Всего записей: 430 | Зарегистр. 05-04-2003 | Отправлено: 02:15 20-12-2004
dmitin



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
ZZmiy
Большое спасибо!
 
Astra55
А версия 2 beta 1 ничем принципиально от 1.7 не отличается?
 
P.S. Конечно, перегонять тиффы в дежавю по одному - то еще удовольствие.

Всего записей: 449 | Зарегистр. 22-08-2004 | Отправлено: 03:31 20-12-2004
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Я сильно не разбирался в отличиях. Закину, сами поглядите. Что до удовольствия, то там батч задания, поэтому особых проблем нет.

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 09:38 20-12-2004
EL

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Один человек по имени Игорь и адресом в виде радиолюбительского позывного написал мне письмо по поводу AutoScan, я ему ответил, но мое письмо вернулось, поэтому я решил повторить ответ здесь. Уж извините за такой способ контакта. Просто не хочется, чтобы тот человек подумал, что я ему вообще не ответил.
 

Цитата:
Приветствую, Евгений!
 
А  Вы  не  думали о том, можно ли прикрутить AutoScan к другим софтам?
Особенно  интересует DjVu Editor PRO 4.1. Народ сильно
мается  со сканированием в djvu, приходится сканить в других софтах, а
только потом конвертить полученные файлы.
 
С уважением,
Игорь
 

 
Т.е. чтобы после сканирования файлы сразу сохранялись в формате djvu?
Такая цель имеется ввиду?
Если да - то такое можно релизовать. Все, что нужно - это энкодер в djvu,  
умеющий работать из командной строки (или имеющий API). Только вот  
использовать один словарь на несколько страниц (как умеют делать DjVu Solo,  
Editor) - наверное не получится при работе в таком режиме (сосканировал -  
сохранил в djvu, постранично). А ведь именно это позволяет достигать  
значительного выигрыша по сравнению с AT&T-утилитами 2-й версии.
 
А что-то другое имелось ввиду? Как тогда должен выглядеть процесс  
работы?

Всего записей: 48 | Зарегистр. 02-04-2004 | Отправлено: 16:52 20-12-2004
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
В принципе я уже прикрутил AutoRecorder старой версии 2.5 к DjVu Editor 4.1, сканируется на автомате, как в ФайнРидере. Это не лучший способ для создания файлов djvu, но для журналов формата А4 пойдет. Разумеется лучше будет сначала отсканить, обработать, очистить, а только потом конвертить в djvu.  
 
Но имелось в виду автоматизация сканирования, как это сделано в Ирфане с AutoScan-ом. Эдитор в отличие от Соло может добавлять сканы в список. Может быть у Вас получится проще, чем с отдельной программой?
 
P.S. Почему письмо не дошло до меня, не знаю, все работает.
 
Добавлено
Файл с DjVuer PRO 2.0b1 (размер 2296 кбайт)
доступен по адресу: webfile.ru/130571 в течение 7 дней до 22:26 27.12.2004.
Пароль - djvu

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 21:59 20-12-2004 | Исправлено: Astra55, 22:08 20-12-2004
dmitin



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Astra55
Большое спасибо.

Цитата:
Пароль - djvu

Вы решили изменить старой традиции делать все пароли ru-board.
 
Жаль только, что Вы пароль установили не для самого архива в WinRAR, а на Webfile -это не позволяет пользоваться даунлоадерами.
 

Цитата:
Почему письмо не дошло до меня, не знаю

Ответ здесь. (это - шутка)

Всего записей: 449 | Зарегистр. 22-08-2004 | Отправлено: 00:23 21-12-2004
EL

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Astra55
Ага, теперь понятно, кто мне написал. Приятно познакомиться
Честно сказать, я вообще не работал с DjVu Editor 4.1, но постараюсь на днях попробовать. Пока я буду это делать, можно объяснить, что такое "может добавлять сканы в список" и как внешне должен выглядеть процесс работы? Сразу скажу, что по поводу интеграции с DjVu Editor у меня сомнения, ведь управление IrfanView основано на том, что он поддерживает опции командной строки...
 
Кстати, не имею ничего против общения на "ты".
 
Почему не дошло письмо. Вот, какой ответ я получил:
   ----- Transcript of session follows -----
451 4.4.1 reply: read error from relay.nursat.net.
<****email*here***>... Deferred: Connection reset by relay.nursat.net.
Message could not be delivered for 1 hour
Message will be deleted from queue

Всего записей: 48 | Зарегистр. 02-04-2004 | Отправлено: 02:35 21-12-2004
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu
articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru