Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Модерирует : gyra, Maz

articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

   

ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Хотелось бы составить нечто вроде алгоритма действий для тех, кто оцифровывает в разные форматы (а таковых здесь много).
Например, что делать, если у человека есть книга без картинок и формул, если с картинками и формулами, если оригинал плохого качества, если он хочет, чтобы было удобно читать, чтобы файл был наименьшего объема и т.д. и т.п.
Давайте разберемся, какие форматы для каких целей подходят. Проблема отнюдь не надуманная.  


Софт:
1. LizardTech DocumentExpress и DjVu Solo  
2. ScanKromsator: Знаменитый кромсатор для обрезки получаемых при сканировании изображений, а также для разделения страниц, очистки от мусора и т.п. (есть FAQ). Автор: bolega. http://bolega.hotmail.ru/
3. DjVuReader: Альтернативный шустрый ридер для *.djvu. Автор: Dickobraz. http://www.opendjvu.nm.ru/
Обсуждение здесь.
4. AutoScan: Плагин для беспрерывного сканирования под IrfanView. Обновляется при выходе новой версии IrfanView. Автор: EL. autoscan.zip (4 KB)


Полезные ссылки по *.djvu:
http://www.cqham.ru/m2_scan.htm  
http://www.cqham.ru/djvu_print.htm    
http://www.cqham.ru/likbez_djvu.htm    
http://www.cqham.ru/djvu_ocr.htm    
 
Наш маленький FAQ по *.djvu:
1. Q: Что делать, если при конвертации происходит замена одних букв на другие, напр. "и" на "н" (проблема "инь" (с) Astra55)
    A: Возможные варианты рассмотрены здесь.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 18:51 02-03-2004 | Исправлено: ghosty, 03:53 18-12-2004
AlexeyTr



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
а в 5-ом Document Express'е есть возможность извлекать диапазон страниц в растровом формате (скажем, tif)? Или только по-отдельности?

Всего записей: 969 | Зарегистр. 30-04-2002 | Отправлено: 21:53 09-01-2005
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
OCR ушел по тому же адресу, что и сам Эдитор5. О приходе сообщите, у меня рвалась связь. Насчет РастерИД - говорите кому слать на мыло. Только чтобы было надежно. Мегов по 10 в день я могу слать.
 
Добавлено
Буду слать Растр в два адреса - kvk и estimated, начиная с завтрашнего дня.

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 22:12 09-01-2005
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xalex

Цитата:
А какое значение pages-per-dict реально используется  
при сжатии ?


Цитата:
[pages-per-dict] description:Specifies the number of pages to be included in a shared dictionary file (*.djbz). The value you assign to this option represents the number of pages you want to include in a shared dictionary. For most documents, a value of 20 is the maximum before file size is no longer affected. Some documents, such as hand-drawn images, do not gain from shared dictionaries because they do not contain repeating shapes. For these types of documents, a value of 1 should be used to disable the use of shared dictionaries. The default value for this option is 10.

estimated

Цитата:
что, действительно, получаются разные результаты в плане "инь"?

Сам я довольно редко встречался с этой проблемой (да и книг пока не много в дежавю перевел). А какими значениями народ здесь пользуется? И при каких значениях проблема встречалась?  

Цитата:
Ведь по идее этот параметр на сам энкодинг влиять не должен.

Я думаю, что он может влиять на процесс декодирования. Но это только предположение. Может, кто-нибудь знает, по какому принципу отбираются "прототипные" элементы для добавления в словарь? Какая-то статистика для этого, скорее всего, используется. А значит, и данный параметр является ключевым.
 
Добавлено
xalex

Цитата:
Значит 5-я версия пока взломана не полностью.

Наверно. Профайлы в ней, похоже, вообще не работают
Менял разные параметры - результат не изменяется.  
Прога, кстати, и без папки с профайлами прекрасно функционирует.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 22:49 09-01-2005 | Исправлено: ghosty, 23:18 09-01-2005
dmitin



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
У меня возник такой вопрос.
Ко мне попали сканы, задежавюшенные DjVu Solo, которые надо было слегка подчистить и повернуть. Я действовал так. Ирфаном перегнал в
многостраничный тифф. Открыл его ФайнРидером, изображения повернул в
пакете. Эти тиффы пропустил через СканКромсатор (только почистил
черную полосу по центру и местами кляксы, но не обрезал).
Затем пожал DocExpress 4.1 : конфигурационные файлы не менял, bundled,
600 dpi, "черно-белый".
В итоге почему-то мой дежавю завесил 9.70 MB (тогда как исходный весил 8.96
MB), хотя по логике вещей должен был бы наоборот меньше.
Кто-то может подсказать?

Всего записей: 449 | Зарегистр. 22-08-2004 | Отправлено: 03:22 10-01-2005
Arcand

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Значит 5-я версия пока взломана не полностью.


Цитата:
Наверно. Профайлы в ней, похоже, вообще не работают  
Менял разные параметры - результат не изменяется.  
Прога, кстати, и без папки с профайлами прекрасно функционирует.

Можно попросить dmitin проверить это на демке, для ясности. Если на демке то же самое, значит дело не в креке.
 
dmitin? Плиз...
Удобно это сделать Filemon'ом, посмотреть обращается ли Эдитор к папке profiles.  
Проверил сейчас на крякнутой версии, Эдитор смотрит documenttodjvu.conf, остается проверить, использует ли он соответствующие настройки.
 
Сравнил 4.1 и 5.0, структура настроек кодирования изменились (задаются по другому). В 5-ке они присутствуют в диалоге сохранения. Посмотрите. Надо изучать. И не на русской версии. А то я название профилей перевел, может этого не надо было делать.

Всего записей: 2496 | Зарегистр. 28-05-2004 | Отправлено: 07:58 10-01-2005 | Исправлено: Arcand, 08:49 10-01-2005
kvk



Moderator
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
ghosty
Arcand
Я при сохранении задавал лосслесс и лосси результат разный по размеру.
Удачи

Всего записей: 9240 | Зарегистр. 23-12-2001 | Отправлено: 12:18 10-01-2005
Arcand

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Да, размер конечного файла зависит от профиля, разрешения и качества текста.
Изучаю структуру documenttodjvu.conf, там находятся детали настроек этих параметров. Думаю, все работает, только разобраться надо.

Всего записей: 2496 | Зарегистр. 28-05-2004 | Отправлено: 12:24 10-01-2005
dmitin



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Arcand

Цитата:
Можно попросить dmitin проверить это на демке, для ясности.  

Проверил. Без папки profiles при попытке перегнать в дежавю триальный не пропатченый английский DocExpress 5 выдает сообщение:

Цитата:
[1-24113] Illegal profile
 
[OK]

 

Цитата:
Удобно это сделать Filemon'ом

А что это такое и с чем его едят? Можно линк?

Всего записей: 449 | Зарегистр. 22-08-2004 | Отправлено: 15:38 10-01-2005 | Исправлено: dmitin, 15:39 10-01-2005
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Без папки profiles при попытке перегнать в дежавю триальный не пропатченый английский DocExpress 5 выдает сообщение:

Ну тогда все, вроде, встает на свои места. Если в пропатченном английском DocExpress 5 удалить папку profiles, то прога работает без проблем. Если же в программе изменять параметры перед конвертацией, то результаты, действительно, будут разными.
Т.е. одним патчем мы все-таки не обойдемся

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 16:57 10-01-2005
dmitin



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
ghosty и ВСЕ

Цитата:
Т.е. одним патчем мы все-таки не обойдемся  

Тем, кого устраивает 50-метровый вариант, нет необходимости патчить. Появились серийники от Stranger1 в аналогичном топике в Варезнике (внимание: они спрятаны в сообщении!).
 
P.S. Если ввести такой серийник при инсталляции вместо 'eval', то ситуация с папкой profiles и сообщением об ошибке такая же.

Всего записей: 449 | Зарегистр. 22-08-2004 | Отправлено: 17:06 10-01-2005
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
dmitin

Цитата:
 Появились серийники

Ура! А с рипнутым вариантом они не работают, что ли?

Цитата:
Затем пожал DocExpress 4.1 : конфигурационные файлы не менял, bundled,  
600 dpi, "черно-белый".

А если поставить 300dpi результат какой? Можно изменить параметр pages-per-dict, как я писал. В случае, если страниц много, должно помочь.  
На картинках нужно отфильтровать растр (фотографии не должны состоять из "точек").

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 18:31 10-01-2005 | Исправлено: ghosty, 18:31 10-01-2005
dmitin



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
ghosty

Цитата:
А с рипнутым вариантом они не работают, что ли?

А куда их вставлять? Диалога для введения серийника нет. Его надо вводить при инсталляции.

Всего записей: 449 | Зарегистр. 22-08-2004 | Отправлено: 18:52 10-01-2005
amv



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty
Цитата:
Прога, кстати, и без папки с профайлами прекрасно функционирует.
Странно. У меня патченный вариант выдаёт точно то же, что и триальный:
Цитата:
 
 
dmitin
Цитата:
 
Без папки profiles при попытке перегнать в дежавю триальный не пропатченый английский DocExpress 5 выдает сообщение:
Цитата:
 
[1-24113] Illegal profile
[OK]

Всего записей: 762 | Зарегистр. 19-03-2004 | Отправлено: 19:38 10-01-2005 | Исправлено: amv, 19:41 10-01-2005
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
2 kvk и estimated
 
Первая треть РастраИД уехала по двум обещанным адресам. Сообщите когда получите.

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 19:47 10-01-2005
Arcand

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
О проблеме "инь".
Выдержка из documenttodjvu.conf:

Цитата:
  [lossless]  description:  Preserves  all the details of the original image.  Each  pixel  in  the  resulting  DjVu image is the same as the original  image.  This  option  is  useful  for  historical documents, archives, and low-resolution text.
  [aggressive]  description:  Makes  extensive  changes  to the image, resulting  in  very fast encoding times and very small DjVu files. Use this  option  when  speed  and  file size are more important than fine details.
 

Комментарии с моей стороны излишни... Извините, если это банальность, известная всем.
 
dmitin

Цитата:
А что это такое и с чем его едят? Можно линк?

Я лучше положу, все что у меня есть (полезный софт).
Filemon 6.07 & Regmon 6.06: webfile.ru/149390 в течение 7 дней до 18:50 17.01.2005.
 
И еще, по вашему вопросу. У Соло и Эдитора разные кодеки + настройки, так что ничего удивительного. Поиграйтесь с настройками и наверняка добъетесь нужного результата.
Удачи.
 

Цитата:
Странно. У меня патченный вариант выдаёт точно то же, что и триальный:

У меня тоже. А я только что скачал под этим соусом 55 мег .

Всего записей: 2496 | Зарегистр. 28-05-2004 | Отправлено: 19:59 10-01-2005 | Исправлено: Arcand, 20:13 10-01-2005
Stranger1



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Без всеобщей помощи всё-таки сложновато для начала.
Подскажите последовательность действий.
 
Задача: получить электронный вариант книги высокого качества,
в основном, для себя, ну и возможно для общественности
Книга с цветными фотографиями ~500 стр. Хотелось бы иметь поиск по книге.
Размер конечного файла порядка 60-80 МБ.
 
В чём всё-таки лучше сделать в Djvu или Pdf?
Если Djvu, то какая последовательность?
Cканирование (какое разрешение) - обработка в Kromsator - OCR - сборка в Djvu и т.д.?
Хотя бы в 2-х словах.
Спасибо.
 

Всего записей: 352 | Зарегистр. 08-02-2003 | Отправлено: 21:32 10-01-2005
EL

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Stranger1

Цитата:
Скрипт работает, но всё сохраняется в 72 dpi, в любом формате.  
Как-то удалось решить эту проблему?  
 
PS У меня Win2k sp4, Epson Perfection 2400.

 
Пока нет. Эта проблема связана с конкретными драйверами конкретного сканера. Именно на них (точнее на их GUI-оболочках) лежит задача запоминания последних установок сканирования. И некоторые почему-то не запоминают. И тут мой скрипт пока, к сожалению, ничего поделать не может.
 
Выходом может быть написание собственной оболочки для TWAIN-драйверов (как в FineReader). Но на реализацию этой идеи у меня пока нет времени.

Всего записей: 48 | Зарегистр. 02-04-2004 | Отправлено: 23:52 10-01-2005
Stranger1



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
EL
 
Да, я пробовал запускать IrfanView - тоже самое.
i_view32.exe /scan - всё нормально (300 dpi)
i_view32.exe /scanhidden - 72 и всё тут
 
А можно ещё через какую-нибудь программу попробовать
с аналогичными ключами? Не в курсе?
Спасибо.

Всего записей: 352 | Зарегистр. 08-02-2003 | Отправлено: 00:27 11-01-2005
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Arcand

Цитата:
О проблеме "инь".  
Выдержка из documenttodjvu.conf:

Об этом, вроде, все тут знают. Проблема состояла, видимо, в том, как избежать "инь" в случае применения режимов, отличных от "lossless".
Во всяком случае, именно так я интепретировал озабоченность тех, кто критиковал здесь формат *.djvu.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 02:25 11-01-2005
kvk



Moderator
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Stranger1
1 пдф djvu без разницы по вашему техзаданию (я в таком случае и то и то делаю) разница в размере будет.
сейчас занят вечером постараюсь написать, но вопрос много ли фотографий (10 - десятки - сотни) процедура от этого зависит.
Удачи

Всего записей: 9240 | Зарегистр. 23-12-2001 | Отправлено: 06:53 11-01-2005
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu
articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru