Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Модерирует : gyra, Maz

articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

   

ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Хотелось бы составить нечто вроде алгоритма действий для тех, кто оцифровывает в разные форматы (а таковых здесь много).
Например, что делать, если у человека есть книга без картинок и формул, если с картинками и формулами, если оригинал плохого качества, если он хочет, чтобы было удобно читать, чтобы файл был наименьшего объема и т.д. и т.п.
Давайте разберемся, какие форматы для каких целей подходят. Проблема отнюдь не надуманная.  


Софт:
1. LizardTech DocumentExpress и DjVu Solo  
2. ScanKromsator: Знаменитый кромсатор для обрезки получаемых при сканировании изображений, а также для разделения страниц, очистки от мусора и т.п. (есть FAQ). Автор: bolega. http://bolega.hotmail.ru/
3. DjVuReader: Альтернативный шустрый ридер для *.djvu. Автор: Dickobraz. http://www.opendjvu.nm.ru/
Обсуждение здесь.
4. AutoScan: Плагин для беспрерывного сканирования под IrfanView. Обновляется при выходе новой версии IrfanView. Автор: EL. autoscan.zip (4 KB)


Полезные ссылки по *.djvu:
http://www.cqham.ru/m2_scan.htm  
http://www.cqham.ru/djvu_print.htm    
http://www.cqham.ru/likbez_djvu.htm    
http://www.cqham.ru/djvu_ocr.htm    
 
Наш маленький FAQ по *.djvu:
1. Q: Что делать, если при конвертации происходит замена одних букв на другие, напр. "и" на "н" (проблема "инь" (с) Astra55)
    A: Возможные варианты рассмотрены здесь.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 18:51 02-03-2004 | Исправлено: ghosty, 03:53 18-12-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Aegis

Цитата:
Тут надо не сглаживать а наоборот, увеличить контраст.  

Я говорил о сглаживании растра (убрать точки, из которых состоит изображение)

Цитата:
Дежавушка любит выводить на передний план только контрастные части, справедливо считая их более важными (это закон зрения известный каждому художнику - более далекие сцены теряют цвет и контраст из-за пыли в воздухе). Если текст будет контрастен и черен - он выйдет вперед. Что и требуется.  

Тогда как объяснить поведение Дежавю, когда она при переводе из пдф выводит в Background все части - и контрастные и неконтрастные, и при этом такой файл занимает меньше места, чем файл, преобразованный из тиффа, и в котором разделение имело место?
 
Кстати, маленькая хитрость (может быть, это только для меня открытие): в том случае, если в дежавю разделение текст/фон произошло удачно, то, отказавшись от фона, можно уменьшить объем файла более, чем в два раза. Делается это так: переключаем Display в режим Black & White и выводим на печать через VP.
Лучше, конечно, сразу сканировать в режиме ЧБ 300dpi. Просто я в который раз уже сталкиваюсь с дежавюшками, в которых никому не нужный фон почему-то оставлен.
 
cornborer

Цитата:
 вот если для людей, особенно не слишком искушенных, то это только создавать им проблемы.

Для таких людей и пдф может создать проблемы (взять хотя бы распечатку). Мне, например, в любом случае часто приходится вместе с пдф'ами передавать и Reader в придачу. С дежавю плагином все несколько проще, я думаю.

----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 09:16 11-03-2004
Aegis



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
cornborer

Цитата:
Однако, этот формат не поддерживает (надеюсь что только пока) никто из графических вьюеров, кроме djvu editor от Lizardtech.  

Видимо црушникам спасибо надо говорить. Это их формат, ну и там с передачей и пониманием файлов думается проблем дежавушка не имеет.  По поводу сложностей - согласен, не каждая птица долетит до середины Днепра. Однако если товарисч разумный, потом еще десять раз спасибо скажет за открытие дежаву. А если чайник - так и пдф ему сойдет.  Если вы базу делаете... Это все очень зависит... Базы в общем счастливы переходить на дежаву, если только они не целиком текстовые. А если вы к примеру имеете проект по распространению новостей, тут вам дежаву как корове седло конечно.
 
 
ghosty

Цитата:
Тогда как объяснить поведение Дежавю, когда она при переводе из пдф выводит в Background все части - и контрастные и неконтрастные

Настройки естественно. Смысл фона - размытый jpg, и только. Передний план - gif желательно с меньшей цветностью. Если не удается создать передний план - вы в пролете, половину прелести дежаву потеряли. Если у вас полноценная картинка (и фон и перед) но большая - тоже установки смотрите. Тут детально разбиралось что к чему, даже на русский полностью перевели.

Всего записей: 665 | Зарегистр. 06-09-2001 | Отправлено: 03:03 12-03-2004
cornborer



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Aegis
ghosty

Цитата:
пдф может создать проблемы  


Цитата:
проект по распространению новостей

Нет, только распространение оттисков личных публикаций в ответ на запросы. Некторые большого объема, изданы еще в приснопамятные времена СССР. Скажем книжка объемом 100 страниц. Запросы на 99.9% заграничные. Ни в одном случае с pdf проблем у заказчиков не было (все таки там pdf популярен шире, чем у нас). А с djvu - всегда.  
 
Если по делу, т.е. о сканировании, то думаю стоит обсудить выбор программы. Не только объем файла, но и его качество сильно зависят от того, какой программой пользоваться при его создании. Хотя DJVuerPro хуже сжимает, и качество как-то не такое, но зато все графические вьюеры его понимают. А вот файлы, сделанные программой от LizardTech вьюерами на читаются.

Всего записей: 5118 | Зарегистр. 09-12-2001 | Отправлено: 07:40 12-03-2004
Aegis



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
cornborer

Цитата:
распространение оттисков личных публикаций  

для текста ни дежаву ни пдф я бы не стал трогать. Куда проще сделать красивенький хтмл. Даже если "оттиски" это сканы текста, лучше отосиарить его, самому будет приятнее владеть вещью в таком виде. К тому же вдруг улыбнется еще разок публикнуть тексты - а тут глядишь все в готовом к употреблению виде.
 
Впрочем = нравится пдф = держитесь за него. Дело сугубое.
 
Ну а Лизарда тут уже пинали-пинали...

Всего записей: 665 | Зарегистр. 06-09-2001 | Отправлено: 09:42 12-03-2004
cornborer



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Aegis

Цитата:
лучше отосиарить его

Нет, все-таки полагаю не очень лучше . Чтобы автора с бОльшим удовольствием цитировали стОит придерживаться важного, хотя и нигде неписанного правила игры: электронный вариант публикации должен быть идентичен бумажной копии. А это после ора сделать очень трудно, если вообще возможно. Пдф хорош тем, что можно (если почему-то нужно) документ  снабдить нормальной цифровой подписью или закрыть ряд опций использования потребителем (например, запретить распечатку или копирование содержимого, конечно, с умом, чтобы Элкомсофтовской утилиткой за 10 секунд не сломать защиту). DJVu хорош малым размером, но плох тем, мало распространен, т.к.  не стал (и вряд ли уже станет) стандартом де факто для распространения и хранения документов (из-за отсутствия той же секретности хотя бы). И идеально подходит он только разве что для выставления в инете архивных редкостей. ИМХО, конечно .

Всего записей: 5118 | Зарегистр. 09-12-2001 | Отправлено: 08:15 13-03-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
cornborer

Цитата:
А вот файлы, сделанные программой от LizardTech вьюерами на читаются.

Это верно пока ИМХО только для версий выше 4.0...

Цитата:
Пдф хорош тем, что можно (если почему-то нужно) документ  снабдить нормальной цифровой подписью или закрыть ряд опций использования потребителем  

Это точно.

Цитата:
например, запретить распечатку или копирование содержимого, конечно, с умом, чтобы Элкомсофтовской утилиткой за 10 секунд не сломать защиту

Очень интересно. А как это сделать? Очень прошу ответить сюда: http://forum.ru-board.com/topic.cgi?forum=5&topic=8298
 
В общем согласен, для пересылки оттисков статей в некоторых случаях пдф'у нет равных
 
Aegis

Цитата:
Настройки естественно.

Действительно, настройки. У меня глюк состоял в том, что я соглашался с разрешением по умолчанию - 96dpi, думая, что именно в этом случае объем файла будет наименьшим. Оказалось, наоборот - при повышении разрешения (я говорю именно о DocExpress) качество ухудшается, а размер файла уменьшается. Странно как-то.
В результате на 300dpi я получил конечный файл размером 65,9Kb. Повторяю, моя проблема состояла в том, что у меня были "сложные" тиффы с кучей картинок и разнородным фоном, по которому был пущен текст.
Соответсвтенно, Fon Berg, версия с распечаткой из Акробата через VP - тупиковый путь. Что бы я ни делал с настройками VP, мне не удалось заставить его разделять слои. Кто-нибудь знает, можно ли VP заставить его работать так же, как DocExpress?

----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 08:57 13-03-2004 | Исправлено: ghosty, 09:00 13-03-2004
cornborer



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty
Ответил
Цитата:
http://forum.ru-board.com/topic.cgi?forum=5&topic=8298


Цитата:
Это верно пока ИМХО только для версий выше 4.0

Согласен, конечно.
 
Добавлено
только АСДСи (даже 6-й) так и не научился просматривать файлы, сделанные даже Соло. А Ифран с плагином стоит не у всех. Иконки у него какие-то, ну не такие. И качество фотографий передает хуже, чем АСД.

Всего записей: 5118 | Зарегистр. 09-12-2001 | Отправлено: 09:19 13-03-2004
vito333



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
даже ирфан многостраничные файлы не смотрит ...

Всего записей: 3319 | Зарегистр. 13-05-2002 | Отправлено: 18:42 13-03-2004
cornborer



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
vito333
Да. Конечно. Рулит только продукт от Лизарда.

Всего записей: 5118 | Зарегистр. 09-12-2001 | Отправлено: 07:54 14-03-2004
Aegis



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty

Цитата:
при повышении разрешения (я говорю именно о DocExpress) качество ухудшается, а размер файла уменьшается. Странно как-то.  

Это разбиралось на первых страницах топика в Варезнике. 300 dpi - это стандард для дежавушки. Все что меньше - пересамплируется и увеличивается в размере. Размер файла растет соответственно. Можно указывать и больше чем 300 - качество будет падать. Размер файла тоже.

Всего записей: 665 | Зарегистр. 06-09-2001 | Отправлено: 23:26 20-03-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Aegis

Цитата:
300 dpi - это стандард для дежавушки

Это да, я догадался уже.  
У меня сейчас другая проблема - небольшая, но неприятная. После использования утилитки от Генчо при копировании русского текста из созданного файла этот текст неизменно отображается в виде кракозябликов. Пока решения не нашел. Кто-нибудь сталкивался?

----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 06:28 21-03-2004
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Да вы что? Отродясь такого не было - падение качества и уменьшение размера при повышении разрешения. Другое дело что размер файла растет непропорционально повышению dpi, увеличение меньее, чем по логике. Возьмите качественный оригинал из PDF и попробуйте сделать djvu на 300 и на 600, потом сравните результаты.
 
WBR,
Astra
 
 
 
Добавлено
2ghosty
 
Чинить фонты. Я прогонял утилиты на солидной книге с массой шрифтов, и русских, и латинских, все нормально.
 
WBR,
Astra

----------
Per warez ad scientiam

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 06:31 21-03-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Astra55

Цитата:
Да вы что?

Какая у тебя версия Лизарда? У меня 4.0.
Вот результаты эксперимента. При повышении разрешения с 150 до 600 качество снижается всегда, а размер файла уменьшается в случае наличия картинок в тексте. Что у меня не так?
Текст/графика Разрешение (dpi) Метод Размер1 Размер2 Качество    
Только текст 150 bitonal 1,83Mb (4 стр.) 35,5Kb 5    
Только текст 600 bitonal 1,83Mb (4 стр.) 132Kb 4,5 (искажений больше)    
Текст и графика 150 bitonal 6,94Mb (1стр.) 40,6Kb 4    
Текст и графика 600 bitonal 6,94Mb (1стр.) 35,8Kb 2 (нет точек над "i")    
Текст и графика 150 scanned 6,94Mb (1стр.) 187Kb 5    
Текст и графика 600 scanned 6,94Mb (1стр.) 34,4Kb 3 (изображение размытое)

 
 
Добавлено

Цитата:
Чинить фонты. Я прогонял утилиты на солидной книге с массой шрифтов, и русских, и латинских, все нормально.  

Гм. Только что проверил еще раз - глюк исчез самопроизвольно. Вчера установил апдейтов на 29 мегов с Windows Update, видимо это решило проблему. Никакие фонты не переустанавливал...

----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 07:21 21-03-2004
Aegis



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Astra55

Цитата:
Отродясь такого не было - падение качества и уменьшение размера при повышении разрешения.  

 
Ну, эта... опять спор про дежавушную проблему терминов? (больше dpi - хуже изображение)?
 

Всего записей: 665 | Зарегистр. 06-09-2001 | Отправлено: 01:52 23-03-2004
Aegis



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Господа!  
тут такой вопрос возник. Проосиарил я один тифф английский, и встретился с неожиданностью: в одностраничных дежаву файлах в IE даже с OCR-текстом этот текст выбрать невозможно! Но если страниц более чем одна, хотя бы второй раз ту же страницу подклеить - текст уже выбирается и копируется нормально.
 
Кто-нибудь сталкивался с таким? Есть ли тут решения?

Всего записей: 665 | Зарегистр. 06-09-2001 | Отправлено: 02:54 24-03-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Вот, нашел софтинку для обработки отсканированных страниц книг. Обрезает края страниц, тень от корешка, разные фильтры полезные имеет. Неплохо, но, может, и лучше есть?
http://bolega.hotmail.ru/ (*.dll скачиваются отдельно)
 
И еще, кто из какого приложения сканирует. Из FineReader'a все бы хорошо, только он сохраняет в Multipage Tiff, что не всегда удобно. В ACDSee куча окон всяких вылезает, из-за которых не видно, что я там насканировал. Document Express после сканирования страницы зачем-то каждый раз закрывает TWAIN-драйвер...
Хотелось бы, чтобы после сканирования в приложении крупным планом открывалась отсканированная страница, а все остальные страницы отображались бы в виде Thumbs достаточно большого размера.
А может быть есть какие-нибудь специальные 3-rd party TWAIN-драйвера, заточенные под сканирование текста?

----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 07:20 02-04-2004
Nep



Moderator
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
шапку включил

----------
на форуме редко.Модером не являюсь.Татл обман :)

Всего записей: 41940 | Зарегистр. 24-06-2001 | Отправлено: 10:57 02-04-2004
EL

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty
Попробуй мой AutoScan 1.2 addon к IrfanView
http://www.labun.com/AutoScan_1.2.zip
Правда страницу после сканирования он не показывает, но в остальном возможностей гораздо больше, чем в FineReader

Цитата:
 
Программа предназначена для автоматического сканирования с заранее заданными
параметрами и сохранения в заранее заданный формат. В качестве движка
используется IrfanView. Никакие конопки во время сканирования нажимать не нужно.
Как только закончится текущий процесс сканирования, сразу же автоматически
начнется следующий.
 
В отличие от функции "Пакетное сканирование" в FineReader, здесь вы можете
использовать любые параметры сканирования, имеющиеся в вашем Twain-драйвере
сканера, и любые форматы файлов для сохранения, поддерживаемые IrfanView.
 

Всего записей: 48 | Зарегистр. 02-04-2004 | Отправлено: 17:30 02-04-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
EL

Цитата:
Попробуй мой AutoScan 1.2 addon к IrfanView  

Спасибо, очень заманчиво звучит
P.S. А ты парсер какой-нибудь, видно, используешь на наличие подобных вопросов в форумах? - Это твое первое сообщение на ру-борде

----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 20:40 02-04-2004
EL

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty: да нет, просто использовал фильтр по теме
Ну как, пробовал AutoScan? Бояться там нечего - исходный текст открыт (скрипт VBS)

Всего записей: 48 | Зарегистр. 02-04-2004 | Отправлено: 01:41 03-04-2004
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu
articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru