Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor

Модерирует : gyra, Maz

Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

   

Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Scan Tailor

 
Скриншот:

В разработке находится новая альтернатива СканКромсатору. Разработчик - ваш покорный слуга.
Задача программы - пост-обработка сырых сканов с целью их последующей сборки в PDF или DJVU.
 
Уже есть на что посмотреть, и возможно присоединиться к проекту. Проект с открытыми исходниками и кросс-платформенный (Windows + Linux).
 
По сравнению со СканКромсатором планируется большее удобство использования, большая интерактивность, но при этом не меньшая автоматизация процесса.
 
Сайт проекта: http://scantailor.sf.net     Скриншоты
 
Топик программы на форуме Натахаус       Англоязычный топик по ScanTailor

Документация
 
Документация (Wiki)              Зоны картинок в ScanTailor
 
Статья: Scan Tailor. Программа для обработки отсканированных книг
 
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
 
Методика использования STA совместно с Djvu Imager

Дистрибутивы
 
Версия СТ с функцией выпрямления искривленных строк (dewarp от Rob)
 
Патч от anagnost96 Вариант ScanTailor с этим патчем (STA)  Зеркало
 
ScanTailor для Mac
 
Последние изменения в дереве исходников - для сильно любопытных и владеющих английским.
Там же можно подписаться на rss/atom - для нетерпеливых.
 

Дополнительно
 
ST GreyText v1.0 Программа для генерации вывода как бы "Только текст (в режиме серого)" - для Scan Tailor от anagnost96.
 
LayerTailor Программа для разделения сканов (после "Смешанный режим) на foreground и background слои с целью последующего раздельного кодирования в djvu. Принцип работы: Все черные пиксели (яркость==0) переносятся в foreground, остальное - в background. Функция layer принимает на входе 3 параметра: исходное имя файла TIFF, имя файла для foreground и имя файла background. Автор: U235.
 
Предложения к anagnost96 по поводу улучшения его модификации СТ
Сравнение выпрямления искривленных строк в СТ и в BR

Статья О возможности альтернативы СканКромсатору     Полезные ссылки по теме топика
ArtScan - ещё одна программа для сканобработки.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 21:37 15-06-2008 | Исправлено: ndch, 22:37 12-02-2010
cnf



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Deleted

Всего записей: 241 | Зарегистр. 09-07-2006 | Отправлено: 22:22 09-02-2010 | Исправлено: cnf, 22:25 09-02-2010
dma200899

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Не отправляется файл дампа.
 
Падение на этом файле:
http://www.onlinedisk.ru/file/345889/

Всего записей: 126 | Зарегистр. 29-06-2008 | Отправлено: 05:23 10-02-2010
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
woodyfon

Цитата:
И вообще зачем вам исходники

Я бы добавил их сюда: http://www.djvu-soft.narod.ru/bookscanlib/project.htm .
 
Добавлено:
Восстановление формы страницы текста для коррекции геометрических искажений
Ramiz Zeynalov, Alexander Velizhev, Anton Konushin
Department of Computational Mathematics and Cybernetics
 
http://www.graphicon.ru/proceedings/2009/conference/se9/121/121_Paper.pdf

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 09:08 10-02-2010
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
slava_kry

Цитата:
И как мне кажется, всё это здесь оффтопик!?

Да, оффтопик.
 
Но не совсем оффтопик если бы звучало в такой формулировке: Для таких сканов требуется пост- или пре- обработка относительно СТ. Т.е. как бы неплохо было бы если в контекстном меню столбца превьюшек СТ было "скопировать путь данного скана" и "обновить данный скан" для/после обработки во внешней софтине.
 
slava_kry, согласитесь, не так уж и плохо что есть "юноши бледные, со взлядом безумным" :) А то грустно бы совсем было.
 
StanFreeWare

Цитата:
Эмпирические правила какие-то приплетаете, эмоции никому не нужные.

Скажите об этом многим:для начала Arcand,Tulon.
Более древние упоминания лень искать.
Это правило лежит на поверхности: возьмите много разных книг и прозрачную дюймовую линейку - происхождение станет очевидно.
 
Если до Вас не доходит намёками, объясняю "в лоб": Прочтите "Версия для печати" и не надо изобретать велосипед заново! Вы же открываете для себя такие бородатые фокусы и потом рассказываете всем, что жуть становится.
 

Цитата:
Dpi=300. И это факт.

Нравится задираться ? Скажи тогда какая линеатура. И это очень даже объективно.
Линиатура минимальная для обработки с целью получения неплохого результата, но качество печати оставляет желать лучшего, отсюда и посредственный результат.
 
amz01
Цитата:
За "слепую блондинку" - низкий поклон. И получи в ответ:"хреновому танцору всегда что-то мешает".

Ну что ж, будем прощаться, если Вы ничего не хотите ни видеть, ни слышать.
На будущее: пожалуйста, не хамите. А если нахамили - найдите мужество и извинитесь.

Всего записей: 6467 | Зарегистр. 31-08-2008 | Отправлено: 10:12 10-02-2010 | Исправлено: ndch, 15:38 10-02-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ndch
Я имел в виду следующее: (2696pix / 300dpi) * 25.4 mm_per_inch = 228.3mm = реальная высота данной книги. Все сходится. Что вы имели в виду под фразой

Цитата:
на вид ~150 ppi
?

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 10:33 10-02-2010 | Исправлено: StanFreeWare, 11:15 10-02-2010
Dashout



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare

Цитата:
реальная высота данной книги
при каких полях?
мое убеждение, что для е-книги постоянным значением должна обладать стандартная ширина текстовой строки (области текста). Все другие параметры и действия, обеспечивающие наилучшее качество этой строки при просмотре (печати)  - переменные.
т.е. выходит, что DPI должна быть динамической величиной, а не статической

Всего записей: 1130 | Зарегистр. 15-01-2005 | Отправлено: 12:24 10-02-2010 | Исправлено: Dashout, 12:26 10-02-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dashout

Цитата:
при каких полях? .. т.е. выходит, что DPI должна быть динамической величиной, а не статической

При реальных бумажных полях. Сказанное вами верно, только если вы не желаете сохранить информацию о реальном размере отсканированной бумажной книги, например, для создания последующей бумажной копии в натуральную величину из полученного djvu. Откройте любую djvu-книгу и выберите масштаб 100% - это и будет реальный размер страниц книги в миллиметрах после распечатки (можете линейку приложить к монитору).

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 12:33 10-02-2010 | Исправлено: StanFreeWare, 12:35 10-02-2010
Dashout



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
При реальных бумажных полях

поля - переменная величина
нельзя говорить "ЛЮБУЮ"
даже страницы в книге могут быть отсканированы с различным масштабом
А фокус при фотосъемке?  
по-моему, все - таки нужно опираться на конечную продукцию - читабельную книгу ( в т.ч. и страницу)
Прошу понять правильно, я не хотел вас обидеть тем, что лично Вы делаете не качественные книги
но ведь и сканы, и книги бывают разные (я уже приводил примеры)

Всего записей: 1130 | Зарегистр. 15-01-2005 | Отправлено: 12:44 10-02-2010 | Исправлено: Dashout, 12:47 10-02-2010
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
woodyfon
Я сделал dewarping для картинки из Вашего поста с примерами алгоритма Рамиза Зейналова в Book Restorer 4.2.1.
 
Вот что получилось:

 
Как видно, результат dewarping в Book Restorer 4.2.1 (DBR) значительно превосходит по качеству dewarping по алгоритму Рамиза Зейналова (DRZ). А именно, после DRZ строки получаются волнистыми, тогда как после DBR строки получаются совершенно прямыми.
 
Выводы:  
 
1. Dewarping в Book Restorer 4.2.1 пока заменить нечем.
 
2. Алгоритм Рамиза Зейналова необходимо совершенствовать.
 
3. Внедрять в СТ какой-либо из имеющихся алгоритмов dewarping (от Rob или от Рамиза Зейналова) пока что бессмысленно.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 12:53 10-02-2010
woodyfon

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000,  
1. Реверсите код dewarpinga из BR. Будем внедрять! Это ж полностью коммерческая программа с закрытыми исходными кодами.
2. А о том, что алгоритм DRZ не совершенный, я не спорю. По мере изучения проблемы постараюсь вникнуть и что-то усовершенствовать, если удастся. Прошу, чтобы кто-нибудь присоединился. Математики, кодеры...А то как критиковать, так любят, а что-то создать или помочь на деле, так в кусты: нет времени, мне это неинтересно и т. д. Я же говорил, что данный алгоритм является наилучшим из доступных. И еще одно замечание: данное изображение я обработал с настройками по умолчанию. Попытаюсь, сделать лучше. Но строки после BR не полностью ровные, также есть геометрические искажения возле начала строк. Заметьте, DRZ коректирует даже перспективные искажения. Я не понимаю, почему у вас эталонами обработки являются BR и SK? Вроде же появились достойные альтернативы.  
3. По крайней мере DRZ гораздо лучше, чем алгоритм Rob-a. И ненамного хуже BR. Это беря в учет, что Dewarp будет, уверен, в бесплатной программе ST.

Всего записей: 417 | Зарегистр. 03-08-2007 | Отправлено: 13:07 10-02-2010 | Исправлено: woodyfon, 13:15 10-02-2010
Dashout



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ndch

Цитата:
Скажите об этом многим:для начала Arcand,Tulon.
Более древние упоминания лень искать.
Это правило лежит на поверхности: возьмите много разных книг и прозрачную дюймовую линейку - происхождение станет очевидно.  

к своему стыду не читал ветку полностью, тоже пытался изобрести велосипед
Ну тогда тем более не понятно, почему Tulon оставил статический DPI на входе...

Всего записей: 1130 | Зарегистр. 15-01-2005 | Отправлено: 13:33 10-02-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Почему важно знать реальный DPI?  Попробую объяснить.  Во первых под реальным DPI я понимаю такой, который позволяет по имеющемуся изображению объекта, оценить его физические размеры (дюймы, мм), которые он имел на исходном физическом носителе (в книге).  Вот пара ситуаций, в которых эта информация используется:
1. Тянет ли данный объект на изображении по размерам на букву?  Без реального DPI на этот вопрос не ответить.
2. Алгоритм Select Content медленный, поэтому мы прогоняем его на уменьшенной копии изображения.  А насколько его можно уменьшить, так чтобы дыры и углубления в буквах не пропадали (это важно)?  По пиксельному размеру этого не оценить, потому что у кого-то сканер формата A3 (большие размеры), а у кого-то софт для сканирования автоматически обрезает скан по размерам сканируемого объекта (малые размеры).  При этом и тот и другой возможно сканировали одну и ту же книгу в одном и том же DPI.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 15:05 10-02-2010 | Исправлено: Tulon, 15:08 10-02-2010
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dashout

Цитата:
Ну тогда тем более не понятно, почему Tulon оставил статический DPI на входе...

Потому что очень ресурсоёмко и очень накладно. Полезность не очень большая. Он неоднократно говорил "есть более приоритетные направления". И это действительно так.
 
Информация к размышлению:
  • Каков размер символов (в пикселях) для уверенного распознавания в FineReader ?
  • Одинаков ли размер символов в глянцевом журнале, например хакер, игромания, и т.п. что там молодёжь читает.
  • Что надо дописать что бы был "динамический DPI на входе" и может ли это быть без разбития на части. Каков предполагаемый объем и трудоёмкость. Как это отразится на общей производительности программы.
  • В каком разрешении нужно сканировать, чтоб не заморачиваться по поводу мелких шрифтов ?

 
Добавлено:
StanFreeWare
Цитата:
Что вы имели в виду под фразой  
Цитата:на вид ~150 ppi

Уже разжевали и в рот положили, тык теперь и проглотить за Вас ?
 
Будьте добры, просвятитесь что же такое линиатура.
http://www.google.com/search?q=lpi+линиатура
http://ru.wikipedia.org/wiki/Lines_Per_Inch
 
И как выглядит реальный оттиск, в т.ч. среднего качества.
http://en.wikipedia.org/wiki/Color_bleeding_(printing)
 
Книги же не на лазерном принтере печатают.

Всего записей: 6467 | Зарегистр. 31-08-2008 | Отправлено: 15:24 10-02-2010 | Исправлено: ndch, 15:27 10-02-2010
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
woodyfon

Цитата:
1. Реверсите код dewarpinga из BR. Будем внедрять!

А в принципе, такая мысль у меня мелькала ранее (в порядке фантастики, конечно). Хотя, чисто теоретически, не исключаю, что сделать это можно.

Цитата:
А то как критиковать, так любят, а что-то создать или помочь на деле, так в кусты:

. Важно было установить, пригоден ли DRZ в принципе. Я думаю - не пригоден (пока, по крайней мере).

Цитата:
Попытаюсь, сделать лучше.  

Надеюсь, сам автор тоже захочет попытаться.

Цитата:
3. По крайней мере DRZ гораздо лучше, чем алгоритм Rob-a. И ненамного хуже BR.

Всё-таки использовать DRZ пока нельзя. Это самый важный вывод.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 15:37 10-02-2010
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare,я считаю что НЕОБХОДИМО до пользования сканером ознакомится с подводными камнями сканирования, а не пытаться "вытянуть через фотошоп", т.к. часто невозможно получить качественный результат при небрежном сканировании, особенно на недорогих (читай некачественных) книгах.
Посредственный результат - легко.

Всего записей: 6467 | Зарегистр. 31-08-2008 | Отправлено: 15:42 10-02-2010 | Исправлено: ndch, 15:43 10-02-2010
Dashout



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
чуть позже отвечу...
навскидку. предложение по введению ИП намного упростит алгоритм
Уважаемый Tulon
Цитата:
по имеющемуся изображению объекта

под объектом я понимаю некую прямоугольную и стандартную (для всей книги) площадь на странице, на которой располагаются более мелкие объекты (символы)
Конечной продукцией мне надо обеспечить вывод этой площади (OCR пока отсутствует).
Следовательно. мне ее надо зафиксировать (просчитать) и уже потом разбираться внутри.
Фиксируя ИП я могу легко привязать ее по 2 граням к любому углу текстового блока, выровнять, обеспечить вывод и 1 и 2 страниц на печать.
устраняется операция разбить на страницы - она реализуется при привязке ИП
при этом, вывод будет более качественный ...

Всего записей: 1130 | Зарегистр. 15-01-2005 | Отправлено: 15:47 10-02-2010 | Исправлено: Dashout, 15:54 10-02-2010
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
woodyfon
Цитата:
почему у вас эталонами обработки являются BR и SK

Потому что в BR получается посредственный результат их плохих исходников.
Кто хочет заморочится на хороший скан книги - использует предназначеный для этого сканер, как например OpticBook 3600. Да, он в 3 раза дороже недорогого Epson V30. Но сканирует быстрее, без тени у корешка и искажения строк.

Всего записей: 6467 | Зарегистр. 31-08-2008 | Отправлено: 15:47 10-02-2010 | Исправлено: ndch, 15:55 10-02-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ndch
Позволю себе еще раз напомнить вашу фразу целиком:

Цитата:
РАЗРЕШЕНИЕ МАЛЕНЬКОЕ, на вид ~150 ppi.

Написали бы lpi, не было бы недоразумений. Формулируйте ваши мысли точнее, пожалуйста.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 17:04 10-02-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dashout
Я извиняюсь, но я мало что понял в вашем описании ИП, что в первый раз когда вы о нем говорили, что сейчас.  Написано очень абстрактно и совершенно оторвано от реальности.  Кроме того у меня есть подозрение, что вы исходите из неверных предпосылок.  Например неверна предпосылка о том, что интересующая нас область на исходном скане будет одинаковой для группы сканов.  На практике, первые 5 этапов в ST - это и есть определение этого самого ИП, если конечно я правильно понял, что это такое.  И заметьте, что эти этапы чисто аналитические - они не генерируют новых изображений, они просто собирают данные об исходном.  Последний шестой этап берет исходное изображение, берет зону, которая нас интересует, делает с ней всякие манипуляции, после чего выводит результат в файл.  Так что можно сказать, что я уже реализовал все, что вы предлагали (с поправкой на мое слабое понимание вашего предложения).

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 17:21 10-02-2010
woodyfon

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ndch

Цитата:
Потому что в BR получается посредственный результат их плохих исходников.  
Кто хочет заморочится на хороший скан книги - использует предназначеный для этого сканер, как например OpticBook 3600. Да, он в 3 раза дороже недорогого Epson V30. Но сканирует быстрее, без тени у корешка и искажения строк.

Не согласен. Кто хочет получить нормальный скан книги, с попадя не меняет технику (где бы видили, чтобы не работал движок и покупали новую машину), а пытается придумать/разработать технологию "ручного" сканирования, заключающийся в скорости, удобстве, качестве. К примеру, тень корешка можно оставить, но вырезать потом в ST - исключаем. Для этого во время сканирования придерживаем книгу двумя руками (не надо пользоваться другими предметами - это только усложнит), и давим сильнее когда лампа подойдет к центру книги. Подробно можна почитать в тему про оцифровку электронных книг. Не знаю, лично у меня не получается сделать скан с искривленными строками (использую  Mustek ScanExpress A3 USB c CIS-оптикой). Поэтому для меня искривление строк не столь важное. Требуя, хм прося/делая , dewarp-a хочется хоть что-то привнести в проект.
monday2000

Цитата:
А в принципе, такая мысль у меня мелькала ранее (в порядке фантастики, конечно). Хотя, чисто теоретически, не исключаю, что сделать это можно.

Да у вас, извините, почти все теория. Как известно. теория есть порождение практики. Да даже теоретически Этого сделать нельзя. Полное нарушение лицензии программы.
 
Если внедрять пока нельзя, то давайте альтернативу. Будем разбирать. Могу предположить, что искривление строк происходит в основном происходит в переплете книг. Поэтому разумнее взять алгоритм людей с азиатскими фамилиями (точных имен не помню) и внедрить. По статье он легкий в исполнении и быстр. Автор над алгоритмом работать уже не будет: сейчас в аспирантуре занят совершенно другими задачами, тема диссертации не имеет никакого отношения
к обработке изображений. Автор также подчеркивал, что алгоритм предназначен в основном для изображений книг, оцифровка которых производилась фотоаппаратами высокого качества.

Всего записей: 417 | Зарегистр. 03-08-2007 | Отправлено: 18:03 10-02-2010 | Исправлено: woodyfon, 18:15 10-02-2010
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor
Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru