Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor

Модерирует : gyra, Maz

Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

   

Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Scan Tailor

 
Скриншот:

В разработке находится новая альтернатива СканКромсатору. Разработчик - ваш покорный слуга.
Задача программы - пост-обработка сырых сканов с целью их последующей сборки в PDF или DJVU.
 
Уже есть на что посмотреть, и возможно присоединиться к проекту. Проект с открытыми исходниками и кросс-платформенный (Windows + Linux).
 
По сравнению со СканКромсатором планируется большее удобство использования, большая интерактивность, но при этом не меньшая автоматизация процесса.
 
Сайт проекта: http://scantailor.sf.net     Скриншоты
 
Топик программы на форуме Натахаус       Англоязычный топик по ScanTailor

Документация
 
Документация (Wiki)              Зоны картинок в ScanTailor
 
Статья: Scan Tailor. Программа для обработки отсканированных книг
 
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
 
Методика использования STA совместно с Djvu Imager

Дистрибутивы
 
Версия СТ с функцией выпрямления искривленных строк (dewarp от Rob)
 
Патч от anagnost96 Вариант ScanTailor с этим патчем (STA)  Зеркало
 
ScanTailor для Mac
 
Последние изменения в дереве исходников - для сильно любопытных и владеющих английским.
Там же можно подписаться на rss/atom - для нетерпеливых.
 

Дополнительно
 
ST GreyText v1.0 Программа для генерации вывода как бы "Только текст (в режиме серого)" - для Scan Tailor от anagnost96.
 
LayerTailor Программа для разделения сканов (после "Смешанный режим) на foreground и background слои с целью последующего раздельного кодирования в djvu. Принцип работы: Все черные пиксели (яркость==0) переносятся в foreground, остальное - в background. Функция layer принимает на входе 3 параметра: исходное имя файла TIFF, имя файла для foreground и имя файла background. Автор: U235.
 
Предложения к anagnost96 по поводу улучшения его модификации СТ
Сравнение выпрямления искривленных строк в СТ и в BR

Статья О возможности альтернативы СканКромсатору     Полезные ссылки по теме топика
ArtScan - ещё одна программа для сканобработки.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 21:37 15-06-2008 | Исправлено: ndch, 22:37 12-02-2010
ntsx

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
 
ОК: http://www.onlinedisk.ru/file/348833/
--
Скажите, а как работает автосегментация?
Я могу на втором прогоне (для измененного dpi) получить другую разбивку на текст/изображения для автоматически определенных сегментов?
 
Если Вы заметили, в моей иллюстрации (.djvu) не хватает картинки на первой странице.
Похоже, это не случайно.
 
Если автосегментация зависит от dpi и выполняется дважды, значит сейчас разделение текстов / изображений в разных dpi недопустима.
Потому что выполнив сохранение картинок в меньшем dpi, мы потеряем их часть (моя догадка о работе алгоритма).
Это для STA; а для ST в этом случае просто бессмысленно проверять сегментацию на меньших dpi.
 
В этом случае нужен п. 5.5 по фиксации сегментации для некоего dpi, которая будет для п. 6 оставаться инвариантной относительно dpi вывода.
Это серьезно; на самом деле, по сравнению с этим фактом и сепаратор представляется отличным парнем, и пара минут на "convert -crop" уже не напрягает.
 
Tulon, счастье почти в наших руках, оно близко, но зависит от Вас. :)

Всего записей: 8 | Зарегистр. 12-02-2010 | Отправлено: 03:49 13-02-2010 | Исправлено: ntsx, 04:03 13-02-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ntsx

Цитата:
ОК: http://www.onlinedisk.ru/file/348833/

Ну что тут можно сказать.  Скан порядка 150 DPI, текст не бинаризован, на картинках текст еще меньшего размера, чем основной - буквально 8 пикселей в высоту для заглавных букв.  Я удивлен, что DjVu кодер не убил этот текст на картинках под чистую.
Вы нашли способ, хоть и трудозатратный, но все же позволяющий добиться приемлемых результатов - тут вас можно поздравить.  Однако для меня спасение таких безнадежных пациенов не является приоритетной задачей.  На это можно потратить очень много времени, и все равно большую их часть уже не спасти.
 

Цитата:
Скажите, а как работает автосегментация?
Я могу на втором прогоне (для измененного dpi) получить другую разбивку на текст/изображения для автоматически определенных сегментов?  

Маловероятно.  Сама сегментация всегда делается в 300 DPI, и потом масштабируется до нужного размера.  Однако на нее может повлиять например качество нормализации освещения, а оно уже зависит от DPI, хотя и не сильно.
 

Цитата:
Если Вы заметили, в моей иллюстрации (.djvu) не хватает картинки на первой странице.
Похоже, это не случайно.  

Возможно надо вручную править зоны картинок, что только подтверждает мои слова про много усилий - мало толку.
 
 

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 12:31 13-02-2010
ntsx

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
 

Цитата:
Маловероятно.  Сама сегментация всегда делается в 300 DPI, и потом масштабируется до нужного размера.  Однако на нее может повлиять например качество нормализации освещения, а оно уже зависит от DPI, хотя и не сильно.

 
Понятно, это хорошие новости.
Чтобы закрыть тему, Вы не могли бы посмотреть различие в сегментации моего исходного скана (объявленного как 150 dpi при создании проекта ST) при выводе в 600 или 300 dpi и 150 dpi.
На 150 dpi изображения не определяются.
 
Вот еще один пример из той же серии: http://www.onlinedisk.ru/file/349121/
На 150 dpi определяется на на пару картинок больше.
 
Я поэтому, собственно, и высказал пожелание о фиксации сегментации.
Но сейчас надо хотя бы определить граничные условия, когда можно применять эту технику, а когда нельзя, чтобы избавиться от риска потери либо дублирования сегментов.
 

Цитата:
Вы нашли способ, хоть и трудозатратный, но все же позволяющий добиться приемлемых результатов - тут вас можно поздравить.  Однако для меня спасение таких безнадежных пациенов не является приоритетной задачей.  На это можно потратить очень много времени, и все равно большую их часть уже не спасти.

 
И тем не менее, ST отлично справляется с поставленной задачей.
И ценно вдвойне, что даже на таких данных он позволяет быстро получить достойный результат.
Ну а то, что задачи имеют тенденцию к некоторому выходу за рамки изначальной идеологии - это ведь показатель успешности и жизнеспособности продукта.

Всего записей: 8 | Зарегистр. 12-02-2010 | Отправлено: 15:56 13-02-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Хотелось бы отметить, что сканами называть такой первоисточник некорректно. Это явные скриншоты с векторного источника в режиме fullscreen на мониторе шириной 1650 пикселей. Я относительно недавно заметил некоторое повышение количества djvu-книг с такими страницами - скриншотами вектора. Кстати, читаются они и без дополнительной обработки обычно неплохо (особенно на мониторе шириной 1650 пикслей, повернутом на 90 градусов )) ).  
Кстати, задача определения dpi для такого источника сродни задаче определения dpi для фотоскана со штатива.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 19:52 13-02-2010 | Исправлено: StanFreeWare, 09:23 14-02-2010
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon

Цитата:
Скоро будет в Git.

Спасибо!
Вот неофициальная win32 сборка под MinGW32 (исправленная ссылка, в архиве только exe, без библиотек):
http://www.onlinedisk.ru/file/349707/  
ScanTailor snapshot 12 Feb 2010 12:38:57 +0000 (no OpenGL)

Всего записей: 881 | Зарегистр. 14-12-2005 | Отправлено: 07:09 14-02-2010 | Исправлено: U235, 09:37 14-02-2010
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
Давно хотел спросить:
Довольно часто указывается заниженное и завышенное значение dpi, для этого на входе предлагается исправить значение.
 
Последствия последнего примера.
 
В концепцию программы входит "простота для пользователя". Но указания верного dpi приходится запускать внешнюю программу и немного "пошаманить". Что в критерий "простоты" не очень вписывается.
 
Возможно ли, в диалоге "изменение dpi" изобразить preview и сетку на высотой в один символ и/или окно высотой для вписывания шести-семи строк текста с zoom-ом для "визуального измерения dpi" ?
 
По-моему просто в реализации, понятно с человеческой точки зрения и результат достаточно точен.
 
Нечто в духе:
 

Всего записей: 6467 | Зарегистр. 31-08-2008 | Отправлено: 09:03 14-02-2010 | Исправлено: ndch, 11:23 14-02-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ndch
Для полноты картины можно еще и физические размеры при заданных dpi показывать, например так:


Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 09:40 14-02-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Хочу напомнить, что фич-реквесты по прежнему игнорируются.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 11:12 14-02-2010
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
Да, я не про фич-реквест, а про "вписывается ли в концепцию программы" ?
Хочется знать "линию партии".

Всего записей: 6467 | Зарегистр. 31-08-2008 | Отправлено: 11:16 14-02-2010 | Исправлено: ndch, 11:24 14-02-2010
Dashout



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
"вписывается ли в концепцию программы" ?  

похоже нет, как я понял, для ускорения работы задействованных алгоритмов происходит сжатие обрабатываемого материала

Всего записей: 1130 | Зарегистр. 15-01-2005 | Отправлено: 11:32 14-02-2010
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dashout, Видимо мы с Вами о разных вещах беседуем.

Всего записей: 6467 | Зарегистр. 31-08-2008 | Отправлено: 11:41 14-02-2010
Dashout



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon

Цитата:
2. Алгоритм Select Content медленный, поэтому мы прогоняем его на уменьшенной копии изображения.  А насколько его можно уменьшить, так чтобы дыры и углубления в буквах не пропадали (это важно)?  По пиксельному размеру этого не оценить, п

 
ndch

Цитата:
Dashout
 
Цитата:
Ну тогда тем более не понятно, почему Tulon оставил статический DPI на входе...
 
Потому что очень ресурсоёмко и очень накладно. Полезность не очень большая. Он неоднократно говорил "есть более приоритетные направления". И это действительно так.  


Всего записей: 1130 | Зарегистр. 15-01-2005 | Отправлено: 11:50 14-02-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Да, я не про фич-реквест, а про "вписывается ли в концепцию программы" ?  

Если вы сами это реализуете, то почему нет?
Я бы впрочем начал не с этого.  Я бы попытался угадать DPI с помощью все того же преобразования Фурье.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 12:08 14-02-2010
VidelSamogO



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
amz01
+1

Всего записей: 765 | Зарегистр. 16-08-2008 | Отправлено: 16:34 14-02-2010 | Исправлено: VidelSamogO, 16:35 14-02-2010
ntsx

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
 

Цитата:
Возможно надо вручную править зоны картинок, что только подтверждает мои слова про много усилий - мало толку.

 
В целом, проблема оказалось не столь существенной, как представлялось ранее.
Вычислив разность изображений в исходном (и желательном) dpi и dpi вывода текста, можно быстро подправить различия в сегментации.
 
Но, правда, не каждый будет с таким больным на голову рвением стремиться достичь наилучшего результата.
Все же зависимость сегментации от dpi добавляет пару шагов и ручной работы.
 
Но тем не менее, спасибо за ST.
Работать над моей парой книжек было весьма увлекательно и приятно.

Всего записей: 8 | Зарегистр. 12-02-2010 | Отправлено: 03:09 17-02-2010
Widok



Moderator-Следопыт
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Лимит страниц. Продолжаем здесь.


----------
Тень превращается в фантазии, таящиеся в глубине вашей души.
Пока идёшь ты среди теней, да не будет зла с тобой.

Всего записей: 24190 | Зарегистр. 07-04-2002 | Отправлено: 12:18 17-02-2010
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor
Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru