Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor

Модерирует : gyra, Maz

Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

   

Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Scan Tailor

 
Скриншот:

В разработке находится новая альтернатива СканКромсатору. Разработчик - ваш покорный слуга.
Задача программы - пост-обработка сырых сканов с целью их последующей сборки в PDF или DJVU.
 
Уже есть на что посмотреть, и возможно присоединиться к проекту. Проект с открытыми исходниками и кросс-платформенный (Windows + Linux).
 
По сравнению со СканКромсатором планируется большее удобство использования, большая интерактивность, но при этом не меньшая автоматизация процесса.
 
Сайт проекта: http://scantailor.sf.net     Скриншоты
 
Топик программы на форуме Натахаус       Англоязычный топик по ScanTailor

Документация
 
Документация (Wiki)              Зоны картинок в ScanTailor
 
Статья: Scan Tailor. Программа для обработки отсканированных книг
 
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
 
Методика использования STA совместно с Djvu Imager

Дистрибутивы
 
Версия СТ с функцией выпрямления искривленных строк (dewarp от Rob)
 
Патч от anagnost96 Вариант ScanTailor с этим патчем (STA)  Зеркало
 
ScanTailor для Mac
 
Последние изменения в дереве исходников - для сильно любопытных и владеющих английским.
Там же можно подписаться на rss/atom - для нетерпеливых.
 

Дополнительно
 
ST GreyText v1.0 Программа для генерации вывода как бы "Только текст (в режиме серого)" - для Scan Tailor от anagnost96.
 
LayerTailor Программа для разделения сканов (после "Смешанный режим) на foreground и background слои с целью последующего раздельного кодирования в djvu. Принцип работы: Все черные пиксели (яркость==0) переносятся в foreground, остальное - в background. Функция layer принимает на входе 3 параметра: исходное имя файла TIFF, имя файла для foreground и имя файла background. Автор: U235.
 
Предложения к anagnost96 по поводу улучшения его модификации СТ
Сравнение выпрямления искривленных строк в СТ и в BR

Статья О возможности альтернативы СканКромсатору     Полезные ссылки по теме топика
ArtScan - ещё одна программа для сканобработки.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 21:37 15-06-2008 | Исправлено: ndch, 22:37 12-02-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
WinXP SP3, ATI Radeon® Xpress 1150 256M
IvanStorogev  
Спасибо за развернутый ответ, но зачем же было картинками-то форум забивать. Надо было ссылками на файлообменник (или фотообменник).
slava_kry
Спасибо за ссылку на Sattva Descreen. Почитал документацию к нему ( http://www.sattva.ru/help/descreen/rus/professional/descreen_manual.htm ), чего и всем тем, кому кажется, что все так просто, желаю. Безумно интересно...
 
Я же имел в виду несколько другое... Здесь все-таки речь о djvu-книгах, а значит, в основном, о gray scale. Книга далеко не всегда сканируется в тех условиях, о которых говорится у Sattva Descreen.  
Понятно, что в общем случае основа алгоритма - это фильтрация + последующая обработка порогом. Но, возможно, для моего случая можно придумать что-то относительно простое алгоритмически, оставляющее только одноцветный серый фон и текст на нем.
Например так:
1. Определяем среднюю яркость серого участка.
2. Порог, чтобы остался только текст и самые черные точки в серой части.
3. Пылесосим точки и шлифуем буквы.
5. Накладываем фон цветом, определенным на шаге 1.
А алгоритмы опробывать не на абстрактном куске электронных часов, а на странице-убийце. Если результат в серой части после djvu будет не хуже заголовка той же страницы (он на белом фоне), тогда и можно будет говорить об алгоритме в контексте Scan Tailor. Иначе тема забьется флудом (хотя местами и очень познавательным).

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 19:07 02-11-2009 | Исправлено: StanFreeWare, 07:33 03-11-2009
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon:
Конфигурация: WinXP 32bit, rus, sp2 AMD Athlon 64, 2200 MHz, 1Гб ОЗУ, Nvidia Ge Force 8600 GT 512 Mb.
Разницы, с OpenGL и без, пока не заметил. Отрисовка, по-моему, и так хорошо работала.
 
IvanStorogev

Цитата:
Сначала обрабатываем страницу полосовым или низкочастотным фурье-фильтром, настроенным на пространственную частоту и направление сетки точек (растра).  

Но в качестве примера Вы почему-то приводите "ненастроенный" на "звездочки" спектра фильтр. Вообще Фурье-фильтрация  (фильтр в частотой области) в том виде, который Вы приводите, действует глобально на все изображение. Т.е. не только на растр, но и на текст, Line-art, что не очень хорошо. Один из выходов - предварительное деление на растр и нерастровые элементы (что и делается в ST на стадии вывод в смешаном режиме). Кстати, глаз человека борется с растром простым усреднением (в первом приближении ФРТ - круг).  
С цветным растром сложнее - нужно дополнительно делать преобразование RGB->CMYK (вообщем случае на цвета используемых красок, а их количества и значения еще надо как-то найти).
Предлагаю перенести обсуждение методов удаления растра сюда:
http://forum.ru-board.com/topic.cgi?forum=93&bm=1&topic=3172&start=200#lt

Всего записей: 980 | Зарегистр. 14-12-2005 | Отправлено: 19:13 02-11-2009
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Иллюстрация:
Оригинал
Descreen
Немного шумодава
Такого, методом, который предлагает Arcand не добится.
 
Хотелось бы увидеть "результат применения Медеаны+Адаптивное размытие" и сравнить.

Всего записей: 7000 | Зарегистр. 31-08-2008 | Отправлено: 20:15 02-11-2009 | Исправлено: ndch, 20:19 02-11-2009
slava_kry

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Arcand

Цитата:
А чем Вам не нравятся обычные фильтры:

Размытием и не нравится И да, Дежавю всё "пожуёт", но я рассматривал возможность замены для ПДФ высокого качества без жёсткого ограничения по объёму.
 
StanFreeWare

Цитата:
Здесь все-таки речь о djvu-книгах, а значит, в основном, о gray scale.

я прекрасно понимаю, но если интересно, попробуйте.

----------
Вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом

Всего записей: 4314 | Зарегистр. 18-09-2003 | Отправлено: 20:21 02-11-2009
Olive77

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Напишите, у кого работает, у кого нет, и в каких конфигурациях (видеокарта + операционная система).  

все нормально (nVIDIA Quadro NVS 140M + WS2008).
 
 
Впечатления от работы программы:
программа очень даже неплохо справляется с хорошим материалом,
но есть над чем можно / нужно еще поработать
 
1) В частности, не всегда правильно определяется полезная область, причем в случаях, которые, в общем-то, не должны представлять проблемы.
http://depo_sitfiles.com/files/66ijzhcxw
(То, что далеко от основного текста отстоящая нумерация страниц часто игнорируется, по-видимому, не особо лечится, так что придираться не буду )
 
2) иногда не правильно определяется угол поворота
http://depo_sitfiles.com/files/kyktuplm5
 
3) в некоторых случаях бинаризация не справляется.
Н-р, в след. примере http://depo_sitfiles.com/files/97jcutacm
даже выбор бинаризации по минимому (-15; черно-белый режим) не помогает.
Заголовки остаются жирными, так что точки над i не видны.
 
4) Несколько нервирует (особенно в режиме Output), что при изменении параметров сразу начинается обработка изображения. На мой взгляд, имеет смысл добавить соотв. пункт в установки и дать пользователю самому решать, какое поведение программы ему милее.
 
5) было бы неплохо, если бы можно было из ST открывать (обработанные) изображения в стороннем графическом редакторе  
 
P.S.: в адресах удалить подчерки.

Всего записей: 1271 | Зарегистр. 26-12-2002 | Отправлено: 00:37 03-11-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Olive77
Посмотрел ваши примеры - в большинстве из них ничего сделать увы нельзя.  Там, где отрезалась левая колонка в оглавлении, возможно помогло бы увеличение разрешения на этапе полезная область (сейчас она делается на 150 DPI), но эта стадия и так самая медленная, не считая вывода.
А сканы то у вас похоже не сырые, иначе как объяснить такие жирные буквы?  Или это софт сканера так над ними поработал?  Контраст тоже видно что задран.  С менее жирными буквами и колонка не обрезалась бы, и качество бинаризации вас бы устроило.
 

Цитата:
4) Несколько нервирует (особенно в режиме Output), что при изменении параметров сразу начинается обработка изображения. На мой взгляд, имеет смысл добавить соотв. пункт в установки и дать пользователю самому решать, какое поведение программы ему милее.  

А какая альтернатива?  Показывать в центральной зоне кнопку "Запустить обработку"?  Больше ведь там показывать нечего.  Думаю, необходимость постоянно тыкать туда вас нервировала бы еще сильнее.  Да и в чем вообще проблема?  Идущая обработка на ваши действия по подгонке параметров никак не влияет.
 

Цитата:
5) было бы неплохо, если бы можно было из ST открывать (обработанные) изображения в стороннем графическом редакторе  

При текущем состоянии дел это не прокатит, потому что ST запоминает размер файла и время последней модификации, чтобы решать, в каких случаях файл нужно перегенерировать, а в каких нет.
 
Добавлено:
А 3D ускорение я по умолчанию отключу.  Походу нормально оно работает только на более или менее современных картах от NVidia.  У меня на Intel'овской карте под Linux те же проблемы, что и у StanFreeWare на ATI под виндой, а на древнем ноуте с Radeon 9200 оно в принципе работает, но очень медленно, и с артефактами.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 02:51 03-11-2009
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon

Цитата:
А 3D ускорение я по умолчанию отключу.  Походу нормально оно работает только на более или менее современных картах от NVidia.

У меня мышь "замирает". Это ненормально.

Всего записей: 7000 | Зарегистр. 31-08-2008 | Отправлено: 08:33 03-11-2009
IvanStorogev

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
2U235
Но в качестве примера Вы почему-то приводите "ненастроенный" на "звездочки" спектра фильтр.
О чем честно и сказал. Пример делался за 5 минут, лень было делать настроенный фильтр. Кроме того узкополосные направленные фильтры имеют свои проблемы.  
 
Вообще Фурье-фильтрация (фильтр в частотой области) в том виде, который Вы приводите, действует глобально на все изображение.
Вообще-то Фурье-фильтрация фильтрация действует на всё изображение в любом виде, а не только в том, что я привел . Другое дело, что всё можно не обрабатывать, а только часть с растром.
 
Предлагаю перенести обсуждение методов удаления растра сюда:
http://forum.ru-board.com/topic.cgi?forum=93&bm=1&topic=3172&start=200#lt

Если бы кто-то перенес туда соответствующие посты, было бы хорошо. Я не умею, да и прав наверняка нет.


2StanFreeWare

Цитата:
Понятно, что в общем случае основа алгоритма - это фильтрация + последующая обработка порогом. Но, возможно, для моего случая можно придумать что-то относительно простое алгоритмически, оставляющее только одноцветный серый фон и текст на нем.
Например так:
...
1. Определяем среднюю яркость серого участка.
2. Порог, чтобы остался только текст и самые черные точки в серой части.
3. Пылесосим точки и шлифуем буквы.
5. Накладываем фон цветом, определенным на шаге 1.

Попробуйте операцию multi-thresholding для разделения зон. Вообще почему бы Вам не попробовать свои идеи на практике и потом не поделиться? Для экспериментов рекомендую пакет Pandore (в нем более 300 операторов обработки изображения и можно писать свои), замечательную программу G'Mic и старый-добрый NIP2/VIPS.
 

Цитата:
А алгоритмы опробывать не на абстрактном куске электронных часов, а на странице-убийце. Если результат в серой части после djvu будет не хуже заголовка той же страницы (он на белом фоне), тогда и можно будет говорить об алгоритме в контексте Scan Tailor. Иначе тема забьется флудом (хотя местами и очень познавательным).

Ваша страница-убийца отсканирована с разрешением 300 dpi, а растр на ней мелкий. Это делает малоэффективной её фильтрацию. Если Вы хотите, чтобы я поэксперементировал и, возможно, что-то предложил — отсканируйте с разрешением не ниже 600 dpi и, без всякой обработки, выложите. Тогда можно будет что-то попробовать.

Всего записей: 45 | Зарегистр. 20-12-2005 | Отправлено: 10:09 03-11-2009
Olive77

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon

Цитата:
А сканы то у вас похоже не сырые, иначе как объяснить такие жирные буквы?  Или это софт сканера так над ними поработал?

сканировал с помощью Vuescan.
С контрастом, точками белого и черного не работал, поскольку scankromsator справляется с такими сканами без проблем (по крайней мере точки над i он отделил).  
С другой стороны в интернете встречаются и сканы существенно более плохого качества, так что можно расматривать предоставленные сканы как своеобразный тест (для чего скан p227.tif в общем-то и создавался).
 

Цитата:
А какая альтернатива?  Показывать в центральной зоне кнопку "Запустить обработку"?  Больше ведь там показывать нечего.  Думаю, необходимость постоянно тыкать туда вас нервировала бы еще сильнее.  

В чем-то Вы, конечно, правы.
Я сделал этот комментарий в связи с тем, что иногда при передвижении ползунка бинеризации в режиме output, мышка соскакивает, что приводит к потере времени.
Также заметил, что программа начинает новую обработку, как только ползунок был передвинут, но мышка еще на была отпущена.  
 
В качестве альтернативы (зерно сомнения в ее необходимости Вы, конечно, посеяли), можно было бы предложить начинать новую обработку изображения при использовании комбинации зажатой shift + нажатия на иконку со стрелкой (которая уже присутствует)
 

Цитата:
При текущем состоянии дел это не прокатит, потому что ST запоминает размер файла и время последней модификации, чтобы решать, в каких случаях файл нужно перегенерировать, а в каких нет.  

пожет всё же покумекаете?
Было бы на самом деле очень удобно. (Или есть в близжайших планах внедрение в СТ библиотеки по полноценной обработки изображений?)
Идеальных сканов практически не существует, и дело тут не только в качестве скана, но и в уровне сложности исходного материала ака книги.
Посему довольно часто будут возникать ситуации, что надо будет исправлять огрехи, с которыми СТ не справился.
Вообще у меня возникло впечятление, что желание отловить, когда надо автоматически перегенерировать файл, связанно с некоторыми неудобствами/ограничениями для пользователя (суда же попадает пред. пункт).
 
Почему бы Вам не сделать как в большинстве надстроек для photoshopa, где есть два режима, один для тех кто не желает разбираться в программе и второй продвинутый, позволяющий при хорошем знании программы получать (существенно) более хорошие результаты.  
Пункт установки у Вас уже появился.

Всего записей: 1271 | Зарегистр. 26-12-2002 | Отправлено: 10:37 03-11-2009 | Исправлено: Olive77, 12:10 03-11-2009
slava_kry

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
IvanStorogev
Вот для тестов 600 dpi 7,5 мегов:


----------
Вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом

Всего записей: 4314 | Зарегистр. 18-09-2003 | Отправлено: 10:45 03-11-2009 | Исправлено: slava_kry, 10:45 03-11-2009
IvanStorogev

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
2slava_kry
Все же надо бы tiff выложить...

Всего записей: 45 | Зарегистр. 20-12-2005 | Отправлено: 11:22 03-11-2009
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
IvanStorogev

Цитата:
Для экспериментов рекомендую пакет Pandore

А что это за пакет? Можно ссылку?

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 11:27 03-11-2009
IvanStorogev

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
2estimated

Цитата:
А что это за пакет? Можно ссылку?

А Гугль на что?  
Pandore
G'Mic
ImageMagic
 
 
Добавлено:
2StanFreeWare  
Ваша страница-убийца. Denoise with a patch-averaging procedure + erode/dilate

Если бы dpi при сканирование было бы больше, качество было бы выше.

Всего записей: 45 | Зарегистр. 20-12-2005 | Отправлено: 12:12 03-11-2009
Olive77

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
IvanStorogev

Цитата:
Предлагаю перенести обсуждение методов удаления растра сюда:
http://forum.ru-board.com/topic.cgi?forum=93&bm=1&topic=3172&start=200#lt
Если бы кто-то перенес туда соответствующие посты, было бы хорошо. Я не умею, да и прав наверняка нет.  

достаточно отвечать в соотвествующем топике со ссылкой на то, где была начата дискуссия.

Всего записей: 1271 | Зарегистр. 26-12-2002 | Отправлено: 12:34 03-11-2009 | Исправлено: Olive77, 12:35 03-11-2009
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
IvanStorogev: спасибо. Просто Pandore с наскоку не нашлась

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 12:48 03-11-2009
slava_kry

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
IvanStorogev

Цитата:
Все же надо бы tiff выложить...

хорошо из дома вышлю ссылку в ПМ.

----------
Вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом

Всего записей: 4314 | Зарегистр. 18-09-2003 | Отправлено: 14:16 03-11-2009
domo22

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon

Цитата:
Либо одно либо другое - либо свобода действий, либо процесс, не вызывающий вопросов

Странно это все. Почему нельзя и так и так? Почему обязательно либо то, либо другое... Кому-то лучше стандартный путь, кому-то - свой. Ведь так было и будет всегда. Подумайте еще раз, может что-то и сделаете.

Всего записей: 428 | Зарегистр. 03-04-2007 | Отправлено: 15:21 03-11-2009 | Исправлено: domo22, 15:22 03-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
IvanStorogev
Denoise with a patch-averaging procedure + erode/dilate где? В какой программе?
Результат удвоения dpi + 10-пиксельный гаусс  + порог 137 на 255:

Серый планирую наложить позднее, используя информацию о серых зонах от ST

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 20:22 03-11-2009 | Исправлено: StanFreeWare, 21:11 03-11-2009
IvanStorogev

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
2StanFreeWare

Цитата:
Denoise with a patch-averaging procedure + erode/dilate где? В какой программе?  

Фильтром G'Mic (есть и консольная версия) в Gimp выделил очистил буквы от фона.  Заливка серым вручную, но эту область можно выделить автоматически.

Всего записей: 45 | Зарегистр. 20-12-2005 | Отправлено: 22:41 03-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
Небольшие предложения по панели со списком страниц:
1. Отображать (например, в нижней части панели) количество выбранных страниц.
2. Если есть несколько выбранных страниц, запускать плей только для них.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 06:34 04-11-2009
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor
Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru