Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor

Модерирует : gyra, Maz

Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

   

Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Scan Tailor

 
Скриншот:

В разработке находится новая альтернатива СканКромсатору. Разработчик - ваш покорный слуга.
Задача программы - пост-обработка сырых сканов с целью их последующей сборки в PDF или DJVU.
 
Уже есть на что посмотреть, и возможно присоединиться к проекту. Проект с открытыми исходниками и кросс-платформенный (Windows + Linux).
 
По сравнению со СканКромсатором планируется большее удобство использования, большая интерактивность, но при этом не меньшая автоматизация процесса.
 
Сайт проекта: http://scantailor.sf.net     Скриншоты
 
Топик программы на форуме Натахаус       Англоязычный топик по ScanTailor

Документация
 
Документация (Wiki)              Зоны картинок в ScanTailor
 
Статья: Scan Tailor. Программа для обработки отсканированных книг
 
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
 
Методика использования STA совместно с Djvu Imager

Дистрибутивы
 
Версия СТ с функцией выпрямления искривленных строк (dewarp от Rob)
 
Патч от anagnost96 Вариант ScanTailor с этим патчем (STA)  Зеркало
 
ScanTailor для Mac
 
Последние изменения в дереве исходников - для сильно любопытных и владеющих английским.
Там же можно подписаться на rss/atom - для нетерпеливых.
 

Дополнительно
 
ST GreyText v1.0 Программа для генерации вывода как бы "Только текст (в режиме серого)" - для Scan Tailor от anagnost96.
 
LayerTailor Программа для разделения сканов (после "Смешанный режим) на foreground и background слои с целью последующего раздельного кодирования в djvu. Принцип работы: Все черные пиксели (яркость==0) переносятся в foreground, остальное - в background. Функция layer принимает на входе 3 параметра: исходное имя файла TIFF, имя файла для foreground и имя файла background. Автор: U235.
 
Предложения к anagnost96 по поводу улучшения его модификации СТ
Сравнение выпрямления искривленных строк в СТ и в BR

Статья О возможности альтернативы СканКромсатору     Полезные ссылки по теме топика
ArtScan - ещё одна программа для сканобработки.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 21:37 15-06-2008 | Исправлено: ndch, 22:37 12-02-2010
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon

Цитата:
для тестирования нужны сканы, на которых ST'шный despeckle удаляет лишнего

Сливаю и оригинал, и результат работы деспекла. Надеюсь чем-то помогут.
http://www.onlinedisk.ru/file/303288/
 
Добавлено:
И всё таки снова прошу реализовать зоны для ч/б режима. Деспекл идеальным быть не может для ЛЮБОГО качества сканов. Всегда бывают случаи неправильной очистки. А ориентироваться на идеальные сканы - слишком узкая направленность программы получится (в плане очистки).
Пользователю нужно дать возможность вручную править результаты автоматической обработки. Для всех операций она есть, а для деспекла - только на одном режиме. Очень надеюсь, что вы прислушаетесь к просьбе.

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 09:25 25-12-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Сливаю и оригинал, и результат работы деспекла. Надеюсь чем-то помогут.  

Та же проблема - на этих сканах нечего чистить.  Мне нужные такие где есть, что чистить, и при этом удаляется лишнего.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 12:53 25-12-2009
pjuv



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
для тестирования нужны сканы, на которых ST'шный despeckle удаляет лишнего

Такие подойдут? http://narod.ru/disk/16321394000/1.ZIP.html

Всего записей: 4 | Зарегистр. 22-12-2004 | Отправлено: 16:35 25-12-2009
alpopo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
на этих сканах нечего чистить
может на этих есть чего http://www.onlinedisk.ru/file/303748/

Всего записей: 1453 | Зарегистр. 02-08-2008 | Отправлено: 18:11 25-12-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
pjuv

Цитата:
Такие подойдут? http://narod.ru/disk/16321394000/1.ZIP.html

Тут на четырех страницах было всего одно "легитимное пятно".  Хотелось бы побольше.  Я так понимаю, главный источник пятен - это буквы, просвечивающие с другой стороны.
 
alpopo

Цитата:
может на этих есть чего http://www.onlinedisk.ru/file/303748/

Ну а тут клинический случай - даже человеку не всегда ясно, где там мусор, а где элементы картинок.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 22:22 25-12-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
http://www.onlinedisk.ru/file/304044/

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 23:41 25-12-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare

Цитата:
http://www.onlinedisk.ru/file/304044/

Чуть лучше - на одной из страниц было аж два пятна.
Мне тут подумалось, а нужен ли вообще этот despeckle?  Мне пока не приходилось видеть страниц с более чем парой едва заметных пятен.  Это конечно не считая патологических случаев, когда сканировали в черно-белом режиме.  Однако в патологических случаях вряд-ли despeckle сможет помочь.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 00:26 26-12-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon

Цитата:
Мне тут подумалось, а нужен ли вообще этот despeckle

Свой пылесос я делал для обработки таких страниц (изначально она была серой 200 dpi, извлеченной из pdf).
http://www.onlinedisk.ru/file/304227/
И, кстати, как я не старался, точки над i в коде он таки сгрыз... Есть, конечно, идеи, как этого избежать, но, боюсь, алгоритм еще раза в три затормозится.
 
С другой стороны, не уверен, что можно на этих страницах
http://www.onlinedisk.ru/file/304226/
как-то отличить мусор, похожий на точку в строке от полезной информации.
 
Иными словами, с одной стороны существуют случаи, когда без деспекла книжка выглядит ну очень неаккуратно, с другой стороны всегда есть вероятность съесть какую-нибудь одинокую точку (скобку, запятую, дефис), очень важную в смысловом отношении.
 
Наверное, нужно еще посмотреть, какой результат на подобных сканах дает SK...

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 07:17 26-12-2009
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare
Вот пример алгоритма деспекла с промежуточными результатами. Конечно, не совсем идеально,  
http://www.onlinedisk.ru/file/304251/

Всего записей: 981 | Зарегистр. 14-12-2005 | Отправлено: 09:21 26-12-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235
Насколько я понял, принцип у вас такой: "убрать все не слишком большие соединенные компоненты, кроме тех, у которых справа/слева есть достаточное количество черных пикселей.
Боюсь оно будет удалять такие вещи, как сабскрипты (v1) и суперскрипты (x2).
Так или иначе, одну умную идею из вашего кода я подчерпнул - горизонтальной и вертикальной компонентам расстояния нужно давать разные веса.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 09:49 26-12-2009
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
Да, верно. Скрипт так и работает.
Верхние и нижние индексы могут удалятся, только если они сильно смещены вверх или вниз. Что, ИМХО, не так часто бывает.
Также их можно защитить от удаления меняя параметр "не слишком большие".
 
Вот еще пример:
http://alexrey036.narod.ru/lin.gif
тут использовалось последовательно 2 структурных элемента: горизонтальный 23px (для точек, запятых)  и вертикальный 11px  (для точек над i).
скрипт
P.s.
Еще можно для более селективного сохранения точек над i и обычных точек ужесточить условие: "только  снизу" ИЛИ "только слева".
Но проблема тут в другом: как выбирать параметры деспекла автоматически?
 Ведь книги бывают очень разные..

Всего записей: 981 | Зарегистр. 14-12-2005 | Отправлено: 10:29 26-12-2009 | Исправлено: U235, 10:47 26-12-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235
Еще не знаю, на что это может повлиять, но Ваш алгоритм по-разному относится к соринкам разной формы. Например, площадь (а значит и шанс остаться неудаленной) горизонтальной соринки 10х5 пикселов будет в 1.6 раза меньше, чем вертикальной такого же размера.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 14:03 26-12-2009
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare

Цитата:
Например, площадь (а значит и шанс остаться неудаленной) горизонтальной соринки 10х5 пикселов будет в 1.6 раза меньше, чем вертикальной такого же размера.

Не понял... почему площадь будет меньше, если размеры одинаковы..?

Всего записей: 981 | Зарегистр. 14-12-2005 | Отправлено: 14:32 26-12-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235
Виноват, просчитался насчет соотношния площадей. Конечно же оно меньше, чем 1.6, всего 11% разница...
Считал так: соринка 5х10 станет прямоугольником 16х33, площадью 528
а соринка 10х5 станет прямоугольником 21х28 с площадью 588.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 15:06 26-12-2009
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare
Проверил, вертикальная соринка 5x10 станет крестом, с площадью 320, горизонтальная - крестом с площадью 260. Но и та и другая удалится (если они расположены далеко от текста), т.к. их площадь меньше 400.

Всего записей: 981 | Зарегистр. 14-12-2005 | Отправлено: 17:08 26-12-2009
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
В Вики описание сборки программы в Linux актуально? У меня после команды cmake .  (вроде все пакеты имеются) выдает:

Код:
.../scantailor/CMakeLists.txt:352:
Parse error.  Function missing ending ")".  End of file reached.
-- Configuring incomplete, errors occurred!

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 19:48 26-12-2009 | Исправлено: denver 22, 19:49 26-12-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
denver 22

Цитата:
В Вики описание сборки программы в Linux актуально?

Оно неактуально в том плане, что текущая версия теперь лежит в GIT, а не в SVN.  Судя по ошибке, у вас какая-то древняя версия ST, потому как в текущей версии в этом файле значительно больше 352 строк.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 20:24 26-12-2009
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Я скачал 0.9.7.2 по ссылке http://scantailor.git.sourceforge.net/git/gitweb.cgi?p=scantailor/scantailor;a=snapshot;h=d43e280e2db8a33ad15e96b31ebcb0649c7e4f77;sf=tgz
По скачиванию с Git мне понятно - там snapshot вроде как надо качать. А сама процедура сборки сохранилась?

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 21:18 26-12-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Проще всего брать snapshot, это да.  Процедура сборки сохранилась.  Проверьте, сколько у вас строк в CMakeLists.txt в корне проекта?  Судя по ошибке, их там 352, а должно быть 556.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 21:25 26-12-2009
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Строк действительно 352. Качал по вышеуказанной ссылке. Блин, ну и куда дальше копать?
 
Добавлено:
Странная вещь происходила. В архиве файл правильный. При распаковке - сокращенный (по строкам). Распаковал снэпшот с помощью 7-zip под Wine (знаю, что изврат, но сработало) - вроде теперь всё на месте.

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 23:01 26-12-2009 | Исправлено: denver 22, 23:18 26-12-2009
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor
Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru