Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor

Модерирует : gyra, Maz

Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

   

Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Scan Tailor

 
Скриншот:

В разработке находится новая альтернатива СканКромсатору. Разработчик - ваш покорный слуга.
Задача программы - пост-обработка сырых сканов с целью их последующей сборки в PDF или DJVU.
 
Уже есть на что посмотреть, и возможно присоединиться к проекту. Проект с открытыми исходниками и кросс-платформенный (Windows + Linux).
 
По сравнению со СканКромсатором планируется большее удобство использования, большая интерактивность, но при этом не меньшая автоматизация процесса.
 
Сайт проекта: http://scantailor.sf.net     Скриншоты
 
Топик программы на форуме Натахаус       Англоязычный топик по ScanTailor

Документация
 
Документация (Wiki)              Зоны картинок в ScanTailor
 
Статья: Scan Tailor. Программа для обработки отсканированных книг
 
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
 
Методика использования STA совместно с Djvu Imager

Дистрибутивы
 
Версия СТ с функцией выпрямления искривленных строк (dewarp от Rob)
 
Патч от anagnost96 Вариант ScanTailor с этим патчем (STA)  Зеркало
 
ScanTailor для Mac
 
Последние изменения в дереве исходников - для сильно любопытных и владеющих английским.
Там же можно подписаться на rss/atom - для нетерпеливых.
 

Дополнительно
 
ST GreyText v1.0 Программа для генерации вывода как бы "Только текст (в режиме серого)" - для Scan Tailor от anagnost96.
 
LayerTailor Программа для разделения сканов (после "Смешанный режим) на foreground и background слои с целью последующего раздельного кодирования в djvu. Принцип работы: Все черные пиксели (яркость==0) переносятся в foreground, остальное - в background. Функция layer принимает на входе 3 параметра: исходное имя файла TIFF, имя файла для foreground и имя файла background. Автор: U235.
 
Предложения к anagnost96 по поводу улучшения его модификации СТ
Сравнение выпрямления искривленных строк в СТ и в BR

Статья О возможности альтернативы СканКромсатору     Полезные ссылки по теме топика
ArtScan - ещё одна программа для сканобработки.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 21:37 15-06-2008 | Исправлено: ndch, 22:37 12-02-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Просили исходники в одном архиве - получите:
http://downloads.sourceforge.net/scantailor/scantailor-src-20080804.tar.gz?use_mirror=osdn

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 18:24 06-08-2008
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
Спасибо!
 
Добавлено:
Посмотрите, пожалуйста, на досуге методичку от Arcand:
 
http://abab.front.ru/CorelScan.RAR (CHM, 831 КБ)
 
Это инструкция по улучшающей обработке grey-сканов с использованием Corel PHOTO-PAINT. Подозреваю, что это - самая продвинутая технология из ныне известных (превосходящая даже возможности СК в части улучшающей обработки grey-сканов).
 
Есть ли шанс когда-нибудь в далёком будущем реализовать такие же обработки в ScanTailor? Дело в том, что использовать Corel PHOTO-PAINT - явно удел избранных, а нужен аналогичный, доступный и удобный для чайников инструмент. Насколько я понимаю, СканКромсатор такие обработки делать (вроде бы) не умеет (или об этом малоизвестно/неизвестно).

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 12:24 07-08-2008
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
У того CHM файла кодировка не прописана.  Он у меня в Линуксе не читается.  Картинки впрочем дают понять, о чем речь.  Тут имеет смысл говорить о том или ином фильтре в отдельности.  Например выборочное размывание - дело хорошее и реализуется не слишком сложно.  Думаю со временем оно появится в СТ.  Начсет других фильтров, можете высказывать пожелания, но только поконкретнее, а не просто "фильтры как в Corel Photo Paint".

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 15:45 07-08-2008
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
У того CHM файла кодировка не прописана

Вот я в Pdf на скорую руку напечатал:
 
http://rapidshare.com/files/135727861/CorelScan.rar.html

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 09:24 08-08-2008
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
В формате HTM:
 
http://www.djvu-soft.narod.ru/scan/corel_scan.htm

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 10:28 28-08-2008
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Там на самом деле читать было и не обязательно, все видно по скриншотам.  Ответ все тот же.  Есть там пара вещей, которые хотелось бы видеть в СТ, но разговор стоит вести по каждой конкретной фичи в отдельности.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 15:47 28-08-2008
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Да это дело не срочное - это на весьма далёкую перспективу.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 09:18 29-08-2008
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Выпустил новую версию.  Брать как обычно на http://scantailor.sf.net
 
Изменения были такие:
* Новый алгоритм разделения страниц.  Ищет именно линию сгиба, а не белое пространство между страницами.  Если ничего не находит, используется старый алгоритм.
* Улучшена бинаризация Sauvola.  Теперь не такие тонкие буквы выдает.  Возможно теперь стоит совсем убрать бинарицацию Wolf, потому как она всегда выдает слишком жирные результаты.
* Немного улучшено (надеюсь) нахождение рамки контента.
* Немного улучшена usability, там где это было легко сделать.
* Пофиксен баг (был только под Windows) из-за которого глючила лента предпросмотра на этапе вывода.
 
В общем софт вполне готов к реальному использованию.  Хотелось бы услышать, чего именно вам лично (обращаюсь ко всем) не хватает, чтобы перейти с СК / БР / что-то еще на СТ.
 
Добавлено:
Да, забыл вот что:  все-что нужно было для алгоритма автоматического выделения картинок от U235 я реализовал, но появились вопросы насчет самого алгоритма.  Как U235 мне ответит (что-то давно он на форум не заходил), так вскоре будет реазизован этот алгоритм.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 10:35 01-09-2008
Olive77

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
Спасибо, будем пробовать.
 
Хотелось бы сразу предложить выкласть To-Do на хомяке с раставленной приоритезацией.
 
И народ будет знать в каком направлении ведется работа и Вас будут меньше дергать с одними и теми же предложениями.
 
Правильно я понимаю, что страницы с картинками пока нельзя обработать (текст -> b/w, картинки -> grey или color)?

Всего записей: 1271 | Зарегистр. 26-12-2002 | Отправлено: 14:06 01-09-2008
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon

Цитата:
В общем софт вполне готов к реальному использованию.  Хотелось бы услышать, чего именно вам лично (обращаюсь ко всем) не хватает, чтобы перейти с СК / БР / что-то еще на СТ.
К сожалению, в прошлой версии не нашел никаких параметров бинаризации.
Не хватает, в первую очередь, различных видов сглаживаний (Blur)/увеличения резкости (Sharpen), коррекции освещенности...

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 14:16 01-09-2008
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Olive77
TODO на сайте - хорошая идея.

Цитата:
Правильно я понимаю, что страницы с картинками пока нельзя обработать (текст -> b/w, картинки -> grey или color)?

В таком виде еще нельзя.  Алгоритм от U235 как раз для этого и нужен.
 
ghosty
Из параметров бинаризации - только выбор алгоритма.  Все алгоритмы выбирают порог автоматически.  Sauvola и Wolf к тому же выбирают порог для каждлго пикселя в отдельности, так что неравномерности освещения им не страшны.
Насчет blur, sharpen, коррекции освещенности: вы их используете только с бинаризацией, или же и при сером / светном выводе тоже?  Если только с бинаризацией, то в СТ при бинаризации чистятся зазубрены.  Возможно и этого хватит.  Хотелось бы увидеть два результата: один тот, что выдает СТ, а другой - что вам хотелось бы видеть.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 15:10 01-09-2008
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon

Цитата:
Насчет blur, sharpen, коррекции освещенности: вы их используете только с бинаризацией, или же и при сером / светном выводе тоже?
Только с бинаризацией. К сожалению, никакая автоматика пока не может справиться со сложными сканами. Я перепробовал много разных алгоритмов бинаризации, в том числе и адаптивной, в том числе и Sauvola, но ни один из них не мог дать нормального результата для сканов старых книг (~до 70-80 годов).  
Я только недавно понял, почему на самом деле альтернативы СК нет. Просто на Западе все эти заморочки с предобработкой не нужны, т.к. библиотечные фонды хорошо сохранены, а книги в основном печатались в очень хорошем качестве. В России все наоборот - и книги годов до 50-60-х печатались из рук вон плохо (еще чуть ли не на дореволюционном оборудовании), и в библиотеках они ветшают намного быстрее.
СТ может хорошо быть приспособлен для обработки новых книг (хорошая плотная бумага, контрастная печать), но в том виде, в каком он есть сейчас, вряд ли подойдет для сложных книг. Западной аудиторией СТ будет встречен "на ура", а зачем нужен СК, им не понять.
Кстати, я читал несколько англоязычных статей, авторы которых занимались вопросами обработки ветхих книг. Так вот в этих статьях делается подобный вывод: никакая адаптивная бинаризация не заменит на сегодняшний день последовательной обработки с контролем параметров человеком.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 15:34 01-09-2008
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ну так дайте чтоли примеры таких сканов, где автоматическая бинаризации не справляется.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 15:50 01-09-2008
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
Если бы под рукой были подходящие примеры, конечно привел бы - я не храню сырые сканы.
Вот не самый подходящий, но все же...:
http://rapidshare.com/files/141778566/hegel11.rar.html
 
Добавлено:
Собственно, именно поэтому я и сделал свою конфигурацию СК. Лучшая "адаптивная бинаризация" - это такая, при которой имеется серьезная предобработка в режиме полутонов с предустановленными параметрами этой обработки для определенного рода книг - в случае с моей сборкой - для книг советских

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 16:03 01-09-2008
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А пароль на архив?

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 16:35 01-09-2008
Olive77

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
TODO на сайте - хорошая идея.  

ну я тогда пока подожду с предложениями
 

Цитата:
А пароль на архив?

там нет пароля

Всего записей: 1271 | Зарегистр. 26-12-2002 | Отправлено: 16:51 01-09-2008 | Исправлено: Olive77, 16:53 01-09-2008
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Действительно без пароля был.  Просто битым скачался.
И действительно адаптивная бинаризация тут не спасает.  Слишком резкое изменение освещенности.
 
Хотелось бы еще увидеть, что удалось получить с помощью CK.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 17:35 01-09-2008
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon

Цитата:
Хотелось бы еще увидеть, что удалось получить с помощью CK.

Что-то вроде этого:
http://rapidshare.com/files/141800166/out.rar.html
 
Добавлено:

Цитата:
Слишком резкое изменение освещенности.

Заметьте также, что сканировалась книга ОптикБуком, т.е. вариантов нет...

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 17:44 01-09-2008
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Да, интересно было бы узнать, как Кромсатор добивается такого результата.
С алгоритмом выравнивания освещения я знаком.  На выходе получается вот что:
http://rapidshare.com/files/141810215/normalized.png.html
И все равно такое толком ни автоматически ни вручную не бинаризуется.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 18:39 01-09-2008
dma200899

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А мне нравится результат BookRestorera.
 
Порог бинаризции подбирается колесиком мышки  
и результат получается за секунду.
 
http://rapidshare.com/files/141846788/1112.rar.html
 
это без вытягивания (фильтров) и нормализации

Всего записей: 126 | Зарегистр. 29-06-2008 | Отправлено: 21:14 01-09-2008 | Исправлено: dma200899, 21:17 01-09-2008
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor
Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru