Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor

Модерирует : gyra, Maz

Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

   

Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Scan Tailor

 
Скриншот:

В разработке находится новая альтернатива СканКромсатору. Разработчик - ваш покорный слуга.
Задача программы - пост-обработка сырых сканов с целью их последующей сборки в PDF или DJVU.
 
Уже есть на что посмотреть, и возможно присоединиться к проекту. Проект с открытыми исходниками и кросс-платформенный (Windows + Linux).
 
По сравнению со СканКромсатором планируется большее удобство использования, большая интерактивность, но при этом не меньшая автоматизация процесса.
 
Сайт проекта: http://scantailor.sf.net     Скриншоты
 
Топик программы на форуме Натахаус       Англоязычный топик по ScanTailor

Документация
 
Документация (Wiki)              Зоны картинок в ScanTailor
 
Статья: Scan Tailor. Программа для обработки отсканированных книг
 
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
 
Методика использования STA совместно с Djvu Imager

Дистрибутивы
 
Версия СТ с функцией выпрямления искривленных строк (dewarp от Rob)
 
Патч от anagnost96 Вариант ScanTailor с этим патчем (STA)  Зеркало
 
ScanTailor для Mac
 
Последние изменения в дереве исходников - для сильно любопытных и владеющих английским.
Там же можно подписаться на rss/atom - для нетерпеливых.
 

Дополнительно
 
ST GreyText v1.0 Программа для генерации вывода как бы "Только текст (в режиме серого)" - для Scan Tailor от anagnost96.
 
LayerTailor Программа для разделения сканов (после "Смешанный режим) на foreground и background слои с целью последующего раздельного кодирования в djvu. Принцип работы: Все черные пиксели (яркость==0) переносятся в foreground, остальное - в background. Функция layer принимает на входе 3 параметра: исходное имя файла TIFF, имя файла для foreground и имя файла background. Автор: U235.
 
Предложения к anagnost96 по поводу улучшения его модификации СТ
Сравнение выпрямления искривленных строк в СТ и в BR

Статья О возможности альтернативы СканКромсатору     Полезные ссылки по теме топика
ArtScan - ещё одна программа для сканобработки.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 21:37 15-06-2008 | Исправлено: ndch, 22:37 12-02-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
amz01
Ругать - нельзя. Хвалить - тем более. Пытаться что-то советовать - у вас всегда есть аргумент "текст отлично читается, картинки вторичны". Остается только констатировать - да, вы правы, это действительно типичный результат использования метода вставки иллюстраций в контексте произведенной вами обработки.  

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 09:22 06-02-2010
amz01

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare
Что значит нельзя? Можно всё. У нас свобода слова.
Я закинул сюда эту книгу, чтобы все увидели, эффективность STA. В ST такое сделать невозможно. ST я давно уже смотрел, как-то. Но он не подходит для нормальной обработки наших хреново-отпечатанных-книг. Ему надо подсовывать глянцево-гламурные журналы и т.п. А STA сделал то, что надо невзирая. Потому что разделение сканов - это самая передовая технология.
 
Было бы хорошо, если бы автор ST понял, что его прога нужна для обработки сканов, а не только для самоутверждения.

Всего записей: 171 | Зарегистр. 15-09-2005 | Отправлено: 09:36 06-02-2010
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare
Цитата:
Безусловно, пальма первенства идеи принадлежит вам
Да нет, это наверняка уже где-то, когда-то было.
Я к тому что нет нужды изобретать велосипед каждый раз с нуля.
 
amz01

Цитата:
вариант с получением информации о странице мне вообще непонятен. Ну, увижу я там кучу строк с непонятной информацией, и что я буду с этой инфой делать? Я про это нигде толкового описания не нашёл.

Вся беда djvu-кодирования в том что толковому новичку трудно разобраться. Нет толкового FAQ, есть только рецепты "обходных" путей. Нет краткого обзора djvu изнутри.
Всё запутано и очень "наукообразно", названия всякие страшные.
Как разобрать djvu я Вам в принципе намекнул. И не думайте что с точки зрения "изготовителя/сжимальщика" djvu это значительно больше чем просто сумма всех его очевидных составляющих:
сервисные слои, ссылки+изображения:
биколор (и его словарь)
цветовая маска
полноцвет(да-да особой разницы/выигрыша по соотношению размер/качество нет, будь то цветные они или серые))
 
 
Кстати по-поводу Djvu Imager. На вполне адекватное улучшение изображение "на вид" "д-р. Р. Холуорта" "адепты дежавю, антогонисты быдло-пдф-а" очень неадекватно реагировали. Это я к тому что их методы не всегда стоит принимать за "чистую монету".
Но суть то в том что для изображений неплохо бы шумодавом пройтись (в основном для удаления растра, который "плохо" кодируется с потерями, особенно в djvu).
Ссылка
 
amz01

Цитата:
Лучше бы наши гении сделали STA 0973 c dewarp-ом. Тогда бы дело быстрее пошло. А-то прога ещё совсем сырая.

Вы ничего не путаете ? Ссылка

Всего записей: 6519 | Зарегистр. 31-08-2008 | Отправлено: 09:55 06-02-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
amz01
Да.. вот и делай после этого опенсорс. Еще вчера знать не знали о подобных возможностях, а сегодня на минуту остановились отдышаться, уже погоняем..  
Просто так, для интереса, почитайте статью в шапке "о возможности альтернативы скан кромсатору" и сравните с тем, что уже сделано... всего за полтора года.  
Кстати, там и про резаки пару слов было в интервью с bolega. После этого особенно весело было читать выводы про невозможность использования второго этапа ST.
 
Просто есть минимум три очевидных и неизвестно сколько еще не очевидных способа добавить функциональность STA в базовую ST. Каждый из них имеет свои достоинства и недостатки. А выбрать нужно один и навсегда.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 10:12 06-02-2010
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
amz01

Цитата:
Потому что разделение сканов - это самая передовая технология.

Это шаг назад. Читайте про сегментер DEE.

Всего записей: 6519 | Зарегистр. 31-08-2008 | Отправлено: 10:13 06-02-2010
amz01

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Нет, я ничего не путаю. Я жду STA версии 0973 с реализованным dewarp.
А, может, попытаюсь сам наваять что-то похожее на билдере. Хотя - маловероятно.
 
Намёков про биколор с полноцветом, категорически, не понимаю. Я не собираюсь возиться с каждой картинкой по 10 часов. Всё должно быть на автомате. И, к тому же, повторяю, что на входе уже есть однобитовый текст и отделённые серые картинки. Зачем же их опять выделять по-новой, но уже из готового djvu? Смысл?
 
Я не знаю, что такое djvu с точки зрения сжимальщика, но понял, что текст и картинки надо скармливать ему по-отдельности. А-то у него мозгов не хватает, чтобы правильно обработать их совместно. У него тогда  получается корявый текст с хреновыми картинками.
 
В принципе, намёк штука полезная, но, может, лучше открытым текстом сказать? Как разобрать и зачем разбирать?
 
Добавлено:
ndch

Цитата:
сегментер DEE

Не знаю, что это такое и где его искать, а STA - вот он тут рядом и работает.  
 
StanFreeWare
Не надо отчаиваться. Никто опенсорс не отменяет. И надо не "один и навсегда", а варианты с перебором. Что за  роковая безысходность?  
 
Про boleg-у я не говорю. Я СК юзать не собираюсь. Пробовал уже. Это кошмар в натуральную величину. Ни хелпа, ни структуры - какая-то амёба с фичами, обставленная кучей резаков, которые под шаманский бубен расставлять надо. И первая осмысленная рекомендуемая операция после запуска - "удалить все опции", блин. Каждую картинку надо индивидуально редактировать и сохранять и, после выхода из редактора, видна исходная картинка, а не отредактированная. Чюдо!  

Всего записей: 171 | Зарегистр. 15-09-2005 | Отправлено: 10:17 06-02-2010
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
amz01
 

Цитата:
Я не собираюсь возиться с каждой картинкой по 10 часов

И не надо, но для достижения удовлетворительного результата.
 

Цитата:
Всё должно быть на автомате

Звучит слишком оптимистично.
И часто недостижимо в виду того что имеем дело с реальным исходниками(изготавливаемыми реальными станками, бумагой, краской, персоналом) и сканером.
 

Цитата:
на входе уже есть однобитовый текст

Строго говоря с изображениями однобитовой глубины. Но никак уж не текстом.
 

Цитата:
Зачем же их опять выделять по-новой, но уже из готового djvu


Цитата:
Как разобрать и зачем разбирать?

 
Не делать  из готового djvu!!! А разобраться как djvu сжимает !!!
Потом сделать вывод и улучшить потребительские свойства книги (размер/качество).
И всё же удосужтесь, прочтите десяток сообщений.Ссылка
 

Цитата:
Я не знаю, что такое djvu с точки зрения сжимальщика, но понял, что текст и картинки надо скармливать ему по-отдельности.

Очевидно что не понял.
 

Цитата:
сегментер DEE  
Не знаю, что это такое и где его искать, а STA - вот он тут рядом и работает.

В sta и есть простейший сегментер.
 
Почему простейший и почему шаг назад ?
Попробуйте им обработать "глянцевый журнал", потом сравнить с dee.
Не хочу разжёвывать. Потратьте полчаса времени и всё поймёте.
 
Хотя если не заморачиваться - часто и простейшего достаточно.
 
Можете почитать "сканирование, обработка, сборка". Там многое обсасывалось.
 
Добавлено:
amz01 если не сложно выложите исходный скан страницы 29.
Изображу в лицах что можно улучшить.
 
Добавлено:
amz01
Цитата:
ST я давно уже смотрел, как-то. Но он не подходит для нормальной обработки наших хреново-отпечатанных-книг. Ему надо подсовывать глянцево-гламурные журналы и т.п.
Вы не правы. Нет в СТ фиксированного размера кропа.

Всего записей: 6519 | Зарегистр. 31-08-2008 | Отправлено: 11:11 06-02-2010 | Исправлено: ndch, 11:42 06-02-2010
amz01

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ndch

Цитата:
исходный скан страницы 29.

 

Всего записей: 171 | Зарегистр. 15-09-2005 | Отправлено: 12:03 06-02-2010 | Исправлено: amz01, 12:04 06-02-2010
anagnost96

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ndch

Цитата:
Почему простейший и почему шаг назад ?
Попробуйте им обработать "глянцевый журнал", потом сравнить с dee.
Не хочу разжёвывать. Потратьте полчаса времени и всё поймёте.  

 
Ясное дело, STA рассчитан в первую очередь на обработку нормальных книжек, где текст является по возможности черным и располагается отдельно от картинок. Для глянцевых журналов смешанный режим в СТ(А) не особенно хорош. Но и DEE при автоматической сегментации непременно запихнет отдельные участки картинок в маску, и, что гораздо хуже, большие куски текста -- в фон.
 
Впрочем, обработка текста на фоне картинок при помощи СТА тоже возможна, у меня для этого есть отработанная технология. Правда, требуется некоторая ручная работа, так что делать глянцевые журналы я бы не взялся. Но для цветных обложек -- в самый раз.
 
P.S. Я вообще не понимаю, к чему эти религиозные войны. Тут вполне традиционная коллизия: быстрота и автоматический режим против более высокого качества и ручного контроля. Каждый выбирает свое.

Всего записей: 132 | Зарегистр. 01-05-2009 | Отправлено: 12:27 06-02-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
amz01
ndch
Я позволил себе перенести обсуждение в топик  
Электронные книги

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 12:42 06-02-2010
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
anagnost96

Цитата:
быстрота и автоматический режим против более высокого качества и ручного контроля. Каждый выбирает свое.


Цитата:
Но и DEE при автоматической сегментации непременно запихнет отдельные участки картинок в маску, и, что гораздо хуже, большие куски текста -- в фон

Вот и иллюстрация "быстрота и автоматический режим".
ДЕЕ действительно делает это на автомате.
 
Ещё раз акцентирую: на полноцвете и на серых оффетных желательно пользоваться дерастеризаторами, шумодавами.
Можно в пакетном режиме проехаться по "иллюстрациям".

Всего записей: 6519 | Зарегистр. 31-08-2008 | Отправлено: 13:25 06-02-2010 | Исправлено: ndch, 13:28 06-02-2010
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Вся беда djvu-кодирования в том что толковому новичку трудно разобраться. Нет толкового FAQ, есть только рецепты "обходных" путей. Нет краткого обзора djvu изнутри.
Всё запутано и очень "наукообразно", названия всякие страшные.  

Ох, как Вы правы! Лично у меня от всего этого голова кругом идет.  
Отчасти возможно из-за того,ч то новый уровень обработки сканов пока обгоняет имеющееся ПО (по крайней мере по оптимальности его использования). Но даже для неновичка по обработке сканов - честно - я в АУТЕ!
Но буду разбираться...
P.S. Делаю попытку снова установить всё ПО для сборки ST/STA. Что-то пока снова ничего не получается. Ещё малость по-разбираюсь... потом буду просить помощи у Tulon. Повторяю: ничего пока не обещаю...

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 16:28 06-02-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Вчера U235 поделился весьма интересной и, что немаловажно, очень простой идеей разделения сканов.
 
Я добавил описание его методики, а также небольшой анализ STA и Метода U235 (можно даже дать ему какое-нибудь красивое название, типа BlackMethod )) ) в Руководство.
И набросал набор утилит под Windows.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 08:38 07-02-2010 | Исправлено: StanFreeWare, 08:52 07-02-2010
anagnost96

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare
 
Это довольно очевидная идея. Собственно, это было первое, что я попробовал, прежде, чем заняться модификацией СТ. Проблема в том, что на картинках черные пиксели всё-таки попадаются. После разделения по этому методу у меня на многих текстовых страницах получалась как бы черная вуаль на месте картинок.

Всего записей: 132 | Зарегистр. 01-05-2009 | Отправлено: 09:09 07-02-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
anagnost96
А чуть подсерять (на 1 шаг) черные пикселы в сканах перед обработкой в СТ пробовали?
В принципе можно модифицировать корректор до возможности задания пользователем произвольной яркости максимально темных пикселов обработанных сканов.
 
Недостатки методики понятны и даже документированы. Интересуют границы применимости.
 
Добавлено:
U235 справдливо заметил, что программу "Корректор" вполне можно заменить групповым увеличением яркости (должно хватить даже 1 шага).
Поправил "Сепаратор", теперь он разбивает и 8-битные индексированные тифки.  
Separator 0.5
 
Интересно, что смешанный индексированный файл превращается в файл без текстовой части всего одной строкой: sourceOut.Palette.Entries[0] = Color.White;
 
Кроме того, в топике Сканирование и обработка есть варианты Сепаратора от U235. Они консольные и не требуют .NET. Если методика попрёт (а я лично не вижу особых причин против этого), то, думаю и GUI-версии от U235 не за горами.
 
Кстати, только что еще раз проверил методику на своих сканах. Все работает замечательно! Кстати на моих сканах максимально темный цвет картинки был в районе RGB=[40,40,40], так что никакой предварительной корректировки не потребовалось.
 
Добавлено:
Попробовал увеличивать яркость с помощью FS ImageViewer.
Вердикт такой: можно, но есть нюансы.
1) Из-за того, что корректируется яркость всех пикселей, а не только самых темных, работа идет медленней (по сравнению с Корректором - примерно в три раза).
2) Даже установка шага яркости = +1 увеличивает яркость черных участков не до [1,1,1], а минимум до [3,3,3], что несколько избыточно.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 09:11 07-02-2010 | Исправлено: StanFreeWare, 11:02 07-02-2010
dma200899

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Пытаюсь двигать руками резак при увеличении.
и почему-то он начинает вращаться !!!!!
Т.е. я двигаю верхнюю жирную точку влево, а нижняя вместо того чтобы стоять смирно, едет вправо !    ??????????????
 
Ага, понял.
при увеличении зума нижней жирной точки не видно, и СТ фиксирует точку, где резак проходит через границу экрана.  
соответственно резак вокруг нее и начинает вращаться.
ИМХО - так быть не должно.
 
 
Tulon !!
ради бога не слушайте весь этот галдеж. Вы сделали замечательную программу.  
Стандартной процедуры оцифровки не существует; у каждого своё видение процесса.  
Концептуальные изменения убьют проект.
Сделайте маленькие но очень необходимые детальки.
1) Исправление дпи, в том числе сразу для группы файлов (тем более, что если СТ не нравятся 100% правильные дпи, их приходится корректирвать);
2) Возможноть пропускать любой этап. Сейчас это только добавить возможноть задать 0 поворот для группы файлов и определить полезную зону по границе файла;
3) ластик  
4) рамку
 
Пример с черными объектами готовлю.

Всего записей: 126 | Зарегистр. 29-06-2008 | Отправлено: 14:46 07-02-2010
amz01

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
dma200899
Цитата:
Tulon !! ради бога не слушайте...  

Ага. ещё один умник нашёлся. Значит - "все лохи, один я знаю, шо надо делать"...
Дежавью, одним словом.

Всего записей: 171 | Зарегистр. 15-09-2005 | Отправлено: 16:07 07-02-2010 | Исправлено: amz01, 16:20 07-02-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
dma200899

Цитата:
Возможноть пропускать любой этап.

Можете попробовать пока использовать мой "велосипед".
И Tulon вроде бы уже сам нашел этот глючек с поворотом на масштабе. Ссылка.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 16:51 07-02-2010
woodyfon

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Выкладываю результаты dewarp-инга по алгоритму Рамиза Зейналова:
До обработки:

После обработки:

Прошу еще раз, присоединитесь к тесту алгоритма.

Всего записей: 417 | Зарегистр. 03-08-2007 | Отправлено: 21:01 07-02-2010 | Исправлено: woodyfon, 21:03 07-02-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
woodyfon
С радостью бы, но есть ли смысл, ведь требования автора алгоритма противоречат GPL?

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 21:12 07-02-2010
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor
Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru