Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator / СканКромсатор (Часть 3)

Модерирует : gyra, Maz

gyra (14-11-2018 10:38): ScanKromsator / СканКромсатор (Часть 4)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199

   

Widok



Moderator-Следопыт
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ScanKromsator

Знаменитый Кромсатор для обрезки получаемых при сканировании изображений, а также для разделения страниц, очистки от мусора и т.п.  
Автор: bolega. http://bolega.hotmail.ru/.  
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Аналог ScanKromsator - Scan Tailor
 
Начало обсуждения - 1 часть, 2 часть.
 
Текущая версия: ScanKromsator v6.00.5 (2,1 МБ) Настройка внешних утилит  
Предыдущая версия: 5.96.2  (файл sk.exe), утилиты к ней можно взять из v5.96.1  
 
Старые версии: Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон


Подборка ответов bolega про работу ScanKromsator (версия 1.0.1 с закладками и сносками), 2016 г.
 
Хрестоматия материалов про СК , 2017 г.
(25 Mb, для открытия файла chm может потребоваться его разблокировать в свойствах файла, кликнув ПКМ)  
Включает, в том числе:
Видеоуроки про ScanKromsator Подробнее...
 
Обработка пикчур-зон от TelecomUral Подробнее...
 
English texts Подробнее...
 
Что делать, если ScanKromsator не делает то, что хотелось бы... И ещё bolega о том же самом...

Всего записей: 24190 | Зарегистр. 07-04-2002 | Отправлено: 18:07 30-03-2009 | Исправлено: Maz, 09:43 22-08-2018
Torino



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Если Вы разузнаете у разработчиков фотошопа, что они под этим понимают, а также формулы алгоритма, то я с удовольствием сделаю.  

Вот здесь лежит исходник и бинарник для Вин программы-ресемплера:
http://entropymine.com/resamplescope/
 
А на этой странице автор подбирает параметры для этой программы, которые позволяют получить результаты аналогичные разным алгоритмам ресемплинга в Фотошопе (в т.ч. bicubic smoother):
http://entropymine.com/resamplescope/notes/photoshop/
 
Возможно это поможет?

Всего записей: 412 | Зарегистр. 20-09-2005 | Отправлено: 16:57 14-03-2013
Ironcast



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Вроде бы разобрался в программе. Из пдф отлично импортируется, крое рваных файлов, где тысячи клочков, благо их мало. Даже более менее номальный вид после оработки стал получаться. Но как их кодировать в djvu? Photo профиль в djvu small не берёт файл--типа не закодировано ни одной страницы,  b-w и битонал берёт но убивает картинки совершенно. Вместе с тем необработанные сканы (только импортированные) отлично берутся и работают, но, поятно, с гигантским размером. Сколько ни бьюсь логику этого дебилизма не понимаю, в чём же дело?

Всего записей: 3868 | Зарегистр. 20-04-2008 | Отправлено: 20:57 14-03-2013
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
При попытке открыть файл прерванного процесса *.skt выдается ошибка " is not a valid integer value.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 00:13 15-03-2013
leescott

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
При попытке открыть файл прерванного процесса *.skt выдается ошибка " is not a valid integer value.

I have two versions SK.When I meet this question. I use Tracks Eraser Pro to clear prefetch,cookie and cache etc.

Всего записей: 33 | Зарегистр. 13-11-2011 | Отправлено: 03:44 15-03-2013 | Исправлено: leescott, 04:04 15-03-2013
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Torino
Спасибо, посмотрю.
 
Ironcast

Цитата:
Но как их кодировать в djvu?  

Что Вы имеете ввиду? Клочковые страницы или вообще?  
Хоть СК и импортирует эти клочья, но работать с ними в таком виде бесполезно. Однозначно такие страницы нужно извлекать способом рендеринга, т.е. объединять все клочки в одну страницу.
 
ghosty
Проверю, наверно баг

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 11:41 15-03-2013
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Попалась тут книжка детская с очень "расцвеченным" текстом. Обрабатывая ее, подумал, что, может быть, теоретически возможно было бы реализовать цветное jb2-кодирование (не знаю, возможно ли такое для jbig2), раз уж теперь есть GUI для кодера - перед бинаризацией проверяем цвет текста, и если он иной чем черный, помечаем зоной. Не знаю, насколько трудно это автоматизировать.
 
Пока, конечно, вручную ничего размечать не стал, ибо издевательство - просто аккуратно обработал в цветном режиме. Понятно, что в Акробате в режиме CS файл слишком разросся, зато выглядит "красиво", а сегментер DEE наломал дров, зато файлик маленький

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 14:28 15-03-2013 | Исправлено: ghosty, 14:29 15-03-2013
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty

Цитата:
теоретически возможно было бы реализовать цветное jb2-кодирование

В последней версии СК такое есть, называется low-color-зоны. СК кодирует их с помощью jb2. Но есть одно но: чтобы получилось красиво и малого размера, буквы нужно сделать однородными по цвету. Т.е. задать зону, в которой не один цвет (за счет раскраски), а несколько; формат зоны - не b/w, а как есть, напр., color8bit. В постобработке поработать с цветами, чтобы буквы не содержали мусорных вкраплений другого цвета, и закодировать как low-color.

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 15:35 15-03-2013
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega

Цитата:
В последней версии СК такое есть, называется low-color-зоны.

Т.е. он именно автоматически умеет расцвечивать? А где это (традиционный вопрос)?
Если речь идет о возможности вручную расцвечивать, то это было и в более ранних версиях. Просто вчера убедился, что для некоторых книг это в принципе невыполнимо, и приходится полагаться на автоматику сегментера.
Мне просто кажется, что это можно делать и красиво, и автоматически, особенно когда уже выделены зоны и остался один текст.
 
Эксперимент с кодированием из-под СК закончился неудачей:
Подробнее...
(на диске G свободно около 8 Гб).

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 16:30 15-03-2013 | Исправлено: ghosty, 17:12 15-03-2013
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty

Цитата:
Если речь идет о возможности вручную расцвечивать, то это было и в более ранних версиях

Нет, не вручную.  
Но на зоне должно быть как можно меньше лишнего цвета (фона и т.д.) и буквы должны быть однородными. Посмотрите при большом увеличении на цветной текст, там кроме полезного цвета будет еще десятки оттенков, точек, пятен и т.д. При авто-квантизации кол-ва цветов до заданного, нужного нам, кол-ва (именно этого мы добиваемся) буквы не будут однотонными, а это очень плохо влияет на результат.
 

Цитата:
Эксперимент с кодированием из-под СК закончился неудачей:

Так трудно сказать. Видно, что были зоны (или зона), и Вы отказались использовать МПФ. Обычно если есть зоны, то для таких страниц используется step3, а не step2. Или страница тоже цветная? Вы использовали attach auto?

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 17:52 15-03-2013
rzia

Junior Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Добрый вечер, Коллеги
Столкнулся с тем, что не могу получить хорошего результата с таким вот сканом
Подскажите, пожалуйста, можно что-то с таким приемлемое сделать?
Где что настроить, у меня нечего не получается
Буквы съедает, либо много лишнего остается (грязи)
Заранее спасибо

Всего записей: 36 | Зарегистр. 07-05-2012 | Отправлено: 20:46 15-03-2013 | Исправлено: rzia, 20:51 15-03-2013
Ironcast



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Клочковые страницы или вообще?  
Вообще, зря 2 вопроса в один обьединил..  
 Oтличные результаты получаются при обработке в черно-белом режиме. Смотрю, точтов папке out и размерами и картинками удовлетворён. Но как их закодировать в djvu ?
Любые страницы с картинками напрочь убиваются.  А фотопрофайл в Small Djvu не берёт такие файлы. Типа нет глубины битности, бла-бла-бла.. В моём понимании фотопрофайл--это минимум вмешательства в оригинал... Oбработал в кромсаторе исходник  в сером -- small djvu берёт результат, но в фотопроайл размер чудовищный, а b-w картинки убиваются, остальные режимы не работают.  Ну не вручную же их по одной вставлять! Надеялся описанным способом обойти этот ужас..
Цитата:
 Однозначно такие страницы нужно извлекать способом рендеринга, т.е. объединять все клочки в одну страницу

 Это как? Надеюсь, не вручную, а то их бывает по 10 штук на страницу!
 

Всего записей: 3868 | Зарегистр. 20-04-2008 | Отправлено: 21:11 15-03-2013
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega

Цитата:
Нет, не вручную.

Хорошо, допустим, я выделил все картинки в зоны. Остался текст. Я его бинаризую или нет?
Если я его оставлю в цвете (даже очень хорошо очистив - избавив от фона, снизив кол-во цветов до минимума), то СК при кодировании в DJVU, насколько я понимаю, будет делать по сути то же самое, что и штатный сегментер (или он его и использует?).
 
Как я понимаю этот процесс в идеале (заранее прошу простить, если несу чушь):
Итак, у нас есть текст, расцвеченный всеми цветами радуги (даже оттенками серого - тут уж я точно не знаю, что можно сделать).  
Мы предупреждаем СК, что текст содержит цвет. Когда нажимаем Process, он делает очень грубую разметку, заключая все цветные пятна в прямоугольники и запоминая усредненный цвет этих пятен. Далее происходит бинаризация. На выходе получаем ЧБ текст с разметкой. Когда конвертируем в DJVU СК передает кодеру информацию о цветных зонах, требуя закодировать текст в зонах тем самым усредненным цветом. Как-то так.
 

Цитата:
Так трудно сказать. Видно, что были зоны (или зона), и Вы отказались использовать МПФ.
Нет, зон не было, а МПФ - да, вероятно, забыл галочку поставить.  
 
rzia
Я не смогу помочь, т.к. сейчас сижу за нетбуком практически без инета.


----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 21:11 15-03-2013 | Исправлено: ghosty, 21:12 15-03-2013
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
bolega
А нет ли в последней версии СК возможности выдачи в лог строки параметров DEE, используемых на каждом выполняемом шаге компиляции?

Всего записей: 6966 | Зарегистр. 14-01-2005 | Отправлено: 22:59 15-03-2013
Volchar



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Столкнулся с тем, что не могу получить хорошего результата с таким вот сканом    
Подскажите, пожалуйста, можно что-то с таким приемлемое сделать?

 
Вот посмотрите может сойдет: http://rghost.net/44530415

Всего записей: 430 | Зарегистр. 16-10-2002 | Отправлено: 01:45 16-03-2013 | Исправлено: Volchar, 01:48 16-03-2013
3y6acTuK

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Torino
Под Win32 программы часто не могут занимать больше 1,5 гиг. А под x64 даже 32-битные x86-программы могут занимать почти 3 гига, но наверное не все.  
 
Про качество моно - абсолютно согласен. Перевод из 256 в 2 цвета резко уменьшает визуальное разрешение. То есть это уже не 300 dpi, а где-то 100 dpi. Поэтому именно перед переводом в черно-белое (2-цветное, монохромное) нужно увеличивать сканы в 2 раза. Тем более, что DJVU не любит русские тексты в низком разрешении - ему подавайте минимум 400dpi.
 
Кстати, если бы в Photoshop еще и подобрали Levels/Curves, то качество увеличенного скана могло бы быть еще выше.
Между прочим - Photoshop позволяет делать удобную пакетную обработку изображений. Искать - в меню File, далее Automate, Batch. Плюс нужно научиться записывать макросы - это еще проще. Тогда может применять выбранный макрос ко всем изображениям из каталога.

Всего записей: 385 | Зарегистр. 23-07-2007 | Отправлено: 01:46 16-03-2013 | Исправлено: 3y6acTuK, 01:56 16-03-2013
3y6acTuK

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
rzia
Чуть по-быстрому помучился в Photoshop - получилось так, но не идеально. Применялось выделение по маске, Curves, Levels, Treshold, Gaussian. В общем, в Photoshop можно action написать, чтобы обработать предварительно сканы перед окончательной обрезкой кромсатором.
http://rghost.ru/44531449
 
А изображения конечно лучше отдельно от текста обрабатывать - из-за того, что нужно было соблюсти баланс между деталями изображения и текстом, качество получилось не очень хорошим ни у текста, ни у картинки. Поэтому обрабатывать их надо отдельно.
 
Вообще всегда интересовало как правильно очищать такие изображения - с тонким тестом и шероховатой грязной бумагой. Один из выходов - применять маски для текста, "уничтожая" все остальное вокруг. Но как-то я не исследовал это до конца.
 
Однозначно могу сказать - такой текст с тонкими линиями (и иллюстрации-гравюры со штриховкой) нужно сканировать в 600 dpi. 300 dpi - маловато, даже если вытягивать увеличением разрешения.
 
То есть в данном случае можно поступить так:
 
1) Кромсатором выровнять освещенность страниц, может даже обрезать и т.д., но не переводить в монохромное - оставить серым и без регулировки контраста.
2) Разделить страницы на иллюстрации и текст.
3) В Photoshop отдельно обработать иллюстрации и текст пакетным методом. Предварительно подобрав оптимальные алгоритмы обработки для того и для другого (записать actions-макросы).
4) Склеить обратно кромсатором иллюстрации с текстом.  
 
Получится максимально хорошо.
 

Всего записей: 385 | Зарегистр. 23-07-2007 | Отправлено: 03:52 16-03-2013 | Исправлено: 3y6acTuK, 03:55 16-03-2013
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
rzia
Здесь задание и результат: http://rusfolder.com/35497496
Исх.файл продублирован в списке 3 раза, чтобы удобнее было сравнивать результат разных опций.
Кстати, в новом СК для дублирования используется команда clone в контекстном меню списка файлов. После того, как клоны становятся не нужны, их удаляем из задания, СК при этом автоматически перенумерует сужествующие выходные файлы.
 
shch_vg

Цитата:
нет ли в последней версии СК возможности выдачи в лог строки параметров DEE

нет
 
ghosty

Цитата:
Нет, зон не было

Судя по ошибке (ругается на временный файл, который СК создает только если на step2 есть зоны), зона все-таки есть. Хотя конечно это не повод чтобы выдавать ошибку, здесь какой-то баг скорее всего. Посмотрите команду File->Task info. В новой версии эта команда выдает больше инфы о таске, включая и кол-во pic-зон. Там, кстати, можно ввести и произвольное примечание к таску. Для поиска страниц с зонами можно также применить команду Edit->Find, задав там искать страницы с pic-зонами.
 

Цитата:
Как я понимаю этот процесс в идеале

Да, пожалуй так было бы хорошо. Но уменя пока нет надежного алгоритма определения наличия цветного текста. Если бы он был, я бы давно сделал такую фичу.
Сейчас зону с цветным (более одного цвета) текстом приходится выделять вручную. Случай с одним цветом я не рассматриваю, для него в СК есть раскраска.
Лучше всего дайте пример страницы с текстом, раскрашенным более чем одним цветом.
 

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 12:38 16-03-2013
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega

Цитата:
Но уменя пока нет надежного алгоритма определения наличия цветного текста. Если бы он был, я бы давно сделал такую фичу.  

Ясно, просто я подумал, что нечто подобное реализовано в СК. Но в случае цветного текста, по идее, зоны цвета достаточно контрастны - возможно, и любой, даже ненадежный алгоритм с подобным справился бы...
   
http://data.mecheng.adelaide.edu.au/robotics/WWW_Devs/TISVisionTools/TIS_TrainUserManual.pdf
 

Цитата:
Посмотрите команду File->Task info.  

Уже не могу посмотреть, к сожалению, в ближайшее время - в другом месте нахожусь.
 
Спасибо, что находите время развивать СК и отвечать на вопросы.


----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 14:32 16-03-2013 | Исправлено: ghosty, 14:44 16-03-2013
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
bolega

Цитата:

Цитата:
нет ли в последней версии СК возможности выдачи в лог строки параметров DEE  

 
нет  

А можно вставить в следующую версию?

Всего записей: 6966 | Зарегистр. 14-01-2005 | Отправлено: 15:43 16-03-2013 | Исправлено: shch_vg, 15:43 16-03-2013
rzia

Junior Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Коллеги, спасибо за советы и примеры, буду пробовать, а пока следующие вопросы. Как я понимаю при помощи ScanKromsator можно делать DjVu? Есть инструкция как это делать?
Спасибо

Всего записей: 36 | Зарегистр. 07-05-2012 | Отправлено: 15:45 16-03-2013
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator / СканКромсатор (Часть 3)
gyra (14-11-2018 10:38): ScanKromsator / СканКромсатор (Часть 4)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru