Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator / СканКромсатор (Часть 3)

Модерирует : gyra, Maz

gyra (14-11-2018 10:38): ScanKromsator / СканКромсатор (Часть 4)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199

   

Widok



Moderator-Следопыт
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ScanKromsator

Знаменитый Кромсатор для обрезки получаемых при сканировании изображений, а также для разделения страниц, очистки от мусора и т.п.  
Автор: bolega. http://bolega.hotmail.ru/.  
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Аналог ScanKromsator - Scan Tailor
 
Начало обсуждения - 1 часть, 2 часть.
 
Текущая версия: ScanKromsator v6.00.5 (2,1 МБ) Настройка внешних утилит  
Предыдущая версия: 5.96.2  (файл sk.exe), утилиты к ней можно взять из v5.96.1  
 
Старые версии: Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон


Подборка ответов bolega про работу ScanKromsator (версия 1.0.1 с закладками и сносками), 2016 г.
 
Хрестоматия материалов про СК , 2017 г.
(25 Mb, для открытия файла chm может потребоваться его разблокировать в свойствах файла, кликнув ПКМ)  
Включает, в том числе:
Видеоуроки про ScanKromsator Подробнее...
 
Обработка пикчур-зон от TelecomUral Подробнее...
 
English texts Подробнее...
 
Что делать, если ScanKromsator не делает то, что хотелось бы... И ещё bolega о том же самом...

Всего записей: 24190 | Зарегистр. 07-04-2002 | Отправлено: 18:07 30-03-2009 | Исправлено: Maz, 09:43 22-08-2018
juvaforza

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Где можно прочитать ответ на вопрос о том, как установить при драфте чувствительность определения положения границ текста по горизонтали?

Всего записей: 2895 | Зарегистр. 26-11-2005 | Отправлено: 15:16 20-03-2011 | Исправлено: juvaforza, 15:19 20-03-2011
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty

Цитата:
IW44 действительно может давать неприятные артефакты, например, в случае "крупнозернистого" фона (некачественная/старая бумага) - отдельные зерна он может объединить в точку, линию, кривую и т.п. Когда каждая царапинка имеет значение, подобное поведение алгоритма никуда не годится. У JPEG2000 нет ничего подобного даже в сравнительно более агрессивных режимах (какие-то детали фона, конечно, могут уходить, но так, чтобы появлялись новые - никогда).

Тема получила некоторое продолжение. Оказывается, можно реализовать поддержку JPEG2000 в DjVu! Но нужно ли? Ведь время декодирования JPEG2000 в 3 раза больше, чем таковое у IW44.
 
Если интересно - см. http://www.djvu-scan.ru/forum/index.php?topic=108.msg1671#msg1671 и далее.
 
Если кому-то нужна поддержка JPEG2000 в DjVu - напишите письмо Леону Боту.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 15:36 26-03-2011 | Исправлено: monday2000, 15:41 26-03-2011
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000

Цитата:
Тема получила некоторое продолжение. Оказывается, можно реализовать поддержку JPEG2000 в DjVu!  Но нужно ли?
Тут ведь вопрос в том, доверю или не доверю я кодеру DJVU обрабатывать книги, особенно чувствительные к качеству - например, включающие репродукции, копии манускриптов (там, кстати, если я правильно помню, у IW44 большая проблема с цветопередачей). И понятно, когда я говорю "я", то имею в виду не себя конкретно и не какого-либо другого индивида, а институты и организации, прежде всего. А институты и организации давно уже перешли в массе своей на PDF, так что решение о поддержке JPEG2000 было бы запоздалым.
DJVU так хорошо распространился в России, прежде всего, благодаря его открытости и JB2-составляющей, которая уже и 10 лет назад, можно сказать, была идеальной. Так что добавление JPEG2000 даже в России ему большей популярности не придаст. Опять-таки ИМХО.
 

Цитата:
Но нужно ли? Ведь время декодирования JPEG2000 в 3 раза больше, чем таковое у IW44.
Возможно, у Леона старая информация. Все-таки JPEG2000 много оптимизировали, и по моим ощущениям все теперь как раз наоборот. Хотя надо делать более корректные "бенчмарки".
 
Добавлено:
juvaforza

Цитата:
Где можно прочитать ответ на вопрос о том, как установить при драфте чувствительность определения положения границ текста по горизонтали?
По-моему, это невозможно. И для меня это тоже актуально - особенно когда идет нумерация по краям блока текста и драфт отрезает эту нумерацию как мусор.  
С другой стороны я понимаю, что в случае такой нумерации очень трудно найти какие-то формальные признаки того, что она мусором не является. Т.е. в этом случае, мне кажется, вполне достаточно опции "Я уверен, что в моей книге мусора нет, и мне нужны все значки по краям блока текста"
Но если я уверен, что мусора в моей книге нет, то я могу и не выполнять кромсание - в ходе обработки блок текста определится корректно со всеми значками. bolega, я правильно рассуждаю?

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 16:05 26-03-2011 | Исправлено: ghosty, 20:37 26-03-2011
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
juvaforza

Цитата:
чувствительность определения положения границ текста по горизонтали

В опциях draft на закладке Advanced есть этот регулятор: Text vert. sensitivity.
Но честно говоря это не совсем чувствительность. Это именно похоже на  
ghosty

Цитата:
"Я уверен, что в моей книге мусора нет, и мне нужны все значки по краям блока текста

Тут ghosty абсолютно прав.  
 
На самом деле распознавание значков (номеров страниц, вынесенных буковок и т.п.), расположенных сбоку от основного габарита страницы - это самая сложная и нетривиальная задача. Потому что в этом месте очень часто располагается как раз мусор: маленькие ошметки теней от корешка и разворота книги, пометки читателей, дырки от дырокола, и прочая. СК, анализируя страницу, определяет сначала типовые размеры шрифта на каждой странице (не более 3х). Затем сопоставляет размеры ошметков по бокам страницы с этими размерами. Дополнительно учитывается также их расположение (напр., относительно выявленных на странице строк текста), их удаленность от этих строк, а также взаимное расположение самих ошметков между собой (напр., если они все выровнены по своему левому или правому краю, то это скорее всего столбик текста, а не грязь). Т.е. как вы видите, критерий распознавателя довольно сложный, и каждый парметр в нем имеет свой определенный вес. Если итоговое значение критерия больше некоторого порога, то СК считает блиты текстом, иначе - грязью. Так вот, значение Text vert. sensitivity как раз определяет этот самый порог. При значении High практически все блиты по бокам СК засчитывает как текст.
Иногда при таком вероятностном анализе некоторые параметры настолько весомы (либо вообще отсутствуют), что СК сразу принимает правильное решение и дальнейший анализ не производит. Если же ему пришлось "идти до конца", то, как все наверное заметили, после draft СК выделяет такие файлы в списке жирным выделением (bold). Это означает, что боковые края текста СК определял с помощью описанного мною вероятностного анализа, т.е. на них нужно обратить внимание при проверке расстановки резаков.  
Кстати, в версии 5.93 и далее усложнился также анализ горизонтальных краев. СК проводит теперь анализ на наличие номеров страниц, а также некоторых математических символов (интеграла и символа суммирования), т.к. под или над ними могут быть небольшие буковки-циферки (пределы суммирования или интегрирования).

Всего записей: 4387 | Зарегистр. 09-09-2002 | Отправлено: 20:02 26-03-2011 | Исправлено: bolega, 20:14 26-03-2011
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega

Цитата:
В опциях draft на закладке Advanced есть этот регулятор: Text vert. sensitivity.
Я почему-то был уверен, что этот регулятор именно для чувствительности по вертикали (как я ее понимаю) - т.е. для определения колонтитулов внизу и вверху страницы (напр., номеров страниц). Ошибаюсь?
 

Цитата:
На самом деле распознавание значков (номеров страниц, вынесенных буковок и т.п.), расположенных сбоку от основного габарита страницы - это самая сложная и нетривиальная задача.  
Спасибо за разъяснения.
 
Я придумал, как отличить нумерацию строк по бокам текста от мусора:  
- все эти символы лежат на одной линии с символами строк.  
- эти символы выровнены в столбик по левой стороне.
- еще один косвенный признак - нумерация идет то с левой стороны страницы, то с правой.
С этим можно что-то сделать?
 

Цитата:
Кстати, в версии 5.93 и далее усложнился также анализ горизонтальных краев. СК проводит теперь анализ на наличие номеров страниц, а также некоторых математических символов (интеграла и символа суммирования), т.к. под или над ними могут быть небольшие буковки-циферки (пределы суммирования или интегрирования).
Т.е. теперь есть даже что-то внутреннего OCR-движка?

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 21:04 26-03-2011 | Исправлено: ghosty, 21:04 26-03-2011
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty

Цитата:
Ошибаюсь?  

Да
 

Цитата:
все эти символы лежат на одной линии с символами строк.  
- эти символы выровнены в столбик по левой стороне.  
 

Это я все учитываю. Учитывается также количество подряд идущих символов. Чем их больше и чем ровнее они лежат (напр., на одной базовой линии), чем больше вес. Хуже всего когда один символ, либо когда они сливаются и воспринимаются как один большой кусок грязи. Тут как говорится 50 на 50.
Косвенный признак не учитывается. При драфте анализируется только текущая страница. Почему драфт я не сделал обучаемым, я уже как-то писал. Повторяться не буду. Кроме того, все зависит от того, в каком порядке идут страницы в задании. У меня например, всегда идут все нечетные, потом четные. Перемешиваю в нужном порядке уже после обработки и чистки (через команду Edit->rearrange). На это есть веская причина: порог бинаризации очень часто выбирается один для всех четных, и другой (но тоже один) для всех нечетных. Это связано с особенностью типографии советских книжек. Аналогичные закономерности бывают и в качестве половинок разворота.  
Кстати, напомню, что СК поддерживает произвольные изменения в списке файлов: удаление, добавление, вставку перемещением (Copy-Paste или мышкой), смещение: по одиночке или произвольным выделенным набором. При этом выходные файлы автоматически переименовываются в соотвествии с новым порядком.
 

Цитата:
Т.е. теперь есть даже что-то внутреннего OCR-движка?  

Нет, до этого еще далеко. Все делается более грубо.

Всего записей: 4387 | Зарегистр. 09-09-2002 | Отправлено: 21:24 26-03-2011 | Исправлено: bolega, 22:17 26-03-2011
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000

Цитата:
Если кому-то нужна поддержка JPEG2000 в DjVu - напишите письмо Леону Боту.

И как он связан с WinDjView ?
 
Добавлено:

Цитата:
Ведь время декодирования JPEG2000 в 3 раза больше, чем таковое у IW44

Да, при использовании jasPer, в который кроме открытости особо ничем не примечателен.

Всего записей: 6465 | Зарегистр. 31-08-2008 | Отправлено: 21:51 26-03-2011
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
bolega

Цитата:
У меня например, всегда идут все нечетные, потом четные.

А чем Ваш метод лучше обычного?
Вы ведь предварительно должны разбить развороты на страницы, затем каким-то способом загрузить в СК в нужном Вам порядке, а в конце всего этого еще делать rearrange. Не пойму, чем хуже сразу, не разбивая на страницы, проставить нужный порог через select alternate и Ctrl+Alt->All selected?
 
Заодно еще просьба.
Нельзя ли сделать, чтобы после добавления скана в задание и выполнения для него команды Move to top фокус оставался именно на этом скане, а не переходил на самый первый перед выполнением этой команды? Ведь сейчас тратится время на загрузку в главное окно скана, который вряд ли нужен будет сразу после этого перемещения.

Всего записей: 6960 | Зарегистр. 14-01-2005 | Отправлено: 23:23 26-03-2011 | Исправлено: shch_vg, 23:26 26-03-2011
juvaforza

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
ghosty
Спасибо за подробный ответ.
 
bolega

Цитата:

Цитата:
Ошибаюсь?

Да

Честно говоря, я тоже ошибался и посчитал, что это копия настройки (или алгоритма) из вкладки Options, которая учитывается при автоматическом определении границ (т. е. при использовании Automargins во время Process-обработки), названия и описание почти идентичны Но Automargins не позволяет воспользоваться программным результатом определения, а Draft, понятно, наоборот.

Всего записей: 2895 | Зарегистр. 26-11-2005 | Отправлено: 23:35 26-03-2011 | Исправлено: juvaforza, 23:39 26-03-2011
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg

Цитата:
А чем Ваш метод лучше обычного?  
Вы ведь предварительно должны разбить развороты на страницы, затем каким-то способом загрузить в СК в нужном Вам порядке

Лично мне так удобнее.  
Разворотов у меня не бывает, т.к. сканю на оптикбуке сначала нечетные, потом четные. В таком же порядке и обрабатываю.  
На чужие сканы упомянутые предпочтения как правило не распространяются, т.к. они действительно чаще всего развороты, поэтому последовательность страниц сразу правильная, и я ее не меняю.
 
juvaforza

Цитата:
посчитал, что это копия настройки (или алгоритма) из вкладки Options, которая учитывается при автоматическом определении границ  

Настройки у обработки и драфта абсолютно не зависят друг от друга, т.к. у них разные задачи, и алгоритмы разные.
Более того, в последних версиях СК (точно не помню, кажется с 5.9) опция обработки text sens-ty с закладки Options морально устарела, т.к. улучшился сам алгоритм определения габарита, он стал практически безошибочным, и опция text sens-ty мало что дает. Чего не скажешь к сожалению о драфте.

Всего записей: 4387 | Зарегистр. 09-09-2002 | Отправлено: 01:01 27-03-2011
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
bolega
Если на оптикбуке, тогда понятно...

Всего записей: 6960 | Зарегистр. 14-01-2005 | Отправлено: 01:04 27-03-2011
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Рекомендую также обработку всегда проводить в режиме без финализации. Это позволяет полностью контролировать (и изменять) правильность габаритов, выравнивания, размеров и полей книги, и все это делать без необходимости переобработки.
Здесь еще надо помнить, что определенные СК габариты (границы страницы) - это не та грань, за которой будет все отрезаться (как например, в СТ). Поэтому небольшие ошибки в определении габаритов (в 1-3 буквы, а чаще и больше) не приведут к их утере, скорее, это скажется только на точности заданного выравнивания.

Всего записей: 4387 | Зарегистр. 09-09-2002 | Отправлено: 01:13 27-03-2011
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega

Цитата:
сканю на оптикбуке сначала нечетные, потом четные
Как хитрО А что это дает?

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 03:49 27-03-2011
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
ghosty

Цитата:
А что это дает?

Не надо крутить книгу

Всего записей: 6960 | Зарегистр. 14-01-2005 | Отправлено: 16:15 27-03-2011
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ndch

Цитата:
И как он связан с WinDjView ?

А при чём здесь WinDjView?

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 09:03 28-03-2011
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Новое письмо от Леона Боту (по поводу JPEG2000):
 
http://www.djvu-scan.ru/forum/index.php?topic=108.msg1687#msg1687

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 12:29 30-03-2011
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
А что делать, если на входе скан с нестандартным разрешением (у меня сейчас 500 ppi)? В соответствующем поле никакого Custom не предусмотрено. Странно, что на выходе можно выставлять 500 dpi.

----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 14:29 29-04-2011
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
ghosty

Цитата:
А что делать, если на входе скан с нестандартным разрешением (у меня сейчас 500 ppi)?

А чем Вас Auto не устраивает?

Всего записей: 6960 | Зарегистр. 14-01-2005 | Отправлено: 22:36 29-04-2011
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg

Цитата:
А чем Вас Auto не устраивает?
А дело в том, что это нестандартное разрешение в TIFFах не прописано

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 23:11 29-04-2011
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
ghosty

Цитата:
это нестандартное разрешение в TIFFах не прописано  

Так пропишите сами: в меню Service->Correct DPI...
 
P.S. Можете даже прописать, например, 543 .

Всего записей: 6960 | Зарегистр. 14-01-2005 | Отправлено: 23:15 29-04-2011 | Исправлено: shch_vg, 23:22 29-04-2011
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator / СканКромсатор (Часть 3)
gyra (14-11-2018 10:38): ScanKromsator / СканКромсатор (Часть 4)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru