Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v6.97 | ScanKromsator v6.91 |
 ScanKromsator v6.8 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: mvk2006, 21:12 04-08-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
И дело тут не в алгоритме, а просто в специально подготовленном глифе.

часть глифа прозрачная?

Всего записей: 3011 | Зарегистр. 15-07-2010 | Отправлено: 08:19 13-12-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
часть глифа прозрачная?

да. При подгонке глифа прозрачность не учитывается, а при замене - да
 
Добавлено:
Тут просили лупу для глифов. Я сделал по другому. Если включить специальную опцию, то в нижней части панели глифов появится мини-редактор глифа, где он будет гораздо больше чем в ленте, и его можно будет зумить и редактировать, правда, набор команд редактора сильно урезан по сравнению с основными панелями. Там же задаются и другие х-ки глифа, например, символ буквы.

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 08:24 13-12-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
и его можно будет зумить и редактировать, правда, набор команд редактора сильно урезан по сравнению с основными панелями.  

Я обычно глиф в тексте дорабатываю. Пасте на поля, дообработка, вставка в библиотеку, удаление.
 
В таком окне с опциями редактирования ИМХО есть смысл, если оно даст такие возможности, которых в обычном большом окне нет, да и в маленьких ячейках тоже нет. (Есть прозрачность и будут флипы, вроде.)
 
Типа частичной прозрачности для половины буквы, как вы описали выше. Буква есть, но часть ее не вклеивается, насколько я понял.
 

Цитата:
 Если включить специальную опцию

Базовую линию для глифа там нельзя задать /присвоить ?
или высоту букв сравнить ?
 
Вообще разные буквы в этом окне сравнивать, чтобы там просветы, равенство/неравенство засечек, толщины штрихов  выявить.  Какие-то параметры кернинга - минимальные расстояния до соседок, возможно.

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 08:46 13-12-2021 | Исправлено: daa2013, 08:46 13-12-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Базовую линию для глифа там нельзя задать /присвоить ?

а зачем??...
 
Не, мне конечно хотелось частенько "выровнять" скачущие буквы внутри слова на обработанной странице. Но как вы собираетесь привязывать базовую линию глифа к странице - ?? Это какой-то полный изврат выходит, типа как век назад в типографии строки составляли по опорной линии.

Всего записей: 3011 | Зарегистр. 15-07-2010 | Отправлено: 09:37 13-12-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Какие-то параметры кернинга - минимальные расстояния до соседок, возможно.

 
https://frazy.su/26994-i-tut-ostapa-poneslo/

 
Добавлено:

Цитата:
Я обычно глиф в тексте дорабатываю. Пасте на поля, дообработка, вставка в библиотеку, удаление.  

Лично меня это сильно утомляет. Поэтому сделал редактор

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 09:53 13-12-2021 | Исправлено: bolega, 09:54 13-12-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
как вы собираетесь привязывать базовую линию глифа к странице  

Если у каждого глифа есть заданная базовая линия, то для строки (горизонтального ряда ячеек тессеракта) можно высчитать по ним среднюю, а потом те, которые очень сильно от средней отклонились, принудительно сместить.
 
UPD - парметры кернинга - это соответственно смещения влево-вправо внутри ячейки, если четко видно, что буква внутри неё не выровнена относительно соседей. (и находится внутри слова при этом).
UPD2 Можно не автоматом а по клику
 
Я что ли славарь предложил встроить ? Его же нужно как-то к делу прислонить.

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 09:58 13-12-2021 | Исправлено: daa2013, 10:04 13-12-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Если у каждого глифа есть заданная базовая линия

только не у глифа, а у каждой буквы на странице. Обратная последовательность, "изврат". По книге составляем полный словарь букв в библиотеке глифов, указываем для каждого глифа базовую линию, считаем где на странице строка, где каждый глиф, ну и так далее. А не проще ли файнридер готовый взять.

Всего записей: 3011 | Зарегистр. 15-07-2010 | Отправлено: 10:04 13-12-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Кстати, если вы любите дорабатывать глифы в основном редакторе, то там и флип можно быстро делать. Он поддерживается для любого вставленного фрагмента, через его КМ, до момента слияния. Т.е. кинули глиф, в КМ вызвали флип, слили, вставили снова в библиотеку. Пара секунд. Но именно эта операция вам вдруг в тягость стала. Редактировать глиф с переносом не в тягость, а это в тягость. Не поймешь вас.

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 10:09 13-12-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Присвоили каждому глифу такую полоску:
   
 
вставили глифы на страницу. Получили для строки набор высот полосок.
Определили среднюю, сильно отклонившиеся глифы сместили.
 
 
 

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 10:10 13-12-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
вставили глифы на страницу

файнридер. или ворд.
 
UPD
То есть, вы понимаете, куда тянете? - Вы стремитесь к перенабору книги. Следующий шаг после выравнивания строки будет "а чего это буковки некрасивые, давайте их нарисуем с нуля, мы же их всё равно уже опознали".
 
Вот кабы сами буквы можно было подравнивать по щелчку, это может и неплохо бы было. На тех же книгах 30х-50х годов иногда попадается этакий "рассыпанный набор", буковки пляшут на полстроки вверх и вниз. Подвинуть бы их, но БЕЗ искажения.

Всего записей: 3011 | Зарегистр. 15-07-2010 | Отправлено: 10:12 13-12-2021 | Исправлено: TelecomUral, 10:20 13-12-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
 то там и флип можно быстро делать. Он поддерживается для любого вставленного фрагмента, через его КМ, до момента слияния. Т.е. кинули глиф, в КМ вызвали флип, слили, вставили снова в библиотеку. Пара секунд. Но именно эта операция вам вдруг в тягость стала. Редактировать глиф с переносом не в тягость, а это в тягость. Не поймешь вас.

 
Да я так и делаю. Но флип внутри ячейки - это минус четыре-шесть действий, так как еще приходится включать/выключать однопиксельный контур.
К тому же, если флипится не буква, а колонтитул или часть рамки, то места на полях может не хватить и приходится заморачиваться с клонированием страницы или перетаскиванием в другой СК.

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 10:13 13-12-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Определили среднюю, сильно отклонившиеся глифы сместили.  

Мне встречались djvu, в которых буквы в строках ужасно плясали. Не знаю причину этого. Вот для такого случая возможно пригодится.

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 10:15 13-12-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Вот для такого случая возможно пригодится

ну вот, и я параллельно выше об этом написал.  
 
Кажется это из файнридера старого такие чудеса выползали.

Всего записей: 3011 | Зарегистр. 15-07-2010 | Отправлено: 10:21 13-12-2021 | Исправлено: TelecomUral, 10:22 13-12-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
так как еще приходится включать/выключать однопиксельный контур.  

 
Кстати подумал, что в КМ команд изменения глифа помимо флипов можно добавить автообрезку и добавление однопиксельного контура.
 
А то иногда это требуется и начинается:
-вставил на поля
-переключил режим
-захватил по новой
- переключил режим обратно
- удалил глиф с полей.
 
 

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 11:20 13-12-2021 | Исправлено: daa2013, 11:21 13-12-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
можно добавить автообрезку и добавление однопиксельного контура

Сейчас это делается автоматически в мини-редакторе перед сохранением измененного глифа. Я называю это нормализацией. Т.к. именно белая окантовка создает оптимальный глиф. При его вклеивании, все ненужное отделяется от буквы (изолируется), что создает широкие возможности по дальнейшему удалению остатков, в том числе автоматическому. Глиф без белой прослойки оставляет грязь какая была, то же самое происходит и тогда, когда вклеивание идет с прозрачностью (daa2013 описывал выше как один из своих любимых методов)

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 12:16 13-12-2021 | Исправлено: bolega, 12:30 13-12-2021
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А что это за язык? Может тессеракт его поддерживает?

 
Это осетинский язык. А что такое тессеракт я даже не знаю.

Всего записей: 525 | Зарегистр. 04-05-2016 | Отправлено: 15:22 13-12-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Я называю это нормализацией.

Я неудачно/двусмысленно сформулировал выше. Помимо того, что происходит в спецокне, я хочу ДВЕ отдельные команды в КМ:
- обрезка белых полей до черного контента
- наращение на однопиксельную белую окантовку.
 
Надо ли иметь возможность делать однопиксельную окантовку много раз - вопрос дискуссионный.  С одной стороны, многократное повторение может дать поля в N белых пикселей. И в комбинации с обрезкой - будет гибче.  С другой - если где-то поля есть, а где-то нет, то там где белое есть, не наращивать, оно будет проще. Не надо будет боятся повтора команды. Но меня и так и так устроит.
 
Зачем это мне надо ? Как справедливо отмечено, у меня основной режим - это когда и обрезка есть, и поля в пиксель наращиваются. Но когда я буквы редактирую, то мне бывают нужны ножки, крышки, засечки и т.д. + их флипы.  Тогда и начинается бодяга по отключению/включению режимов, описанная выше.  
Действительно, парой постов выше непонятно, зачем мне окантовку при флипе отключать ? Затем что я там вставляю только часть буквы !
А потом  я включаю окантовку обратно. Иногда забываю. А иногда, вроде, как кликнул, а оно не включилось, и я не заметил. И пошла по книге тянуться буква, у которой с одной стороны нет окантовки и она цепляет мусор.
 
ВЫВОД: включение команд обрезки и окантовки в КМ сэкономит мне 5-6 действий и уменьшит ошибки. Это хотелка.
 
 

Цитата:
и тут Остапа понесло

Я писал выше, что я подумаю, если еть ячейка и контур буквы, как это юзать.
Это на самом деле и был возможный ответ.
Если у тессеракта ячейки ставятся равномерно (ключевое слово "если", возможность отображения этих ячеек сняла бы многие вопросы и, наверняка, породила бы новые идеи...),  то заметные диспропорции правых и левых полей пространства между границами ячейки и контуром буквы сигнализировали бы о нарушении кернинга и вполне заслуживали бы подсветки , или демонстрации таких ячеек юзеру.
 
Кроме того я осознал, что мне напоминает минимальное пространство кернинга - это гапы для зон контента в СК. Как контент + гапы катаются внутри границ страницы, так контур буквы  +минимальный кернинг могут кататься внутри ячейки тессеракта.
 
Это пока только идея.

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 19:23 13-12-2021 | Исправлено: daa2013, 19:34 13-12-2021
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega - по дискуссии о зонах в шломане на publ.lib - какие-нибудь решения планируются или нет, или может бетка какая уже есть?

Всего записей: 3670 | Зарегистр. 17-09-2001 | Отправлено: 13:02 15-12-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013

Цитата:
"по количеству разрывов буквы" - т.е. по числу связных областей - не знаю. таким не пользовался. А вот по наличию спеклов  определенного размера, имеющих размер, находящийся в заданных пределах, точно нужно.  

Я не знаю, как мне прикрутить этот критерий к ocr. СК ищет совпадение буквы с глифом. Как и зачем ему контролировать спеклы (внутри глифа? или внутри буквы?)
мне не понятно.  
Если вы хотите чистить спеклы заданного размера, то подсветите их, для этого в СК уже есть функционал подсветки. Зачем сюда примешивать ocr, не ясно. Т.е. я не вижу связи между буквами и спеклами.

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 15:04 16-12-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
 как мне прикрутить этот критерий к ocr.

Я же уже писал, как. Подсвечивать ячейку или перемещаться на ячейку, если в ней есть спекл (связная область) размером N,   где     n1 < N < n2.
При этом желательно комбинирование этого критерия с другими. То есть, например, не любая ячейка, а  ячейка с буквой "Н" и указанным спеклом.
 

Цитата:
 Как и зачем ему контролировать спеклы (внутри глифа? или внутри буквы?)  

внутри ячейки тессеракта
 

Цитата:
я не вижу связи между буквами и спеклами.  

По-моему  у меня это в Перле было. Но в любом случае пример сейчас не найду - поправлено все.
С точными значениями цифр тоже могу соврать. Но принцип был именно такой.
Хочу поймать разорванные напополам Н. Ставлю 37 - вообще все буквы красные. Ставлю 35 - все буквы серые, подсвечиваются только знаки препинания и кое-какая грязь.  Ставлю 36 - как раз начинают подсвечиваться эти самые половинки. То есть именно до пикселя точность была нужна !
Кстати, так как у вас алгоритм подсветки немного хитрее, чем просто "спекл в N пикселей", то возможно именно этот алгоритм и сюда надо пристроить.
 
 

Цитата:
 функционал подсветки. Зачем сюда примешивать ocr,
 
Затем, что интересную подсвеченную мне букву (в данный момент - подсвеченную частично), надо ещё глазами найти, это время. Потом притащить к ней глиф из библиотеки.
Здесь же она автоматом попадет на центр на глаза, да и глиф будет предложен.
 
 
Да, я понимаю. Вы исходите из того, что всё плохое поймаете по "количеству разрывов буквы".
Но так как я таким не пользовался, то в работоспособности этого критерия я не уверен, а в работоспособности размера спеклов -  уверен. Только так и работаю. Не уверен, что при задании процентов удастся получить эту самую пиксельную точность, с которой я неожиданно столкнулся.  (Обычно +5 пикселей шаг делал.)  
К тому вы же сами писали, "неизвестно что пригодится".    
Готов допустить, что на практике будут ошибки в буквах, для ловли которых потребуются комбинации критериев.

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 15:32 16-12-2021
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)
Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru