Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v6.97 | ScanKromsator v6.91 |
 ScanKromsator v6.8 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: mvk2006, 21:12 04-08-2023
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Но я надеюсь, что это не юзер мышкой по экрану елозит, а СК букву за буквой  (из выявленных "плохих") ему на центр экрана подсовывает ?

Вам ехать надо или шашечки?
Я же сказал, что вся основная работа в отдельном окошке. Чтобы глаз тысячу раз не бегал по экрану, а работал с небольшой областью, где все и отображается. По типу лупы, что есть сейчас. Только неподвижной (кстати, и лупу теперь можно сделать неподвижной). СК при этом и на экране конечно букву подсвечивает, и если ее не видно, проскроллирует так чтобы она стала видна. Но не в центр, а чтобы просто видна. Иначе на сотню букв будет сотня скроллов. Вы вообще понимаете, что такое мельтешение будет негативно оказывать влияние на глаза. Но на экране выделение это не главное, просто для удобства, для ориентировки. В обратную сторону тоже синхронизирует. Т.е. щелчок на букве на экране находит и отображает ее замену глифом в окошке.  
Есть и специальный режим, интерактивной замены. Это когда вы в окошке со всеми заменами разобрались, теперь можете применять их пакетно,  либо просто щелкая на экране на букве. При каждом щелчке будет производиться ее замена. Кстати, если включен режим замены, и включена лупа, то и в ней будет показываться preview замены.
 

Цитата:
речь идет о "красных" спеклах

Я так и не понял, что это за красные спеклы. Тессеракт все символы распознает. Кроме реальных мусоринок. Давайте вернемся к этому вопросу когда вы в деле опробуете и тогда может покажете мне что имеется в виду.
 
 
Добавлено:

Цитата:
способ автоматической их замены

Про это и речь.
 

Цитата:
И есть ли способ ускорить отображение исходных сканов

отключить фильтрацию Image > Special > No zoom filter

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 08:42 06-12-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Вам ехать надо или шашечки?  

И ехать, и шашечки, да и сирена с мигалкой тоже не помешают.
 

Цитата:
. Давайте вернемся к этому вопросу когда вы в деле опробуете и тогда может покажете мне что имеется в виду.  

Да, конечно. Потому что сейчас все мои затеи, они по определению мимо.
Но если мои посты вам какие-то идеи для работы подбрасывают, то уже толк.
Например, помимо % считать дельты в числе пикселей - ИМХО очень важно.
 

Цитата:
Я так и не понял, что это за красные спеклы.

Я хочу вот в такую ячейку при заданном критерии поиска "буква+спекл" попадать с любого места проекта.  
 

 
 

Цитата:
вся основная работа в отдельном окошке. Чтобы глаз тысячу раз не бегал по экрану, а работал с небольшой областью

 
Я это приблизительно понимаю.
Но вот, допустим, я на 5-й странице, а щербатая буква на 40-й. У меня есть ее точный образец (выдран из джву). Я могу сказать СК: найди мне такую букву. И он меня переместит на это страницу и букву в окошке покажет ? Или нет ? Я должен сам руками перемещаться, скроллить и следить, что там справа в окошке, подсвечивается или пока не подсвечивается ?

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 19:57 06-12-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Я хочу вот в такую ячейку при заданном критерии поиска "буква+спекл" попадать с любого места проекта

Сейчас критерии позволят отобрать в окошко и букву "а", и букву "и", причем именно по критерию "две области". И не забывайте, что функционал предназначен не просто для поиска букв, а именно для сопоставления букв на скане и вашей б-ки глифов.
Т.е. в б-ку глифов вы должны поместить "а" и "и".
 
Если хотите, дайте свое out-задание из нескольких файлов вместе с глифами, я может сделаю вам скриншот.  
 
 
 
Добавлено:

Цитата:
Я могу сказать СК: найди мне такую букву. И он меня переместит на это страницу и букву в окошке покажет ?

Ну пока у меня matching в пределах одной страницы. Теоретически, если сделать все страницы, то потом можно добавить уже и межстраничный поиск.  
 
 
Добавлено:
niccolo

Цитата:
Прогонка списка всех слов по словарям Hunspell

Спасибо за наводку. Hunspell прикрутил. Осталось придумать ему применение

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 23:04 06-12-2021 | Исправлено: bolega, 23:05 06-12-2021
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Спасибо за наводку. Hunspell прикрутил. Осталось придумать ему применение

 
bolega
С проверкой орфографии после OCR самой большой проблемой являются несловарные слова. Для Hunspell вдобавок, отсутствие интерфейса их добавления в словарь с нужными суффиксами, и надёжного алгоритма определения начальной формы....
 
По суффиксам проще — начальная форма выворачивается и сравнивается с вывернутыми словами из словаря на максимально длинное совпадение - обычно суффикс в словаре и будет верным...
А вот с получением начальной формы - тут стоит подумать...

Всего записей: 3671 | Зарегистр. 17-09-2001 | Отправлено: 07:41 07-12-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Я понимаю первопричины проблем в книжке, с которой уже год как вожусь.  
Поскольку в конце у неё указано: "Отпечатано с фотополимерных форм Целлофот".
Но вот только сейчас я эти "фотополимерные формы целлофот" погуглил.  
 
И что я вижу по первой же ссылке ?
http://www.rusnauka.com/PRNIT_2006/Pravo/16001.doc.htm
 
 
 

Цитата:
 
 
В оттисках печатей (штампов), изготовленных из ФПЖК, можно обнаружить следующие признаки:
 
1) неодинаковая ширина элемента знака;
 
2) неровные края штрихов;
 
3) неодинаковая длина параллельных элементов в одной букве;
 
4) спрямление дугообразных элементов;
 
5) иногда неодинаковое расстояние между буквами;
 
6) искривление линии строки;
 
7) штемпельная краска концентрируется примерно в середине штриха, по краям штрих окрашен слабо, выделяются отдельные окрашенные участки;
 
8) обозначены края штрихов (краска по краям в достаточном количестве), но по всей площади штрихов - множество сгустков, наличие вкраплений;
 
9) в штрихах видны отдельные точки с неокрашенными вокруг них кольцами;
 
10) в штрихах видны неокрашенные участки круглой формы;
 
11) посторонние (дополнительные) небольшого размера штрихи, примыкающие к штрихам букв, цифр, линиям рамок и другим элементам оттисков. Так отображаются прилипшие к печатающим элементам частицы полимера;
 
12) отсутствие отдельных частей элементов букв и цифр в результате разрушения печатей;
 
13) наличие так называемых «марашек», образующихся при засоренности печатей волокнами бумаги и другими частицами. В связи с тем что в процессе эксплуатации эти частицы могут перемещаться на печати (штампе), одни и те же «марашки» в различное время обнаруживаются на разных участках оттиска.  

 
 
Изобретатели хреновы.

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 18:09 07-12-2021 | Исправлено: daa2013, 18:15 07-12-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Осталось придумать ему применение
 

 
Может, оно вот для такого пригодится:
 
Я время от времени встречаю книги, где не пропечатаны буквы слева или справа. Справа также часто теряются знаки переноса. Может быть при помощи словаря такое можно ловить. Особенно если в сочетании с контролем левой/правой границы текстового блока.

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 00:05 08-12-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Изобретатели хреновы

так это вроде для криминалистов сведения.

Всего записей: 3011 | Зарегистр. 15-07-2010 | Отправлено: 15:06 09-12-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
описание ошибок соответствует

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 19:19 09-12-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
Слияние перемычек вашими новыми функциями СК тоже можно будет править? Типа такого:


Всего записей: 3011 | Зарегистр. 15-07-2010 | Отправлено: 10:49 11-12-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Вы хотите только перемычки править или всю букву?

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 13:31 11-12-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
там вместо "п" квадрат с четырьмя хвостиками. Хотелось бы заменить. Но это ж не "буква" для тессеракта. Подкидываю вам "сложные случаи" для улучшения алгоритмов.

Всего записей: 3011 | Зарегистр. 15-07-2010 | Отправлено: 13:55 11-12-2021
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
TelecomUral
А чем н отличается от п, кроме палочки поперек?

Всего записей: 6966 | Зарегистр. 14-01-2005 | Отправлено: 21:08 11-12-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
там вместо "п" квадрат с четырьмя хвостиками

Попробовал несколько страниц. За исключением формул, тессеракт ни разу не ошибся

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 16:52 12-12-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
круто...

Всего записей: 3011 | Зарегистр. 15-07-2010 | Отправлено: 17:48 12-12-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
И я спросил про перемычку, потому что СК после подбора глифа может заменить не всю букву, а только заданную часть, например, разлепить только слипшиеся нижние серифы для "п" или нижние и верхние слипшихся серифы для "и". И дело тут не в алгоритме, а просто в специально подготовленном глифе.

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 21:17 12-12-2021
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
А вот такое черточки между букв как можно исправлять? Только вручную?
 

 

Всего записей: 525 | Зарегистр. 04-05-2016 | Отправлено: 21:41 12-12-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku
Можно, не вручную

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 22:09 12-12-2021
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Можно, не вручную

 
Кааак???

Всего записей: 525 | Зарегистр. 04-05-2016 | Отправлено: 22:25 12-12-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Кааак???  

Интрига !
 
 

Цитата:
Можно, не вручную

 
А как ловить букву/лигатуру  "ae" ? Тессеракт, скорее всего, будет видеть там "а" и "е".
 
Мне только такая мысль приходит - выполнить джву-кодинг до тессеракта и потом изолировать соответствующие ячейки.  
 
Или вот:   искать по паре ячеек. Везде, где буквы a+e идут последовательно, такие пары в отдельном режиме подсунуть под нос пользователю. И разрешить ставить свой глиф. То есть не только комбинация "буква = глиф", но и комбинации   "две буквы=глиф", а зоной поиска считать объединение двух ячеек.
 
UPD Но просто может быть такой символ или лигаутура, который на две буквы не распадается, а просто не распознается. Так что перспективы в прикручивании джву-кодера ИМХО тут есть.

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 06:23 13-12-2021 | Исправлено: daa2013, 08:02 13-12-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А что это за язык? Может тессеракт его поддерживает?
 

Цитата:
Кааак???  

В новой версии, которая еще пока не готова.
 

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 08:12 13-12-2021
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)
Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru