Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152

Открыть новую тему     Написать ответ в эту тему

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: сканирование, обработка, сборка
 
Текущая версия программы : ScanKromsator v6.8 ScanKromsator v6.75
добавки и замечания к v6.75 от bolega
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate! Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.
 
Предыдущая версия программы: ScanKromsator v6.71 Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  Устаревшие версии: Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее...
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...
 


ВАЖНО ! Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом... и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: TelecomUral, 12:36 25-11-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013
Словил. На закладке Words выводятся слова, которые СК посчитал сомнительными
 
скриншоты

Всего записей: 4158 | Зарегистр. 09-09-2002 | Отправлено: 09:55 30-01-2022 | Исправлено: bolega, 10:16 30-01-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Здорово.
 
Но например на первом скриншоте во второй видимой строке я вижу "ходит по кругу нод", хотя там было "под" с разорванной  "П". И это новый СК сам заменил !
Так что, возможно, для   н/п/и/ш  нужен какой-то дополнительный контроль.  
 
Блин. Книжульку, видимо, до появления беты выкладывать мне не стоит ...

Всего записей: 955 | Зарегистр. 13-06-2013 | Отправлено: 10:38 30-01-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
 
На всякий случай, что касается OCR, не забудьте о том, что в документах на одном языке часто бывают вставки на другом - чтобы была возможность выбора нескольких языков OCR/проверки правописания.
Об этом часто забывают или не думают многие разработчики.

Всего записей: 3294 | Зарегистр. 17-09-2001 | Отправлено: 10:49 30-01-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Но например на первом скриншоте во второй видимой строке я вижу "ходит по кругу нод", хотя там было "под" с разорванной  "П". И это новый СК сам заменил !

В данном случае "нод" тоже была в списке words, просто здесь я не ставил цели контролировать все слова. По хорошему надо пройтись по списку, подправить буквы на правильные (СК дает такую возможность), проверить список замен, по крайней мере те, где расхождения существенные, и только потом делать замену букв.
А в данном случае получился хороший урок, показывающий, что из-за ошибок тессеракта надо обязательно делать проверку. Кстати, в предпоследнем скриншоте ошибка тессеракта, о которой я упоминал ранее: неверные координаты символов. Но т.к. СК выполняет adjust символов, эта ошибка часто не приводит к последствиям.

Всего записей: 4158 | Зарегистр. 09-09-2002 | Отправлено: 10:50 30-01-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
 Кстати, в предпоследнем скриншоте ошибка тессеракта,

Да, я заметил.
 
Но мне так пока и непонятно. Работает ли СК так:
 
- переход на букву и демонстрация предлагаемой замены
- если пользователь согласен, то клик
- автоматический переход на другую букву с предлагаемой заменой.
 
Чтобы можно было только кликать и быстро по книге бежать.
Или надо будет постоянно между закладками переключаться ?
 

Всего записей: 955 | Зарегистр. 13-06-2013 | Отправлено: 11:09 30-01-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013

Цитата:
постоянно между закладками переключаться ?  

Не понял, какими закладками?
 

Цитата:
Работает ли СК так:  

1 этап (необязательный). Analyse на закладке words чтобы найти сомнительные слова. Можно подправить ocr, либо, если лень возиться, просто исключить слова из анализа.
 
2 этап. Analyse для поиска замен для всех или заданных глифов. Анализ и подбор выполняется сразу для всей страницы (или только для выделения, если оно есть). Обычно этап выполняется за время от 10 до 20 сек. Результат отображается в списке. Каждый элемент списка - одна замена. Если СК посчитает, что совпадение слишком плохое, замена в списке останется, но не будет отмечена галкой.
 
3 этап (рекомендуемый). Проверка списка замен, хотя бы до первой трети списка. Отключение ненужных элементов, включение нужных. Для удобства список можно сортировать, например, по степени убывания степени совпадения.
 
Когда список готов, нажатие apply all применит сразу все активные замены. Есть вариант выборочного применения.
Можно также кнопкой наверху включить интерактивный режим - режим замены по щелчку на букве.
В принципе, когда есть список замен, можно уже придумывать разные способы его воплощения. Но по умолчанию основным способом является пакетный.
 
Это вкратце. После 3-го этапа можно производить и другие действия, например, отфильтровывать замены. Можно уже в готовом списке замен исправлять одну букву на другую (если обнаружится ошибка распознавания), можно также править целое слово, в обоих случаях подгонка замененных глифов в списке будет выполняться уже автоматически.
 

Цитата:
быстро по книге бежать

Без 3-го этапа можно и бежать. Но я бы так не советовал.
 
Добавлено:
niccolo

Цитата:
была возможность выбора нескольких языков OCR/проверки правописания

СК и раньше поддерживал задание нескольких языков.  
Соответственно и правописание тоже поддерживается для тех, что заданы.
Другое дело, как тессеракт будет распознавать похожие буквы (чтобы в одном слове не было сразу и русских, и латинских букв). Я не проверял. Но думаю, что результат будет не очень.

Всего записей: 4158 | Зарегистр. 09-09-2002 | Отправлено: 12:05 30-01-2022 | Исправлено: bolega, 12:29 30-01-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
чтобы в одном слове не было сразу и русских, и латинских букв

такое?

 
оффтоп конечно

Всего записей: 2101 | Зарегистр. 15-07-2010 | Отправлено: 12:24 30-01-2022 | Исправлено: TelecomUral, 12:28 30-01-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Не понял, какими закладками?  

Видимыми на скриншотах:  
Preview/Details/Words/Filters/Options
 
 

Цитата:
Анализ и подбор выполняется сразу для всей страницы (или только для выделения, если оно есть).  

Да, про это вы и ранее писали. Хочется же последовательный автоматический переход от одной "плохой" буквы к следующей. Клик ЛКМ - замена (предложенная) и переход. Escape - переход далее без замены. В окне же справа, чтобы была видна информация сразу со всех закладок: и список слов, и расцвеченное наложение, и инфа о выбранных фильтрах-параметрах.
 

Цитата:
Когда список готов, нажатие apply all применит сразу все активные замены.

Это надо покрутить на предмет оценки удобства. За глаза ничего не могу сказать. Но мне кажется, что скорость прохождения страницы тут будет ниже.
 
Может, альтернативный дополнительный вариант с авто-перемещением попробуете реализовать ?

Всего записей: 955 | Зарегистр. 13-06-2013 | Отправлено: 12:50 30-01-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Но по умолчанию основным способом является пакетный

хм. а как контролировать что промаха не будет?

Всего записей: 2101 | Зарегистр. 15-07-2010 | Отправлено: 12:50 30-01-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Насколько я понял, это так:
 
сначала формируется список замен, только потом он применяется.
То есть каждую замену надо глазами отсмотреть.  
Но вот чтобы по этому списку перемещаться, по нему надо руками кликать. А это то самое время, которое и хотелось сэкономить.

Всего записей: 955 | Зарегистр. 13-06-2013 | Отправлено: 12:55 30-01-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
интересно, а у тессеракта есть режим обучения? у ФР есть, подсовываешь плохопознаваемый глиф и приписываешь символ. А у тессеракта, видимо, надо тессдата генерить?

Всего записей: 2101 | Зарегистр. 15-07-2010 | Отправлено: 12:56 30-01-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
а как контролировать что промаха не будет?  

 
Так на preview в окошке показан результат замены/наложения. И все проверять не надо, по опыту скажу, максимум примерно треть от списка.
Вам наверно без проверки хочется. Но если от буквы две палки остались, как вы себе представляете без проверки, там на их место и "и" подходит, и "н", и "п" и т.п.
 

Цитата:
сначала формируется список замен, только потом он применяется.  То есть каждую замену надо глазами отсмотреть.   Но вот чтобы по этому списку перемещаться, по нему надо руками кликать.  

 
Там же кнопки для быстрого перемещения по списку. "+"-одобряет замену и перемещает на следующий элемент в списке. "-" - отклоняет и перемещает дальше. Есть и хоткеи. Все очень быстро на самом деле. Удобство этого в том, что глаз работает всегда с небольшой областью экрана. Если все это контролировать прямо на скане, то придется бегать взглядом по всему монитору, это очень напряжно.
 
Но можно и альтернативные варианты придумывать. Но потом. Дайте блин хоть это закончить. Не, ну если хотите чтобы я тянул релиз до следующего года, пожалуйста. Могу не спешить, мне же лучше.

Всего записей: 4158 | Зарегистр. 09-09-2002 | Отправлено: 13:27 30-01-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
ам же кнопки для быстрого перемещения по списку. "+"-одобряет замену и перемещает на следующий элемент в списке. "-" - отклоняет и перемещает дальше.

И как об этом можно было догадаться по скриншоту ?
 
 

Цитата:
Дайте блин хоть это закончить. Не, ну если хотите чтобы я тянул релиз до следующего года

Медленно и терпеливо ждём. Не мешаем, не напоминаем, не отвлекаем ...

Всего записей: 955 | Зарегистр. 13-06-2013 | Отправлено: 13:35 30-01-2022 | Исправлено: daa2013, 13:37 30-01-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Видимыми на скриншотах:  

Ну это скорее для отладки и для углубленного анализа информация, если вдруг понадобится. Ну а в опциях, понятное дело, разные опции. Например, искать только 100% совпадения, или наоборот.  
 

Всего записей: 4158 | Зарегистр. 09-09-2002 | Отправлено: 13:37 30-01-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Да, вот такой еще вопрос.
В режиме прозрачности эталон можно задать (и вклеивать потом пакетом) ?
 
 
 

Всего записей: 955 | Зарегистр. 13-06-2013 | Отправлено: 03:09 31-01-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013
Можно.
Кстати, теперь СК при вклеивании детектирует кернинг (если включить соответствующую опцию). Если одна буква из-за кернинга какой-либо частью заходит на площадь соседней буквы, то СК проверит их пересечение и аккуратно вклеит ее, не затерев кончики соседних. В предыдущих версиях такого не было, что для ряда шрифтов приводило к небольшому повреждению букв.

Всего записей: 4158 | Зарегистр. 09-09-2002 | Отправлено: 09:02 31-01-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
для ряда шрифтов приводило к небольшому повреждению букв

да, это сильно нервирует. Я раньше не знал, что можно глиф с прозрачностью делать, так совсем плохо было.

Всего записей: 2101 | Зарегистр. 15-07-2010 | Отправлено: 09:42 31-01-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
В режиме прозрачности эталон можно задать (и вклеивать потом пакетом) ?  

Но имейте ввиду, что в этом случае не будут удаляться марашки, которые касаются букв. Ну либо для удаления касающихся марашек нужно будет применить замену еще раз в режиме только удаления марашек, такое тоже возможно. Но лучше всего прилипшие к буквам марашки удаляются в режиме реставрации букв.

Всего записей: 4158 | Зарегистр. 09-09-2002 | Отправлено: 11:27 31-01-2022 | Исправлено: bolega, 11:30 31-01-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Да, ИМХО, это очевидно.

Всего записей: 955 | Зарегистр. 13-06-2013 | Отправлено: 12:30 31-01-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Я раньше не знал, что можно глиф с прозрачностью делать, так совсем плохо было.
 

Помимо изготовления прозрачного глифа, непрозрачный глиф можно вклеивать с прозрачностью (не просто кликнуть ЛКМ, а кликнуть ПКМ и выбрать "Merge with transparence"), либо вообще перейти в режим прозрачности вклеиваемого:  снова-таки после пасте вместо ЛКМ нажать клавишу T, и только потом вклеивать. (Отключение режима - повторное нажатие T).

Всего записей: 955 | Зарегистр. 13-06-2013 | Отправлено: 11:29 01-02-2022
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2023

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru