Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v6.97 | ScanKromsator v6.91 |
 ScanKromsator v6.8 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: mvk2006, 21:12 04-08-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku
может, у shch_vg не возникнет проблем.
А так - с марашками всё довольно примитивно. Сложно пройти путь с подключением текстового слоя. В шапке есть подробности.

Всего записей: 3056 | Зарегистр. 15-07-2010 | Отправлено: 14:55 19-02-2023
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Для некоторых книг, особенно если нет OCR, оказывается, бывает нужна постоянно повышенная точная позиционирования глифа (уменьшенная зона поиска).  Приходится постоянно зажимать контрол, а еще иногда это мешает тасканию глифов.  
Нельзя ли на закладке преференсов сделать чекбокс, который как бы напостоянно её включает.
Т. е. вставка всегда как бы с зажатым контролом шла.

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 08:17 20-02-2023
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Пересмотрел видео, где говорится о марашках
Видео от bolega, часть 4 (откроется там, где про марашки)
 
Там при включении режима Marashki mode, красная подсветка не исчезает (она исчезает только там, где затрагиваются сами символы). В моем же тест файле (он чуть выше) исчезает вся подсветка.

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 12:41 20-02-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku
внимательно изучил ваши выходные тиффы из задания. Ни единой марашки не увидел. Ткните носом, что должно остаться по вашему мнению красненьким при включении режима M.
 
Напоминаю, что "марашка" - типографский термин, обозначающий лишнюю грязь между буквами, обычно из-за касания основанием литеры бумаги. Или, допустим, краска слишком липучая и осталась висеть мостиком между литерами на ребрах матрицы. Как правило, это выгляит на бумаге как прогонистая вертикальная кляксочка. Палочка. Сильно сбивает глаз при чтении, так как сопоставима по размеру с вертикальными элементами букв и такая же жирная.
В СК марашки делятся по методу убирания на касающиеся буквы и не касающиеся её.
 
У вас с виду не марашки, а корявые глифы. С лишними элементами-зазубринками. По классу анализа, мне кажется, это никак не марашки.

Всего записей: 3056 | Зарегистр. 15-07-2010 | Отправлено: 13:29 20-02-2023
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Вот это получается не марашки?

 
При включении режима Marashki mode картина такая:

 

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 13:42 20-02-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku
мне кажется что нет, не марашки. Они длинненькие должны быть. А это обычный мусор.
Но вы учтите, я с этими фичами СК ещё плотно не разбирался, опыта не нажил. Могу и ошибаться, пусть лучше bolega ответит вам.

Всего записей: 3056 | Зарегистр. 15-07-2010 | Отправлено: 13:52 20-02-2023
mvk2006



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Вот это получается не марашки?

получается.  
 

Цитата:
"марашка" - типографский термин, обозначающий лишнюю грязь между буквами, обычно из-за касания основанием литеры бумаги


Цитата:
6.75 05.2022
- VR: добавлен режим подсветки типографских палочек (марашек).



 
По идее для "не-марашек", обычных спеклов нужно использовать режим "Outside letters mode"

Цитата:
- VR: добавлен режим подсветки спеклов, расположенных за пределами областей, занимаемых буквами текста. Режим работает если для   изображения имеется ocr-информация. Для включения режима используется команда Outside letters mode в контекстном меню кнопки включения подсветки. Режимы Marashki mode и Outside letters mode могут использоваться одновременно.

Всего записей: 515 | Зарегистр. 15-10-2005 | Отправлено: 14:17 20-02-2023 | Исправлено: mvk2006, 14:27 20-02-2023
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
По идее для "не-марашек", обычных спеклов нужно использовать режим "Outside letters mode"

Да, по идее вроде так. Но при включении этого режима, результат тот же — все эти (см. скрин) «не-марашки» перестают подсвечиваться. OCR работает нормально.
Может быть есть какая-то галочка, которую надо включить (или выключить).
 


Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 14:31 20-02-2023
mvk2006



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
результат тот же

да, какие-то тонкости тут есть, работа режима иная, чем в общепользовательском понимании..(всё, что выходит за границы букв) Поскольку речь идет о спеклах, я пробовал варьировать размером Speckle size... Иногда что-то получалось...
Да, я обратил внимание, что после работы с текстовым слоем (см. замечание bolega об обнаруженном баге), режимы подсветки также бывает работают некорректно

Всего записей: 515 | Зарегистр. 15-10-2005 | Отправлено: 14:37 20-02-2023 | Исправлено: mvk2006, 14:43 20-02-2023
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
«не-марашки» перестают подсвечиваться.  

в вашем примере вроде все понятно. марашек нет, но практически все спеклы входят в габарит букв (так выдал FR очевидно). А раз они в букве, то Outside letters mode не сработает. И в добавок вы еще практически все буквы со спеклами внесли в исключения подсветки. После все этого естественно никакая подсветка не сработает. Тут сложный случай, боюсь надо вручную чистить. Либо сначала подправить ocr, выполнить замену букв, потом сделать ocr по-новой, тогда может FR более корректно определит габарит букв.

Всего записей: 4441 | Зарегистр. 09-09-2002 | Отправлено: 15:58 20-02-2023
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
И в добавок вы еще практически все буквы со спеклами внесли в исключения подсветки.

Убрал. (Сделал все по «дефолту»).
 
А ПКМ—Options—Вкладка Despeckle ничего не изменит значит?
В пункте Speckle size (fine) делаю огромное значение (напр. 70) и ничего не меняется.

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 16:06 20-02-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
(так выдал FR очевидно)

любопытная вещь: я решил перераспознать странички этого задания тессерактом (хотел перепроверить как он буковки выделит). И не получил желаемого результата - страница опозналась как состоящая из русских букв. Вместо буквы "ае" - две раздельные "а" и "е". Язык страницы - oss. Я ничего не правил в задании, только в Options переключил на Tesseract и в MW вызвал Result\OCR output files\Current.
 
UPD
решил поглядеть что с модулями, а oss у меня нет

Всего записей: 3056 | Зарегистр. 15-07-2010 | Отправлено: 21:34 20-02-2023 | Исправлено: TelecomUral, 21:37 20-02-2023
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Осетинский навряд ли есть среди языков тессеракта. Если бы я знал как языки туда добавлять, то сделал бы )

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 21:43 20-02-2023
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
http://forum.ru-board.com/topic.cgi?forum=5&topic=50023&start=2700#14

Всего записей: 4441 | Зарегистр. 09-09-2002 | Отправлено: 07:47 21-02-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
не уловил, куда вы меня послали.  
 
Я говорю, что модуля тессерактовского на осетинский язык не существует. А Кромсатор это проглотил.
 
Добавлено:
asku

Цитата:
Если бы я знал как языки туда добавлять

поскольку проект открытый, то должна быть внятная инструкция для изготовителей модулей. Скорее всего нейросетка предложит вам запихивать в нее сканы и отсматривать результат. Предварительно подать алфавит. Но есть ещё и всякие хитрые штучки с грамматикой.

Всего записей: 3056 | Зарегистр. 15-07-2010 | Отправлено: 08:14 21-02-2023
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
По итогам того обсуждения договорились, что СК вместо осетинского будет вызывать тессеракт с русским языком. Ведь отличие между ними вроде бы только в одной букве-лигатуре.

Всего записей: 4441 | Зарегистр. 09-09-2002 | Отправлено: 09:37 21-02-2023
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Вот жду и никак не дождусь, когда появится видео про Tesseract, эту таинственную программу. Если набрать "Tesseract" в поиск браузера, то вместо искомой программы появляются какие то трубадуры.

Всего записей: 666 | Зарегистр. 23-05-2021 | Отправлено: 15:02 25-02-2023
KPGA

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Вот жду и никак не дождусь, когда появится видео про Tesseract, эту таинственную программу. Если набрать "Tesseract" в поиск браузера, то вместо искомой программы появляются какие то трубадуры.

А, именно обязательно видео?
Tesseract на Хабр в поисковом запросе
 
P.S. Х.З. какая нейронка у этой программы, но есть и другие проекты OCR на Github

Всего записей: 193 | Зарегистр. 04-10-2018 | Отправлено: 15:24 25-02-2023 | Исправлено: KPGA, 15:26 25-02-2023
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku, TelecomUral
_https://tesseract-ocr.github.io/tessdoc/tess4/TrainingTesseract-4.00.html
_https://tesseract-ocr.github.io/tessdoc/tess5/TrainingTesseract-5.html
 

Всего записей: 7334 | Зарегистр. 08-09-2001 | Отправлено: 16:16 25-02-2023 | Исправлено: los, 16:16 25-02-2023
MrLAG

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Было много жалоб, что забывали вовремя включить эту опцию. Последствия неприятные: часто требовалась полная переобработка. В этом смысле постоянно включенный режим намного безопасен, минус у него - один раз вызвать команду финализации, т.е. потратить одну секунду. Против возможно многих часов исправлений.  

 
Уважаемый bolega, не подумайте, что я привередничаю. Я, конечно, не предлагаю переделывать программу специально для меня. И вообще я много использую SK и программа мне очень нравится. Очень Вам за неё благодарен!  
 
Но, может это можно как-то исправить один раз включаемой галочкой где-то поглубже в опциях, или в самом ini файле? Я имею в виду, что если человек не использует автоматическую финализацию, т.е. его полностью устраивает текущий вариант заложенный  в программу, то он поставит такую галочку и забудет о ней (тем более в ini лазить не будет). С другой стороны, я наоборот использую финализацию всегда. Вероятно я не один такой.  Когда прогоняешь пару десятков книг за вечер, лазить в меню за этой опцией надоест быстро. Есть еще такой момент: когда разрешение высокое, обрабокта идёт долго. Оставляешь комп работать и занимаешься чем-то другим. Чем обльше промежуточных действий надо выполнить вручную, тем чаще надо подходить к компу. Впрочем, для моих задач подходит  и версия 5.96 в которой финализацию можно было включать/отключать, так что это не то что бы трагедия. Но с другой стороны, хотелось бы и новой программой попользоваться, изучить новые возможности заодно. Ладно, это всё лирика.  
 
У меня вот возник более насущный вопрос. Возможно это исправлено в более поздних версиях. Как я уже написал, моя версия 5.96. При кодировании djvu есть возможность задать отдельно качество для черно-белых зон (step2 BW, B/W zones options). И в ряде случаев, если есть мелкий пунктир, например, это реально нужно - поставить опцию losless для сжатия. Проблема в том, что выбор этой опции для ч/б зон вообще ничего не меняет.  Вот если поставтить  losless для сжатия ч/б страниц (step2 BW, DEE options), тогда сжимается без потерь. Но т.к. это применяется ко всем страницам, то раздувается весь djvu. Сжимать страницы по отдельности слишком утомительно. А если зоны сделать серыми, то, естественно, размер сильно увеличится. Есть какие-то варианты как правильно обработать ч/б зоны с мелким пунктиром? Или может в последней версии это всё работает корректно? Просто мелкие точки при любом варианте сжатия, кроме losless попадают (и рисунок превращается в ерунду).  
 
 
Добавлено:
Во, кстати, пришло в голову. Можно сделать, чтобы при включённой автоматической финализации программа выдавала предупреждающее окошко (и галочку "больше не показывать это предупреждение", для таких как я, которым такое окошко тоже быстро надоест). Тогда вероятность, что кто-то, забыв поставить галочку "do not finalize", запустит обработку будет много меньше. Но, безусловно, радикальный вариант, применённый в последних версиях проще и действенней. А мои неудобства связанные с заходом в меню для запуска  финализации это ерунда. И все таки, пожалуйста, подумайте над вариантами.

Всего записей: 70 | Зарегистр. 19-11-2008 | Отправлено: 03:15 27-02-2023
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)
Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru