Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 5)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102

Открыть новую тему     Написать ответ в эту тему

Maz



Дед Мазай
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть | 4 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v7.04 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


О Хрестоматии 2.1 SK
 
Чтобы русифицировать СканКромсатор
В ini-файле в секции Options должен присутствовать параметр LangInt=1. Вернуть в исходный язык: LangInt=0. Пока русифицировано только MW.
 
ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 39673 | Зарегистр. 26-02-2002 | Отправлено: 21:56 14-09-2023 | Исправлено: TelecomUral, 05:50 28-09-2025
vilteb

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
SK v7.04.09.2025. Спасибо.
Включенный 'Deskew' ссорится с 'Gamma' >=0.12 - выходное изображение посечённое и невольно начинаешь повышать 'Gamma' без надобности...
Если 'Deskew' выключить - изображение обрабатывается с перекосом 0.8 и выглядит в итоге, как ожидается, очень неплохо при 'Gamma'=0.12
Могу выложить sub-task.

Всего записей: 25 | Зарегистр. 23-05-2025 | Отправлено: 13:52 26-09-2025 | Исправлено: vilteb, 13:55 26-09-2025
zbolv

Запрет на пост
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Всего записей: 129 | Зарегистр. 26-03-2024 | Отправлено: 11:19 27-09-2025 | Исправлено: Maz, 11:23 27-09-2025
vilteb

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Прошу, есть ли возможность в постобработке - в окне 'Clear options' на вкладке 'Despeckle', - добавить к 'Despecle method' методы 'Safe' и 'Safe50' для отображения в режиме 'Highlight specles' - 'Speckle color' цветом, - перед принятием решения о включении 'Despecle' на вкадке 'Page' ... основного окна? Спасибо.

Всего записей: 25 | Зарегистр. 23-05-2025 | Отправлено: 13:31 28-09-2025
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
добавить к 'Despecle method' методы 'Safe' и 'Safe50'

это невозможно

Всего записей: 4742 | Зарегистр. 09-09-2002 | Отправлено: 08:08 29-09-2025
vilteb

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Прошу, на вкладке 'Histogram' включен 'Threshold', а на вкладке 'Gamma' включен 'Enable'. С какой вкладки берутся точки чёрного и белого?
Яркость полутонов в Photoshop - это то же, что и Gamma в ScanKromsator?
Среди параметров порога бинаризации 'AutoW' есть помимо 'Sensitivity factor' и 'Threshold correction' параметр 'Window size'. Его значением может быть аргумент не менее 5 и выше. Прошу разъяснить его суть, если не затруднит. В каких пределах необходимо задавать аргумент и исходя из чего?
Спасибо.

Всего записей: 25 | Зарегистр. 23-05-2025 | Отправлено: 00:01 30-09-2025 | Исправлено: vilteb, 20:09 30-09-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
vilteb  
'Window size'...Прошу разъяснить его суть

размер окна, т.е.количество пикселей, берущихся в расчет адаптивного порога.
http://forum.ru-board.com/topic.cgi?forum=5&topic=32945&start=3980#2
Чем вариативнее средняя освещенность разных участков, тем уже должно быть окно. Лично у меня окно менее 25 вызывало странные результаты. Переходил на глобальное сглаживание яркости.

Всего записей: 3608 | Зарегистр. 15-07-2010 | Отправлено: 03:51 01-10-2025
vilteb

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Спасибо.

Цитата:
TelecomUral
Лично у меня окно менее 25 вызывало странные результаты.

У меня: 'Threshold correction'=0, 'Sensitivity factor'=10 и 'Window size'=100!
Уровень 'Contrast' и 'Brightness' - прежний (=0), а вот уровень 'Gamma' приходится понижать вплоть до =0,52.
При этом включён и 'Background cleaner'='On': 'Cleaner passes'=1, 'Protect black pixels'='On', 'Frame size'=5!, 'Method'='2D', 'Correct low contrast'='On', 'Sensitivity'=35! - текст нечитаемый в двух строках, в нескольких местах, - 'ignore light pixels'='On', 'increase black'='On'.
Это всё относится исключительно к тексту, выделенном зоной изображения ('Picture zone').
Это я всё к тому, что при пороге 'AutoW' получается лучше, пусть и субъективно, чем с порогом 'HighDark'.

Цитата:
AlVaKo
Если окно соизмеримо или меньше "черного" объекта, то внутренние пикселы такого объекта не будут становиться черными при бинаризации

Окно в пикселях должно быть равным или больше площади, занимаемой глифом по контуру или в прямоугольном окне, охватывающим контур глифа?
Диапазон значений 'AutoW': 'Sensitivity factor' = [0..10], 'Window size' = [5..2000], 'Threshold correction' = [-100..100].
Вкладка 'Background cleaner': диапазон значений 'Frame size' = [5..1000]. Если задать 1000, SK вроде бы как обрабатывает и в то же время: 'Processing... (Not Responding); Processing 30 file (1 of 1); Clear background...'. И так может длиться 16 минут и дольше! Эффективное значение 'Frame size' = [5..13].

Всего записей: 25 | Зарегистр. 23-05-2025 | Отправлено: 12:53 01-10-2025 | Исправлено: vilteb, 00:17 07-10-2025
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Делаю глифы на странице, где сильный шрифтовой разнобой. Возникло два пожелания в отношении опций.
 
1) Опционально: чтобы если галочка в списке замен не проставилась, то такие буквы в список вообще не включать.  
тут просто так много букв, что это сильно мешает
 
(кстати, помнится у меня была и обратная: дать такую галочку, которая отображала в списке замен, без галочек естественно, выброшенные буквы - слишком отличающиеся).  
из-за прилипшего спекла бывает буква выпала как слишком отличающаяся (хотя OCR её поймал), а потом она так незамеченной покоробленная и останется в книге.  
 
2) Опционально: не включать в список замен буквы, где сверху и снизу суммарно идёт отличие более, чем на N пикселей.
То есть отсортировывать не просто отличающиеся буквы, а буквы другого кегля. Грубо говоря, оценивать суммарную толщину синих или красных полосок  (см. рисунок):
 
https://disk.yandex.ru/i/SjfIbYUkD2AIWA

Всего записей: 1184 | Зарегистр. 13-06-2013 | Отправлено: 00:10 14-10-2025 | Исправлено: daa2013, 00:12 14-10-2025
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
где сверху и снизу суммарно идёт отличие более, чем на N пикселей

математически, что такое "сверху"?
на рисунке нет красных

Всего записей: 4742 | Зарегистр. 09-09-2002 | Отправлено: 09:37 14-10-2025 | Исправлено: bolega, 09:38 14-10-2025
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Да, пример был с синими. Сделать с красными ?
 
"Сверху" тут - между кординатой самого верхнего пикселя глифа и координатой самого верхнего пикселя изображения буквы из текста.
 
Добавлено:
Дополнение к "тут просто так много букв, что это сильно мешает".
Когда был просто "matching rating", оно так сильно не ощущалось. Буквы без галочек были в начале и их можно было пролистать.
А вот когда идет "красная" или "синяя" сортировка, то буквы без галочек оказываются внутри списка. А когда они занимают до 50% в нём (шрифтовой разнобой, вы помните), то это уже засада.

Всего записей: 1184 | Зарегистр. 13-06-2013 | Отправлено: 10:52 14-10-2025
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
"Сверху" тут - между кординатой самого верхнего пикселя глифа и координатой самого верхнего пикселя изображения буквы  

это когда кегль буквы больше кегля глифа. А если наоборот?
 
 
Добавлено:

Цитата:
буквы без галочек оказываются внутри списка.

а в чем засада? Это буквы неправильного кегля, просто игнорить их, раз они без галочек (как и должно быть)

Всего записей: 4742 | Зарегистр. 09-09-2002 | Отправлено: 11:25 14-10-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Это буквы неправильного кегля, просто игнорить их

вот-вот.

Всего записей: 3608 | Зарегистр. 15-07-2010 | Отправлено: 11:34 14-10-2025
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
В чем засада: Это если их три в списке, то их игноришь. А если их 1200 из 2400, и идут не подряд, то это уже мучение.
 
Пример с красными:    
в моём случае более крупный кегль автоматом исключился из списка, и не мешается.
А вот более жирный кегль остался.
Для красных, наверное, влево-вправо имеет смысл расстояния считать:
 
https://disk.yandex.ru/i/O8KvP99cf_y3YA
 
Добавлено:
У меня тот редкий для меня случай, кода я не делаю полностью все буквы заменой, а ловлю кривые.
Поэтому я ползаю по списку и ищу выщербленные и приспекленные.
 
Добавлено:
ИМХО было бы полезно. Но, согласен, как-то я раньше справлялся без этого.  
 
А вот прям очень-очень надо - это зоны беспотерьного кодирования в оут-таске. (Для букв И, Н).
И гистограмму в пикчур-зонах хотелось бы.
Ну, не буду весь список вспоминать.

Всего записей: 1184 | Зарегистр. 13-06-2013 | Отправлено: 12:15 14-10-2025 | Исправлено: daa2013, 12:23 14-10-2025
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Для красных, наверное, влево-вправо имеет смысл расстояния считать:

на красные слева/справа есть фильтр. Либо на верх/низ.

Цитата:
и идут не подряд, то это уже мучение.  

можно из списка удалить все без галки: КМ > delete items...
 
а еще можно текст разных кеглей метить разными идентификаторами (анализ будет сверять только совпадающие ид), но присвоение ид тоже хлопотное дело

Всего записей: 4742 | Зарегистр. 09-09-2002 | Отправлено: 13:18 14-10-2025 | Исправлено: bolega, 13:21 14-10-2025
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
можно из списка удалить все без галки: КМ > delete items..

Спасибо, не знал.
 
Но тут такое дело, я малый шрифт, например, полностью и не собирал даже. Жирный, курсив - тоже.  
Почему я тут полные замены не делаю ? Фотонабор - зло. При обработке - заметно, что буквы местами имеют немного разную ширину: редактор , регулируя выключку, не только кернингом игрался.
 
Поэтому хочется не расставляя зоны, не ловя участки , набранные выделительными шрифтами, не собирая все алфавиты, из анализа их исключить. А для этого не просто отбросить "слишком отличающиеся буквы", а с уточнением:
- слишком отличающиеся сверху и снизу;
- слишком отличающиеся с боков (о чем я сразу не подумал).

Всего записей: 1184 | Зарегистр. 13-06-2013 | Отправлено: 13:31 14-10-2025
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
У меня тот редкий для меня случай, кода я не делаю полностью все буквы заменой, а ловлю кривые.  

а у меня это как раз основной случай. И я не использую м-цу замен. Использую интерактивный режим: щелкнул по букве, она заменилась. Щелкнул с зажатым shift - заменились все буквы в слове. Глифы для замены берутся с текущей вкладки глифов.

Всего записей: 4742 | Зарегистр. 09-09-2002 | Отправлено: 13:35 14-10-2025
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Я уже писал. Я не сразу, а постепенно пришёл к полным заменам.
 
Тогда тем более вы не теоретически, а практически понимаете, что я делаю, и что мне мешает.
 
Сейчас я не глазами на странице ищу, а отслеживаю с просмотром через превью 20-30-50 букв вверху списка красной и синей сортировки. И "левые" буквы в списке (без галочек но, что хуже - с галочкой, но другого кегля) мне сильно мешаются. Особенно, когда их много.

Всего записей: 1184 | Зарегистр. 13-06-2013 | Отправлено: 13:44 14-10-2025
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
на красные слева/справа есть фильтр. Либо на верх/низ.  

 
Я лично не догадался, что если по фильтру кликнуть, то он изменит свой тип ...

Всего записей: 1184 | Зарегистр. 13-06-2013 | Отправлено: 03:32 15-10-2025
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ещё одна идея появилась в сфере анализа глифов.
Вот сейчас считается общее число красных и синих пикселей в раскраске. И соответствующим образом определяется несоответствие.  (Извините за каламбур).
Как правило они размазаны тонким слоем по краям буквы (глифа). Но если есть дырка или приспекленный кусок, то эти пиксели локализованы. Может быть можно рассчитывать размер самой крупной цветной области в ячейке буквы ???  То есть, в терминологии обычного RV: определять размер самого крупного красного и самого крупного синего спекла в ячейке ???   (ну и учитывать эту цифру в анализе, или дополнительный рейтинг букв с самыми крупными спеклами выдавать).
 
Добавлено:
UPD: и учитывать только спеклы, у которых и высота, и ширина, больше одного пикселя.

Всего записей: 1184 | Зарегистр. 13-06-2013 | Отправлено: 08:54 16-10-2025
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
то эти пиксели локализованы.

не факт. Они могут иметь тонкие связки (перешейки) с периметральной окраской, и тогда анализ может сработать, а может и нет. Толку мало, если надеяться только на то, что сработает. Т.е. спеклы в окраске считаю малоперспективным критерием.
Можно по другому. Морфологией утоньшить цветные участки (либо наоборот утолщить черное т.е. глиф). Что останется от цветных, то и учитывать в статистике как раньше
Только в чем цель? Ловить дырки и спеклы?

Всего записей: 4742 | Зарегистр. 09-09-2002 | Отправлено: 12:08 16-10-2025 | Исправлено: bolega, 12:10 16-10-2025
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2025

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru