Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 5)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100

Открыть новую тему     Написать ответ в эту тему

Maz



Дед Мазай
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть | 4 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v7.00 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


О Хрестоматии 2.1 SK
 
Чтобы русифицировать СканКромсатор
В ini-файле в секции Options должен присутствовать параметр LangInt=1. Вернуть в исходный язык: LangInt=0. Пока русифицировано только MW.
 
ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 39615 | Зарегистр. 26-02-2002 | Отправлено: 21:56 14-09-2023 | Исправлено: TelecomUral, 07:06 04-12-2024
asku



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Fire_Dragon
 
Если рисунков много, то зоны выделяю скриптом chess4SK для СК. Один умелец записал (спасибо ему) и здесь на форуме опубликовал давно.
Вот здесь можно взять:
chess4SK
 
Распознаю только Файнридером.
 
Объем второго тома в дежавю получился в два раза меньше первого. Хотя оба тома примерно одинаковые по количеству страниц и рисунков.
Скорее всего потому, что во втором томе буквы немного тоньше. Надо было для первого тома другую бинаризацию в СК выбрать, но я уже столько сил и времени на обработку книги потратил, что поленился по новой делать.
 
Добавлено:

Цитата:
 вот ссылка

 
Не получается скачать.

Всего записей: 695 | Зарегистр. 04-05-2016 | Отправлено: 23:28 07-07-2025
Fire_Dragon



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Не получается скачать.

Из-за цензуры что ли? Проверил, всё работает.

Всего записей: 58 | Зарегистр. 19-11-2010 | Отправлено: 00:15 08-07-2025
sovokr

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku

Цитата:
зоны выделяю скриптом chess4SK

Если не сложно, запишите видосик. Поплясал с бубном, ничего не выходит. Непонятно что делать потом с новым файлом в СК.
Хотя бы на примере одной страницы вашего файла:
https://disk.yandex.ru/d/i4E5HMUxoiew3A
кудесник питона такие вам параметры подсказал:

Цитата:
Параметры такие: min size 0.037, max size 0.065, aspect 0.5, expand 0, dilation 4

Всего записей: 13 | Зарегистр. 25-07-2024 | Отправлено: 02:07 08-07-2025 | Исправлено: sovokr, 02:51 08-07-2025
asku



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
sovokr

 
А вот видео (я на других сканах сделал уже):
видео на яндекс.диске
 
Добавлено:
В поле min size пишем значение самой маленькой картинки (ее высота в пикселях/высота скана в пикселях).
В поле max size — значение самой большой картинки (ее высота в пикселях/высота скана в пикселях).
Прям до долей точные значения не нужны. Так, примерные.
Вот я посчитал, вышло примерно 0,228. И в эти поля я вписал... (см. на видео) примерные значения.
 
Поле min aspect — здесь на глаз надо указать «квадратность/прямоугольность» картинки. Т.е. чем квадратнее картинка, тем значение в поле ближе к 1. Я на глаз указал 0,6.
Как видно из названия скрипта, он предназначался для работы в СК со сканами шахматных книг. Так как шахматная доска это квадрат, то и значение min aspect близко единице (по умолчанию в поле стоит 0,95).
 
Поле expand frame — расстояние (зазор) между картинкой и зоной.
 
Что такое dilatation я не помню, и никогда поле не трогаю.

Всего записей: 695 | Зарегистр. 04-05-2016 | Отправлено: 09:18 08-07-2025
sovokr

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku
Благодарю Вас! Но у меня зоны не появляются в СК.
Можете глянуть? Может увидите, что я не так делаю. Вроде скрипт создает 6 зон.
видео:
https://workupload.com/file/7BcbqemqX8U

Всего записей: 13 | Зарегистр. 25-07-2024 | Отправлено: 14:12 08-07-2025
asku



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
sovokr
не открывается ваш файл.
Если вы пишите, что скрипт создал зоны, но вы их не видите, то могу предположить, что вы после работы скрипта открываете в СК не тот spt-файл. Скрипт создает файл c -new на конце (в названии).

Всего записей: 695 | Зарегистр. 04-05-2016 | Отправлено: 14:23 08-07-2025
sovokr

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku
https://workupload.com/file/juwxVYGYkX4
может этот откроется.
файл c -new на конце открываю конечно.

Всего записей: 13 | Зарегистр. 25-07-2024 | Отправлено: 14:32 08-07-2025
asku



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
sovokr
 
Я сейчас использовал такие параметры:

 
и все получилось:

 
Вот тут видео (сейчас записал):
видео
 
А вот вся книга в дежавю. Я ее давно делал. Вроде неплохо получилось:
книга

Всего записей: 695 | Зарегистр. 04-05-2016 | Отправлено: 15:07 08-07-2025
sovokr

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku
мистика. шаг за шагом повторяю. но в СК зоны не видны. можете выложить ваш питон? (ссылка, которую вам скидывал U235, уже сдохла). может что-то внесли в библиотеки (я скачивал свежую версию с оф. сайта), и это поломало процесс.
 
Upd
разобрался.
скрипт почему-то дает координаты зон в формате:

Цитата:
 
[X]=(np.int32(559), np.int32(1835), np.int32(421), np.int32(1299));(np.int32(558), np.int32(1833), np.int32(1461), np.int32(2329))
 

 
в новом spt файле после работы скрипта нужно заменить:

Цитата:
 
"np.int32(" -> пусто
")," -> ","
"))" -> ")"
 
либо с регэксп
"np.int32\((\d+)\)" -> "\1"
 


Всего записей: 13 | Зарегистр. 25-07-2024 | Отправлено: 15:18 08-07-2025 | Исправлено: sovokr, 17:46 08-07-2025
asku



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
в новом spt файле после работы скрипта нужно заменить:

 
А почему мне ничего не нужно было заменять? )
 
Вот Python на всякий случай:
Ссылка

Всего записей: 695 | Зарегистр. 04-05-2016 | Отправлено: 17:52 08-07-2025
sovokr

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А почему мне ничего не нужно было заменять?

так и оказалось: в скаченном с оф.сайта питоне есть этот "баг", в вашем архиве его нет.
если автор скрипта не забил на него, он может в конце скрипта добавить указанную выше замену по регэкспу. скрипт это не испортит, но совместимость повысит.
ну или пользоваться вашей ссылкой.
Спасибо, asku

Всего записей: 13 | Зарегистр. 25-07-2024 | Отправлено: 18:05 08-07-2025
sovokr

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Что такое dilatation я не помню, и никогда поле не трогаю.

методом проб установил, что это порог обнаружения картинок. 1 - самый строгий уровень (может пропустить какие-то картинки или не полностью их выделить); далее по возрастающей более щадящий (может в качестве картинок принять части текста). насколько я понял средний рабочий диапазон качественного результата 3..7.

Всего записей: 13 | Зарегистр. 25-07-2024 | Отправлено: 18:12 09-07-2025
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Fire_Dragon
Посмотрите, пожалуйста, Личный Ящик.

Всего записей: 7278 | Зарегистр. 14-01-2005 | Отправлено: 20:13 09-07-2025
tv0r0g

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Добрый день!
 
Я пытаюсь обработать старую книгу 1902 года со множеством картинок. Опыта работы со SK мало, поэтому подскажите, пожалуйста, как с ними лучше быть:
 
1. Если создавать picture-зоны и применять вычитание фона, результат получается довольно блёклый. Вдобавок на стр. 22 (годовое движение Земли вокруг Солнца) фон всё равно довольно заметен.
2. Если вообще не создавать зоны, картинки получаются ярче, но я не уверен, что так стоит делать.
 
Какой вариант обработки лучше использовать? Возможно, какие-то фильтры нужно добавить?
 
Ссылка на суб-таск: https://disk.yandex.ru/d/2Ybjp4T1GezQBQ

Всего записей: 2 | Зарегистр. 06-08-2022 | Отправлено: 22:24 10-07-2025
wasp238



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Вопрос к bolega.  
Я нашел 2 источника ваших видео:
1) YT Канал "Алексей Алексеев" видео по работе с зонами (3 видео)
2) YT Канал "Андрей Никитин-Перенский", "Новые возможности ScanKromsator 6.72." (4 видео)
 
Из ваших видео я узнал больше и на порядок быстрее чем со всех остальных вместе взятых.  
 
Есть ли еще видео туториалы  в вашем исполнении?

Всего записей: 58 | Зарегистр. 27-10-2008 | Отправлено: 08:39 11-07-2025
vilteb

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Прошу помощи.
 Пытаюсь распознать текст в сером исходном файле, маркирую его, затем в главном окне 'Tools> OCR input files> Current'. Появляется окно 'Processing...' и в нём пишет: 'Processing 9 file (1 of 1) Extracting text...'
 Затем открываю подменю главного окна 'Result> Show source files'. В окне редактирования изображения вызываю подменю 'Export OCR to text file...' контекстного меню 'Special...', указываю файл ocr.txt и в результате ничего - файл не создаётся.
 В окне редактирования изображения вызываю подменю 'Show image adjustments panel...' контекстного меню 'Show', открываю вкладку 'OCR' - пусто.
 При этом, в окне 'Exclusive page options' серого исходного файла - через вкладку 'Page' в главном окне, кнопка 'special...', - на вкладке 'More' выбираю 'OCR languages:[ukr]'.
 В окне настроек во вкладке 'Apps' данные Tesseract указаны "C:\Users\User\Downloads\ScanKromsator\7.00\tessdata2\ukr.traineddata"
В профиле по умолчанию на вкладке 'Pages' в группе параметров 'Special' указан OCR languages: [ukr]
ScanKromsator v7.03 06.2025
 Подскажите, пожалуйста, что делаю не так?

Всего записей: 18 | Зарегистр. 23-05-2025 | Отправлено: 12:45 11-07-2025 | Исправлено: vilteb, 13:04 11-07-2025
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Добрый день!
 Я пытаюсь обработать старую книгу 1902 года со множеством картинок.

 
Гравюры надо не меньше, чем на  600 дпи сканировать, и с таким же разрешением в джву кодировать.  
 
1. Чтобы штрихи теперь там расцепить, я картинку через Гигапиксель с апскейлом до 600 прогнал.  
(Строго говоря он буквы корежит, поэтому правильно было бы картинку потом руками в текст вставлять.  
 
2. В СК же вместо вычитания фона - перевод зоны в грей и автолевел (галочка как раз под вычитанием). Вокруг картинки внутри зоны почистить метелкой.
 
https://disk.yandex.ru/d/U1BTiEILrNyVig
 
 
 
 
Добавлено:
ЗЫ  Гигапиксель у меня 4.4.5.

Всего записей: 1174 | Зарегистр. 13-06-2013 | Отправлено: 18:48 11-07-2025
asku



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013
 
Вы не могли бы снять короткое видео как вы в гигапикселе
это делаете?

Всего записей: 695 | Зарегистр. 04-05-2016 | Отправлено: 18:56 11-07-2025
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Загрузил,  нажал кнопочку Resize=2, затем кнопочку Start.  
Всё. (Исходник конверировал в джипег, так как тут тифф нестандартный).
 
Добавлено:
Страницу 22 я бы всю оставил черно -белой, т.к. там не графюра, а чертёж.
 
https://disk.yandex.ru/i/Y4aa6XcxLZZvDQ
 
Добавлено:
(также предварительно через Гигапиксель пропущена)

Всего записей: 1174 | Зарегистр. 13-06-2013 | Отправлено: 19:00 11-07-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013 say:
Цитата:
через Гигапиксель пропущена

Не узрел преимуществ этого Гигапиксель перед методикой устранения "дефекта" масштабирования, как в самом процессе, так и в постфильтрационном исполнении. И в отличии от всяких Гигапикселей, эта метода может быть спокойно реализована в SK, ежели автора кто попросит.

Всего записей: 976 | Зарегистр. 18-05-2023 | Отправлено: 20:38 11-07-2025 | Исправлено: zvezdochiot, 20:38 11-07-2025
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2025

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru