Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Закладки » ScanKromsator | СканКромсатор (Часть 5)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91

Открыть новую тему     Написать ответ в эту тему

Maz



Дед Мазай
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть | 4 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v7.00 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


О Хрестоматии 2.1 SK
 
Чтобы русифицировать СканКромсатор
В ini-файле в секции Options должен присутствовать параметр LangInt=1. Вернуть в исходный язык: LangInt=0. Пока русифицировано только MW.
 
ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 39457 | Зарегистр. 26-02-2002 | Отправлено: 21:56 14-09-2023 | Исправлено: TelecomUral, 07:06 04-12-2024
Fire_Dragon



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
Почему бы не распространять СК в расшаренной папке какого-нибудь облачного хранилища: proton drive, dropbox, yandex disk, ...?
В данном случае создаётся одна перманентная ссылка, а новые версии просто кладутся в папку. В итоге, заинтересованные пользователи будут иметь доступ к последней версии (и не только) без необходимости её поиска на страницах форума, особенно, это ощутимо для тех кому это нужно спорадически.

Всего записей: 50 | Зарегистр. 19-11-2010 | Отправлено: 23:29 30-03-2025 | Исправлено: Fire_Dragon, 23:31 30-03-2025
Diffyer

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega

Цитата:
там трудность не в том, чтобы подсветить, а в том, чтобы после того, как пользователь удалит спекл (или его часть), быстро сформировать новую маску подсветки. Я пока не знаю как это реализовать

 
Очень помогает думать, в том числе и обмениваясь при этом кодом - chatgpt 4о. Ты как бы думаешь об него, выдвигаешь гипотезы, высказываешь предположения, идею, он её развивает, предлагает разные варианты решения - в итоге вы находите решение совместно, либо тебя осеняет и ты сам понимаешь как надо. Если не пробовали, рекомендую. Отличная штука. Я из добрых побуждений исходя из того, что вы ещё этого не делали. Если это не так, заранее прошу прощения. Мне действительно кажется, что это могло бы помочь. Знакомый программист очень активно этим пользуется и говорит ему это помогает решать такие задачи, над которыми самому пришлось бы думать неделями/месяцами.

Всего записей: 14 | Зарегистр. 14-03-2025 | Отправлено: 04:06 31-03-2025
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Вопрос.
 
Мне раньше это казалось бессмысленным, но я в последнее время стал натыкаться на книги, гадко изданные в 1990-е. По идее, там надо делать глифирование, но и глифы там кривые, да и собрать их по книге сложно (спецсимволы, ужирнения, курсивы и прочее - там уже был компьютерный набор и редакторы изгалялись).  
 
Теоретически, там же оцифрованные шрифты использовались.  
 
Можно ли библиотеку глифов сгенерировать из  TTF или OTF  файла, задав высоту шрифта (буквы "н") в пикселях ?, так чтобы дальше СК сам все буквы собрал и в растр перевёл? (Опять же с учётом пресловутых специсимовлов - не только по "н", но по любой букве, задав её размер, определить высоты и сгенерировать растры для всех остальных)
 
???

Всего записей: 1145 | Зарегистр. 13-06-2013 | Отправлено: 18:42 31-03-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013
зачем вам кромсатор, мне обычного ворда хватало.

Всего записей: 3546 | Зарегистр. 15-07-2010 | Отправлено: 21:00 31-03-2025
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Вот книжка сейчас передо мной. Издана плохо, даже не знаю, как глифы собрать. (Впрочем пока не делал, найду, наверное). Шрифт - Петербург  (т.е. современный компьютерный). Думаю, можно было бы его откуда-нибудь импортировать. Т.е. решение проблемы №1 - не надо собирать кучу знаков непонятно откуда. Вторую проблему я сформулировал - когда в тексте много спецзнаков, то и брать их неоткуда. (Впрочем вот книга издана плохо и я тоже не вижу, где их брать.)
 
Копипаста из Ворда нужна для другого. Причем из Ворда в СК не так уж просто и скопипастить.
 
Я уже пару раз делал с текстом объемом с абзац: набирал текст в ворде, потом скриншотил, потом вставлял его в СК, распознавал, далее менял глифами. Тут основная проблема - попасть с размером в шрифт в книге.
Вариант 1: набирать тестовую строку из книги, потом по ней определять масштаб.  
Вариант 2: сделать страницу-клон, там разместить-распознать. А потом уже переносить на основную страницу с масштабированием. (Так буквы можно сделать больше или меньше, или заузить, если в книге какой-то нестандартный шрифт применили.) Но тут библиотека из TTF-глифов не поможет. Тут нужны команды масштабирования, о которых я писал ранее.

Всего записей: 1145 | Зарегистр. 13-06-2013 | Отправлено: 21:23 31-03-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013

Цитата:
Можно ли библиотеку глифов сгенерировать

А почему бы библиотеку глифов не сгенерировать таким образом:
1) определяем гарнитуры из каких состоит текст книги - в соответствующей теме на ру-борде - например, Петербург
2) определяем параметры шрифтов текста книги - размеры, жирность, курсив
3) находим данную гарнитуру (шрифт) - в соответствующей теме на ру-борде
4) в любом редакторе pdf делаем новый pdf (алфавит, цифры, знаки препинания) с разными размерами шрифтов, например от 6 до 12 через 1 или 0.5
5) этот pdf экспортируем в png или tiff с dpi, который соответствует dpi скана книги
6) сопоставляя полученный png/tiff со сканом определяем размер шрифта, который использовался в книге
7) в любом редакторе pdf делаем новый pdf с требуемыми размерами шрифтов, жирностью и курсивом
8) этот pdf экспортируем в png или tiff с dpi, который соответствует dpi скана книги
9) из этого png/tiff делаем djvu с образцовыми глифами
10) профит
 
Вот djvu, сделанный таким образом. Алфавит (т.к. шрифт корявый, то с буквой ёЁ лажа вышла), цифры, некоторые знаки препинания. Шрифт Петербург (который у меня был), прямой, нормальный, размер от 12 до 6 пунктов.
 
Проблемы тут такие:
1) трудно определить гарнитуры (шрифты)
2) трудно найти абсолютно точно такие же гарнитуры (шрифты)
3) размеры шрифта на скане могут отличаться от целых значений, поэтому иногда нужно подбирать масштаб образцового png/tiff
 
Вполне вероятно, что можно как-то иначе, но пока так.

Всего записей: 993 | Зарегистр. 04-11-2019 | Отправлено: 23:22 31-03-2025 | Исправлено: jourmager, 23:43 31-03-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
оффтоп

Цитата:
jourmager
Вполне вероятно, что можно как-то иначе, но пока так


Цитата:
daa2013
Причем из Ворда в СК не так уж просто и скопипастить

я делал как-то попроще. Правда, всего пару раз.
Брал из скана скан буквы "н", вставлял ее в ворд. Рядом вбивал нужные символы нужного шрифта. Подбирал кегль шрифта равным по высоте вставленной "н". Печатал на бумаге. Сканил листок. Вставлял кусочки на нужное место скана книги (тогда библиотек глифов еще не было). Всё.

Всего записей: 3546 | Зарегистр. 15-07-2010 | Отправлено: 19:03 01-04-2025
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
7.02. special > text label > insert. Делаете выделение, внутри вводите текст. При выходе из редактора можно менять размеры выделения и положение. На закладке Tools задаете шрифт, если включить auto height, то размер шрифта задавать не нужно, просто меняя размер выделения (т.е. области label), шрифт будет автоматом подстраиваться под размер области label (за счет реального размера шрифта, а не за счет масштаба). Если label (по умолчанию тест прозрачный) передвинуть поверх текста скана, то таким образом можно довольно точно подобрать реальный размер шрифта, чтобы совпадало с текстом скана, он будет не обязательно целым числом. После подбора merge label и далее можно из него тащить в глифы.
Если понадобится добавить еще текст с такими же характеристиками, что и ранее, то в Tools есть кнопка insert last merged label, после этого текст можно менять.
Цвет текста нужно задавать до создания label (через magic-цвет). В 7.03 такое ограничение снято.
Label можно использовать только в режиме onepage! В других режимах это или невозможно, или чревато исключениями. Пока так.

Всего записей: 4708 | Зарегистр. 09-09-2002 | Отправлено: 20:12 01-04-2025 | Исправлено: bolega, 11:31 03-04-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ну вот. Уже 3 способа подбора размера шрифта и создания образцовых глифов.
Наверное, есть ещё, типа использования FineReader. Но это тема про СканКромсатор. К сожалению, версия 7.02 недоступна, чтобы попробовать рецепт от автора. Остается ждать 7.03.
 
Но, как я уже писал, остаётся ещё одна проблема. Которая, по моему опыту, и отнимает наибольшее количество времени. Это определение шрифта, идентичного или максимально похожего на тот, который на сканах книги. Потому что для одного начертания шрифта надо найти и выделить 66 символов алфавита (в случае русского языка), 10 цифр и десяток знаков препинания. А потом эти найденные символы сгруппировать так, чтобы было легко определить наиболее подходящий шрифт. И так для всех шрифтов в книге.
 
Как это сделать вручную - понятно, а вот как это автоматизировать с помощью СканКромсатора что-то не вижу.

Всего записей: 993 | Зарегистр. 04-11-2019 | Отправлено: 00:10 02-04-2025
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Чтобы узнать шрифт, лучше распознать страничку в FR и у него узнать, FR довольно точно подбирает. Есть еще наверно какие-нибудь онлайн-сервисы для этой задачи, но я не спец в этом.

Всего записей: 4708 | Зарегистр. 09-09-2002 | Отправлено: 11:49 02-04-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Чтобы узнать шрифт, лучше распознать страничку в FR и у него узнать, FR довольно точно подбирает

1) Создаём новый pdf-документ в pdf-редакторе и там набиваем строки с (русским) алфавитом и/или с панграммами во всех шрифтах, которые есть в Windows.
2) Сохраняем этот pdf и экспортируем его в png или tiff
3) Полученные png (tiff) открываем в FineReader и распознаём в режиме Text and pictures only
4) Смотрим, какие шрифты подставил FineReader
 
Вот архив, где 2 исходных pdf-файла - с алфавитом и с панграммами, 2 tiff-а и 4 pdf файла, распознанных в FineReader.
Даже невооруженным взглядом видно, что FineReader 15 и 16 не смогли подставить правильные шрифты. Причём иногда до смешного. Ошибки почти на всех шрифтах, кроме Garamond и Verdana.  И это на шрифтах, которые уже инсталлированы в ОС. А что тогда говорить о шрифтах, которых нет на компьютере?
Проверять правильность определения и подстановки шрифтов в Adobe Acrobat Pro и прочих OCR-программах у меня сейчас возможности нет.
 

Цитата:
Есть еще наверно какие-нибудь онлайн-сервисы для этой задачи

Да, есть онлайн-сервисы - они работают с одной короткой строкой текста. Заснуть в них целые страницы - нельзя. И все эти сервисы работают только с латиницей. Определить кириллический шрифт автоматически - таких онлайн-сервисов нет. Есть соответствующая тема на ру-борде, где специалисты по шрифтам могут визуально попробовать опознать шрифт. Только и для онлайн-сервисов и для специалистов-людей надо сначала отобрать 66 символов букв, цифры и знаки препинания, потому что если делать определение шрифта по нескольким буквам или по одному-двум словам, то вероятность ошибки возрастает очень сильно. Тогда уж проще, действительно, в Word экспортировать.
 
СканКромсатор имеет уникальные возможности работы с глифами, которых не имеет ни одна другая программа. А также поддержку Tesseract для вспомогательных целей. И, вероятно, при правильном использовании, с его помощью можно было бы облегчить и автоматизировать подбор идеальных глифов. Т.е. теоретически можно сделать djvu, где словарь будет состоять из сотни глифов.
 
P.S.
Это, наверное, совсем не оптимальный алгоритм, но пока что так:
1) имеем полу-обработанные сканы, из этих сканов собираем pdf/djvu и делаем OCR с текстовым слоем
2) открываем полученный pdf/djvu в просмотрщике и поочередно ищем весь алфавит, цифры, знаки препинания (хотя бы кавычки)
3) когда на какой-то странице находим очередной символ, то вырезаем его из изображения в графическом редакторе и сохраняем
4) всю полученную сотню изображений с отдельными символами комбинируем в один графический файл
5) этот файл со всеми символами сравниваем с имеющимися шрифтами, с ГОСТ 3489, на онлайн-сервисах или просим помощи на ру-борде
6) всё повторяем для следующего шрифта в книге

Всего записей: 993 | Зарегистр. 04-11-2019 | Отправлено: 17:52 02-04-2025 | Исправлено: jourmager, 18:14 02-04-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
оффтоп
 

Цитата:
теоретически можно сделать djvu, где словарь будет состоять из сотни глифов

krestik на публлибру такое делает. Выглядит жутковато Не в смысле качества, а в смысле нонсенса - книга 1959 года с абсолютно одинаковыми знаками по всей книге, но расставленные не совсем по одной линии. Для художки приемлемо, кмк.

Всего записей: 3546 | Зарегистр. 15-07-2010 | Отправлено: 18:36 02-04-2025
Fire_Dragon



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
7.02. special > text label > insert. Делаете выделение, внутри вводите текст.  

А можно ли после ввода текста таким образом произвольно менять его цвет не меняя параметры шрифта?

Всего записей: 50 | Зарегистр. 19-11-2010 | Отправлено: 22:41 02-04-2025
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
 определяем гарнитуры из каких состоит текст книги - в соответствующей теме на ру-борд

 

Цитата:
 находим данную гарнитуру (шрифт) - в соответствующей теме на ру-борде  

 
Это что за тема такая ?
 
Добавлено:

Цитата:
Вполне вероятно, что можно как-то иначе, но пока так.  

 
Да, идеи такие же. Было бы здорово, если бы Кромсатор часть действий тут брал на себя:
- генерация листа с полным алфавитом из импортированного ttf;  
- ремасштабирование всего, если задать высоту образцового (измеренного) знака.
 
UPD и при этом в основе ремасштабирования будет не растр, а исходный вектор

Всего записей: 1145 | Зарегистр. 13-06-2013 | Отправлено: 02:36 03-04-2025 | Исправлено: daa2013, 02:51 03-04-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013
видимо эта
http://forum.ru-board.com/topic.cgi?forum=4&topic=3391&start=5240

Всего записей: 3546 | Зарегистр. 15-07-2010 | Отправлено: 04:13 03-04-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013

Цитата:
Было бы здорово, если бы Кромсатор часть действий тут брал на себя:
- генерация листа с полным алфавитом из импортированного ttf;  
- ремасштабирование всего, если задать высоту образцового (измеренного) знака.
и при этом в основе ремасштабирования будет не растр, а исходный вектор

Да. Почти да.
Генерировать лист с полным алфавитом хотелось бы. Но. Разумеется автору СК лучше знать, но ИМХО импортирование ttf - это нетривиальная задача. Она решена в некоторых самописных программах, но это совсем другая тема.
Также надо учитывать, что в ttf могут быть лишние символы, отсутствующие в тексте книги. В случае полного юникодного шрифта - до 64000.
 
Имеется ещё одна проблема - выравнивание строки текста по вертикали. Но может по одной проблеме за раз?
 
Сорри за оффтоп

Цитата:
Это что за тема такая

Распознавание шрифтов (Поиск по изображению)
Коммерческие шрифты (Commercial Fonts) :: часть 10
Чоле пудес - Околошрифтовой флейм

Всего записей: 993 | Зарегистр. 04-11-2019 | Отправлено: 14:45 03-04-2025
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Здравствуйте! Давно не пользовался программой, много чего забыл. Как отключить колесико мыши от функции листания файлов? То есть страницы загружены, надо бы колесиком (вверх вниз) увеличивать массштаб страницы, а вместо этого переход на другие страницы.

Всего записей: 717 | Зарегистр. 23-05-2021 | Отправлено: 17:56 08-04-2025
Fire_Dragon



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Главное окно -> Options: на первой же вкладке колонка справа - опции связанные с колесом мыши.

Всего записей: 50 | Зарегистр. 19-11-2010 | Отправлено: 23:58 08-04-2025
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
удивляют вопросы типа "а где поменять настройку. Меню options? да не, не может быть"

Всего записей: 4708 | Зарегистр. 09-09-2002 | Отправлено: 10:09 09-04-2025
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Главное окно -> Options: на первой же вкладке колонка справа - опции связанные с колесом мыши

Fire_Dragon, спасибо! Я так понял, что надо снять галочку в строке "Скрол файлс бай вхил". Наверное, в новой энциклопедии по СканКромсатору всё эти функции описаны.. Никак не соберусь её почитать на досуге.
 

Всего записей: 717 | Зарегистр. 23-05-2021 | Отправлено: 20:09 09-04-2025
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91

Компьютерный форум Ru.Board » Компьютеры » Программы » Закладки » ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2025

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru