Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 5)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37

Открыть новую тему     Написать ответ в эту тему

Maz



Дед Мазай
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть | 4 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v6.99 | ScanKromsator v6.97 | ScanKromsator v6.91 |
 ScanKromsator v6.8 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 38931 | Зарегистр. 26-02-2002 | Отправлено: 21:56 14-09-2023 | Исправлено: daa2013, 16:41 19-05-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Доделал работу с текстовыми метками (зонами), в предыдущей версии при изменении масштаба размеры текста визуально могли меняться. Это все из-за того, что gdi windows не поддерживает работу с нецелым размером шрифта, а изменение масштаба это по сути и есть рост размера в действительных числах (а не целых округленных, с которыми работает gdi). Перешел на функции gdi+ (у которого все параметры - действительные числа) и все стало нормально. Не знаю, будет ли это работать в windows 2003, у него по умолчанию нет gdi+, но вроде можно доустановить.

Всего записей: 4490 | Зарегистр. 09-09-2002 | Отправлено: 14:19 13-06-2024
zbolv

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega

Цитата:
уточните, о каком пороге идет речь. Есть коэффициент чувствительности, размер окна и поправка, порога нет.  

Как в MW на закладке бинаризация при выборе профиля Волка, открываются три поля (окошка) корректировки значений Волка. Среди них последним стоит Threshold сorrection – пороговая коррекция. То же самое имеется и в pic-zone с профилем B/W, с той лишь разницей, что этот параметр стоит первым.
 
Добавлено:

Цитата:
Не знаю, будет ли это работать в windows 2003, у него по умолчанию нет gdi+, но вроде можно доустановить.

Благодарю за внимание к очаровательной и непревзойденной windows 2003, которой нет равных среди более поздних Windows!

Всего записей: 40 | Зарегистр. 26-03-2024 | Отправлено: 15:53 13-06-2024 | Исправлено: zbolv, 16:40 13-06-2024
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega:

Цитата:
Я затачивал на сканы от архив.орг, они все искажены, и СК неплохо их спрямлял, пример я выкладывал когда-то. Да, правится именно трапеция, дугообразные (т.е. не прямые) завороты строчек - нужен совсем другой алгоритм, с детекцией базисных строк и т.д. В СК такого нет, нужен BR.
Вот еще пример применения, правая половинка разворота перекошена не так как левая, при этом они имеют общий центр. Правка искажения - во время обработки за счет особой filter-зоны. Иначе пришлось бы поворачивать правую половинку, пристыковывать к левой с неизбежной потерей контента в центре.
https://workupload.com/file/pWCnfEB2Um4

 
bolega, прошу научить пользоваться фунцией поворота (Picture: Color - Filter).
Пытаюсь воспроизвести ваш пример, ничего толком не выходит.
 

 
Вот тест:
Ссылка
 
 
bolega, TelecomUral, с кнопкой perspective correction тоже ничего не понятно :-|
 
 
 

Всего записей: 554 | Зарегистр. 04-05-2016 | Отправлено: 12:21 14-06-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
asku
ничего толком не выходит

и не выйдет. искажения-то нет.

Всего записей: 3144 | Зарегистр. 15-07-2010 | Отправлено: 13:13 14-06-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku

Цитата:
искажения-то нет.

да, тут просто поворот без искажений. Он выправится, если уберете галку с опции deskew. Но будет сдвиг

Всего записей: 4490 | Зарегистр. 09-09-2002 | Отправлено: 18:38 14-06-2024
zbolv

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku

Цитата:
bolega, прошу научить пользоваться фунцией поворота (Picture: Color - Filter).  
Пытаюсь воспроизвести ваш пример, ничего толком не выходит.  

bolega

Цитата:
да, тут просто поворот без искажений. Он выправится, если уберете галку с опции deskew. Но будет сдвиг  

Я сделал как советовал bolega, и получилось так, как он говорил, посмотреть можете здесь: https://workupload.com/file/BEgv2EpLbyB

Всего записей: 40 | Зарегистр. 26-03-2024 | Отправлено: 10:55 15-06-2024
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zbolv, спасибо, я воспроизвел, как сказал болега (убрал галочку с deskew). А вот с perspective correction я так и не разобрался.
 
Вопрос участникам не совсем по теме может быть:
есть ли разница в качестве сканов на выходе из СК между серым 8 бит и 16 бит? Я сканирую всегда 8 бит, а сейчас задался вопросом, может быть что-то теряется.
 

Всего записей: 554 | Зарегистр. 04-05-2016 | Отправлено: 15:12 15-06-2024
zbolv

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku

Цитата:
zbolv, спасибо, я воспроизвел, как сказал болега (убрал галочку с deskew). А вот с perspective correction я так и не разобрался.  

C perspective correction ничего сложного нет. Напротив, это очень легкий инструмент исправления неправильного положения изображения, но иногда он не дает требуемого результата, и я в таких случаях использую старый инструмент, который работает безотказно.
 

Цитата:
Вопрос участникам не совсем по теме может быть:  
есть ли разница в качестве сканов на выходе из СК между серым 8 бит и 16 бит? Я сканирую всегда 8 бит, а сейчас задался вопросом, может быть что-то теряется.  

 
Смотрите визуально, сравнивая одинаковое изображение, отсканированное в 8 и 16 бит, и берите что лучше.

Всего записей: 40 | Зарегистр. 26-03-2024 | Отправлено: 15:51 15-06-2024 | Исправлено: zbolv, 15:51 15-06-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
asku
А вот с perspective correction я так и не разобрался.

скорее всего вам они и не нужны. Иначе задача была бы ясна, и инструмент бы нашел применение.
Разберитесь с задачей сначала.

Всего записей: 3144 | Зарегистр. 15-07-2010 | Отправлено: 16:20 15-06-2024
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
bolega
Можно ли как-то разумно объяснить ситуацию, возникшую у меня?
Делаю обработку всех зон, содержащих диаграммы в ч/б виде.
В книге с примерно 200 диаграммами в 300-600дпи это занимает 3-5 мин.
Попалась книга со сканами в 100дпи, поручил заданию перевести их на выходе в 600дпи, и глаза полезли на лоб. В задании на 173 диаграммы появилась надпись - 18 мин, и действительно обработка заняла это время.
Неужели перевод квадратика из 100 в 600дпи реально должен выполняться так долго?

Всего записей: 7000 | Зарегистр. 14-01-2005 | Отправлено: 20:11 16-06-2024 | Исправлено: shch_vg, 22:48 16-06-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
имеет значение число пикселей, а не дпи.

Всего записей: 3144 | Зарегистр. 15-07-2010 | Отправлено: 03:44 17-06-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg
Нередко dpi указано некорректно. Например, в вашей книге реальное dpi может быть 200. Тогда поднимая в 6 раз, dpi на самом деле становится 1200, а такие объемы вполне себе требуют больше времени на обработку, причем время растет нелинейно.
 
Добавлено:

Цитата:
В задании на 173 диаграммы

забавная у вас метрика, не количество сканов и их физический размер, а диаграммы. А если их по 10 штук на странице? ))

Всего записей: 4490 | Зарегистр. 09-09-2002 | Отправлено: 07:52 17-06-2024
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
bolega

Цитата:
Нередко dpi указано некорректно.

С этим соглашусь, упустил из виду. В моем случае еще круче: за 100дпи прятались реальные 300.

Цитата:
А если их по 10 штук на странице? ))

А вот это непонятно, какая разница, переводить ли 10 диаграмм с одной страницы в 10 файлов или получать те же 10 файлов зон с 10 страниц?
Если оставить за скобками чтение одного входного скана по сравнению с десятью.

Всего записей: 7000 | Зарегистр. 14-01-2005 | Отправлено: 15:25 17-06-2024 | Исправлено: shch_vg, 15:28 17-06-2024
MZN

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
Задание СК, в котором только есть пометка всех файлов, я обрабатываю неким скриптом, который создает в нем excluded-зоны. Меня уверяют, что эти зоны не нумерованы (это может быть так?), а нумеруются, когда я в СК перевожу их в picture-зоны. Вопрос: каков принцип нумерации этих зон?

Всего записей: 1750 | Зарегистр. 23-10-2004 | Отправлено: 02:20 18-06-2024 | Исправлено: MZN, 03:06 18-06-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
можно ли что-то придумать для выравнивания не по границе текста как графической картинки, а по опорной линии верхней строки текста?
 
Пояснительный скриншот
 

 
я нарисовал горизонтальную линию от правой заглавной "К" к левой половине разворота. Видно, что Кромсатор выравнивал блок вверх. А надо бы плюсовать к левой половине высоту заглавной буквы.
Это не первый бросившийся в глаза случай.  
 
Может, ввести в метод выравнивания, или расчета gap, ocr-анализ на отсутствие заглавных букв? Как опцию, разумеется. Выравнивание по опорной линии строки, как в текстовых редакторах, мне интуитивно не нравится.

Всего записей: 3144 | Зарегистр. 15-07-2010 | Отправлено: 08:44 18-06-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Когда СК рассчитывает gap, для него нет понятия букв. Работает только по пикселям. Да и откуда ему знать, что наверху одной страницы тот же шрифт, что и на следующей. Да и на странице может быть несколько шрифтов, с разным размером заглавных букв. Т.е. сразу скажу, что до финализации полагаться на какие-то свойства шрифта невозможно, СК их просто не имеет.
Если сделать OCR после финализации, то что-то придумать наверно возможно.
Хотя как считать эту "опорной линии верхней строки текста", непонятно. Для шрифта есть базовая, высота шрифта отсчитывается от базовой, нельзя просто взять разницу между заглавной и прописной буквой, т.к. эта разница для одних букв будет целиком сверху базовой, для других - пересекать ее. Грубо говоря, разница вверху для "Ка" будет одной, а для "Ай" - другой, для "Щё" - третьей.  
 
MZN

Цитата:
каков принцип нумерации этих зон?

все зоны, за исключением Picture и sharp, имеют одинаковый Id, например для всех exclude id=0. Т.к. не имеют никаких свойств, кроме координат. Поэтому идентифицируются просто порядковым номером в списке зон на странице (порядок совпадает с Z-порядком).

Всего записей: 4490 | Зарегистр. 09-09-2002 | Отправлено: 09:48 18-06-2024 | Исправлено: bolega, 10:29 18-06-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
до финализации полагаться на какие-то свойства шрифта невозможно

"хреново"

Цитата:
разница вверху для "Ка" будет одной, а для "Ай" - другой, для "Щё" - третьей

да, я знаю все эти шрифтовые штучки.
 
Где-то рядом бегают мысли, что эта проблемка решается очень просто. Но до осмысления не дошло пока.
 
Возможно, аналитика по ocr-координатам (высотам) букв как-то может помочь. В общем-то, проблема бросается в глаза только для смежных страниц, размещенных рядом, причем на страницах должны быть линии строк. (Хотя я засёк сначала по неприятному сдвигу номеров страниц), расхождение низов страниц почему-то заметно сильнее.)
То есть - пока навскидку - определяем наличие верхних абзацев на данной и следующей странице. Если они представляют собой структуру из строк, определяем их базовые и вычисляем персональный сдвиг всего содержимого данной страницы.
 
Хотя вот я это всё понаписал, и задумался: что-то программировать кучу всего. Не проще ли в разворот совместить и вручную через Alt+стрелки сдвинуть Единственный выигрыш автоматики что не надо будет размер шага крутить.
 
Ну и контроль (report) можно придумать: подсветить страницы, где в верхней строке нет заглавных букв.

Всего записей: 3144 | Зарегистр. 15-07-2010 | Отправлено: 10:48 18-06-2024
MZN

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
Спасибо. Интересует порядок имеyyо picture-зон. Z-порядок - это слева-направо-вниз и т.д?

Всего записей: 1750 | Зарегистр. 23-10-2004 | Отправлено: 11:15 18-06-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Немного не так выразился. Зоны идут в порядке их создания, этот же порядок является Z-порядком - от скана к наблюдателю (имеет смысл говорить о нем если зоны перекрывают друг друга). Порядок может изменить пользователь, если применял команду например send to back.  
picture-зоны имеют два id, один локальный для страницы (>=100), второй - уникальный для задания (>=1), он же определяет имя зоны на выходе.  
 

Цитата:
подсветить страницы, где в верхней строке нет заглавных букв.  

это можно
 

Цитата:
проще ли в разворот совместить и вручную через Alt+стрелки сдвинуть

проще. Можно и не совмещать, а делать по aux-зоне
 

Цитата:
Хотя я засёк сначала по неприятному сдвигу номеров страниц), расхождение низов страниц почему-то заметно сильнее.)  

для многих книг положение номера всегда скачет, так же как и верха. Ничего постоянного в книгах нет.  
 
Добавлено:

Цитата:
Выравнивание по опорной линии строки, как в текстовых редакторах, мне интуитивно не нравится.

по другому не принято, ведь текст - это птички которые сидят на жердочке, а не белье которое висит на веревочке )

Всего записей: 4490 | Зарегистр. 09-09-2002 | Отправлено: 13:06 18-06-2024 | Исправлено: bolega, 13:09 18-06-2024
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Добрый день. Прошу подсказать, как обработать такую страницу. Что-то не то делаю.
 

 
test

Всего записей: 554 | Зарегистр. 04-05-2016 | Отправлено: 15:26 19-06-2024
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru