Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 5)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100

Открыть новую тему     Написать ответ в эту тему

Maz



Дед Мазай
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть | 4 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v7.00 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


О Хрестоматии 2.1 SK
 
Чтобы русифицировать СканКромсатор
В ini-файле в секции Options должен присутствовать параметр LangInt=1. Вернуть в исходный язык: LangInt=0. Пока русифицировано только MW.
 
ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 39615 | Зарегистр. 26-02-2002 | Отправлено: 21:56 14-09-2023 | Исправлено: TelecomUral, 07:06 04-12-2024
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
TelecomUral

Цитата:
надо было оставлять буквы на странице а не в зоне.

И как это связано с прозрачностью?
 
bolega

Цитата:
 Если же хотите команду, в постобработке RV выделите зону (или нужный участок на зоне), КМ special > white transparent (hotkey F7)

Вот это понял.
Сработало, спасибо!
 
P.S. По умолчанию hotkey F7 на white transparent не задан.

Всего записей: 7278 | Зарегистр. 14-01-2005 | Отправлено: 20:46 21-11-2024 | Исправлено: shch_vg, 22:57 21-11-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
shch_vg
И как это связано с прозрачностью?

если все полезное в зонах, труднее понять источник проблемы, т.к. вмешивается z-порядок, который нигде не подсмотреть. У вас микшируются два слоя, логично за один слой брать текст страницы, т.к. он всегда ниже.

Всего записей: 3605 | Зарегистр. 15-07-2010 | Отправлено: 07:19 22-11-2024
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
TelecomUral

Цитата:
У вас микшируются два слоя, логично за один слой брать текст страницы, т.к. он всегда ниже.

В моем случае нет текста страницы (под зонами он был удален при обработке).
Есть одна зона - новая диаграмма, а над ней создается зона внутренности старой диаграммы, затем вручную удаляются черные поля и устанавливается прозрачность верхней зоны, чтобы новые черные поля могли пробиться.

Всего записей: 7278 | Зарегистр. 14-01-2005 | Отправлено: 14:12 22-11-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg
а я бы делал наоборот - оставлял буквы на странице и пробивал их сквозь новую диаграмму.

Всего записей: 3605 | Зарегистр. 15-07-2010 | Отправлено: 14:33 22-11-2024
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
TelecomUral

Цитата:
а я бы делал наоборот

Не могу поставить телегу впереди лошади.

Всего записей: 7278 | Зарегистр. 14-01-2005 | Отправлено: 20:02 22-11-2024
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Возникла идея ещё одного усовершенствования. Странно, что только спустя много лет, так как страдаю я этим изначально.  
 
Я часто, работая с ч.б. изображениями страниц, дорабатываю  их зеленой метелкой. Что-то удаляю, что-то дорисовываю. Иногда забываю про переключение ч.б., иногда вроде как нажму, но может делаю это плохо - в общем цвет не тот.  
Это и при обычных квадратных выделениях приводит к большому числу шевелений при переделке, а в случае с выставленным сложным контуром, так беда по новой его выставлять.
 
ИДЕЯ:
посадить на какой-нибудь хоткей инвертирование цвета последней вставки (применения зелёной метёлки).
 
UPDATE
мне всегда ещё хотелось, чтобы можно было такой undo сделать, чтобы вставка пропала, а выделенный контур сохранился, но мне почему-то казалось, что это сложно сделать. А вот сейчас подумал, ведь инвертирование эту же самую инфу и предполагает помнить.

Всего записей: 1174 | Зарегистр. 13-06-2013 | Отправлено: 04:48 23-11-2024 | Исправлено: daa2013, 04:52 23-11-2024
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
UPDATE2
Мне вспомнилось, что я, кажется, похожий откат уже когда-то предлагал с мотивировкой, что ошибаюсь с переключением между зелёной и красной метёлками, а выставленный ломаный контур теряется.

Всего записей: 1174 | Зарегистр. 13-06-2013 | Отправлено: 09:14 23-11-2024
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Очередная идея/хотелка/вопрос.  
 
У меня сложилось мнение, что в целом FR распознаёт лучше, чем тессеракт. Поэтому для глифов его и использую. Но вот FR оставил нераспознанной одну строку на странице.  
 
Можно ли сделать так, чтобы не переключаясь на другой метод распознавания выполнить распознавание тессеракт только для одной этой строки ? Т.е. выделить на странице рамку, и если там нет участков FR-букв  заказать внутри только этой рамки тессеракт-распознавание ?
 

Всего записей: 1174 | Зарегистр. 13-06-2013 | Отправлено: 20:57 23-11-2024
asku



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega, добрый день.
 
А как можно убрать розовую рамку со всех страниц проекта? Случайно не туда их поставил.
 


Всего записей: 695 | Зарегистр. 04-05-2016 | Отправлено: 13:27 26-11-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013
анализирую ваши предложения.
 

Цитата:
такой undo сделать, чтобы вставка пропала, а выделенный контур сохранился

можно попробовать. Т.е. чтобы (опционально) undo восстанавливало бы контур выделения.  
 

Цитата:
выполнить распознавание тессеракт только для одной этой строки

это у меня было в планах.  
 

Цитата:
Можно ли сделать ли какой-нибудь модификатор, чтобы вне зависимости от назначенной прозрачности/непрозрачности букв  они вставлялялись либо как все прозрачные, либо как все непрозрачные. (Напоминаю, на закладке может быть микс из разных).    UPDATE   например, зажимать шифт или контрол при нажатии мышкой на кнопки apply all  / apply selected

нажимать мне что-то совсем не нравится. Есть более универсальный метод.
На панели инструментов есть специальная кнопка - transparent merging. Если она включена, то все слияния (не только глифы) будут с белой прозрачностью. Могу добавить для нее третье состояние, которое обозначало бы игнорирование прозрачности. Т.к. у кнопки только два состояния (нажата/отжата), то третье состояние будет обозначаться измененной иконкой в нажатом состоянии. Устроит?
 

Цитата:
На закладке Edit OCRed word   можно ли сделать некий индикатор   РУС/ЛАТ/MIX  

я это давно сделал, латинские буквы в строке-шапке выводятся синим цветом. По хорошему надо дать возможность через параметры настраивать диапазон юникод-символов, которые надо подсветить.
 

Цитата:
сделать для кнопки "Sort by matching rating"  по ПКМ или выпадающим списком по аналогии, как для кнопки Apply all сделано,  ещё несколько ранжирований
По максимуму синих ошибок, по максимуму красных ошибок, а также, как мне кажется,

ок, можно сделать.
 

Цитата:
UPDATE2. То есть, если на границе ячейки буквы из буквы что-то торчит, то возможно граница определена неправильно.

это и называется марашкой, включите фильтр на марашки>0.
 

Цитата:
для отлавливания букв с некорректными FR-границами или букв, некорректно посаженных в центр формул) с обсчётом индекса соответствия в некоторой зоне FR-координаты + некий контур.  

непонятно
 
 
Добавлено:

Цитата:
А как можно убрать розовую рамку со всех страниц проекта?

боюсь, что скопом - никак. А так убирается нажатием delete или через КМ

Всего записей: 4736 | Зарегистр. 09-09-2002 | Отправлено: 14:32 26-11-2024 | Исправлено: bolega, 14:48 26-11-2024
asku



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega

Цитата:
боюсь, что скопом - никак.

 
Жаль. Придётся вручную удалять несколько сотен рамок.
А я сделал такую рамку. Потом распространил ее махом на все выделенные красным (selected) страницы, забыв сначала инвертировать выделение (красное сделать не красным, а некоасное красным)

Всего записей: 695 | Зарегистр. 04-05-2016 | Отправлено: 18:55 26-11-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku
бэкапить задание надо с умом.
 
upd
а грохнуть в spt рамки нельзя?

Всего записей: 3605 | Зарегистр. 15-07-2010 | Отправлено: 19:11 26-11-2024 | Исправлено: TelecomUral, 19:41 26-11-2024
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Устроит?  

Думаю, да. Надо попробовать.
 

Цитата:
непонятно  

Попробую примеры подобрать, благо проект пока не грохнул.
 
Добавлено:

Цитата:
латинские буквы в строке-шапке выводятся синим цветом

Может, я не туда смотрю, или не различаю при беглом взгляде цветов. Или в версии 6.82 в окошке Change word сейчас не вижу. Вечером в СК-7 посмотрю.
 
Но тут фокус как раз и был в том, что мне хотелось крупный индикатор, при беглом взгляде на который и было бы видно, надо всматриваться в отдельные буквы или нет. Индикатор характеризует не отдельную букву, но слово целиком. (зеленоватую рамку).
 
Касается он узкой части слов, но достаточно противной. Где изначально есть микс из русских букв с латинскими, и FR лажает - делает всё слово либо русскими, либо латинскими.  
Либо из-за схожести русских и латинских букв путает алфавит:   мап / man  . Так я и сам их даже в очках не разбираю. Только с увеличением на весь экран. Я бы тогда, зная, что это такое слово, сразу видел, есть ошибка или нет.  
 
Такое, конечно, не в каждой книжке вылезает, но мне помнится, что я про индикатор РУС/ЛАТ уже писал, но вот тут теперь ещё и МИКС.
В цветовое выделение неплохо было бы подцепить ещё и цифры, для слов типа "АК-47".

Всего записей: 1174 | Зарегистр. 13-06-2013 | Отправлено: 08:28 27-11-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
вот тут теперь ещё и МИКС.  

я не встречал после FR микс, если он ошибается, то там или все RUS, либо все LAT.
 

Цитата:
про индикатор РУС/ЛАТ уже писал

кроме РУС (кириллицы) есть еще языки, как с ними быть?
 
 
Добавлено:
TelecomUral

Цитата:
а грохнуть в spt рамки нельзя?

Можно попробовать, но без меня  
А вот функционал удаления рамок конечно добавлю

Всего записей: 4736 | Зарегистр. 09-09-2002 | Отправлено: 10:33 27-11-2024 | Исправлено: bolega, 10:35 27-11-2024
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
я не встречал после FR микс, если он ошибается, то там или все RUS, либо все LAT.

То есть вы хотите сказать, что если на входе микс, то ФР всегда выдаст ошибку ?
Мне кажется, что я не в 100% таких случаев замены делал. Но может просто нераспознавал.
То есть, если ФР не ошибся, то нужен микс.
 
 

Цитата:
кроме РУС (кириллицы) есть еще языки, как с ними быть?  

Я бы, если есть символы не рус и не лат, включал бы микс.
Но !  
- есть случаи трёх языков в книге.  
- немецкий по сути, это та же латиница.
 
Может, если есть спецсимволы за пределами обычных рус-лат кодировок, то включать OTHER  ???
Может, давать пользователю возможность настройки списка символов, когда включать этот флажок/индикатор?
Я не знаю. Я сталкивался с проблемами рус-лат (англ). Весь нестандарт ИМХО можно в какой-то отдельный класс занести и забыть про него.
 
Надо какую-то немецкую книжку с умляутами и с-цетами пообрабатывать, тогда, может, придумаю.

Всего записей: 1174 | Зарегистр. 13-06-2013 | Отправлено: 16:34 27-11-2024
asku



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega, добрый вечер. Вы не могли бы посмотреть test?
Ссылка
 
В out-задании я включаю опцию add trasparency mask from image, но в итоговом дежавю, черная рамка вокруг текста на странице не "вылезает" наверх.
 

 
И еще вопрос. Почему слева и сверху (указал зелеными стрелками) появились эти белые просветы.
Ведь у меня рамка, которая отвечает за серый фон больше (перекрывает) рамки Set page area?
 


Всего записей: 695 | Зарегистр. 04-05-2016 | Отправлено: 22:52 27-11-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
asku
включаю опцию add trasparency mask from image

не вижу взведенной галки в out-task. видимо, не сохраняется.
 
upd
перед сохранением галки попрыгал на другие закладки зоны, галка сохранилась.
но при кодировании облом

Всего записей: 3605 | Зарегистр. 15-07-2010 | Отправлено: 05:36 28-11-2024 | Исправлено: TelecomUral, 05:44 28-11-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
но при кодировании облом

там баг был. Задайте на step3: split threshold=0
 
Добавлено:
asku

Цитата:
В out-задании я включаю опцию add trasparency mask from image, но в итоговом дежавю, черная рамка вокруг текста на странице не "вылезает" наверх.  

да, как я и писал ранее, эта опция в версии 7.00 не работает с ч/б зонами.
 

Цитата:
Почему слева и сверху (указал зелеными стрелками) появились эти белые просветы.  

тут медвежью услугу оказала опция size multiply на закладке book. Из-за нее размеры книги увеличились чтобы нацело делиться на 12. В итоге размер книги стал больше размера зон. Из-за выравнивания R и B (так в задании), просвет образовался слева и сверху.  
Выкрутиться из этого не просто. Если зон не много, можно изменять их размер (resize image), задав правильный alignment (такой же как в задании) и fill color=black. Потом в КМ зоны команду прижать ее в topleft-угол. Но это придется делать для каждой такой зоны.

Всего записей: 4736 | Зарегистр. 09-09-2002 | Отправлено: 08:52 28-11-2024
asku



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega

Цитата:
да, как я и писал ранее, эта опция в версии 7.00 не работает с ч/б зонами.

 
Я не совсем понял, это баг именно версии 7.0? То есть на более ранней версии бы получилось?
С другой стороны, вы писали , что Set page area это в новой версии СК. То есть в ранней версии этот проект у меня не получится сделать.

Всего записей: 695 | Зарегистр. 04-05-2016 | Отправлено: 09:38 28-11-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
это баг именно версии 7.0?

это не баг. Раньше так и было задумано, что опция для ч/б зон игнорируется. Это потом я понял, что для раскрашенных зон такая фича тоже не помешает.

Всего записей: 4736 | Зарегистр. 09-09-2002 | Отправлено: 09:43 28-11-2024
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2025

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru