Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105

Открыть новую тему     Написать ответ в эту тему

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: сканирование, обработка, сборка
 
 
Текущая версия программы: ScanKromsator v6.71 Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  Устаревшие версии: Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...
 


ВАЖНО ! Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом... и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: shch_vg, 18:02 14-10-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013
1. С чего вы взяли? Такая команда изначально была в КМ RV, в special. Я сейчас только добавил возможность корректировки ocr если tesseract ошибся.
2. Все уже сделано. И числа показывает, и позицию глифа, и разными цветами раскрашивает несовпадения, все наглядно. Можно фильтровать по критериям, например, по количеству разрывов буквы.
Замену на глифы можно делать двумя способами: интерактивно либо пакетно. Есть избирательность. Например, заменять только определенные буквы, либо буквы с определенной степенью повреждения (отклонения от глифа), либо буквы с разрывами, с прилипшими марашками, либо в заданной области страницы, и т.п.  Кстати, и задача нахождения некоего образца буквы (т.е. 100% glyph matching) решилась сама собой.
Теперь мне понадобится пару месяцев, чтобы все это проверить на реальных книгах и добавить всякие защиты от неверных действий (это самое нудное и долгое).  
Плюс нужно добавить третий способ замены, если получится: с помощью клавы, т.е. работа по типу текстового редактора.
 

Всего записей: 4007 | Зарегистр. 09-09-2002 | Отправлено: 10:16 05-12-2021 | Исправлено: bolega, 10:26 05-12-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
 С чего вы взяли? Такая команда изначально была в КМ RV, в special. Я сейчас только добавил возможность корректировки ocr если tesseract ошибся.

 
Можно поподробнее о её применении. Прежде чем предыдущую хотелку писать, я проверил:
Там есть команда  OCR page, но так как я никакого OCR при обработке не делал, СК просто говорит "OCR-язык для страницы не задан". А задать -то я его и не могу, так как обработка уже выполнена, зоны расставлены и отредактированы, глифирование в процессе. То есть переобработка из MW не вариант.
 
UPD - вернулся в МW, задал язык без переобработки, потом в настройках изменил буквы неподсветки.
Ну да, можно. Не догадался.
Но хорошо бы в одном месте это настраивать
 
 
PS
 
"по количеству разрывов буквы" - т.е. по числу связных областей - не знаю. таким не пользовался. А вот по наличию спеклов  определенного размера, имеющих размер, находящийся в заданных пределах, точно нужно.
 
 
PPS
Я еще кстати подумал, что если джву-кодер из миниджву прикрутить, то можно и начальный набор глифов генерировать. Ну то есть тот шейп, которым джву будет кодиться, сразу на закладку поместить, и только потом его улучшать , находя более совершенные образцы.

Всего записей: 834 | Зарегистр. 13-06-2013 | Отправлено: 10:26 05-12-2021 | Исправлено: daa2013, 10:48 05-12-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013
Обработка ни при чем. Задание языка не означает, что СК будет делать ocr. Но без него OCR не сделаешь.  
Зайдите в Protect, выберите языки, советую сразу размножить опцию на все страницы (да и в дефолтном профиле не мешает сразу задать). Далее идете в RV и делаете там OCR. Все, обработка не нужна!! Для пакетного ocr выходных файлов можно юзать в главном меню Result > ocr output files.
 
Кстати, ocr при обработке и ocr для целей RV это разные независимые вещи. Первый используется только при обработке, т.к. на тот момент страница и выглядит еще по другому (она даже еще не бинаризована), и размеры имеет другие. Поэтому отдельный ocr после обработки для целей подсветки и проч. неизбежен.

Всего записей: 4007 | Зарегистр. 09-09-2002 | Отправлено: 10:38 05-12-2021 | Исправлено: bolega, 10:47 05-12-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Да, я уже добавил UPD в пост выше. Спасибо.

Всего записей: 834 | Зарегистр. 13-06-2013 | Отправлено: 10:40 05-12-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
"по количеству разрывов буквы" - т.е. по числу связных областей - не знаю. таким не пользовался. А вот по наличию спеклов определенного размера точно нужно

Если это внутри буквы, то отличить одно от другого невозможно. Например, перемычка "и" отделилась от боковых палочек, и еще возможно распалась на две-три части. Вот и получилось, что, с одной стороны, перемычка превратилась в спеклы, а с другой - в отдельные области. Именно поэтому СК делает подсчет несовпадений и областей раздельно для "внутри" глифа, и для "снаружи". И цветом другим метит
 
Добавлено:

Цитата:
А вот по наличию спеклов  определенного размера, имеющих размер, находящийся в заданных пределах, точно нужно.  

А для чего это? Хотите альтернативу despeckle что-ли?

Всего записей: 4007 | Зарегистр. 09-09-2002 | Отправлено: 10:55 05-12-2021 | Исправлено: bolega, 10:56 05-12-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Я внес исправление в предыдущий пост. Вместо "спеклов определенного размера" прошу читать "спеклов, имеющих размер, находящийся в заданных пределах".
 
Я правильно понимаю, что есть как бы две зоны, обсчитываемых отдельно. Первая "ячейка тессеракта" и вторая "пространство внутри буквы" ?
 
Я с числом связных областей не работал, не знаю. Мне кажется, это приплыло из задачи по удалению вертикальных палочек. Но я бы тут делал (и делаю это руками) в два прохода. Сначала глифы вставляю, потом ищу красные спеклы-ошметки. Но палочки бывают иногда очень крупные чуть ли не больше букв.
То есть ловить и подсвечивать не "букву с палочкой", а "букву со спеклом после вклейки образца".  
 
Что касается спеклов внутри буквы, то можно, например, сначала удалить все спеклы из ячейки, а потом вклеивать в режиме прозрачности.
 
Я то просто время от времени меняю размер спеклов, которые ловлю.
 
 
UPD
 

Цитата:
А для чего это? Хотите альтернативу despeckle что-ли?

 
Просто именно так я и ловлю глазами плохие буквы.  Меняю порог подсветки и ищу красные буквы.
 
Сначала прохожу боле маленькие, потом более большие спеклы.
Если ловлю конкретную букву, то настраиваю размер подсвечиваемого спекла под неё вплоть до пикселя.
Бывает, что для поиска плохой и нужны маленькте спеклы, а для поиска плохой Ы - большие.
Это будет непосредственная автоматизация того, что я делаю с глифами. У меня этот метод точно работает.
 
UPD2
да и для ручного деспекла это полезно.
Я сразу попаду в ячейку тессеракта, где есть возможный спекл.

Всего записей: 834 | Зарегистр. 13-06-2013 | Отправлено: 11:06 05-12-2021 | Исправлено: daa2013, 11:13 05-12-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
По поводу размеров. Сейчас я сравниваю не абсолютные значения, а %. Чтобы меньше зависеть от размера шрифта, dpi. Но это не принципиально, можно добавить и сравнение абсолютных значений частей/областей (спеклов по вашему). Надо учесть все варианты, т.к. только практика покажет, что удобнее и полезнее.
 
 
Добавлено:

Цитата:
Просто именно так я и ловлю глазами плохие буквы.

Просто сейчас, как это я сделал визуально в СК, дефекты стали более визуально видны. Возможно, ваш способ контроля в связи с этим можно упростить до одного прохода, без заморочек с контролем размеров. Надо экспериментировать. Фильтрацию я больше задумывал для того, чтобы пропускать буквы заведомо хорошего качества. Чтобы сократить количество визуальных сравнений.
 
 
Добавлено:
Фишка еще в том, что при наличии ocr СК перестал ошибаться при adjusting положения глифа, как это было раньше. Даже при наличии спеклов/марашек. Поэтому теоретически можно одним махом пакетно заменить все буквы на "красивые" глифы чтобы не мучать глаза.

Всего записей: 4007 | Зарегистр. 09-09-2002 | Отправлено: 11:29 05-12-2021 | Исправлено: bolega, 11:37 05-12-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Бывают сложные случаи. Например, в буквах и, н, п  при печати пропали перемычки. Везде две вертикальных палочки - их только, опознав слово, исправить можно.  Соответственно надо задать такой размер спекла, чтобы эти палочки и отображались красным.
 

Всего записей: 834 | Зарегистр. 13-06-2013 | Отправлено: 12:06 05-12-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013

Цитата:
их только, опознав слово, исправить можно

Вы опять мыслите своим прежним опытом. Если тессеракт их не распознал вообще, то и говорить нечего, функционал рассчитан только на ocr. Если распознал, но не правильно (тут выбор неправильного тоже невелик: и/н, н/п и т.п.), то все будет ок. Т.к. эта неправильность генерирует сильное расхождение и увеличение количества областей, а это СК сразу же детектирует и отображает визуально. Так что в указанном вами случае как раз таки все не так уж сложно. Придется конечно подкорректировать ocr если он не верен, но после этого СК автоматом пересчитывает параметры замены глифа.
 
Добавлено:
Кстати, про опознание слова. В планах есть задумка прикрутить как-нибудь проверку орфографии после тессеракта, чтобы сразу выявлять явные ляпы распознавания.
 
Добавлено:
Жаль только, что крове вас и меня это никому больше не интересно...

Всего записей: 4007 | Зарегистр. 09-09-2002 | Отправлено: 12:58 05-12-2021
stoller



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
Как минимум, мне интересно. Есть, думаю, ещё много пользователей, кто не принимает активного участия в обсуждениях, но активно пользуется программой.
Да, в программе текущей версии явно не хватает некой автоматизации. Не такой, как в тейлоре (полный автомат — нажал кнопку — на выходе приемлемый результат), а именно того, что обсуждается здесь (полностью настраиваемая автоматика с возможностью ручного изменения каких-то отдельных косяков после обработки) на протяжении последних страниц, условно с момента выхода 6.71. В Кромсаторе уже сейчас можно получить идеальный (у каждого свой идеал, конечно, я это понимаю) результат, но это достигается путём огромных временных затрат. И вот вся Ваша алгоритмика явно призвана максимально сократить эти затраты. Очень жду новую версию.

Всего записей: 21 | Зарегистр. 25-10-2012 | Отправлено: 13:53 05-12-2021
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Кстати, про опознание слова. В планах есть задумка прикрутить как-нибудь проверку орфографии после тессеракта, чтобы сразу выявлять явные ляпы распознавания.

 
Болега - если будете прикручивать, я бы порекомендовал следующий вариант
 
Прогонка списка всех слов по словарям Hunspell и пользовательскому и далее просто подсветка несловарных слов с возможностью пакетной замены (учитывая то, как плохо OCR распознают несловарные слова).
Andreyefgs в теме словарей для Лингво когда-то написал программу для получения списка несловарных слов из файлов в UTF-8. Наверняка какие-то моменты смогут быть вам полезны.

Всего записей: 2921 | Зарегистр. 17-09-2001 | Отправлено: 15:13 05-12-2021
TelecomUral

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
крове вас и меня это никому больше не интересно...

Ну уж и "никому"
 
Вы как-то мне писали, что до разработки ocr и продвинутого алгоритма удаления марашек за многие книги не брались. И у меня такое есть. Из свежего - книги Фёдоровского по геологии, вы их на моём фтп можете увидеть. Вообще 30е годы богаты книгами, которые без вами описанной автоматики невозможно хорошо сделать за приемлемое время. Тут я со stoller солидарен на 100%. Те же путешествия, Главсевморпуть выпускал.  
Когда-то очень давно, году в 2009м, я "напоролся" на книгу Капцова 1944 или 1946 года, где при уникальности материала нормальную обработку выполнить было невозможно. Я над пятью страницами с недельку посидел, и понял - не по зубам пока Кромсатору такие книжки, ждёмс. И вот уж недалече
 
Кстати.
Я тут опять припоминал свой поход к местным математикам насчёт смазов типографии. У вас часом нет ли в планах создания спецзоны-фильтра, который бы убирал такие смазы? Когда как-бы пятно задвоенных букв на странице, или несколько пятен. Я когда к математикам ходил, на кафедру в университет, предлагал им написать алгоритм, который бы учитывал бумагу как материальный объект и по виду смаза рассчитывал вектор движения и само пятно на бумаге. Думал, они студентов привлекут, но все схлыздили
Примитивно можно и вручную вектор трёхмерный задавать, чтобы совсем уж не умничать. Типа "отсюда и до туда, вначале сила смаза 20% в конце 80%, общее пятно такой-то формы".
В брошюрках НВЖНИТ такие пятна сплошь и рядом.

Всего записей: 1744 | Зарегистр. 15-07-2010 | Отправлено: 16:13 05-12-2021
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Когда-то очень давно, году в 2009м, я "напоролся" на книгу Капцова 1944 или 1946 года, где при уникальности материала нормальную обработку выполнить было невозможно. Я над пятью страницами с недельку посидел, и понял - не по зубам пока Кромсатору такие книжки, ждёмс. И вот уж недалече

 
С теми временными затратами, которые у вас, её можно перераспознать и переверстать 1:1 к оригиналу. Всяко пользы больше будет....

Всего записей: 2921 | Зарегистр. 17-09-2001 | Отправлено: 16:16 05-12-2021
VadimirTT



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Жаль только, что кроме вас и меня это никому больше не интересно...

Так хрестоматия запаздывает за Вами, доки нужны.

Всего записей: 2372 | Зарегистр. 22-03-2005 | Отправлено: 18:16 05-12-2021
asku



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral а нет ли видео, показывающее то, что в последних комментариях обсуждают bolega и daa2013? А то ничего не понятно, но чувствую, что-то облегчающее создание дежавю-книги. )

Всего записей: 237 | Зарегистр. 04-05-2016 | Отправлено: 18:54 05-12-2021
TelecomUral

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku
нет.  
 
UPD
Речь примерно про такие рваные и искажённые буквы и марашки:
https://disk.yandex.ru/i/5XK1KRxlvTWFKQ
Присмотритесь к верхней части нижней страницы, у корешка, справа. Там разрывы в буквах "п", "а", "б", "л", "у", "х". На верхней странице идёт сгиб бумаги и буквы искажены.

Всего записей: 1744 | Зарегистр. 15-07-2010 | Отправлено: 19:24 05-12-2021 | Исправлено: TelecomUral, 19:52 05-12-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
 Если тессеракт их не распознал вообще, то и говорить нечего, функционал рассчитан только на ocr.

 
А если это красный спекл, но ему не сопоставлена ячейка тессеракта, то СК может как-нибудь свою "типа ячейку" сгенерировать и мне в центр экрана её (спекл) подсунуть ? Или он попадёт в чужую ячейку ?
 
Я просто не видел, как располагаются ячейки. Поэтому, кстати, и просил опцию отображения их сетки.  Что там ?  пустая зона ? гигантская ячейка ? прицеп к соседней ячейке ? Можно же тогда какой-то режим придумать "спеклы не в ячейках" или "необычные ячейки"  ?

Всего записей: 834 | Зарегистр. 13-06-2013 | Отправлено: 20:23 05-12-2021 | Исправлено: daa2013, 22:20 05-12-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Я просто не видел, как располагаются ячейки. Поэтому, кстати, и просил опцию отображения их сетки

Сетка не отображается. Она абсолютно бессмысленна. На странице много сотен букв. От сетки кроме ряби в глазах ничего не будет. Да и отрисовка будет жутко тормозить.
Ячейки подсвечиваются рамкой только когда курсор мышки в них попадает. А preview с раскраской вообще в отдельном окошке отображается. Там свои элементы управления навигацией. Это позволяет быстро пробегать по всем буквам и включать/отключать ненужное. Естественно, оба элемента синхронизируются между собой.
 

Цитата:
А если это красный спекл, но ему не сопоставлена ячейка тессеракта

Мне пока такое не встречалось. Тессеракт хорошо работает. Говоря выше "не распознал", я говорил гипотетически. Но в принципе все может быть наверное. Нужно больше времени чтобы все это проверить.
 

Всего записей: 4007 | Зарегистр. 09-09-2002 | Отправлено: 00:30 06-12-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
 Это позволяет быстро пробегать по всем буквам и включать/отключать ненужное.

Но я надеюсь, что это не юзер мышкой по экрану елозит, а СК букву за буквой  (из выявленных "плохих") ему на центр экрана подсовывает ? И ячейка "активной" буквы как раз и отрисовывается ?
 
 

Цитата:
Мне пока такое не встречалось. Тессеракт хорошо работает. Говоря выше "не распознал", я говорил гипотетически. Но в принципе все может быть наверное.

 
Мне спросонок пришла в голову такая картинка. Может, и бред с учётом непоказа сетки.
Если обычные тесерактовские ячейки квадратные, то для спеклов за их пределами можно сделать круглые. Будут такие "СК-ячейки". Рассчитать обхватывающую спекл окружность и дать ее тонким пунктирчиком, а затем отступить от центра условные полсантиметра и дать вторую пунктирчиком пожирнее.  Я-то думал, что они будут хорошо заметны на фоне квадратных ячеек. Но можно и их в особом режиме контроля подсовывать на центр экрана.  (UPD  речь идет о "красных" спеклах, естественно, т.е. имеющих заданные пользователем пределы размеров).

Всего записей: 834 | Зарегистр. 13-06-2013 | Отправлено: 06:39 06-12-2021 | Исправлено: daa2013, 06:43 06-12-2021
bearjrgm



Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору

Цитата:
Жаль только, что крове вас и меня это никому больше не интересно...

1- Я так понимаю сейчас при добавлении букв в словарь СК пытается их защитить при обработке и все?  
2 - Интересно для меня было бы для букв "и", "н" в квадратике из-за плохой полиграфии, и какой-нибудь способ автоматической их замены.
3 - И есть ли способ ускорить отображение исходных сканов, при 600 дпи цвета подтормаживает прилично.
 
 

Всего записей: 753 | Зарегистр. 03-07-2005 | Отправлено: 08:32 06-12-2021
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.Board
© Ru.Board 2000-2020

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru

Рейтинг.ru