Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v6.97 | ScanKromsator v6.91 |
 ScanKromsator v6.8 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: mvk2006, 21:12 04-08-2023
driver1991

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
 

Цитата:
поэтому я задал в опциях увеличивать порог только для букв "и" и "н"

 
Я не знаю всех возможностей последних версий СК, мне каким-то образом попала версия 6.71. Поэтому, если можно - поподробнее, где и как это задается или где об этом почитать?
 
И еще вопрос: какая версия является последней и как можно ее получить?
 

Цитата:
бумаге уже наверно больше ста лет...

 
Это, само по себе очень хорошее советское издание, очутилось в библиотеке Майнцкого университета. Естественно, никаких указаний о том, как эти книги сюда попали - нет, хранятся они тоже не в стерильных условиях. Сохранность - соответственно.  
 
Еще раз спасибо за ваши ответы.
 
 

Всего записей: 376 | Зарегистр. 12-09-2011 | Отправлено: 12:40 12-09-2021 | Исправлено: driver1991, 12:44 12-09-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
driver1991
где об этом почитать?

в комплекте с СК идёт текстовый файлик whatsnew. Там описано достаточно, чтобы разобраться в новых фичах.
Если у вас комплект неполный, то скачайте из шапки этой темы.
 
оффтоп

Цитата:
само по себе очень хорошее советское издание

вроде же СС Толстого, как раз 90-томное, сканировали и распознавали файнридеровцы+общественность. Публичный такой проект был, солидный. Обещали что всё останется в бесплатном доступе.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 20:18 12-09-2021
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
вроде же СС Толстого, как раз 90-томное, сканировали и распознавали файнридеровцы+общественность. Публичный такой проект был, солидный. Обещали что всё останется в бесплатном доступе.

 
Был такой проект у них в 10-11 годах. Только они вычитку отсканированного и распознанного делали. За участие давали FR11 или уже 12 вроде....

Всего записей: 3677 | Зарегистр. 17-09-2001 | Отправлено: 21:19 12-09-2021
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Был такой проект у них в 10-11 годах. Только они вычитку отсканированного и распознанного делали. За участие давали FR11 или уже 12 вроде....

 
Ну так на их сайте были все 90 томов в pdf. Помню скачивал несколько томов.

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 22:56 12-09-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
А можно сделать так, чтобы при первом открытии свойств зоны окошко ее предпросмотра сразу становилось открытым? У меня как-то всё время получается, что оно нужно открытым раз уж я в свойства полез. Вроде и мелочь, а давно раздражает, что нужно кнопочку шёлкнуть.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 11:35 15-09-2021
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Здравствуйте, хлопчики!
 Случайно не знаете на вскидку, где , в  каком меню можно настраивать убирание всякой каки, мусора, точек на странице? А то, если в Талмуде (Хрестоматии) искать, месяц надобно потратить, а мне бы сразу хотелось узнать, незамедлительно.

Всего записей: 666 | Зарегистр. 23-05-2021 | Отправлено: 14:42 15-09-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
 
Можно ли как нибудь сделать так, чтобы команда меню основного окна
Zones -> Picture zone - >  Add zone from file  
могла быть применена не к одному файлу, а к нескольким ? И соответственно выбранная группа файлов по порядку имен вставала последовательно на тот файл в списке, на котором мы находимся, и последующие за ним.  
(Первый файл из группы на тот файл, где мы находимся, второй - на следующий за ним, и т.д.) При этом всей такой группе зон присваивался свой бы собственный индекс. (То есть, окошко Add zone from file должно спрашивать пользователя об индексе этой группы).
 
Если по каким-то причинам в диалоге невозможно сделать выделение нескольких файлов, то можно указать папку, и расставить в качестве зон файлы, лежащие в этой папке (по порядку имен).  
 
Выравнивания, как происходит сейчас, в левый верхний угол будет вполне достаточно. Но можно заодно добавить гибкости и предоставить пользователю варианты (центр, другие углы, некая вводимая координата).  
 
?

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 14:29 20-09-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013
Мудрено как-то. Интересно, в чем смысл этого?
Добавить сразу несколько зон можно и сейчас, методом drag&drop из проводника например. А вот сделать это с заменой сразу нескольких существующих зон не получится.

Всего записей: 4444 | Зарегистр. 09-09-2002 | Отправлено: 20:09 20-09-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Заменять ничего не нужно. Просто положить поверх уже существующих страниц (и имеющихся на них зон). И тут не нужно класть несколько зон на одну страницу. (Драг и дропом они все окажутся на текущей).  Нужно первую зону (картинку) поставить на первую (текущую) страницу, вторую картинку - на вторую (следующую) страницу и т.д.
 
Именно так работает Add zone from file   и сейчас, но только в отношении одной картинки и текущей страницы. А я бы хотел, чтобы это применялось пакетом к  группе картинок и группе последовательных страниц.  И чтобы при этом  группе создаваемых зон присваивался выбранный индекс. (От 1 до 10 у вас они, кажется, предусмотрены.)   Рассматривайте это как многократный вызов этой команды по числу вставляемых зон (картинок)    с переходом каждый раз на следующую страницу.
 
Смысл - откроются большие возможности по работе со слоями картинок и битмапами.

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 20:29 20-09-2021 | Исправлено: daa2013, 21:47 20-09-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
daa2013
откроются большие возможности по работе со слоями картинок

типа - импорт background-слоя дежавю? Распилили внешней программой на два пакета, втянули чб текст как сканы, а потом этой новой командой наложили зоны? Да, но как быть с отличающимся дпи? А с прозрачностью?
Иных задач - практических! - я что-то не вижу. Если габариты зон не совпадают с габаритами страницы (не кратны), то ручное перетаскивание в нужную позицию и последующая настройка убьёт весь выигрыш в скорости. Удобнее тогда уж индивидуальный drag&drop из соседнего окна. В смысле - допилить его, чтоб позволял точнее (или лучше заранее) настроить параметры вставки. Я никогда не пользовался dd, так что пишу от балды, может уже и сейчас он такой умный.  
То есть сначала выставляем нужные правила вставки, индекс зоны, что-то ещё, и потом между двумя открытыми окошками мышкой тягаем картинки поштучно.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 04:51 21-09-2021 | Исправлено: TelecomUral, 04:56 21-09-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Да, но как быть с отличающимся дпи?  

Ну не надо абы какие первые попавшиеся картинки такими кучами вставлять.
 Заранее подумать, посмотреть. Это проблема подготовки вставляемого.  
Если вы собрались джву курочить (о чем я даже не подумал), то задники апскейлятся до передников при разборке.
Зато разделенные сканы можно будет без FSD в СК собирать.
 
 

Цитата:
 А с прозрачностью?  

Ставится галочка "траспарент" в свойствах зоны и размножается на группу с соответствующим индексом.

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 05:00 21-09-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
оффтоп

Цитата:
Если вы собрались джву курочить (о чем я даже не подумал)

из-за Долгополова, это была самая яркая мысль. Вы нашли плохие буквы, а метода их исправить в готовом дежавю без перекодирования не существует. Всё равно расслаивать. upd Ну, утилиты NME не в счёт, всё-таки они не удобны для массовой и уникальной замены одновременно.
Апскейл это всегда плохо.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 05:38 21-09-2021 | Исправлено: TelecomUral, 11:33 21-09-2021
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
а метода их исправить в готовом дежавю без перекодирования не существует. Всё равно расслаивать.

Существует..
Чтоб здесь не оффтопить ответил в соответствующем топике..

----------
DjVu Utils

Всего записей: 1436 | Зарегистр. 26-07-2007 | Отправлено: 09:11 21-09-2021
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Братья, здравствуйте!  
Где-то я слышал, что в Кромсаторе можно делать восстановление букв, когда буквы разъеденные, смазанные, обгрызенные, то есть имеют некий дефект. Вроде бы, это называется то ли глифирование, то ли гликирование. Может, кто-нибудь знает про это? В Хрестоматии (Энциклопедии) по Кромсатору не нашел я такого. а очень надобно бы для работы с кривыми буквами.

Всего записей: 666 | Зарегистр. 23-05-2021 | Отправлено: 13:48 24-09-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
гликирование. Может, кто-нибудь знает про это?

 
Про глюкирование ?
Вот тут пишут, что это внедрение недокументированных эффектов:
https://zxpress.ru/article.php?id=11696

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 21:20 25-09-2021
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
внедрение недокументированных эффектов

А про документированные эффекты и функции? Есть ли в Кромсаторе возможность коррекции дефектного текста, про который я писал выше: обгрызенные буквы, т.е. пропадание элементов букв или наоборот заплывание букв - типографские кляксы, а так же убирание палочек между букв (бывает такая печать). Есть возможность решить эти проблемы в современной версии (6.71) или это дело последующих версий?  

Всего записей: 666 | Зарегистр. 23-05-2021 | Отправлено: 13:36 26-09-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Автоматической коррекции - нет. Пока ручками только. См. раздел 2.10 хрестоматии.
Поставить подсветку спеклов на размеры покрупнее. (Так чтобы палочки как раз подсвечивались). Набрать библиотеку глифов, и вперед. Вклеил букву, удалил вокруг неё ошметки. Чтобы меньше нужного подсвечивалось и не отвлекало, можно выполнить распознавание и отключить подсветку для знаков препинания.  Некоторые всё равно будут светиться, но станет попроще.  
 
Я вижу тут возможности автоматизации.  
ИМХО, если сделано распознавание, то СК может сам предлагать пользователю вставляемый глиф, да даже и автопозиционировать его внутри ячейки тессеракта. Если СК ошибся - пользователь от такой вставки всегда откажется. А поймать обгрызенную букву или букву с приклеившейся палочкой можно сравнивая число пикселей в ячейке с эталонной буквой из библиотеки глифов. Если тессеракт какую-то букву не распознал - это тоже повод подсунуть ее пользователю, т.к. что-то с ней не так.  
Но поддержки мои идеи, увы, тут не нашли.
 
Добавлено:
Еще я погрызенные буквы стал ловить в DjvuEditor-е из пакета Document Express Professional 7.0
То есть из файлов от СК сделан джву, открыт в параллель СК. Там есть закладка Shapes и необычные шейпы  подсвечиваются зеленым. Соответственно эти буквы можно найти в исходных тиффах и заменить.  
(Почему такое нельзя встроить в СК - для меня загадка. Координаты ячеек тессератка есть, значит их можно расцветить или подсветить, как угодно)

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 14:42 26-09-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013

Цитата:
Если тессеракт какую-то букву не распознал - это тоже повод подсунуть ее пользователю

будет слишком много ошибок. Нерационально.
Я тут пересканировал себе Пигулевскую, про культуру сирийцев. Такие вот странички - впечатляют.

Или любой другой около-филологический многоязычный текст. Особенно санскрит и тэ пэ вязь.  
А для одноязыкового текста и палочки убирать не стоит, глаз за них и сам по себе не цепляется. Родной язык. Нас же не бесят палочки в бумажных книгах. Ужирнять шрифт только не надо.
То есть если уж подсвечивать и/или предлагать к замене - то нужна чёткая логика подбора алфавита. А её кроме человеческого мозга, увы, не создаёт пока ничто. Причём на лету. Одна только "точка снизу" чего стоит.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 15:21 26-09-2021 | Исправлено: TelecomUral, 15:22 26-09-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
будет слишком много ошибок. Нерационально.  

 
Бесполезно спорить о вкусе устриц с тем, кто их не ел.
То есть в FR я ловлю плохо распознанные букы или орфографические ошибки, а потом их правлю в тиффах, и это рационально. Джву отсматриваю на предмет кривых шейпов - и это тоже оказывается рационально. Не для всех книг такое надо естественно. И не для всех срабатывает. Но такие встречаются (!)
(На самом деле это намного более лютые методы поиска, чем ячейки подсвечивать.)
 

Цитата:
Особенно санскрит и тэ пэ вязь.

Ну всё. Если книга с санскритом каким-то методом обработана быть не может, то в топку метод. Ассирия на марше.

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 15:57 26-09-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
daa2013
в топку метод

Да почему. Нет.
Но я не согласен с подходом, который потенциально умножает ошибки. Это, в общем-то, философский вопрос. Масштабность. Вы предлагаете такую автоматику, которая а) не автоматика в сути своей и б) реально может вносить новые трудноисправляемые ошибки, потворствует их появлению. Я высказался против подхода, и указываю на неочевидные недостатки метода, реализующего сам подход. А что по идее чего-то там можно распознать тессерактом - да ради бога, я "за". Просто общесистемно это ни к чему не ведёт. Масса ручной мозговитой работы как была так и остаётся.
Тут было бы приемлемо натравить вначале на страницу опознавание языка, разделение потока текста на одноязычные блоки, а уж потом применение конкретных глифов (шрифта). Возможно, подключить тексты из интернета. Ведь вполне возможно кто-то где-то уже данный текст (кусок) использовал и он доступен, цитирован, например. В сносках - литература, допустим. Библиозапись стандартна в пределах страны и периода. Вот это да, системно. Мы бы покрыли текст понятием "язык", или "культурная единица". А частные подправки-костылики - нее. Надо понимать их плюсы и минусы. Быстро, но иногда плохо.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 16:13 26-09-2021
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)
Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru