Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93

Открыть новую тему     Написать ответ в эту тему

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: сканирование, обработка, сборка
 
 
Текущая версия программы: ScanKromsator v6.71 Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  Устаревшие версии: Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...
 


ВАЖНО ! Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом... и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: shch_vg, 18:02 14-10-2021
driver1991

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
 

Цитата:
поэтому я задал в опциях увеличивать порог только для букв "и" и "н"

 
Я не знаю всех возможностей последних версий СК, мне каким-то образом попала версия 6.71. Поэтому, если можно - поподробнее, где и как это задается или где об этом почитать?
 
И еще вопрос: какая версия является последней и как можно ее получить?
 

Цитата:
бумаге уже наверно больше ста лет...

 
Это, само по себе очень хорошее советское издание, очутилось в библиотеке Майнцкого университета. Естественно, никаких указаний о том, как эти книги сюда попали - нет, хранятся они тоже не в стерильных условиях. Сохранность - соответственно.  
 
Еще раз спасибо за ваши ответы.
 
 

Всего записей: 352 | Зарегистр. 12-09-2011 | Отправлено: 12:40 12-09-2021 | Исправлено: driver1991, 12:44 12-09-2021
TelecomUral

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
driver1991
где об этом почитать?

в комплекте с СК идёт текстовый файлик whatsnew. Там описано достаточно, чтобы разобраться в новых фичах.
Если у вас комплект неполный, то скачайте из шапки этой темы.
 
оффтоп

Цитата:
само по себе очень хорошее советское издание

вроде же СС Толстого, как раз 90-томное, сканировали и распознавали файнридеровцы+общественность. Публичный такой проект был, солидный. Обещали что всё останется в бесплатном доступе.

Всего записей: 1564 | Зарегистр. 15-07-2010 | Отправлено: 20:18 12-09-2021
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
вроде же СС Толстого, как раз 90-томное, сканировали и распознавали файнридеровцы+общественность. Публичный такой проект был, солидный. Обещали что всё останется в бесплатном доступе.

 
Был такой проект у них в 10-11 годах. Только они вычитку отсканированного и распознанного делали. За участие давали FR11 или уже 12 вроде....

Всего записей: 2858 | Зарегистр. 17-09-2001 | Отправлено: 21:19 12-09-2021
asku



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Был такой проект у них в 10-11 годах. Только они вычитку отсканированного и распознанного делали. За участие давали FR11 или уже 12 вроде....

 
Ну так на их сайте были все 90 томов в pdf. Помню скачивал несколько томов.

Всего записей: 221 | Зарегистр. 04-05-2016 | Отправлено: 22:56 12-09-2021
TelecomUral

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
А можно сделать так, чтобы при первом открытии свойств зоны окошко ее предпросмотра сразу становилось открытым? У меня как-то всё время получается, что оно нужно открытым раз уж я в свойства полез. Вроде и мелочь, а давно раздражает, что нужно кнопочку шёлкнуть.

Всего записей: 1564 | Зарегистр. 15-07-2010 | Отправлено: 11:35 15-09-2021
kamenkapenza



Запрет на пост
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Здравствуйте, хлопчики!
 Случайно не знаете на вскидку, где , в  каком меню можно настраивать убирание всякой каки, мусора, точек на странице? А то, если в Талмуде (Хрестоматии) искать, месяц надобно потратить, а мне бы сразу хотелось узнать, незамедлительно.

Всего записей: 181 | Зарегистр. 23-05-2021 | Отправлено: 14:42 15-09-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
 
Можно ли как нибудь сделать так, чтобы команда меню основного окна
Zones -> Picture zone - >  Add zone from file  
могла быть применена не к одному файлу, а к нескольким ? И соответственно выбранная группа файлов по порядку имен вставала последовательно на тот файл в списке, на котором мы находимся, и последующие за ним.  
(Первый файл из группы на тот файл, где мы находимся, второй - на следующий за ним, и т.д.) При этом всей такой группе зон присваивался свой бы собственный индекс. (То есть, окошко Add zone from file должно спрашивать пользователя об индексе этой группы).
 
Если по каким-то причинам в диалоге невозможно сделать выделение нескольких файлов, то можно указать папку, и расставить в качестве зон файлы, лежащие в этой папке (по порядку имен).  
 
Выравнивания, как происходит сейчас, в левый верхний угол будет вполне достаточно. Но можно заодно добавить гибкости и предоставить пользователю варианты (центр, другие углы, некая вводимая координата).  
 
?

Всего записей: 742 | Зарегистр. 13-06-2013 | Отправлено: 14:29 20-09-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013
Мудрено как-то. Интересно, в чем смысл этого?
Добавить сразу несколько зон можно и сейчас, методом drag&drop из проводника например. А вот сделать это с заменой сразу нескольких существующих зон не получится.

Всего записей: 3937 | Зарегистр. 09-09-2002 | Отправлено: 20:09 20-09-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Заменять ничего не нужно. Просто положить поверх уже существующих страниц (и имеющихся на них зон). И тут не нужно класть несколько зон на одну страницу. (Драг и дропом они все окажутся на текущей).  Нужно первую зону (картинку) поставить на первую (текущую) страницу, вторую картинку - на вторую (следующую) страницу и т.д.
 
Именно так работает Add zone from file   и сейчас, но только в отношении одной картинки и текущей страницы. А я бы хотел, чтобы это применялось пакетом к  группе картинок и группе последовательных страниц.  И чтобы при этом  группе создаваемых зон присваивался выбранный индекс. (От 1 до 10 у вас они, кажется, предусмотрены.)   Рассматривайте это как многократный вызов этой команды по числу вставляемых зон (картинок)    с переходом каждый раз на следующую страницу.
 
Смысл - откроются большие возможности по работе со слоями картинок и битмапами.

Всего записей: 742 | Зарегистр. 13-06-2013 | Отправлено: 20:29 20-09-2021 | Исправлено: daa2013, 21:47 20-09-2021
TelecomUral

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
daa2013
откроются большие возможности по работе со слоями картинок

типа - импорт background-слоя дежавю? Распилили внешней программой на два пакета, втянули чб текст как сканы, а потом этой новой командой наложили зоны? Да, но как быть с отличающимся дпи? А с прозрачностью?
Иных задач - практических! - я что-то не вижу. Если габариты зон не совпадают с габаритами страницы (не кратны), то ручное перетаскивание в нужную позицию и последующая настройка убьёт весь выигрыш в скорости. Удобнее тогда уж индивидуальный drag&drop из соседнего окна. В смысле - допилить его, чтоб позволял точнее (или лучше заранее) настроить параметры вставки. Я никогда не пользовался dd, так что пишу от балды, может уже и сейчас он такой умный.  
То есть сначала выставляем нужные правила вставки, индекс зоны, что-то ещё, и потом между двумя открытыми окошками мышкой тягаем картинки поштучно.

Всего записей: 1564 | Зарегистр. 15-07-2010 | Отправлено: 04:51 21-09-2021 | Исправлено: TelecomUral, 04:56 21-09-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Да, но как быть с отличающимся дпи?  

Ну не надо абы какие первые попавшиеся картинки такими кучами вставлять.
 Заранее подумать, посмотреть. Это проблема подготовки вставляемого.  
Если вы собрались джву курочить (о чем я даже не подумал), то задники апскейлятся до передников при разборке.
Зато разделенные сканы можно будет без FSD в СК собирать.
 
 

Цитата:
 А с прозрачностью?  

Ставится галочка "траспарент" в свойствах зоны и размножается на группу с соответствующим индексом.

Всего записей: 742 | Зарегистр. 13-06-2013 | Отправлено: 05:00 21-09-2021
TelecomUral

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
оффтоп

Цитата:
Если вы собрались джву курочить (о чем я даже не подумал)

из-за Долгополова, это была самая яркая мысль. Вы нашли плохие буквы, а метода их исправить в готовом дежавю без перекодирования не существует. Всё равно расслаивать. upd Ну, утилиты NME не в счёт, всё-таки они не удобны для массовой и уникальной замены одновременно.
Апскейл это всегда плохо.

Всего записей: 1564 | Зарегистр. 15-07-2010 | Отправлено: 05:38 21-09-2021 | Исправлено: TelecomUral, 11:33 21-09-2021
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
а метода их исправить в готовом дежавю без перекодирования не существует. Всё равно расслаивать.

Существует..
Чтоб здесь не оффтопить ответил в соответствующем топике..

----------
DjVu Utils

Всего записей: 1279 | Зарегистр. 26-07-2007 | Отправлено: 09:11 21-09-2021
kamenkapenza



Запрет на пост
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Братья, здравствуйте!  
Где-то я слышал, что в Кромсаторе можно делать восстановление букв, когда буквы разъеденные, смазанные, обгрызенные, то есть имеют некий дефект. Вроде бы, это называется то ли глифирование, то ли гликирование. Может, кто-нибудь знает про это? В Хрестоматии (Энциклопедии) по Кромсатору не нашел я такого. а очень надобно бы для работы с кривыми буквами.

Всего записей: 181 | Зарегистр. 23-05-2021 | Отправлено: 13:48 24-09-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
гликирование. Может, кто-нибудь знает про это?

 
Про глюкирование ?
Вот тут пишут, что это внедрение недокументированных эффектов:
https://zxpress.ru/article.php?id=11696

Всего записей: 742 | Зарегистр. 13-06-2013 | Отправлено: 21:20 25-09-2021
kamenkapenza



Запрет на пост
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
внедрение недокументированных эффектов

А про документированные эффекты и функции? Есть ли в Кромсаторе возможность коррекции дефектного текста, про который я писал выше: обгрызенные буквы, т.е. пропадание элементов букв или наоборот заплывание букв - типографские кляксы, а так же убирание палочек между букв (бывает такая печать). Есть возможность решить эти проблемы в современной версии (6.71) или это дело последующих версий?  

Всего записей: 181 | Зарегистр. 23-05-2021 | Отправлено: 13:36 26-09-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Автоматической коррекции - нет. Пока ручками только. См. раздел 2.10 хрестоматии.
Поставить подсветку спеклов на размеры покрупнее. (Так чтобы палочки как раз подсвечивались). Набрать библиотеку глифов, и вперед. Вклеил букву, удалил вокруг неё ошметки. Чтобы меньше нужного подсвечивалось и не отвлекало, можно выполнить распознавание и отключить подсветку для знаков препинания.  Некоторые всё равно будут светиться, но станет попроще.  
 
Я вижу тут возможности автоматизации.  
ИМХО, если сделано распознавание, то СК может сам предлагать пользователю вставляемый глиф, да даже и автопозиционировать его внутри ячейки тессеракта. Если СК ошибся - пользователь от такой вставки всегда откажется. А поймать обгрызенную букву или букву с приклеившейся палочкой можно сравнивая число пикселей в ячейке с эталонной буквой из библиотеки глифов. Если тессеракт какую-то букву не распознал - это тоже повод подсунуть ее пользователю, т.к. что-то с ней не так.  
Но поддержки мои идеи, увы, тут не нашли.
 
Добавлено:
Еще я погрызенные буквы стал ловить в DjvuEditor-е из пакета Document Express Professional 7.0
То есть из файлов от СК сделан джву, открыт в параллель СК. Там есть закладка Shapes и необычные шейпы  подсвечиваются зеленым. Соответственно эти буквы можно найти в исходных тиффах и заменить.  
(Почему такое нельзя встроить в СК - для меня загадка. Координаты ячеек тессератка есть, значит их можно расцветить или подсветить, как угодно)

Всего записей: 742 | Зарегистр. 13-06-2013 | Отправлено: 14:42 26-09-2021
TelecomUral

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013

Цитата:
Если тессеракт какую-то букву не распознал - это тоже повод подсунуть ее пользователю

будет слишком много ошибок. Нерационально.
Я тут пересканировал себе Пигулевскую, про культуру сирийцев. Такие вот странички - впечатляют.

Или любой другой около-филологический многоязычный текст. Особенно санскрит и тэ пэ вязь.  
А для одноязыкового текста и палочки убирать не стоит, глаз за них и сам по себе не цепляется. Родной язык. Нас же не бесят палочки в бумажных книгах. Ужирнять шрифт только не надо.
То есть если уж подсвечивать и/или предлагать к замене - то нужна чёткая логика подбора алфавита. А её кроме человеческого мозга, увы, не создаёт пока ничто. Причём на лету. Одна только "точка снизу" чего стоит.

Всего записей: 1564 | Зарегистр. 15-07-2010 | Отправлено: 15:21 26-09-2021 | Исправлено: TelecomUral, 15:22 26-09-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
будет слишком много ошибок. Нерационально.  

 
Бесполезно спорить о вкусе устриц с тем, кто их не ел.
То есть в FR я ловлю плохо распознанные букы или орфографические ошибки, а потом их правлю в тиффах, и это рационально. Джву отсматриваю на предмет кривых шейпов - и это тоже оказывается рационально. Не для всех книг такое надо естественно. И не для всех срабатывает. Но такие встречаются (!)
(На самом деле это намного более лютые методы поиска, чем ячейки подсвечивать.)
 

Цитата:
Особенно санскрит и тэ пэ вязь.

Ну всё. Если книга с санскритом каким-то методом обработана быть не может, то в топку метод. Ассирия на марше.

Всего записей: 742 | Зарегистр. 13-06-2013 | Отправлено: 15:57 26-09-2021
TelecomUral

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
daa2013
в топку метод

Да почему. Нет.
Но я не согласен с подходом, который потенциально умножает ошибки. Это, в общем-то, философский вопрос. Масштабность. Вы предлагаете такую автоматику, которая а) не автоматика в сути своей и б) реально может вносить новые трудноисправляемые ошибки, потворствует их появлению. Я высказался против подхода, и указываю на неочевидные недостатки метода, реализующего сам подход. А что по идее чего-то там можно распознать тессерактом - да ради бога, я "за". Просто общесистемно это ни к чему не ведёт. Масса ручной мозговитой работы как была так и остаётся.
Тут было бы приемлемо натравить вначале на страницу опознавание языка, разделение потока текста на одноязычные блоки, а уж потом применение конкретных глифов (шрифта). Возможно, подключить тексты из интернета. Ведь вполне возможно кто-то где-то уже данный текст (кусок) использовал и он доступен, цитирован, например. В сносках - литература, допустим. Библиозапись стандартна в пределах страны и периода. Вот это да, системно. Мы бы покрыли текст понятием "язык", или "культурная единица". А частные подправки-костылики - нее. Надо понимать их плюсы и минусы. Быстро, но иногда плохо.

Всего записей: 1564 | Зарегистр. 15-07-2010 | Отправлено: 16:13 26-09-2021
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.Board
© Ru.Board 2000-2020

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru