Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v6.97 | ScanKromsator v6.91 |
 ScanKromsator v6.8 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: mvk2006, 21:12 04-08-2023
VadimirTT



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
VladoKV
I dont now, but dont use jpg.

Всего записей: 2865 | Зарегистр. 22-03-2005 | Отправлено: 23:52 21-11-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
There is no option for correcting text baselines in SK.
Use BookRestorer and ScanTailor for this job.
 
 
http://www.djvu-soft.narod.ru/scan/curved_text.htm
 
http://djvu-converter.narod.ru/book-restorer/geometricheskaja-korrektsija-stranits.html
 
https://github.com/scantailor/scantailor/wiki/B.-Output-Tabs:-Dewarping

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 01:42 22-11-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg
надо же, перерыл все "Вопросы и ответы...", так и не нашёл по "отметить" или "пометить" или "selection". А когда не надо было, постоянно эта инфа попадалась. Причём помню и кролика из шляпы, и что реализовано сообразно стилю, разумно кнопка выбрана. Потом нашёл в списке хоткеев Deselect-ы в Хрестоматии. И уже потом поэкспериментировав, и поняв что деселект именно "де"-селект, поискал и нашёл хоткей "Select file (red)". Оказалось "F2". Но в VR это "для левой панели". Я не припомню, чтобы bolega где-то объяснял всю логику в комплексе. Что такое тогда "правая панель"?

Всего записей: 3011 | Зарегистр. 15-07-2010 | Отправлено: 05:33 22-11-2021 | Исправлено: TelecomUral, 05:42 22-11-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
Что такое тогда "правая панель"?

та, что справа. Если вы не знали, есть режим two-page просмотра. Для правого файла F3

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 13:28 22-11-2021 | Исправлено: bolega, 13:33 22-11-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
аа ну да, там же может быть другой исходник
Я знаю, но не пользуюсь.

Всего записей: 3011 | Зарегистр. 15-07-2010 | Отправлено: 14:01 22-11-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013

Цитата:
Можно/целесообразно ли к СК прикрутить управление левелами в разбивке по каналам

Как вы уже могли заметить, фильтры в свойства зон и в прочие опции я добавляю исключительно по своему усмотрению и только по личной необходимости, и только тогда, когда понимаю, что потребность в этом не носит разовый характер.
По причине того, что не хочу тратить время на то, что не будет востребовано никем. Даже если я добавлю такую фичу, с вероятностью 99,9% вы как пользовались, так и дальше будете пользоваться привычными для вас инструментами (PH, xnview, pyton и т.п.), а фича будет висеть мертвым грузом, раздувая код и файлы данных

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 14:43 22-11-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
тратить время на то, что не будет востребовано никем

 
По-моему очень правильная позиция.
Хочу заметить, что я и формулирую эти предложения как идеи, а не как хотелки.
 

Цитата:
привычными для вас инструментами (PH, xnview, pyton и т.п.)

 
Только вот я в ФШ использую буквально пару инструментов: авто цвет.коррекцию и подбор цвета по исходнику.  За них поэтому и высказываюсь. Т.е. у меня это не разовое, а постоянно используемое.  
Ну, еще наложение слоев делаю, но это конечно уже другое. Хотя если сделать свободный морфинг для вклеиваемого (а не просто флипы и растяжки), то СК будет тут мощнее ФШ.
 
В КснВью я долгое время делал одну-единственную операцию: пакетом выравнивание холста. Так как долгое время и СК, и СТ выдавали мне не до пикселя точные страницы (был +/- несколько пикселей). Еще делаю для одиночных постеризованных изображений замену одного цвета другим.  
В СК это можно сделать заливкой для связных областей, но тут сразу для всего изображения. Может, и новая панель это делает, до конца в этом еще не разобрался.
 
Если бы не обнаружил, что в СК нет пакетного HSL, а только одиночный то даже не узнал бы, для колоризации надо HSL крутить и что КснВью это делает.
 
 

Цитата:
фильтры в свойства зон

 
И вот перечитав прошлое обсуждение -- вычитал, что я тогда еще в зоны предлагал гистограмму встроить как инструмент контроля автолевелов и белой/черной точки. Т.е. не как фильтр или инструмент коррекции, а просто чтобы было видно, что после применения имеющихся инструментов изменилось.
 
 
 
А так нецелесообразно - и фиг с ним. Глифы важнее. Прямо с нетерпением жду новую версию. Надеюсь, станет панацеей для книг, где чуть ли не половину букв перенабрать надо.
 
PS
А может пакетный HSL  в СК все же возможен, а я просто не догоняю, как ?
 
PS2
Вот еще такую штуку в ФШ время от времени делаю   (как правило, для фото-сканов обложек на планетарнике с кривым освещением)
 
http://fotokto.ru/blogs/prostie-uroki-photoshop-viravnivanie-kontrasta-i-yarkosti-12688.html

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 20:02 22-11-2021 | Исправлено: daa2013, 21:13 22-11-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013

Цитата:
Может, и новая панель это делает, до конца в этом еще не разобрался.  

Делает.
 

Цитата:
А может пакетный HSL  в СК все же возможен,

Нет. Но вы подали мне одну идею по поводу пакетного применения фильтров из окошка image adjustments
 

Цитата:
Надеюсь, станет панацеей для книг, где чуть ли не половину букв перенабрать надо.  

Я тоже надеюсь. Учитывая, какие новые классные (не озвученные еще) фичи я уже заложил и еще планирую заложить в этот процесс.
 

Цитата:
Вот еще такую штуку в ФШ время от времени делаю  

Алгоритмы от ФШ для меня вообще тайна за семью печатями. Да и вообще, по части алгоритмов у меня помощников никогда особо не наблюдалось. Кроме пары случаев ничего и не вспомню.
... А поэтому и я никому ничего не должен.

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 12:39 23-11-2021 | Исправлено: bolega, 19:32 23-11-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013
А не напомните, на какой странице вы давали идеи/предложения по использованию ocr в глифах?

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 13:49 27-11-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А не напомните, на какой странице вы давали идеи/предложения по использованию ocr в глифах?

 
Автопозиционирование глифов:
http://forum.ru-board.com/topic.cgi?forum=5&topic=29984&start=2420#6
 
Замена всех букв
http://forum.ru-board.com/topic.cgi?forum=5&topic=29984&start=2900#4
 
Кластеризация джву-шейпов как букв:
http://forum.ru-board.com/topic.cgi?forum=5&topic=29984&start=3240#16
 
Возможный интерфейс:
http://forum.ru-board.com/topic.cgi?forum=5&topic=50023&start=260#18
 
Сопоставление djbz-словаря и массива тессерактовских ячеек по пространственным координатам + картинка с примером подсветки кривых шейпов в последнем DjvuEditor (присваивает буквам статусы match, refine, normal и расцвечивает красным, зеленым, синим).
http://forum.ru-board.com/topic.cgi?forum=5&topic=50023&start=1220#7
 
Автовставка:
http://forum.ru-board.com/topic.cgi?forum=5&topic=50023&start=280#4
 
Автовставка и подсветка ячеек нестандартных букв
http://forum.ru-board.com/topic.cgi?forum=5&topic=50023&start=1660#18
 
Разделение шрифтов по закладкам и указание выделением зоны автовставки + опция включения и отображения тессерактовских ячеек на странице
http://forum.ru-board.com/topic.cgi?forum=5&topic=50023&start=1680#4
 
Определение наличия спеклов в ячейках тессеракта (+ автоматическое перемещение по таким ячейкам) и усреднение глифов:
http://forum.ru-board.com/topic.cgi?forum=5&topic=50023&start=1120#9
 
Коэффициенты полноты букв:
http://forum.ru-board.com/topic.cgi?forum=5&topic=50023&start=1160#9
 
Подказка вставки:
http://forum.ru-board.com/topic.cgi?forum=5&topic=50023&start=1880#21
http://forum.ru-board.com/topic.cgi?forum=5&topic=50023&start=1900#5
 
Ручное управление зоной автопозиционирования:
http://forum.ru-board.com/topic.cgi?forum=5&topic=50023&start=1880#19
 
Задача замены одного глифа на другой:
http://forum.ru-board.com/topic.cgi?forum=5&topic=50023&start=1900#6
 
Модификаторы смещения глифов при вставке:
http://forum.ru-board.com/topic.cgi?forum=5&topic=50023&start=1900#7
 
ghosty про базовую линию:
http://forum.ru-board.com/topic.cgi?forum=5&topic=29984&start=1720#5
 
TelecomUral о неуверенно распознанных буквах (тессеракт же, вроде, отдает значения уверенности в символах ...):
http://forum.ru-board.com/topic.cgi?forum=5&topic=50023&start=1100#18
 
bolega как обычно упрямится:
http://forum.ru-board.com/topic.cgi?forum=5&topic=50023&start=260#21

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 16:29 27-11-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013
Спасибо.
Я то уже сделал как смог (в пределах возможностей графического движка СК). Хочу свериться на предмет того, не упустил ли чего.  
Речь о глифах. По поводу старой, но не угасающей идеи править шейпы djvu - это не ко мне, это пишите авторам djvutoy.

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 18:09 27-11-2021 | Исправлено: bolega, 18:15 27-11-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ясный пень, что шейпы внутри джву поправить не удастся. Но приходят-то они из тиффов. Поэтому, если опознать плохие шейпы внутри джву, то можно поправить буквы, из которых они пришли. Для этого надо джву раскурочить, эти плохие шейпы найти. Тем более вроде сейчас он откуда-то же пишет эти матч/рефаин/нормал. Насколько я понимаю, к обычной букве бывают еще поправки - это рефаин. А если буква не попала в общий словарь, а уникальная для страницы - то она нормал.  (Но это я просто догадываюсь). А потом после разборки джву можно вернуться к глифам и ячейкам тессеракта. Чтобы не все буквы менять, а только те, которые оказались плохими внутри джву. Если СК джву кодит, то может и обратный переход сделать.
 
Но это так - идея.

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 18:27 27-11-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Настраиваю такой размер спеклов,  чтобы выделялись красным разорванные буквы, а потом ищу их, и заменяю на правильные.  

Сразу скажу, что в основе сделанного: не просто информация после ocr tesseract, а ocr + набор глифов. Т.е. без задания глифов ничего не будет. Все идет в сравнении.
В этом смысле все дефекты букв сразу визуально видны, и это достигается исключительно специальным сравнением реальной буквы скана и глифа. Это конечно лучше показать, чем описывать. Но до релиза я не буду этого делать.
Возможно, мне удастся внедрить такие критерии, которые бы облегчали фильтрацию "плохих" букв. Например, как предлагаемые вами разрывы. Пока этого не сделал. Но буду над этим работать.
 
 
Добавлено:
daa2013
Вы априори отталкиваетесь от неверного посыла: шейпы в djvu не равны буквам. Это могут быть куски букв (наверно, зачастую так и есть). Поэтому определить, что такое "плохой шейп", невозможно. Уже вроде не раз про это говорили.

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 18:33 27-11-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Я отталкиваюсь от того, что вот они мои щербатые буквы, подсвечены зелененьким в режиме просмотра шейпов:
 
https://disk.yandex.ru/i/6DKrJYNg7E5Www
 
 
а бугристые чаще синеньким:
 
https://disk.yandex.ru/i/iYVegw2jCclGOQ
 
И позволю себя процитировать:
 

Цитата:
Тогда видишь плохой символ в готовом джву со словарем, охватывающим все страницы. Идешь на эту букву на этой странице в СК. , а потом перемещаешься по всем тессерактовским ячейкам, который соответствуют позициям расположения соответствующего кривого шейпа.  
(Ну, и руками исправляешь в глиф-редакторе те, где исходная буква действительно щербатая.  

 
То есть, предполагалось, что в плохой шейп юзер пальцем ткнёт.
Нет, ну может, эта же задача и другими средствами решится. Я тут не настаиваю.

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 18:51 27-11-2021 | Исправлено: daa2013, 18:57 27-11-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013
Разъясните пожалуйста.

Цитата:
Первая: несвязные буквы типа й, ы, ё. Возле мелкой части часто бывает мусор и он чистится вместе с ней. Тогда повторная вставка возвращает эти точки и палочки на место. Но из-за этой крайне вредной опции буква при перевставке смещается  

тут ничего не понятно. Чистится мусор при вставке? Если это мусор, то разве это плохо, что он чистится?? Зачем его восстанавливать? Что возвращает повторная вставка? Возвращает точки на место мусора?

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 19:33 27-11-2021 | Исправлено: bolega, 19:34 27-11-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
ничего не понятно

 
Обратите внимание на лишние действия (отмену действия, и смещение мышки с более аккуратным позиционированием) во втором случае:
 
https://disk.yandex.ru/i/3uMFce_5QqWAOw
 
Мышка при этом даже не отклонялась от первоначальной точки вставки. Просто у вас взяла и сузилась зона поиска.
 
Сужение может быть полезно, когда буква первоначально улетает, хотя в этом случае при перевставке надо просто контрол зажать.
Но когда она сразу точно встает, а потом просто перевставляется, то сужение вредно.  
Чаще, чем чистка ЙЁ,  перевставкой приходится базовую линию уточнять. В этом случае мышка от точки вставки вообще не уходит и это еще больше раздражает, а тут все таки после чистки мне пришлось ее в начальную позицию возвращать.

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 20:15 27-11-2021 | Исправлено: daa2013, 20:26 27-11-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А, вы про это. Ну теперь такой проблемы вообще не возникает )
Это как раз новая фича

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 20:26 27-11-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Новая идея.
Может, в СК можно несколько настраиваемых жестов мышью встроить:
 
https://ru.wikipedia.org/wiki/%D0%96%D0%B5%D1%81%D1%82%D1%8B_%D0%BC%D1%8B%D1%88%D1%8C%D1%8E

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 09:44 29-11-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013
Удалось сделать, чтобы СК мог выбирать наилучший вариант из нескольких доступных вариантов глифа. Это особенно актуально, когда на странице имеется несколько размеров шрифтов, напр., обычный текст и более мелкие сноски.

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 20:51 29-11-2021
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Подумал вот еще о чем:  
 
1. Сейчас OCR можно вызвать лишь при обработке, а хорошо бы вызывать его и из окна RV. Часто никакие глифы использовать не планируешь, а потом понимаешь: "приплыли".  
 
2. Чтобы использовать предложенные выше "коэффициенты полноты букв" нужен будет также инструмент, который сообщал бы число черных пикселей в выделении.

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 08:38 05-12-2021
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)
Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru