Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v6.97 | ScanKromsator v6.91 |
 ScanKromsator v6.8 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: mvk2006, 21:12 04-08-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ролики, таймлайны
---

0 выбор тессеракт или ФР
05:17 парсер NME
10:48 соответствие нумерации ФР и СК, настройка сдвига
12:45 подсветка букв и слов, команды-кнопки
13:55 сопоставление глиф-символ
14:25 темная подсветка = disable
15:20 анализ страницы
15:58 FF delimiter ограничивает область анализа
17:20 что означают цвета в окне Preview
19:15 сортировка списка замен
20:55 ручной сдвиг наложения глифа на скан (кнопка левее кнопки сортировки)
21:40 закладка Details
22:50 число шейпов (связных областей)
23:35 кнопочки "вкл/выкл" замен
24:03 закладка Filers
26:45 применение фильтра в момент формирования списка: ПКМ на кнопке Analyse All
27:52 переход между списком и сканом
29:00 фильтр буквы на сам список
29:35 исправление ошибки распознавания, два варианта
32:04 спеллчекер на закладке Words
33:05 разные варианты поиска буквы: кнопка молнии мигающей подсветки, двойной щелчок перемещает курсор к букве
34:40 как добавить глиф(ы) в анализ ocr
36:32 добавить глифы из других библиотек
37:00 интерактивный режим замены глифов
38:25 ещё один способ замены, без матрицы замен (с помощью глифов сразу из библиотеки)
40:05 режим замены глифа прямо с клавиатуры
40:40 можно этот режим использовать и без опознавания координат буквы
43:25 работа лупы в режиме замены букв
44:45 фиксация лупы на одном месте
45:25 главное меню: Bulk operations: generate copy commands
вопрос: а как быть с переменой z-порядка
 
 
---
4
00:15 повтор общей логики, как выполнять исправления
01:30 поиск замен сразу для группы страниц (Analyse for files...)
03:35 опция Autoupdate list и кнопка ручного обновления
04:30 редактирование OCR (Edit OCRed word)
 разбор примера заливки букв сбоку у корешка
11:45 сложная широкая марашка не удалилась
12:30 сложный сборный пример с многими листами глифов
12:50 выявление марашек (их подсветка)
13:15 логика работы с марашками
13:45 изолированные марашки, режим
14:30 куски букв попали в марашки, как это отключить/улучшить (кнопка с фонариком и буквой)
15:25 удаление мышью или кнопкой "D", объяснение
16:20 De-lightning mode: убираем подсветку ошибочно(!) найденных марашек внутри букв с помощью мыши, затем через "D" удаляем всё оставшееся сразу
 далее пример работы
19:35 удалить из списка замен всё что находится в выделении на странице, команда по ПКМ
21:45 подправка ошибочно задвоенного знакоместа смежных букв
22:22 варианты замены букв: кардинальный по Apply all
23:35 вариант не меняем буквы, удаляем марашки: ПКМ на кнопке, команда "Remove only touched marashki"
24:10 донастройка режима не удаления, а подсветки марашек
24:48 отсмотр результата подсветки
26:16 нажали "D"
27:40 второй скан
28:15 напоминание о первоначальном удалении отдельных марашек
30:43 следующая книжка
31:43 вторая страница
32:35 повторный показ как не меняя буквы удалить марашки
33:50 что делать для подправки положения буквы: стрелочки
34:40 третья книга, осетинский язык
36:36 четвёртая книга, ингушский язык
39:45 пятая книга: слева жирнее чем справа
40:40 контроль кернинга при налазящих буквах
41:42 шестая книга: антенны Сазонова. Очень разорванные буквы
42:20 наклонный шрифт: метод исключения слов в selection (выделение)
46:35 новые команды в контекстном меню при наличии OCR
48:00 подбор заменяющего слова из словаря
вопрос: как удалить грязь между строками

Всего записей: 3047 | Зарегистр. 15-07-2010 | Отправлено: 17:53 11-05-2022
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Счастливые тестировщика, ну как вам новая версия программы?
 Есть там возможность для тех товарищей (наподобие меня), которые ничего в Кромсаторе не режут, не наращивают, а используют её для работы с геометрически готовыми страницами, возможность установить поля в ноль и зафиксировать это в провиле, чтобы программа при открытии помнила эту настройку?
 И есть ли возможность зафиксировать в профиле настройки панели Create DJVU vizard  в части взаимодействия её с программой djvu mode small (установленной в приложении для изготовления книги)? Настроить необходимые параметры один раз с сохранением настроек. Например, ставим DEE profile bw 600, background quality 100 и foreground quality 100, text compression losless, и это сохраняется, чтобы каждый раз не настраивать под себя.
 Вроде, автор программы обещал такие необходимые вещи в новой версии закрепить.  
 
 

Цитата:
Последние недели не могу зайти из дома на руборд, т.к. у провайдера какие-то проблемы с доступом (маршрутом)  к этому сайту. Думаю, провайдер не при чем, т.к. трасер затыкается где-то на границе СПБ и финляндии.  
Поэтому доступ к данному форуму у меня крайне ограничен.

 
Помощь уже идет. Скоро прекратятся поставки электроэнергии в эту страну... Первый шаг.. Потом будет видно, что с ними делать)))  

Всего записей: 666 | Зарегистр. 23-05-2021 | Отправлено: 21:25 13-05-2022
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
bolega

Цитата:
Последние недели не могу зайти из дома на руборд, т.к. у провайдера какие-то проблемы с доступом (маршрутом)  к этому сайту. Думаю, провайдер не при чем, т.к. трасер затыкается где-то на границе СПБ и финляндии.

У меня этот сайт ни пингуется, ни трейсроутится, но тем не менее АКАДО пока обеспечивает стабильный доступ до руборда.

----------
Better to remain silent and be thought a fool than to open your mouth and remove all doubt

Всего записей: 6970 | Зарегистр. 14-01-2005 | Отправлено: 01:53 14-05-2022
qwaxym



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
У меня этот сайт ни пингуется, ни трейсроутится

У меня было наподобие,  приходилось заходиль с помощью VPN. Сообщил в соответствующей теме и с тех пор всё хорошо!))

Всего записей: 127 | Зарегистр. 19-12-2007 | Отправлено: 13:33 14-05-2022 | Исправлено: qwaxym, 13:34 14-05-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Наблюдения....
 
Воюю с книгами из Архива (archive.org).... (PDF без оригинальных картинок). Остановился на сохранении картинок из акробата в png  и их обработке.
 
1. Пытался подобрать параметры в СК и обнаружил, что Paint.net часто вытягивает такие картинки в почти идеально псевдочёрно-белые контрастом и яркостью (по 50 из 100) но ни Irfan в пакетном режиме, ни SK c настройками контраста и яркости на те же 50% не вытягивают - картинки остаются серыми и значительно проигрывают в контрасте. A Paint.Net - пакетную обработку не поддерживает.....
И снова задумался про настройки для данных книг с их хитрым кодированием...
 
2. Раз уж пошло увлечение FR — Bolega, FR довольно неплохо на автомате определяет положение и размеры на странице растровых картиночных зон. Почему бы не попытаться использовать и данную информацию?
 
3. Много вопросов по программе возникает из-за обратной бесскобочной логики выполнения многих операций — словил себя на простом - попытке убрать фон у картинки. Вроде действую логически - ставлю флажок - убрать, пытаюсь нажать кнопки с пипеткой для указания фона - а она не жмётся, потому что жмётся она, когда фрагмент фона уже выбран....  
 

Всего записей: 3672 | Зарегистр. 17-09-2001 | Отправлено: 18:30 14-05-2022 | Исправлено: niccolo, 18:44 14-05-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Воюю с книгами из Архива (archive.org).... (PDF без оригинальных картинок). Остановился на сохранении картинок из акробата в png  и их обработке.  

 
Вообще, крайне редко из архив_орга надо курочить пдф. (Как правило, только, что они от гугла в ранний период получали.) Следует либо оригинальные сканы в jp2 скачать, либо пакетно утянуть страницы в джипегах из вьюера.  
 
Приведите пример того, с чем работаете.  
 
 

Цитата:
2. Раз уж пошло увлечение FR — Bolega, FR довольно неплохо на автомате определяет положение и размеры на странице растровых картиночных зон. Почему бы не попытаться использовать и данную информацию?  

 
Теоретически, можно в СК импортировать маски растровых картинок из СТ.
Автор форка СТУ, во всяком случае, предусмотрел такой экспорт.
 
 
 
 

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 19:57 14-05-2022 | Исправлено: daa2013, 19:32 15-05-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013
 
Работал над этим....
https://archive.org/details/dictionaryofgasi0000unse/page/n3/mode/2up

Всего записей: 3672 | Зарегистр. 17-09-2001 | Отправлено: 20:40 14-05-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Gas:
 
https://disk.yandex.ru/d/_QlbZRG_ZXkgkg
 
Исходники:
https://disk.yandex.ru/d/4yo8-g0_Y9fDig

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 00:20 19-05-2022 | Исправлено: daa2013, 07:17 19-05-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013
 
Спасибо. Здорово. Но у меня цели немного другие и я уже давно распознал его и сконвертировал в Эксель.
 
И в чём смысл выкладывать исходники без файла пакета (skt),  чтобы посмотреть настройки SK...
 
По косвенным признакам, полагаю, делали в еще широконедоступной 6.75 версии?

Всего записей: 3672 | Зарегистр. 17-09-2001 | Отправлено: 09:06 19-05-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Нет, делал в старой.
 
Перед тем, как пихать в СК, была выполнена геметрическая коррекция в ST-Experimental и BookRestorer. Пару десятков нестандартных страниц (приложения) масштабировал под единую высоту блока контента в XnView.
Настройки обработки в СК очень простые - там где белая бумага (это до списков слов в конце) подобрал единый порог бинаризации 130. Там где цветная бумага (списки слов) - порог "Авто". + включен дефолтный деспекл.
Самое противное было - это руками спеклы на 800 страницах почистить. Для облегчения их поиска делал версию pdf в Acrobat ClearScan - в ней они хорошо заметны.

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 09:49 19-05-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013
 
Спасибо за инфо. Обратил внимание на ровность линий.... Но при таких широких полях для OCR это не принципиально.

Всего записей: 3672 | Зарегистр. 17-09-2001 | Отправлено: 11:53 19-05-2022
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
широконедоступной 6.75 версии

Извините, а это что за версия? Или речь идет о последней версии программы, которая на данный момент доступна, так сказать, по блату, только среди особ, приближенных к императору?

Всего записей: 666 | Зарегистр. 23-05-2021 | Отправлено: 18:42 19-05-2022
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Извините, а это что за версия?

 
Текущая, всем доступная версия это v6.71.
Но на подходе новая версия, по некоторым параметрам — революционная.
Есть четыре видео от bolega, где он подробно рассказывает что и как. Я сам пока только два видео посмотрел.
 
Все ждут новую версию СК.

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 22:03 19-05-2022 | Исправлено: asku, 22:13 19-05-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku
вы не обольщайтесь, трудоёмкость чистки книги от марашек раз в пять больше чем обычная чистка от мелкого мусора.  
Если не в пятьдесят.
 
Замена букв тоже не чай с сахаром пить. Мало кто этим будет заниматься в итоге.

Всего записей: 3047 | Зарегистр. 15-07-2010 | Отправлено: 06:58 20-05-2022
italia57

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Мало кто этим будет заниматься в итоге

 
Я и буду )))

Всего записей: 16 | Зарегистр. 25-11-2020 | Отправлено: 07:07 20-05-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Новая версия 6.75
 
программа
https://workupload.com/file/kJ5ujuvEHKk
 
добавки
https://workupload.com/file/BLuUj5mbpMx
 
примеры (из видеороликов)
https://workupload.com/file/kbWX87A4uLM
https://workupload.com/file/BLpfvda7t44
 
MD5:
ocr2.dll:    102a5e9615a89a06050a5581afb8f6a8
libhunspell.dll:bafe78b545f8055664287196665d3737
fftw3.dll:    dc4160196362c45165665b9ca5ea385b
sk.6.75.exe:    a7990992ff4bf1ce8caa5b8651a7934b
sk6.75.rar:    6d cc ac 55 3b 04 93 c9 4b d4 37 6a fd d6 4c 34
sk6.75-add.rar:    c3 4a a5 aa 83 c9 36 f7 7d 1f db 35 66 19 dd 3e
test-sk2.zip:    f3 a9 08 78 6c 11 e1 41 be 33 ff 05 5e 55 e1 35
testnb.zip:        1b d1 40 aa e1 a0 07 52 67 64 97 28 f4 d0 00 c9
 
По сравнению с видео добавились незначительные изменения. Чтобы не запутаться в опциях операций замены букв и чистки марашек (которые разбросаны по разным местам), рекомендую использовать для начала команду-помощник: OCR replace option's helper (как вызвать, описано в whatsnew).
 
Важные замечания:
1. Если используете для ocr FR, отключайте перед распознаванием в нем все улучшалки. В противном случае координаты букв не будут соответствовать реальному их положению на обработанном скане. Надо сказать, что они часто и так не соответствуют, но к счастью разница несущественна (1-3 пикселя).
2. Используйте самую последнюю версию ParserFR от NME.
3. Не используйте пока новый режим Outside letters mode (на момент снятия ролика его еще не существовало) при использовании ocr от FR. Я обнаружил, что  из-за небольшого несоответствия координат могут ложно подсвечиваться края букв. В ближайшее время я поменяю алгоритм, чтобы избежать этого.  
 
Всем
Не используйте в версии 6.75 опцию overwrite original scans after rotate в диалоге DRAFT!
Это приведет к повреждению исходных сканов, если их dpi>300 и они в любом формате, кроме jpg
 

Всего записей: 4430 | Зарегистр. 09-09-2002 | Отправлено: 08:34 20-05-2022 | Исправлено: bolega, 13:25 10-06-2022
italia57

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Спасибо за подарок на день рождения!)

Всего записей: 16 | Зарегистр. 25-11-2020 | Отправлено: 11:29 20-05-2022
Benoni



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
Спасибо!

Всего записей: 1788 | Зарегистр. 15-06-2006 | Отправлено: 12:21 20-05-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Если кто не в курсе,
то парсер версии 2.3.1 берётся в ветке утилит от NME:
http://forum.ru-board.com/topic.cgi?forum=5&topic=38467&start=580
 
Прямая ссылка:
https://disk.yandex.ru/d/QLj2Wq1tjvHm8w
 
одно из изменений:  
"убрал лимит в 100 страниц на файл "result*.bookmarks" по-умолчанию.. теперь при запуске без параметров будет создаваться один файл result.bookmarks на всю книгу"

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 14:36 20-05-2022 | Исправлено: daa2013, 14:40 20-05-2022
italia57

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Не вьезжаю, как подключить ФайнРидер к СК6.75?
Парсер12 я скачал. Файлы дополнительные расположил в той же папке что и СК.  
 
При нажатии на OCR page вылезает  
OCR file not found!
 
Обьясните пожалуйста, чайнику, на пальцах как подключить ФайнРидер15 на пальцах к новому СК?
 
Где найти эту папку c временными файлами FR?

Всего записей: 16 | Зарегистр. 25-11-2020 | Отправлено: 14:49 20-05-2022 | Исправлено: italia57, 15:09 20-05-2022
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)
Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru