Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v6.97 | ScanKromsator v6.91 |
 ScanKromsator v6.8 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: mvk2006, 21:12 04-08-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
гораздо разумнее создать субтаск

нет, я не вижу тут разума.

Всего записей: 3059 | Зарегистр. 15-07-2010 | Отправлено: 22:20 10-07-2022
sirius12

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013

Цитата:
tessdata сидит внутри папки SK 6.00.5  / SK 6.71,
tessdata2  - внутри папки SK 6.75.5
 
Они друг другу не мешают, ничего удалять не надо

Благодарю, очень толково и понятно.
 
Но, тогда вопрос, зачем они нужны эти две папки из разных версий? Чем они отличаются друг от друга, или какая из них полезнее для практической работы? Спасибо
 
 
 

Всего записей: 15 | Зарегистр. 10-07-2022 | Отправлено: 18:56 11-07-2022 | Исправлено: sirius12, 18:59 11-07-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Насколько я помню объяснения bolega, был сделан переход на новую версию тессеракта.
 
Как минимум, там есть другие алгоритмы распознавания (LSTM).  
Они не всегда лучше работают, чем старые, поэтому внутрь СК даже вшит переключатель (Tesseract/LSTM/Combined)  
 
Понимаю ваше недоумение, так как в файле readme  речь идёт просто о тессеракт, лежащем в tessdata. Без указания версий, что странно. Т.е. неважно, в какой папке файл лежит, главное путь к eng.traineddata  прописать.  К какому ? К тому, что в настоящее время распространяется с СК (а он лежит в папке tessdata2 ! и старая tessdata не нужна.).
 
Я вот теперь уже даже сомневаюсь, можно ли к 6.75.5  старый тессеракт подключить. А если подключить, то как будет себя вести этот переключатель ...

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 19:34 11-07-2022
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А тексты на каких языках может распознавать тесеракт?

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 21:06 11-07-2022
qwaxym



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А тексты на каких языках может распознавать тесеракт?
 

Более 100 языков, включая русский.

Всего записей: 127 | Зарегистр. 19-12-2007 | Отправлено: 21:26 11-07-2022
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Более 100 языков, включая русский.

 
А где можно на этот список посмотреть?

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 21:30 11-07-2022
bearjrgm



Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
asku
 
https://tesseract-ocr.github.io/tessdoc/Data-Files-in-different-versions.html

Всего записей: 783 | Зарегистр. 03-07-2005 | Отправлено: 22:28 11-07-2022
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bearjrgm спасибо. А как можно новый язык добавить, не знаете? Что для этого нужно сделать.
 
 
 
Добавлено:
bolega
 
Вопрос возник по последней версии.

 
Файнридер распознал как фастафдам (вместо лигатуры пишу букву "а", потому что здесь на форуме, лигатура некорректно отображается).
А надо: фаста’рдам. Как можно вместо «ф» написать «’р» ? Я смотрел ваши видеоролики, но вроде конкретно на мой вопрос там ответа нет.
 
А вот здесь возможно баг.

В списке слов-ошибок (по словарю Hunspell) не работает пункт меню Uncheck all. По крайне мере, у меня ничего не происходит.
 
И еще вопрос, точнее пожелание. Нельзя ли сделать так, чтобы можно было сохранять список слов, не найденных в словаре Hunspell в отдельный txt-файл? Вот на второй картинке нажимать правой кнопкой мыши и там чтобы был пункт меню «Сохранить в файл».

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 23:42 11-07-2022 | Исправлено: asku, 23:59 11-07-2022
sirius12

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013

Цитата:
Т.е. неважно, в какой папке файл лежит, главное путь к eng.traineddata  прописать.

Спасибо за объяснение, но у меня еще вопрос: почему надо прописывать путь на eng.traineddata, а не на rus.traineddata или osd.traineddata, чем они отличаются? Спасибо

Всего записей: 15 | Зарегистр. 10-07-2022 | Отправлено: 18:26 12-07-2022 | Исправлено: sirius12, 18:27 12-07-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Извините, а вам не пофиг ?
Потому что разработчик предусмотрел именно так.
 

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 05:33 13-07-2022
sirius12

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013

Цитата:
Извините, а вам не пофиг ?
Потому что разработчик предусмотрел именно так.

Если так рассуждать, то вся жизнь будет пофиг! Вам такая жизнь нужна?  
Поэтому я бы хотел уточнить у Вас, как известного специалиста на форуме, для чего другие аналогичные файлы там имеются? Ведь разработчик не просто так их положил в папку, и они также запускные (*.exe)?
Если, конечно, Вы не знаете, то можете хотя бы дать ссылку, где об этом можно узнать? Спасибо.

Всего записей: 15 | Зарегистр. 10-07-2022 | Отправлено: 15:17 13-07-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
https://tesseract-ocr.github.io/tessdoc/Data-Files.html
 
https://habr.com/ru/company/rosatom/blog/669020/?ysclid=l5jozh0pj7203384545

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 18:50 13-07-2022
sirius12

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Благодарю Вас, daa2013 за ссылки
Наиболее интересная и полезная практически ссылка: https://habr.com/ru/company/rosatom/blog/669020/?ysclid=l5jozh0pj7203384545
Я изучил её, но она дается на примере Линукс-системы, и получается, что для распознавания русских текстов надо подключать rus.traineddata, а для распознавания английского, надо чтобы оба были подключены. Правда как это делать через SK, я пока не представляю себе. В Линуксах там всё проще, потому что делается через командную строку, но в Windows, да еще и через SK… Было неплохо, если бы кто-либо специально выложил бы в данной теме статью о том, как надо правильно пользоваться Тессерактом при работе с SK.

Всего записей: 15 | Зарегистр. 10-07-2022 | Отправлено: 20:47 13-07-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg

Цитата:
Как Вам удалось это найти?  В sk.6.75.whats.new.txt нашел только следующее:  -----------------------------------------------------------  - MW: Новые команды Edit > Zoom > Save current zoom и Restore zoom. Для команды restore на панель команд добавлена отдельная кнопка.

Да, я забыл об этом написать в whats.new. Но вроде бы демонстрировал в первом видео.
 
asku

Цитата:
Как можно вместо «ф» написать «’р»  

В текущей версии нельзя изменить количество букв. Задайте просто «р». Этого хватит для правильной замены глифа.
 

Цитата:
не работает пункт меню Uncheck all

исправил
 

Цитата:
Нельзя ли сделать так, чтобы можно было сохранять список слов, не найденных в словаре Hunspell в отдельный txt-файл

не хочу мороки с выбором файла, записью и т.п.
Поэтому просто сделал копирование в буфер обмена текущего слова, всех слов (т.е. списком построчно) и текста (все слова в одну строчку через пробел). А вы уже сами вставляйте куда хотите: в файл, в другой редактор и т.п.
 

Цитата:
а можно ли в СК сделать функцию поиска слов?

добавил поиск. обычный и через регулярные выражения. Нужно делать опцию "искать слово целиком"? А то с ней морока с учетом символов-разделителей слов.
 
sirius12

Цитата:
почему надо прописывать путь на eng.traineddata, а не на rus.traineddata или osd.

можете выбрать любой файл, хоть eng, хоть rus, хоть что угодно. Главное чтобы все они лежали в одной папке. Потому что важен путь, а не имя конечного файла.
 

Цитата:
зачем они нужны эти две папки из разных версий?

файлы для версий тессеракта начиная с 4 не совместимы с файлами из предыдущих версий 3.Х. При этом имена файлов остались прежними. Версии 4.Х не могут работать с файлами от предыдущих версий. Поэтому приходится хранить их в разных папках. Но если вы никогда не будете пользоваться предыдущей версией СК (которая работает только со старыми файлами тессеракт), то можете старые файлы удалить, если они так мозолят глаза.

Всего записей: 4441 | Зарегистр. 09-09-2002 | Отправлено: 10:28 16-07-2022
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Поэтому просто сделал копирование в буфер обмена текущего слова, всех слов (т.е. списком построчно) и текста (все слова в одну строчку через пробел).

 
А как это делается?
 

Цитата:
добавил поиск. обычный и через регулярные выражения. Нужно делать опцию "искать слово целиком"?

 
Отлично! Этого хватит, если морока.

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 14:18 16-07-2022
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega, еще хотел спросить. Нельзя ли добавить возможность редактирования картинки в этом  
окне (см. рис.) с помощью ластика.
 

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 22:51 16-07-2022
sirius12

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega

Цитата:
можете выбрать любой файл, хоть eng, хоть rus, хоть что угодно. Главное чтобы все они лежали в одной папке. Потому что важен путь, а не имя конечного файла.


Цитата:
файлы для версий тессеракта начиная с 4 не совместимы с файлами из предыдущих версий 3.Х. При этом имена файлов остались прежними. Версии 4.Х не могут работать с файлами от предыдущих версий. Поэтому приходится хранить их в разных папках. Но если вы никогда не будете пользоваться предыдущей версией СК (которая работает только со старыми файлами тессеракт), то можете старые файлы удалить, если они так мозолят глаза.

Вот это - ответ! Толково! Спасибо.

Всего записей: 15 | Зарегистр. 10-07-2022 | Отправлено: 10:57 17-07-2022
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Цитата:
не работает пункт меню Uncheck all
 
исправил


Цитата:
а можно ли в СК сделать функцию поиска слов?
 
добавил поиск. обычный и через регулярные выражения. Нужно делать опцию "искать слово целиком"?

 
Уважаемый bolega, а где скачать исправленную версию? Или эти изменения войдут в следующую версию, которая выйдет позже?

Всего записей: 666 | Зарегистр. 23-05-2021 | Отправлено: 12:51 17-07-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
которая выйдет позже?

именно так

Всего записей: 4441 | Зарегистр. 09-09-2002 | Отправлено: 16:27 17-07-2022
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
 
Есть выделять букву рамкой, то для занесения этой буквы (глифа) в библиотеку есть возможность задать этой операции горячую клавишу (пункт Add glyph to library).
Занести глиф в библиотеку можно и с помощью OCR (пункт Add symbol to glyph library) — тогда глиф уже бывает с готовым значением. Но к сожалению для данной операции нет возможности задать ей горячую клавишу. Нельзя ли это предусмотреть?
 

 
Добавлено:
Кстати, сейчас заметил, что СК некорректно присвоил значения глифам с помощью OCR. До этого вроде все нормально было. Сам текстовый слой тоже правильный. Странно...

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 18:25 17-07-2022
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)
Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru