Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v6.97 | ScanKromsator v6.91 |
 ScanKromsator v6.8 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: mvk2006, 21:12 04-08-2023
xMARx

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
__Здравствуйте. Наткнулся на ситуацию, в которой СК (версия 6.8) неправильно распознал букву "д" и перепутал ее с "ц". Если бы буква "д" выглядела бы совсем плохо, то неточность была бы вполне объяснима. Но с ней, вроде, все ок. Для распознавания применяю тессеракт.
__Задание прикладываю . Deskew и despeckle в данном случае отключены ( исходный файл есть обработанное изображение, которое я снова скормил СК).
 
Участок обработанного изображения, на котором не удалось распознать букву "д"   https://transfiles.ru/ix4wt
Проект   https://wdfiles.ru/86b622e.  (эту ссылку поправил)
 
__Если в окне RV удалить нижние и верхние строки текста, то СК нормально распознает букву "д", но "Ж" перед ней будет большая.
ЗЫ: если на букве нажать ПКМ, далее   change letter to... , то там можно будет выбрать букву "д".

Всего записей: 66 | Зарегистр. 22-06-2009 | Отправлено: 18:39 09-01-2023 | Исправлено: xMARx, 19:12 09-01-2023
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ну дык это ж тессеракт так распознал, пишите об этом его разработчикам
 
Добавлено:
распознавание FR попробуйте, раз тессеракт лажает.
у тессеракта в СК аж три метода , попробуйте Combined

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 19:53 09-01-2023
xMARx

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
ну дык это ж тессеракт так распознал, пишите об этом его разработчикам

__Да я хотел на проблему с тессерактом указать, не более того. Но, признаться честно, ветку хорошо не изучал. Возможно эти проблемы уже тут обсуждали, и ничего полезного в моем посте нет...  
 

Цитата:
у тессеракта в СК аж три метода , попробуйте Combined

 
__Спасибо за совет. Надо будет посмотреть.

Всего записей: 66 | Зарегистр. 22-06-2009 | Отправлено: 20:19 09-01-2023 | Исправлено: xMARx, 20:27 09-01-2023
bearjrgm



Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору

Цитата:
Добавлено:
распознавание FR попробуйте, раз тессеракт лажает.

 
ФР тоже лагает, особенно на шахманой нотации, например, Cc6 и Се5 легко становятся Ceб. Я уже молчу про ході в которых f, которая лекго превращается в Г, 1 и еще во много что. Я так понимаю, там или тренировать нужно его, или словари дополнять.
 
Так что ФР не совсем панацея.

Всего записей: 783 | Зарегистр. 03-07-2005 | Отправлено: 14:07 12-01-2023
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
bearjrgm
оффтоп

Всего записей: 6970 | Зарегистр. 14-01-2005 | Отправлено: 14:14 12-01-2023 | Исправлено: shch_vg, 14:18 12-01-2023
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Кстати, реализовал просьбу

Цитата:
А может вообще дать пользователю возможность это редактировать ? Импортировать некую "таблицу замен" взамен дефолтной, а потом, когда не надо сбросить обратно. Иногда такие вычурные сбои бывают. И регулярные притом.  UPD: для данной конкретной книги регулярные, что-нибудь типа   "з-ц"

 
Добавлено:
Кстати, половина из тех, кому я отправил ссылку на тестовую версию, даже не стали ее скачивать. Очевидно, тестировать придется самому. Но на это уйдет как минимум месяца три, сейчас я сильно загружен другими делами.

Всего записей: 4428 | Зарегистр. 09-09-2002 | Отправлено: 16:46 12-01-2023
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Вдогонку: файл с шаблонами sk_templates.txt нужно положить в папку с sk.exe.
Можно добавлять в файл  свои собственные шаблоны. Синтаксис кратко описан внутри. Кодировка файла значения не имеет (ANSI, UTF8, Unicode)

Всего записей: 4428 | Зарегистр. 09-09-2002 | Отправлено: 20:03 12-01-2023
Simonthe

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Редактирование руководства:
Попытка объединить найденные печатные руководства.
Версия на суд/обсуждение/дополнение.
смотреть  
Остальные комментарии в файле.

Всего записей: 45 | Зарегистр. 17-12-2009 | Отправлено: 00:44 13-01-2023 | Исправлено: Simonthe, 03:33 13-01-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Simonthe
Еще лучше было бы собрать ответы bolega с момента окончания сбора списка "1000 ответов...". Он аж 2016 года. И не только  в этой ветке их собрать.
Зачем было переводить многомерный chm в линейную простыню, непонятно. Неудобно крутить, трудно читать.
 
Схемка хороша. Прям душа радуется, я такие рисунки люблю. Компактно и наглядно.

Всего записей: 3045 | Зарегистр. 15-07-2010 | Отправлено: 07:34 13-01-2023
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bearjrgm

Цитата:
ФР тоже лагает, особенно на шахманой нотации, например, Cc6 и Се5 легко становятся Ceб.

В СК при подключении ocr можно такие ошибки отлавливать через Find с регуляркой:
([КК][рр]|[ФПСCКK])[ceсе]б
Типичные шаблоны поиска можно заранее занести в файл шаблонов и вызывать при необходимости. Это конечно имеет смысл делать, если внедрять ocr слой в djvu/pdf через СК.  
 

Всего записей: 4428 | Зарегистр. 09-09-2002 | Отправлено: 12:04 13-01-2023 | Исправлено: bolega, 12:06 13-01-2023
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Кстати, половина из тех, кому я отправил ссылку на тестовую версию, даже не стали ее скачивать.

Вот такие неблагодарные... (слово можно добавить любое ругательное, по вкусу )) )
 А зачем тестировать последующую версию с правом использования (тестирования) её "избранными"?  
 
Нужно просто после каждой конверсии программы указывать в шапке ссылки две ссылки: на "обкатанную" (прижившуюся) версию программы и на последнюю экспериментальную. Во-первых это было бы справедливо (могли бы скачать не только лучшие друзья (которым иной раз некогда попробовать), но и не совсем друзья )), обычный народ. И,во-вторых, может, даже от гласа и действий народа будет пользы больше, чем от касты избранных.  
И, в третьих, дать возможность стимулировать труд автора: предоставить реквизиты донатизации. Каждое доброе стремление должно приносить радость творчества, в том числе и материальную.
И,в четвертых, (в восьмой раз про это говорю, про это архиважное дело): начинать процесс внесения программы в народ: академические видеоуроки для рабоче-крестьянского класса. Содержимое видеоуроков использовать для редактирования Хрестоматии. В видеоуроках указывать реквизиты помощи автору,чтобы польза была взаимовыгодная.  
 Всё это вышесказанное будет всем на пользу.
 
С наступающим Новым годом (по старому стилю), друзья !!!
 





флуд

Всего записей: 666 | Зарегистр. 23-05-2021 | Отправлено: 12:35 13-01-2023 | Исправлено: Maz, 20:59 13-01-2023
Simonthe

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral, вы писали:

Цитата:
Еще лучше было бы собрать ответы bolega с момента окончания сбора списка  

 
Комментарии
 
Добавлено:

Цитата:
Зачем было переводить многомерный chm в линейную простыню, непонятно. Неудобно крутить, трудно читать.

Для удобного просмотра в Lib.Off. есть оглавление - навигатор. там все рубрики видны.

Всего записей: 45 | Зарегистр. 17-12-2009 | Отправлено: 15:27 13-01-2023
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku обнаружил серьезный баг, возникающий при какой-то из операций по изменению теста. Портятся координаты букв, сильно портятся. Причину этого я пока не выяснил. В связи с этим рекомендую пока функционалом ocr (точнее, его корректировки) не пользоваться.

Всего записей: 4428 | Зарегистр. 09-09-2002 | Отправлено: 23:07 13-01-2023 | Исправлено: bolega, 23:08 13-01-2023
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Причину бага нашел.  
Если была корректировка ocr-текста, при которой:
- удалялись буквы
- на одной странице изменялось более одной буквы текста с использованием функции Find/Replace  
то файл focr/tocr непоправимо портился ((
Как правило, портилась информация о буквах (которая используется для глифирования), информация о словах вроде бы не страдала.
Приношу извинения за неудобства, которые этот баг явно доставил.
 
Добавлено:
Это кстати, ответ на вопрос

Цитата:
А зачем тестировать последующую версию с правом использования (тестирования) её "избранными"?  


Всего записей: 4428 | Зарегистр. 09-09-2002 | Отправлено: 16:03 14-01-2023
VadimirTT



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Новый Мир за 1926-й год.
Какие параметры надо, что бы текст был синий, без фона? Никак подобрать не могу.
Ссылка
Кстати, идёт непрерывный поток сканов, от imwerden.de, может кто, если есть время, может помочь обрабатывать.

Всего записей: 2870 | Зарегистр. 22-03-2005 | Отправлено: 16:58 14-01-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
VadimirTT
Новый Мир за 1926-й год.
Какие параметры надо, что бы текст был синий, без фона? Никак подобрать не могу.

DPI Default (чтоб 600 как у книги на выходе)
Color B|W
внизу Threshold = Auto
На закладке Paint уберите галку Background  и tolerance =0 везде. Это просвечивание, оно не требуется если под зоной чисто.
 
Но результат поганый. Никогда такого скана не видел, чтоб с муарчиком-мусором от джипега именно на синем. Прямо образчик в какую-нибудь энциклопедию.
 
Андрей (imwerden) всегда норовит сделать очень плохие сканы.

Всего записей: 3045 | Зарегистр. 15-07-2010 | Отправлено: 17:38 14-01-2023
VadimirTT



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Андрей (imwerden) всегда норовит сделать очень плохие сканы.

Это не его, а от гуманитариев из издательства НМ.

Всего записей: 2870 | Зарегистр. 22-03-2005 | Отправлено: 17:54 14-01-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
VadimirTT
не знаю... но с этим файлом что-то не то. Приближая, синее пропадает. Возникают вертикальные муарные полоски.

Всего записей: 3045 | Зарегистр. 15-07-2010 | Отправлено: 19:16 14-01-2023
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
VadimirTT
А зачем здесь вообще пикчер-зона?
Почему текст строки должен отличаться по цвету от остальных строк?
Грязная строка?

Всего записей: 6970 | Зарегистр. 14-01-2005 | Отправлено: 22:45 14-01-2023 | Исправлено: shch_vg, 22:47 14-01-2023
VadimirTT



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Почему текст строки должен отличаться по цвету от остальных строк?

Ну, они же там синие. Почему, откуда мне знать.

Всего записей: 2870 | Зарегистр. 22-03-2005 | Отправлено: 22:48 14-01-2023
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)
Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru