Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v6.97 | ScanKromsator v6.91 |
 ScanKromsator v6.8 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: mvk2006, 21:12 04-08-2023
serg28serg



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
Цитата:
Попробуйте продолжить последовательность:
11. File > Create out task
12. В out-task задаем output format=pdf, задаем имя файла, ставим галку на Add ocr
13. Генерим pdf: т.е. process all или для проверки process current page
На выходе будет pdf с OCR слоем.

продолжаю
11. File > Create out task
12. в вкладках под файлами - в Files задаем имя выходного PDF - PDF Name :  myfirstOCR (или имя какое придумаем) .
13. так же в  вкладке Files задаем Output format : PDF  
14. в вкладке PDF отмечаем обязательно галочку Add OCR (только в SK6.8 или старше)
15. Сохраняем task (не проверял есть ли автосохран)
16. Жмем уже "главную кнопку" в верхней морде "Process!"
и смотрим результат
(указал минималку что нужна для OCR PDF , остальное естественно по желанию и хотелкам)

пример уже копипаста из результирующего PDF в Word
 
добавлю :
на какой то странице может происходить ошибка преобразования  и дальнейшее преобразование в текстовуху не происходит - может быть только  треть документа будет с OCR - как повезет. лога нет - поэтому причина не ясна, надо будет разбираться как обходить.

Всего записей: 165 | Зарегистр. 03-08-2003 | Отправлено: 12:25 25-11-2022 | Исправлено: serg28serg, 15:17 25-11-2022
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
Добрый вечер. Такой вопрос.
 

 
В проекте есть текстовый слой (из файнридера). Выделяю часть скана (см. рис). Можно этот выделенный кусок (т.е. не отдельный глиф, а целый кусок скана) поместить в библиотеку глифов.
А трудно ли сделать так, чтобы из выделенного рамкой куска в библиотеку помещались скопом отдельные глифы, захваченные рамкой? Я не знаю, понятно ли задал вопрос.
 
И второй вопрос.
 

 
Выделяю рамкой часть скана, нажимаю показ ошибочных слов (по Hunspell-словарю) и СК выдает их список. Но это список неизвестных словарю слов всей страницы.  
А трудно ли сделать так, чтобы СК выдавал список только тех неизвестных слов, которые входят в выделенную рамку? Т.е. если выделенной рамки на странице нет, то выдается список всех слов, а если выделенная рамка есть, то только список неправильны «рамочных» слов.

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 01:02 26-11-2022 | Исправлено: asku, 01:06 26-11-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku
ОК, учту
 
В свете последних выявленных проблем с ocr-слоем в pdf вы такое у себя не замечали? Т.е. пропадание слоя на некоторых страницах

Всего записей: 4434 | Зарегистр. 09-09-2002 | Отправлено: 10:11 26-11-2022
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
Нет, такого не замечал. Пдф со слоем в СК я делал раза два-три, но это было в порядке эксперимента, то есть текстовый слой я внимательно не проверял.
 
По поводу группового занесения глифов из выделенной зоны (мое предыдущее сообщение здесь). Я как-то писал здесь, что хорошо бы иметь в СК возможность автоматической сортировки глифов в алфавитном порядке. Тогда работа по созданию библиотеки глифов очень ускорилась бы — скопом заносятся глифы, потом сортируются, и сразу видно каких глифов ещё не хватает в библиотеке.

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 12:27 26-11-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
текстовый слой я внимательно не проверял

Вот это и плохо. Все чего-то хотят, но помочь отловить баги готовы немногие  
(просто репорт не в счет)

Всего записей: 4434 | Зарегистр. 09-09-2002 | Отправлено: 13:20 26-11-2022
xMARx

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Вот это и плохо. Все чего-то хотят, но помочь отловить баги готовы немногие  

__А что требуется? Я вчера в 10.21 выложил ведь проект с этой проблемой.

Всего записей: 66 | Зарегистр. 22-06-2009 | Отправлено: 14:27 26-11-2022 | Исправлено: xMARx, 14:30 26-11-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xMARx

Цитата:
Я вчера в 10.21 выложил ведь проект с этой проблемой.

У меня в новой версии не воспроизвелось. Получился pdf с нормальным ocr-слоем на всех страницах.
А вот попробовал в версии 6.8 - действительно какие-то проблемы.
Возможно, что я что-то исправил с тех пор, и баг исчез. Буду надеяться, что проблема уже решена.
 
asku
Сортировку глифов уже сделал

Всего записей: 4434 | Зарегистр. 09-09-2002 | Отправлено: 16:25 26-11-2022
xMARx

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
У меня в новой версии не воспроизвелось. Получился pdf с нормальным ocr-слоем на всех страницах.
А вот попробовал в версии 6.8 - действительно какие-то проблемы.
Возможно, что я что-то исправил с тех пор, и баг исчез. Буду надеяться, что проблема уже решена.
 

__А когда, если не секрет, будет доступна новая версия?
ЗЫ: Что насчёт проблемы с зумом в окне RV?

Всего записей: 66 | Зарегистр. 22-06-2009 | Отправлено: 16:35 26-11-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
В  версии 6.8 и младше при ocr с помощью тессеракт СК автоматически помечает слово с символом дефис в конце как слово с переносом. Отменить это невозможно.  
Если ocr от FR, то там иначе - слова помечаются как слова с переносом только если FR поставил в конце слова символ мягкого переноса. Это позволяет управлять флагом "перенос" просто заменяя мягкий перенос на дефис, и наоборот.
В новой версии при использовании тессеракт я хочу предусмотреть 2 варианта:
- оставить как есть, но дефис автоматически менять на мягкий перенос.  
- вообще не искать и не помечать переносы при выполнении ocr. А эту возможность перенести в функционал Find/Replace, в котором этот процесс сделан более управляемым.
Чем хорошо использование мягкого переноса? Тем, что поиск по ocr слою что в pdf, что в djvu будет корректно работать по словам, напечатанным с переносом.  
 
И еще в новой версии корректнее подсвечиваются и добавляются в слой буквицы. Актуально только для FR, т.к. только он правильно их детектирует.
 
Добавлено:

Цитата:
Что насчёт проблемы с зумом в окне RV?

исправлю

Всего записей: 4434 | Зарегистр. 09-09-2002 | Отправлено: 16:46 26-11-2022
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Автор программы (уважаемый boiega) обещает новую версию программы с созданием окр джву через Кромсатор. Если это так, то хотелось бы, чтобы в Кромсаторе можно было делать всё: менять страницы уже в готовом джву (например, я делаю книги из сканов, где обложка и цветные страницы расположены внизу папки, в начале делаю джву, не перемещая страницы,а уже вставляю страницы на место с помощью программы Эдитор про) , добавлять страницы в готовый джву-файл (бывает такое, что при просмотре изготовленного джву замечаешь что в одной странице, например, забыл удалить мусор,  в этом случае, чтобы не создавать заново весь файл джву, переобрабатываю одну страницу, кодирую её в джву с помощью джву смол, вставляю в джву файл и удаляю бракованную страницу с помощью Эдитор про), а так же делать электронное оглавление непосредственно в Кромсаторе, чтобы была полноценная самодостаточная программа, не требующая  вспомогательных программ для полного цикла создания книги (джву и пдф).

Всего записей: 666 | Зарегистр. 23-05-2021 | Отправлено: 19:39 26-11-2022 | Исправлено: kamenkapenza, 10:48 27-11-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Обнаружил следующий баг.
 
Сделал автозамену, отлавливаю слова с ocr-ошибками. н/п
Т.е. вместо он - оп,  вместе не - пе   и т.д.
В режиме ocr find   такое по всему тексту нашел, вижу в окошке список слов. Иду по нему и вклеиваю правильные глифы на место неправильных.
В списке слова с указанием страниц, откуда они пришли. Что-то типа:
p21: пе
p23: оп
 
Вот теперь собственно баг:
на странице 23 я вклеил правильное Н, затем кликаю по слову "пе" с 21 страницы, и происходит перелистывание на эту 21-ю страницу без предложения мне сохранить изменения на 23-й.
То есть то, что я там глиф вклеил, просто теряется.  
 

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 07:38 27-11-2022
ilynov2011

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Кажется, в версии 6.8 пропала очистка зоны страницы, выделенной рамкой,- то, что раньше работало при нажатии клавиши Delete.

Всего записей: 1 | Зарегистр. 27-11-2022 | Отправлено: 19:01 27-11-2022
Ladina



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Оцениваю свои возможности по переделке пдф.) Левый разворот с нормальными полями, а правый обрезан по самые буквы. А поля можно прибавить в Сканкромсаторе?

Всего записей: 695 | Зарегистр. 28-01-2012 | Отправлено: 15:22 29-11-2022
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Ladina

Цитата:
А поля можно прибавить в Сканкромсаторе?

Что делать, если ScanKromsator не делает то, что хотелось бы...

Всего записей: 6972 | Зарегистр. 14-01-2005 | Отправлено: 15:46 29-11-2022
xMARx

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Вот это и плохо. Все чего-то хотят, но помочь отловить баги готовы немногие  
(просто репорт не в счет)

__Не получается распознать текст на выходном изображении, вылетает ошибка.  Задание, содержащие исходный разворот и выходной обработанный файл прикладываю.  
 
ошибка
 
задание

Всего записей: 66 | Зарегистр. 22-06-2009 | Отправлено: 17:14 01-12-2022 | Исправлено: xMARx, 17:24 01-12-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xMARx
похоже, дллка брешет на жирном тексте.

Всего записей: 3048 | Зарегистр. 15-07-2010 | Отправлено: 19:09 01-12-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
похоже, дллка брешет на жирном тексте.

Я провел эксперимент.
Вы правы, если сделать утоньшение хотя бы с радиусом=1, то все проходит успешно. Еще способ - обмануть тессеракт, указав ему, что dpi=300, а не 600, почему этот трюк помогает, я не знаю. Причем при утоньшении ошибок распознавания меньше.
Я учту это в СК, чтобы при такой ошибке он автоматом переходил на временный костыльный  вариант.
Кстати, утоньшение (thining) - новая опция обработки в СК, а также как фильтр для интерактивного применения в окошке image adjustments VR.
 
xMARx
Спасибо!
 
daa2013

Цитата:
Обнаружил следующий баг.  

исправил
 
kamenkapenza

Цитата:
например, я делаю книги из сканов, где обложка и цветные страницы расположены внизу папки, в начале делаю джву, не перемещая страницы,а уже вставляю страницы на место с помощью программы Эдитор про

никак не пойму, почему не хотите это сделать в out-задании перед тем как делать djvu. Т.е.  сначала перенести обложку на первое место (даже команда для этого есть в КМ списка файлов в MW - move to top), потом уже запускать визард.
 

Цитата:
в этом случае, чтобы не создавать заново весь файл джву, переобрабатываю одну страницу, кодирую её в джву с помощью джву смол, вставляю в джву файл и удаляю бракованную страницу с помощью Эдитор про

Так не рекомендую делать, т.к. будет пухнуть размер файла из-за того, что для новых страниц создается свой собственный словарь. Оптимальнее полностью перегенировать djvu, чтобы получить единый словарь.
 
Добавлено:

Цитата:
ЗЫ: Что насчёт проблемы с зумом в окне RV?

исправил

Всего записей: 4434 | Зарегистр. 09-09-2002 | Отправлено: 21:07 01-12-2022
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
При клонировании участков (чистка обложки) не удается отделить один квадрат от другого. Вот тут я мучаюсь напрасно. https://disk.yandex.ru/i/T1ZQ_AnD67a76A
 
Добавлено:

Цитата:
в этом случае, чтобы не создавать заново весь файл джву, переобрабатываю одну страницу, кодирую её в джву с помощью джву смол, вставляю в джву файл и удаляю бракованную страницу с помощью Эдитор про
 
Так не рекомендую делать, т.к. будет пухнуть размер файла из-за того, что для новых страниц создается свой собственный словарь. Оптимальнее полностью перегенировать djvu, чтобы получить единый словарь.

 
bolega, спасибо! Про это понял.
 

Цитата:
никак не пойму, почему не хотите это сделать в out-задании перед тем как делать djvu. Т.е.  сначала перенести обложку на первое место (даже команда для этого есть в КМ списка файлов в MW - move to top), потом уже запускать визард.

Про это не понял, как менять местоположение страниц в Кромсаторе, например, когда их надо перетащить с десятка два (внизу все цветные фото в одном месте, а их надо разнести в разные места книги).    
move to top нажал, тоже не понял, как этим пользоваться.
 В Эдиторе про просматриваемые страницы в полэкрана компьютера; видно, что куда переносить. А во вторых я не меняю имена страниц на входе Кромсатора,т.е. оставляю их так, как их именовал сканировщик, например  1 - 0001-1L, 1 - 0001-2R, чтобы была возможность их найти по этой нумерации в исходной папке, если в каком то скане непорядок. Если мне, например, нужно менять порядок страниц, поставить 0101-1L между 0021-1L и 1 - 0021-2R, то надо будет постараться их увидеть в общем списке. Другое дело,когда я меняю страницы уже в готовом джву. В Эдиторе я их вижу (они визуально большие), плюс нумерация страниц в Эдиторе уже обычная: 1,2,3,4,.. Это очень удобно и быстро.

Всего записей: 666 | Зарегистр. 23-05-2021 | Отправлено: 21:14 01-12-2022 | Исправлено: kamenkapenza, 21:53 01-12-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
При клонировании участков (чистка обложки) не удается отделить один квадрат от другого.

мне помогает включить режим просмотра зон и обратно.
 
bolega
видимо, как-то это связано с порядком следования полноцветных сканов в списке файлов. У меня произошло то же самое, что у каменки, но на специально созданном задании, один листок ЧБ. А если стандартно делать как я делаю, пачка сканов, впереди цветная обложка, то Clone Tool отрабатывал без каких-либо проблем.

Всего записей: 3048 | Зарегистр. 15-07-2010 | Отправлено: 22:25 01-12-2022
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Мне ничего не помогает, несколько раз пробовал всякими способами, переобрабатывал, и ничего. Как то я умудрился удалить нижнюю надпись, и с верхней как то получалось до сброса курсора, потом опять ничего. Придется опять старым дедовским способом: тиф обложки помещать в ирфан вью и там переставлять нужные участки цветов, потом обложку кодироватьв джву смолом и соединять 2 файла джву (обложку и выходное джву после Кромсатора) через Эдитор Про.
Вот тут опять подергался, подрыгался, но результата не достиг. Нажимал все, что можно и нельзя. https://disk.yandex.ru/i/xelVRo1Az93J6A
 
Добавлено:

Цитата:
пачка сканов, впереди цветная обложка

У меня обложка изначально впереди, а всего в книге 52 страницы,но все равно не удалось удалить с марксизма-ленинизма библиотечную наклейку на книге.  
 Эврика! Я понял почему: там скотчем наклейка приляпана, не удается за скотч проникнуть, это всё равно,что по зеркалу двигаться и пытаться на нем закрепиться и тем более с него что-то содрать. ))

Всего записей: 666 | Зарегистр. 23-05-2021 | Отправлено: 22:53 01-12-2022 | Исправлено: kamenkapenza, 23:17 01-12-2022
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)
Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru