Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v6.97 | ScanKromsator v6.91 |
 ScanKromsator v6.8 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: mvk2006, 21:12 04-08-2023
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Похоже, в последней версии не работает функция Scan folder monitoring - ни с флажком, ни без флажка не подгружает новые картинки из папки..... Или опять алгоритм поменялся и нужно нажать какую-то волшебную кнопку?

Всего записей: 3677 | Зарегистр. 17-09-2001 | Отправлено: 19:17 05-07-2022
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Панель бинаризации у меня какая то обрезанная. Вот видеоподтверждение, и на версии 6.71 и на 6.75    https://disk.yandex.md/i/2CtaPxFO77Br1Q

Всего записей: 666 | Зарегистр. 23-05-2021 | Отправлено: 21:07 05-07-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
С такими файлами
 
https://www.upload.ee/files/14298772/dictionaryofagri_0457.jpg.html
 
 
что-нибудь можно сделать, чтобы хотя бы качество распознавания поднять ....

Всего записей: 3677 | Зарегистр. 17-09-2001 | Отправлено: 06:16 06-07-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Глифами вручную перенабрать.  
Хорошие страницы, как источник глифов, там есть.

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 07:42 06-07-2022
aylocin

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
В SK 6.75, окно VR, при вставке глифов заметил не полностью корректную, на мой взгляд, работу функции отката изменений (включен режим 'Remove speckles that touch the pasted image'). Возможно, это уже известно, да и не критично.
 Иногда, после вставки глифа и при дальнейшей попытке откатить изменение (по команде Undo/Ctrl+Z), не полностью восстанавливается предыдущее состояние. Часть изображения безвозвратно теряется.
Для воспроизведения можно вставить, например, маленькую 'л' на место большой 'Л', сверху.
См. пример на картинке:

Всего записей: 143 | Зарегистр. 16-12-2005 | Отправлено: 13:34 06-07-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg

Цитата:
Время от времени здесь появляется вопрос, что делать, если уже сделана финализация, а необходимо изменить размеры всех обработанных страниц

Если размер нужно увеличить, то
Result > Resize output files  
 
 
niccolo

Цитата:
Похоже, в последней версии не работает функция Scan folder monitoring - ни с флажком, ни без флажка не подгружает новые картинки из папки.....

Какая версия windows?
Проверил. Работает. Помните, что фича требует, чтобы файлы имели последовательные номера в конце имени (суффикс перед номерами допускается). Допускается нарушение последовательности номера, но не более чем на 3. Мониторинг работает примитивно, он не подхватывает новые файлы, он просто смотрит номер в имени последнего файла в списке СК, и ищет все номера в новых сканах, бОльшие этого номера.
 

Цитата:
что-нибудь можно сделать, чтобы хотя бы качество распознавания поднять ....

такие Motion blur неплохо восстанавливает topaz sharpen
 
aylocin

Цитата:
заметил не полностью корректную, на мой взгляд, работу функции отката изменений

баг нашел, исправлю
 
 
Добавлено:
kamenkapenza

Цитата:
Панель бинаризации у меня какая то обрезанная

странно, на такое еще никто не жаловался
Но вам это ни к чему. Ребинаризация работает только для обработки с включенным automargins. С выключенной опцией я так и не сделал.

Всего записей: 4442 | Зарегистр. 09-09-2002 | Отправлено: 16:15 06-07-2022 | Исправлено: bolega, 16:47 06-07-2022
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Уважаемый bolega!   Вот такая проблема с панелью бинаризации. Ну если в моем случае не работает, тогда ладно.
 

Всего записей: 666 | Зарегистр. 23-05-2021 | Отправлено: 16:45 06-07-2022 | Исправлено: kamenkapenza, 17:11 06-07-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
kamenkapenza
Ребинаризация не работает, если выключена опция обработки automargins (как у вас). К сожалению, пока так...

Всего записей: 4442 | Зарегистр. 09-09-2002 | Отправлено: 17:07 06-07-2022
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega, спасибо! Я понял.
 
 

Всего записей: 666 | Зарегистр. 23-05-2021 | Отправлено: 17:11 06-07-2022 | Исправлено: kamenkapenza, 23:26 06-07-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega

Цитата:
Проверил. Работает.  
 

Не знал о такой особенности - проверял на вытащенных из кэша Вивальди файлах из архива. У них номер посередине имени....
 

Цитата:
такие Motion blur неплохо восстанавливает topaz sharpen

 
Это из архива - в книжке 0,5-1% таких страниц.... Спасибо за информацию. Буду пробовать....

Всего записей: 3677 | Зарегистр. 17-09-2001 | Отправлено: 19:48 06-07-2022 | Исправлено: niccolo, 19:49 06-07-2022
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Друзья! Есть ли в новой версии фиксирование настроек изготовления djvu на панели Create DJVU vizard во вкладке Step2 (BW)? Например, выставить нужные для меня 600 bw, quality  по 100, Text compression quasilossless, зафиксировать это в профиль и в следующий раз входить уже с этими настройками.
А то, может, добрые люди фиксируют как то эти параметры, а я всё по старинке работаю: каждый раз настройки выставляю.

Всего записей: 666 | Зарегистр. 23-05-2021 | Отправлено: 21:43 08-07-2022 | Исправлено: kamenkapenza, 21:44 08-07-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
 
Еще пара мелочей по Usability.
 
1. В окне указания разрешения исходных файлов, которое часто всплывает при работе с JPG, наверное стоит поставить фокус курсора на кнопку ОК.
 
2. Для subtask - ИМХО, наверное стоит сохранять названия выходных файлов, особенно с вашим подходом - не трогать исходники.... В субтаске помучал исходник - получил лучший результат - и просто скопировал его в выходную папку основной задачи. А сейчас приходится восстанавливать номер.
 
3. Для работы со сторонними источниками, у которых нередко обрезаны номера или колонтитулы встречаются пропуски страниц - ИМХО была бы полезной функция автонумерации в нижнем/верхнем поле набором циферок из текста/шрифтом и С ПРИВЯЗКОЙ НУМЕРАЦИИ В ПРОГРАММЕ К НУМЕРАЦИИ В КНИГЕ....
Вводные/оконечные страницы можно нумеровать латинскими/литерами или с добавлением литеры к нумерации....
 
TopazSharpenAI действительно вытягивает сфотографированный расфокусированный текст, снижая количество ошибок распознавания на порядок-полтора. Остаются только ошибки взаимной замены литер. похожих по контуру.
Причём, что странно, вытягивает он не фильтром Defocus, а фильтром Motion Blur (честно говоря, пока до него дошёл, хотел уже бросить это дело)....

Всего записей: 3677 | Зарегистр. 17-09-2001 | Отправлено: 12:12 09-07-2022
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
niccolo

Цитата:
2. Для subtask - ИМХО, наверное стоит сохранять названия выходных файлов

Этот вопрос поднимался уже давно (правда без такого сильного аргумента!), но пока не решен.
В свете предложенного Вами его можно было бы расширить до возможности обратного внедрения информации из spt субтаска в исходный spt.

Всего записей: 6972 | Зарегистр. 14-01-2005 | Отправлено: 15:30 09-07-2022 | Исправлено: shch_vg, 16:00 09-07-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
была бы полезной функция автонумерации в нижнем/верхнем поле набором циферок из текста/шрифтом

поддерживаю. редко, но бывала нужна примерно такая фича. slava_kry мне сразу Иллюстратор советовал

Всего записей: 3059 | Зарегистр. 15-07-2010 | Отправлено: 16:21 09-07-2022
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Есть возможность увеличить размеры значков в панели задач? У меня манюсенькие, у автора программы, многоуважаемого bolega,  в видеоуроках большенькие.
https://ibb.co/cFNv38t
https://ibb.co/khcynFc
Или это зависит от расширения экрана, и размер значков менять нельзя?

Всего записей: 666 | Зарегистр. 23-05-2021 | Отправлено: 18:11 09-07-2022 | Исправлено: kamenkapenza, 18:13 09-07-2022
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
была бы полезной функция автонумерации в нижнем/верхнем поле набором циферок из текста/шрифтом

Цитата:
поддерживаю. редко, но бывала нужна примерно такая фича. slava_kry мне сразу Иллюстратор советовал

Ну, тут в идеале нужен целый конструктор/редактор колонтитулов. Если говорить о PDF, рабочий вариант - делать их в сторонней программе и затем "наклеивать" на основной документ (с помощью PDF-XChange, или аналогичных редакторов). Причем, колонтитулы можно делать любой сложности, хоть с картинками - PDF будет считать 1000 одинаковых колонтитульных картинок за одну.
 
kamenkapenza

Цитата:
Или это зависит от расширения экрана

Только от разрешения экрана.

Всего записей: 329 | Зарегистр. 10-08-2018 | Отправлено: 00:32 10-07-2022 | Исправлено: Archivist, 00:34 10-07-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
В субтаске помучал исходник - получил лучший результат - и просто скопировал его в выходную папку основной задачи

Вообще говоря, звёздочка сохраняет исходное имя.
Но в целом я не понимаю задачу. Зачем субтаск создавать, если можно мучать конкретный файл/файлы сразу в основном задании. И переносить ничего не надо будет. Вас же всё равно не устраивает обработка в основном задании (хотя как раз их и можно временно отложить в копию при экспериментах, если времени жалко на повторную обработку с исходными параметрами). К тому же новые зоны всё равно так не перенести, id собьются. Суб-таск нужен для экспорта в интернет, а для групповой обработки есть subsets.
 
bolega
По-моему, ненормально, если я открыл задание, выделил в списке два файла красным, создал субтаск, закрыл задание... а оно даже не предложило сохраниться

Всего записей: 3059 | Зарегистр. 15-07-2010 | Отправлено: 05:00 10-07-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
звёздочка сохраняет исходное имя.

Мы говорим об имени обработанного SK файла....Обработанные файлы нумеруются с 1 по порядку....
 

Цитата:
Зачем субтаск создавать, если можно мучать конкретный файл/файлы сразу в основном задании.

 
В книге не 1000 страниц пяток страниц размытые (только что пример из жизни). Насколько понимаю, для их ОCR восстановления гораздо разумнее создать субтаск, особенно учитывая то, что в него библиотека глифов переносится по дефолту, или нет?  Это разумно вдвойне учитывая то, что в ФР расстановку блоков/проблемы распознавания исправлять вручную приходится довольно часто, а автор парсера не гарантирует правильный порядок следования текста для таких случаев (всё же для одной страницы вероятность такой проблемы меньше, чем для 200)....
 
Для юзабилити еще неплохо бы вынести на панель кнопки удаления изображений из пакета (третий уровень в меню для такой простой задачи - Special - Delete - Delete Current (or.....) - как-то слишком)  - вставки пустой страницы после выделенной для поддержания совпадения нумерации при обнаружении пропуска страниц....
 
Кстати - сканировщикам/фотографам книг рекомендую запускать сканы сразу на распознавание, чтобы по нумерации/количеству ошибок на странице в подробном или табличном окне пакета в ФР сразу определять возможные пропуски страниц /проблемы с аппаратурой.
 
Вот тут я когда-то в небольшой статье описал КАК
https://www.upload.ee/files/14311988/FineReader.pdf.html
 
И судя по отзывам тогда в топике FR про это многие пользователи ФР не знают.

Всего записей: 3677 | Зарегистр. 17-09-2001 | Отправлено: 12:34 10-07-2022 | Исправлено: niccolo, 12:38 10-07-2022
sirius12

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Прекрасная версия 6,75,5, работает более стабильно на XP. Но вот никак не могу разобраться с применением ParserFR12. В какую папку надо положить этот файл, как его подключить для работы в SK, как следует импортировать при этом для работы в SK OCR из FR. Будет приятно, если кто-то подробно обо всем расскажет. Да, и ещё вопрос: чем отличается tessdata2 от tessdata, который использовался в версии 6,71? Нужно ли после использования версии 6,75,5 удалять папку с tessdata? Спаcибо

Всего записей: 15 | Зарегистр. 10-07-2022 | Отправлено: 16:34 10-07-2022 | Исправлено: sirius12, 16:38 10-07-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Cколько-то страниц назад было видео от болега (про парсер рассказывается внутри части 3).
Надо бы его в шапку засунуть.
 
tessdata сидит внутри папки SK 6.00.5  / SK 6.71,
tessdata2  - внутри папки SK 6.75.5
 
Они друг другу не мешают, ничего удалять не надо

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 17:57 10-07-2022 | Исправлено: daa2013, 19:24 10-07-2022
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)
Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru