Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v6.97 | ScanKromsator v6.91 |
 ScanKromsator v6.8 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: mvk2006, 21:12 04-08-2023
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Кстати насчет разбора и пересбора PDF Кромсатором. Какие особенности PDF приводят к появлению пустых подложек (отсутствующих в исходнике) под страницами выходного файла? Снятие галки с original size/layout улучшает ситуацию, но не отменяет подложки под страницами с зонами картинок. Как от них автоматически избавиться?

Всего записей: 327 | Зарегистр. 10-08-2018 | Отправлено: 16:25 09-09-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Какие особенности PDF приводят к появлению пустых подложек (отсутствующих в исходнике

это пару страниц назад было подробно описано автором. У страницы pdf есть размеры. Также есть размеры объектов на странице, в т.ч. и изображений (картинок). Если не совпадает одно с другим - то будет сгенерирована пустышка-"страница".
Такая логика - необходима. Из-за самой структуры формата pdf.
Я думаю, можно merge применить для выходного файла. Но не пробовал.

Всего записей: 3048 | Зарегистр. 15-07-2010 | Отправлено: 16:39 09-09-2021 | Исправлено: TelecomUral, 16:42 09-09-2021
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Спасибо, ознакомлюсь. А мысль такая - из выходного PDF можно "руками" удалить все подложки без какого-либо вреда для документа, так почему бы не делать это сразу автоматически.
 

Цитата:
Я думаю, можно merge применить для выходного файла. Но не пробовал.

Нене, мердж не подходит, в книжке текст в 600dpi и вырезанные картинки в 300, только все это очень грязно и неаккуратно сделано.

Всего записей: 327 | Зарегистр. 10-08-2018 | Отправлено: 16:46 09-09-2021 | Исправлено: Archivist, 16:49 09-09-2021
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Archivist

Цитата:
Как от них автоматически избавиться?

Галкой в Do not use zone

Всего записей: 6972 | Зарегистр. 14-01-2005 | Отправлено: 16:54 09-09-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Нене, мердж не подходит, в книжке текст в 600dpi

почему? мерджите текст на пустышку.
 
bolega, может сделать специальный вариант импорта под конкретный случай, когда canvas не совпадает с самой большой зоной, но эта большая зона явно единственная? Хотя... нет, не получается. Если картинки тоже будут в 600, то автоматике не разобраться.
 
upd
хотя лично я во всех неадекватных случаях импорта делаю экспорт в тиффы попплером или акробатом, и уже их гружу в СК. Как правило это много проще оказывается. Лучше уж заново выделить картинки чем мудохаться в их импортированных слоях. Иногда та-акое встречается!

Всего записей: 3048 | Зарегистр. 15-07-2010 | Отправлено: 16:58 09-09-2021 | Исправлено: TelecomUral, 17:01 09-09-2021
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
хотя лично я во всех неадекватных случаях импорта делаю экспорт в тиффы попплером

Я тоже так обычно делаю, но в данном случае придется картинкам апскейлиться до 600dpi, чего не хотелось бы.

Всего записей: 327 | Зарегистр. 10-08-2018 | Отправлено: 17:11 09-09-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
придется картинкам апскейлиться до 600dpi

так вставьте external zone. Я же про экспорт исходных изображений, а не растеризацию.

Всего записей: 3048 | Зарегистр. 15-07-2010 | Отправлено: 17:50 09-09-2021
driver1991

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Можно ли перетаскивать таблицу глифов из одного задания в другое?
 
Ситуация: обрабатываю многотомное издание. Для каждого тома надо делать таблицу глифов? Нельзя ли каким-то образом использовать уже имеющуюся? Никаких указаний найти не смог, поэтому прошу знающих товарищей помочь.

Всего записей: 376 | Зарегистр. 12-09-2011 | Отправлено: 13:59 11-09-2021
gsn13n

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Можно. Рядом с файлом задания - вида Имя.spt находится таблица глифов - вида Имя.skgli... Заменяете таблицу глифов - вида Имя.skgli на вариант из предыдущей обработки. Перезапускаете SK.

Всего записей: 1080 | Зарегистр. 09-04-2007 | Отправлено: 15:08 11-09-2021 | Исправлено: gsn13n, 15:11 11-09-2021
driver1991

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
gsn13n
 
Большое спасибо!!! Через пару дней начну обрабатывать следующий том - надеюсь, будет  чуть полегче.

Всего записей: 376 | Зарегистр. 12-09-2011 | Отправлено: 15:22 11-09-2021
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega

Цитата:
Не понял, нет что? Я же написал алгоритм, вы его отвергли. Насильно мил не будешь.

 
Алгоритм, как оказалось, так себе.
Попробовал на этой и еще одной книге.
 
Пытаюсь получить выровненную картинку страницы по вашему алгоритму, добавляя, предварительно очистив всё, Deskew - безрезультатно. Я понимаю, что выравнивается просто пустая подложка - но вряд ли это кого-то обрадует.... Получается, что попытавшись сделать как я с непустыми подложками и картиночными зонами, можно нарушить макет страницы....
 
Как вообще лучше действовать с перекошенными страницами с ортогональными иллюстрациями? Кажется в вашем видео Ч1 эта проблема обойдена стороной.
 
На втором примере - полученный при импорте инвертированный текст благополучно перешёл в результаты экспорта и книга из чёрно-белой стала бело-чёрной..... Как-то желание экспериментировать дальше уже пропало.....
 
PS - Порча картинок, например на стр. 31 выложенной книги - это особенность люры или это была проблема оригинала?
 

Цитата:
Для каждого тома надо делать таблицу глифов? Нельзя ли каким-то образом использовать уже имеющуюся? Никаких указаний найти не смог, поэтому прошу знающих товарищей помочь.

 
Может для таких целей создание шрифта Сканфонтом лучше подойдёт..... При обильной запечатке перетаскивать символы мышкой - не самое удачное решение.

Всего записей: 3674 | Зарегистр. 17-09-2001 | Отправлено: 15:50 11-09-2021
driver1991

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
niccolo
 

Цитата:
Может для таких целей создание шрифта Сканфонтом

 
Вы имеете в виду scanfont? Можно поподробнее?
 
Здесь: https://disk.yandex.com/d/OZrDI6_mN5rkqw
 
я выложил задание с четырьмя страницами - сканы с обработкой - может быть кто-нибудь сможет помочь и указать, как можно улучшить результат.

Всего записей: 376 | Зарегистр. 12-09-2011 | Отправлено: 16:34 11-09-2021 | Исправлено: driver1991, 17:05 11-09-2021
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Вы имеете в виду scanfont

 
Да её. Создаёте шрифт по литерам вашей книги и далее спокойно запечатываете дефекты без всякого геморроя.
 
Касательно данной книги - последовательность действий может быть такой - распознавание - Сохранение в ПДФ и далее правка ПДФ с созданным шрифтом в FR PDF 15. Получается ТЕКСТ в оригинальном макете.
 
 
Если нужен вариант в графике - запечатываете дефекты в векторном графредакторе....
 
Учитывая трудозатраты на подготовку (создание шрифта) - такой подход имеет смысл в ограниченном числе случаев, когда  требуется масштабная запечатка и нужно сохранить оригинальный вид (что по файлам явно не ваш случай)

Всего записей: 3674 | Зарегистр. 17-09-2001 | Отправлено: 20:22 11-09-2021
Benoni



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
driver1991
В таблице глифов на закладке Preferences внизу есть Load glyphs. Нажмите эту кнопку и укажите путь к уже имеющийся таблице глифов. Она появится в данной таблице глифов со знаком +.

Всего записей: 1788 | Зарегистр. 15-06-2006 | Отправлено: 22:43 11-09-2021 | Исправлено: Benoni, 22:45 11-09-2021
driver1991

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
niccolo
 
Книги - это 90-томное собрание сочинений Льва Толстого. Я хочу его оцифровать, пару месяцев назад закончил сканрование всех томов, теперь продолжаю обрабатывать сканы. Но получается не очень гладко, книги старые, страницы покороблены, грязные и все такое прочее.
 
Я не работал с этими программами, поэтому придется знакомиться. Если учитывать еще очистку страниц, то объем работы  - мало не покажется. Спасибо зо помощь. Сначала все-таки надо прикинуть - что надо делать и что только пожелание. Интересно все же, что можно сделать в СК, можно ли улучшить результаты.
 
Benoni
 
Спасибо за указание, Я до сих пор работал с версией 5.96.2. Надо, конечно, пользоваться новыми версиями, а не цепляться за старое.
 
Еще раз спасибо.

Всего записей: 376 | Зарегистр. 12-09-2011 | Отправлено: 22:58 11-09-2021 | Исправлено: driver1991, 23:12 11-09-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
driver1991

Цитата:
Книги - это 90-томное собрание сочинений Льва Толстого. Я хочу его оцифровать, пару месяцев назад закончил сканрование всех томов, теперь продолжаю обрабатывать сканы. Но получается не очень гладко, книги старые, страницы покороблены, грязные и все такое прочее.  

Там основная проблема - тончайшие перемычки. По хорошему надо было опробовать посканить в 600dpi с последующей обработкой в 1200 ч/б. Возможно, получилось бы получше.  
Попробовал их вытянуть, получилось немного лучше, но грязи добавилось. Трудный случай. Вот пример: https://workupload.com/file/AyFs8Hb93W6
Первая страница из вашего задания, вторая моя проба на основе вашего.

Всего записей: 4434 | Зарегистр. 09-09-2002 | Отправлено: 10:58 12-09-2021
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Книги - это 90-томное собрание сочинений Льва Толстого. Я хочу его оцифровать, пару месяцев назад закончил сканрование всех томов, теперь продолжаю обрабатывать сканы.

 
 
Они же оцифрованы давно!

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 11:01 12-09-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Про копирование глифов вам уже правильно подсказали. Добавлю, что их еще можно через карман копировать из одного открытого задания в другое (copy-paste). По одному либо скопом.
Напомню еще, что можно создавать несколько закладок глифов. Перемещать глифы между закладками тоже можно, либо через copy/paste, либо проще перетянуть выделенные глифы мышкой на имя другой закладки.

Всего записей: 4434 | Зарегистр. 09-09-2002 | Отправлено: 11:04 12-09-2021
driver1991

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
 
Прежде всего - спасибо за ответ.
 
Там тонкие перемычки на не очень хорошей бумаге (скажем так). Пересканировать все с разрешением 600 дпи - довольно много работы, но пару станиц я сделаю, чтобы попробовать. Посмотрю результат. Из-за тонких перемычек приходится увеличивать порог бинаризации, что не всегда есть хорошо.
 
В версии 6.71 есть команды Blur2 и Sharpen2 - они, кажется, тоже улучшают. Ну, а грязи там достаточно всегда - это уже с книг идет, поэтому там вручную чистить и чистить.
 
С глифами теперь все ясно.

Всего записей: 376 | Зарегистр. 12-09-2011 | Отправлено: 11:26 12-09-2021 | Исправлено: driver1991, 11:27 12-09-2021
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
driver1991

Цитата:
Из-за тонких перемычек приходится увеличивать порог бинаризации, что не всегда есть хорошо.  

Да, поэтому я задал в опциях увеличивать порог только для букв "и" и "н". Плюс включил контурную резкость, это улучшило завитушки у букв. Blur2 и Sharpen2  тут ничем не помогут.
 

Цитата:
Там тонкие перемычки на не очень хорошей бумаге  

Там шрифт такой, дореволюционные шрифты были с такими тонкими перемычками.
Да и бумаге уже наверно больше ста лет...

Всего записей: 4434 | Зарегистр. 09-09-2002 | Отправлено: 12:26 12-09-2021
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)
Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru