Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 5)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100

Открыть новую тему     Написать ответ в эту тему

Maz



Дед Мазай
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть | 4 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v7.00 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


О Хрестоматии 2.1 SK
 
Чтобы русифицировать СканКромсатор
В ini-файле в секции Options должен присутствовать параметр LangInt=1. Вернуть в исходный язык: LangInt=0. Пока русифицировано только MW.
 
ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 39598 | Зарегистр. 26-02-2002 | Отправлено: 21:56 14-09-2023 | Исправлено: TelecomUral, 07:06 04-12-2024
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
а хоткей   Magnifier     это не оно ?

Всего записей: 1174 | Зарегистр. 13-06-2013 | Отправлено: 19:14 08-08-2025
wasp238



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
bolega, почему именно на 50?

 
увеличить Zoom на N %    
 
50% - условно, в идеале чтобы можно указать N
 
- Увидел грязную область
- хоткей > приблизился, почистил
- Ctrl + F > отмаштабировался назад  
- опять увидел и т.д.  
 
 

Цитата:
а хоткей   Magnifier     это не оно ?

daa2013, не оно, это для просмотра.  
 
мне нужно приблизиться к области текста (на указаную величину, допустим на 50 %), почистить и вернуться обратно (Ctrl+F)
Zoom In (Ctrl + Num+) - это оно. Только хочется не клацать 5 раз, а за 1 раз приблизиться к области на которую указывает курсор
(в Rhino 3D есть такая функция - зазумиться на указатель, она ну ОЧЕНЬ удобная, пользуюсь ею постоянно)

Всего записей: 58 | Зарегистр. 27-10-2008 | Отправлено: 11:42 09-08-2025 | Исправлено: wasp238, 14:42 09-08-2025
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
При  джву-кодировании лезет ошибка инь.
 
Нет ли возможности все OCR-ячейки букв "и", "н", "п"  для оут-таска сделать зонами лосслесс кодирования ?

Всего записей: 1174 | Зарегистр. 13-06-2013 | Отправлено: 15:03 10-08-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
daa2013
При  джву-кодировании лезет ошибка инь.

значит, неверно выбрана агрессивность кодера. А это - системная проблема, а не проблема перепутывания конкретных букв.

Всего записей: 3598 | Зарегистр. 15-07-2010 | Отправлено: 03:32 11-08-2025
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
при поднятии уровня неприемлемо растёт размер книги

Всего записей: 1174 | Зарегистр. 13-06-2013 | Отправлено: 05:31 11-08-2025
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
В последней версии СК в качестве источника ocr может выступать непосредственно djvu-файл, но для этого он должен быть переименован в "result.bookmarks" и помещен в подпапку ocr. После обработки СК файл "result.bookmarks" переименовывает в "_result.bookmarks".  У меня недавно спрашивали, нельзя ли djvu оставлять с родным расширением и обойтись без переименовывания в "_...".  
Поясню, почему нельзя. Файл с именем "result.bookmarks" как известно создает утилита NME. Для минимизации действий я оставил имя неизменным, пользователь только должен поместить этот файл в подпапку ocr, где СК его ожидает. Задача команд "ocr output files" и "ocr input files" состоит в получении *.focr-файлов, в которых и будет храниться информация о текстовом слое скана. Для этого СК сначала смотрит, есть ли в подпапке ocr файл с именем "result.bookmarks". Если есть, он начинает "потрошить" его, создавая файлы с именами "resultХХХХХ.bookmarks", где ХХХХХ - номер страницы. После того, как операция разделения закончена, СК переименовывает "result.bookmarks" в "_result.bookmarks", для того, чтобы в следующий раз при вызове команды ocr-files не делать этого по новой, т.к. из всех операций это наиболее затратная. После генерации отдельных "resultХХХХХ.bookmarks"-файлов СК открывает нужный "resultХХХХХ.bookmarks"-файл и извлекает ocr в соответствующий focr-файл. Это очень быстрая операция. Ее можно делать в СК сколько угодно раз.
Если вдруг что-то пойдет в СК совсем не так с ocr-слоем, вы всегда сможете воспроизвести ocr по новой, для этого нужно удалить все resultХХХХХ.bookmarks, переименовать "_result.bookmarks" обратно в "result.bookmarks" и повторно запустить команду получения ocr, в результате *.focr-файлы создадутся по новой.
Единственное, что могу сделать - это разрешить держать исходный djvu еще и в файле с именем result.bookmarks.djvu, и по команде потрошить именно result.bookmarks.djvu. При этом все требования относительно result.bookmarks все равно остаются в силе.

Всего записей: 4732 | Зарегистр. 09-09-2002 | Отправлено: 08:21 11-08-2025 | Исправлено: bolega, 08:30 11-08-2025
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Сейчас буду пытаться это осмыслить. Так как я когда-то предлагал ловить те участки, которые в джву пропадают. Даст ли эта новация такую возможность.  
Но постом ранее я писал об очень простой штуке. Чтобы СК в оут-таск считал из из файлов  focr/tocr координаты ячеек букв "и", "н",  и сделал эти участки зонами безпотерьного кодирования. Джву тут было потрошить не надо. Не исключаю , что это уже даже и реализовано, просто я не в курсе.
 
 
Добавлено:
UPD,  
я могу ошибаться, но мне сейчас помнится, что в джву OCR-слой, штатно сгенерированный в Document Express,  ячеек букв не имеет. Они будут только если джву изначально делался утилитами NME.

Всего записей: 1174 | Зарегистр. 13-06-2013 | Отправлено: 08:53 11-08-2025 | Исправлено: daa2013, 09:07 11-08-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
daa2013
при поднятии уровня неприемлемо растёт размер книги  

Ну тогда совершенно очевидно, что следует засунуть книгу в Файнридер. будет минимальный размер.
Что тут, что сейчас в ветке про редактирование пдф IamDimulya, требуют одного и того же - "чтоб всё было и за это ничего не было"
Это же оптимизационно нерешаемая задача, получить из хреново отпечатанного скана векторный/ужатый текст за условно-бесплатно. Как проектный треугольник - либо медленно, либо плохо, либо дорого. Путаются буквы - юзайте глифы перед кодированием. Замечу, что я так уже пробовал, и выходит такая фигня, смотреть противно. По тексту как пятна идентичных ненормально-неестественных букв "н", например.
 
Повторяю, это системная, обобщённая, проблема, и вы сразу как обычно идёте решать её убого-частным путём. Кодер надо крутить. Не хватает гибкости DEE - используйте какой-то другой.
 
+
Я так припоминаю, у СК ограничение в 100 зон на странице.
 
++
неверно выбраны параметры обработки, например сглаживание. я конечно делал мало, но замечал что от всяких фильтров размер книги - при кодировании квазилосслесс - зависит кардинально. Раз в шесть.

Всего записей: 3598 | Зарегистр. 15-07-2010 | Отправлено: 09:06 11-08-2025 | Исправлено: TelecomUral, 15:37 11-08-2025
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Путаются буквы - юзайте глифы перед кодированием. Замечу, что я так уже пробовал, и выходит такая фигня

Ну так если фигня выходит, то это как раз и значит, что проблемные буквы надо оставить без потерь ....  
 
(Согласен, что менять надо или всё, или ничего. Менять отдельную букву - она скорее всего будет выделяться.
 Исключение - в непропечатанный текст в режиме прозрачности вклеивать утоньшенный вариант буквы, чтобы перемычки восстановить.)

Всего записей: 1174 | Зарегистр. 13-06-2013 | Отправлено: 09:11 11-08-2025 | Исправлено: daa2013, 09:14 11-08-2025
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
я могу ошибаться, но мне сейчас помнится, что в джву OCR-слой, штатно сгенерированный в Document Express,  ячеек букв не имеет. Они будут только если джву изначально делался утилитами NME.

Последняя версия djvuocr (для FR8-9) умеет побуквенно. Кстати, многие оказывается еще пользуются djvuocr, т.к. уважают FR8.
Но даже если слой только пословный, СК довольно точно эмулирует побуквенную разбивку. Я много уже потестировал djvu, сильных огрехов не встретил. По крайней мере ocr из djvu нужен как правило только для расстановки ссылок, т.е. нужны в основном только цифровые слова
 

Цитата:
Нет ли возможности все OCR-ячейки букв "и", "н", "п"  для оут-таска сделать зонами лосслесс кодирования ?

в качестве эксперимента можно попробовать. Зоны не нужны для этого, это можно на лету создавать.
 

Цитата:
смотреть противно. По тексту как пятна идентичных ненормально-неестественных букв "н", например.  

поэтому для глифов я всегда отбираю их в каждой книге по новой, и не стараюсь чтобы они были идеальные. И желательно иметь несколько вариантов с разной жирностью, т.к. если уж дошло дело до глифирования, то там как правило все скачет, не только перемычки, но и жирность. Если у меня возникает дилемма, отсутствие перемычек, или похожесть глифов, я все-таки выбираю второе, т.к. шелудивые буквы смотрятся еще противнее.
 
 
 
 
Добавлено:

Цитата:
Сейчас буду пытаться это осмыслить.  

Вам это вряд ли понадобится. Это для тех, кто использует djvu для создания и внедрения ссылок (и не хочет заново прогонять djvu через FR)

Всего записей: 4732 | Зарегистр. 09-09-2002 | Отправлено: 09:58 11-08-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
bolega
в качестве эксперимента можно попробовать.

должны быть проблемы с пограничными пикселями - контур глифа не совпадает с прямоугольником ocr. Какие-нибудь ошметки либо полезности рядом с опознанной "н".

Всего записей: 3598 | Зарегистр. 15-07-2010 | Отправлено: 10:34 11-08-2025
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
должны быть проблемы с пограничными пикселями  

а это пусть заказчик потом проверит (если сделаю, а это нескоро) и доложит
 

Всего записей: 4732 | Зарегистр. 09-09-2002 | Отправлено: 10:47 11-08-2025
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Хорошо, спасибо.
Я и словарик будем ждать.
 
Добавлено:

Цитата:
Вам это вряд ли понадобится. Это для тех, кто использует djvu для создания и внедрения ссылок (и не хочет заново прогонять djvu через FR)

 
Ну, если бы, например по результатам потрошения генерировался файл *.docr , а потом была бы некая команда сравнения docr/focr/tocr   то может и и можно было бы выявить некие несовпадающие участки/спеклы ...

Всего записей: 1174 | Зарегистр. 13-06-2013 | Отправлено: 11:16 11-08-2025 | Исправлено: daa2013, 11:17 11-08-2025
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Опечатка в сообщении, что "размеры страниц не были финализированы".
 
 "finilized"  вместо правильного "finаlized"  
 
Добавлено:

Цитата:
юзайте глифы перед кодированием. Замечу, что я так уже пробовал, и выходит такая фигня  

 
Во избежание запутывания новых в ветке людей, хочу заметить, что я уже далеко не одну книгу сделал с полным глифированием и получается отлично. Но это надо менять все буквы и во всей книге. Особенно радует результат, когда книга была плохо пропечатана. Также прекрасно помогает, когда марашки жуткие (были).
 
Если же вы меняете выборочно, и лишь на отдельных страницах, то надо держать два комплекта букв: худой/жирный, а для худого еще и в двух вариантах: с прозрачностью и без прозрачности в самих глифах.

Всего записей: 1174 | Зарегистр. 13-06-2013 | Отправлено: 15:18 11-08-2025 | Исправлено: daa2013, 16:24 11-08-2025
asku



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013
Сколько у вас времени уходит на одну такую книгу?
Можете показать изначальные сканы и окончательный результат (pdf/djvu)?

Всего записей: 695 | Зарегистр. 04-05-2016 | Отправлено: 17:43 11-08-2025
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Очень сильно по разному. От нескольких часов до нескольких дней.  
Хороший пример с публы:  Торре - Как формируется шахматист
 
 
Было:
https://rusneb.ru/catalog/000200_000018_RU_NLR_A1SV_123830
 
Стало:
http://publ.lib.ru/ARCHIVES/T/TORRE_Karlos/_Torre_K..html

Всего записей: 1174 | Зарегистр. 13-06-2013 | Отправлено: 18:10 11-08-2025
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
bolega

Цитата:
Единственное, что могу сделать - это разрешить держать исходный djvu еще и в файле с именем result.bookmarks.djvu, и по команде потрошить именно result.bookmarks.djvu. При этом все требования относительно result.bookmarks все равно остаются в силе.

В принципе это и надо, если он в папке ocr, т.е на стадии извлечения текстового слоя из джву кроме result.bookmarks будет создаваться и result.bookmarks.djvu. (Правда наличие этого файла джву делает непонятным присутствие _result.bookmarks, который уже использован, т.к. из result.bookmarks.djvu легко сделать result.bookmarks)
Файнридер часто не распознает одноцифровые числа.
В последнем просмотренном мной джву из девяти одноцифровых номеров (даже с ".") 1.-9. не распознались 2., 5., 7. и 9., причем на соседних листах.
Можно тогда result.bookmarks.djvu загрузить в DjVuNMEditor, вручную добавить распознавание на эти числа, сохранить с тем же именем в ту же папку и передернуть текстовый слой на соответствующих страницах.
Только не мешало бы добавить в Tools->OCR input files еще одно значение - Selected.

Всего записей: 7278 | Зарегистр. 14-01-2005 | Отправлено: 19:16 11-08-2025 | Исправлено: shch_vg, 19:50 11-08-2025
sovokr

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013

Цитата:
Было:
https://rusneb.ru/catalog/000200_000018_RU_NLR_A1SV_123830
 
Стало:
http://publ.lib.ru/ARCHIVES/T/TORRE_Karlos/_Torre_K..html

 
во много книга "спасена". скан изначально какой-то замыленный. если не тайна, какими настройками пользовались?
 

 
понятно что вероятнее всего применено глифирование, но интересует: как вы добились такой толщины и четкости букв?

Всего записей: 13 | Зарегистр. 25-07-2024 | Отправлено: 23:17 11-08-2025 | Исправлено: sovokr, 23:33 11-08-2025
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
 вероятнее всего применено глифирование

 
Поскольку выше попросили привести пример результата полного глифирования, странно видеть тут слово "вероятно".  
 
Три года назад дело было, как будто я теперь все шаги помню.  
 
Помню, что образцы хороших букв, даже нередких, тут обнаруживались буквально в одном-единственном экземпляре на всю книгу. Какой-то листик я в РГБ досканировал, какие-то буквы из другой книжки взял. UPD3.  тот же год издания того же издательства.  
Хорошие буквы я часто изготавливаю путем наложения нескольких плохих друг на друга. Какие-то участки подрисовываю ластиком. В каких-то книгах (но, вроде, не тут) делаю апскейл до 1200, глифирую, потом субсэмпл до 600. Тут, помнится, делал несколько вариантов бинаризации, чтобы буквы поймать.
 
Кстати, кажется, была ещё какая-то чужая версия бинаризации этой книжки, откуда я некоторые буквы взял.   UPD1. Может, в закромах shch_vg она найдётся ? Я исходники не храню, этот пример и выбрал в т.ч и потому, что не со своих сканов делал, а из инетных.  Но тут особенно заметно было:  так ты книгу читать не можешь, все буквы драные, а потом хлоп и ни одной проплешины.
 
То есть это не в результате применения настроек плохая буква вдруг становится "хорошей".  UPD2.  И не фиг тут две строчки сравнивать - буквы пришли из других мест книги.

Всего записей: 1174 | Зарегистр. 13-06-2013 | Отправлено: 00:10 12-08-2025 | Исправлено: daa2013, 09:31 12-08-2025
asku



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013
Хорошо у вас получилось.
Я всю книгу так делал только раз, и то потому что решил для контроля ошибочных замен глифов книгу от корки до корки прочитать. Вот так получилось:
 
книга в дежавю
 
А вы вот эти опции используете? Я так с ними нормально и не разобрался.

 

Всего записей: 695 | Зарегистр. 04-05-2016 | Отправлено: 12:44 12-08-2025
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2025

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru