Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152

Открыть новую тему     Написать ответ в эту тему

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: сканирование, обработка, сборка
 
Текущая версия программы : ScanKromsator v6.8 ScanKromsator v6.75
добавки и замечания к v6.75 от bolega
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate! Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.
 
Предыдущая версия программы: ScanKromsator v6.71 Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  Устаревшие версии: Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее...
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...
 


ВАЖНО ! Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом... и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: TelecomUral, 12:36 25-11-2022
nuget2

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
попробовал положить в ВК правильный размер 1280х720, не помогло.

OBS Studio пробовали?

Всего записей: 168 | Зарегистр. 10-08-2014 | Отправлено: 18:08 25-04-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
nuget2
вы путаете: ролики не мои.

Всего записей: 2101 | Зарегистр. 15-07-2010 | Отправлено: 18:29 25-04-2022
nuget2

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral, ну я понял что это не вы делали..., я имел ввиду bolega пробовал делать запись через OBS Studio. Там вроде как настраивается разрешение экрана и кодировщик тоже...

Всего записей: 168 | Зарегистр. 10-08-2014 | Отправлено: 18:39 25-04-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
nuget2
оффтоп про видео 2

Всего записей: 2101 | Зарегистр. 15-07-2010 | Отправлено: 18:59 25-04-2022
italia57

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
 
Как я понимаю, ОСR-ить надо уже финализированные страницы, полученные из оригинальных сканов?

Всего записей: 16 | Зарегистр. 25-11-2020 | Отправлено: 21:47 25-04-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
ОСR-ить надо уже финализированные страницы, полученные из оригинальных сканов

 
Те, что будут лучше распознаваться. Это могут быть как обработанные изображения, так и нет. Главное - строгое постраничное соответствие файлов в пакете SK и FR.

Всего записей: 3294 | Зарегистр. 17-09-2001 | Отправлено: 23:03 25-04-2022
italia57

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
niccolo
Ну я имею в виду для последующей реставрации букв и удаления марашек...
 
Потом то я все равно отдельно уже красивый текст будут распознавать в самом FR15

Всего записей: 16 | Зарегистр. 25-11-2020 | Отправлено: 23:51 25-04-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
italia57
 
Я про это и говорю... Чтобы марашки удалить - нужен OCR. FR8, если грубо, в общем чуть лучше распознаёт переэкспонированный (светлый/тонколинейный) монохромный текст (по простой причине, что у «бедного» текста/букв меньше возможных вариантов, чем у «жирных», где чёрный кружок может быть и о, и с, и 0, и е и т.п.) Т.е. вроде ФРу лучше подсовывать как бы обработанные сканы. Но в данном случае, учитывая марашки, которые будут сильным фактором нестабильности именно для «бедных» сканов, это может быть и не так.

Всего записей: 3294 | Зарегистр. 17-09-2001 | Отправлено: 00:58 26-04-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Как я понимаю, ОСR-ить надо уже финализированные страницы, полученные из оригинальных сканов?  

Да, реставрацию имеет смысл делать на самом последнем этапе.
Я бы еще рекомендовал сначала удалять изолированные марашки, и только потом делать ocr в tesseract/fr. Будет меньше "ложных" букв. Особенно падкий на них tesseract, часто принимает их за "г" или "т".
В fr нужно отключить всякие предварительные улучшалки (исправление перекоса, геометрии и т.д.), чтобы не нарушить соответствие между координатами букв на скане и в bookmark-файле. И конечно же после распознавания fr никаких исправлений ручками в самом fr. По крайней мере так предупредил автор утилиты NME
 
 
 
 
Добавлено:

Цитата:
А копи-паст что выдаёт - крякозябры? А что за инструмент для создания PDF использовался?

Копи-паст выдает крякозябры, если там, куда пастится, стоит английская раскладка. Если же включить русскую, то пастится нормально. Типичная проблема для не-юникодного текста в кармане.
Инструмент - СК ))
 

Цитата:
Для более ранних версий - типа 8, где текст ещё привязан к страничкам и находится в файлах frf, версии инструмента не будет?

Надо просить gencho. Его djvuocr в принципе все умеет, только нужно организовать соответствующий вывод в файл. Помню, что очень давно он по моей просьбе какой-то вывод добавлял, забыл какой, и сейчас не могу проверить, нет ничего под рукой.

Всего записей: 4158 | Зарегистр. 09-09-2002 | Отправлено: 08:52 26-04-2022 | Исправлено: bolega, 09:08 26-04-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
очень давно он по моей просьбе какой-то вывод добавлял

штатный - пословно в html. Но какая-то первоначальная версия выдавала побуквенно. В хелпе об этом есть.

Всего записей: 2101 | Зарегистр. 15-07-2010 | Отправлено: 09:04 26-04-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
И главное препятствие в использовании FR8 - неотключаемое исправление наклона. Причем исправление может быть разным для разных абзацев, что делает невозможным воспроизвести его.

Всего записей: 4158 | Зарегистр. 09-09-2002 | Отправлено: 09:14 26-04-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Типичная проблема для не-юникодного текста в кармане

Почти 100% признак отсутствия таблицы character map в описании шрифта Где-то на хабре или на stackoverflow было краткое но исчерпывающее разъяснение логики связки кода знака на странице с номером юникода, который надо ему сопоставить при поиске и копипасте. По-моему даже в стандарте от адоба есть этот же кусочек. Только он там позаумнее, потому что учитывает китайские варианты.

Всего записей: 2101 | Зарегистр. 15-07-2010 | Отправлено: 09:34 26-04-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Почти 100% признак отсутствия таблицы character map  

Это я понял. Вот добавить cmap это еще та морока. Будет время, займусь.
И не только китайские, корейские и еще кучу.

Всего записей: 4158 | Зарегистр. 09-09-2002 | Отправлено: 10:06 26-04-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
 Вот добавить cmap это еще та морока.

если делать универсально, то я бы вообще на вашем месте не стал браться  
Там же застрелиться составлять их под каждый используемый нестандартный шрифт. Но вот мне непонятно, зачем со шрифтами подробно возиться (да и платные они, когда для вставки в pdf/a). В djvutoy автор тоже сначала загрустил от комбинаций, а я ему предложил сделать попроще, только кегль вычислить, а русский шрифт брать всегда один. Но он накосячил еще и с интервалами, буквы разъезжаются по строке. То есть мышкой выделение чаще всего не сделать, промашка будет. Я уж не стал жаловаться, он и так много для русификации сделал.
 
А под стандартный виндовый шрифт, обычно ариал, одного слова - WinAnsiEncoding - хватает.
 
Проблемы возникают на узких шрифтах оригинала, типа Arial Narrow, или Архитектурного узкого. Но, повторяю, зачем так заморачиваться, не вполне ясно. СК всё же не верстальная программа, смысла подкладывать невидимые символы точно под каждый глиф лично я не вижу. В основном из-за трудоёмкости программирования этих изысков.

Всего записей: 2101 | Зарегистр. 15-07-2010 | Отправлено: 10:46 26-04-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Да мне шрифт не нужен. Тем более я его ниоткуда не получаю. Возьму стандартный, например helvetica. Я хочу просто текстовый слой подложить, чтобы поиск работал. И слой из слов, а не букв.

Всего записей: 4158 | Зарегистр. 09-09-2002 | Отправлено: 11:55 26-04-2022
slava_kry

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
Вдруг...
 
https://habr.com/ru/company/ncloudtech/blog/661673/

----------
Вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом

Всего записей: 4260 | Зарегистр. 18-09-2003 | Отправлено: 12:40 26-04-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Возьму стандартный, например helvetica

Думаю, не выйдет:
https://num.radiosit.ru/address/kak-uznat-kakie-shrifty-podderzhivayut-kirillitsu.html
там есть "Таблица соответствий шрифтов".
 
Ма Цзян в djvutoy взял Courier New. Выглядит ужасно - UPD я его раскрасил, чтобы посмотреть.
 
UPD2
вы не можете взять стандартное подмножество шрифтов (перечисленное в стандарте адоба), потому что для них нельзя прописать иную таблицу символов. В этом же и суть кириллической проблемы с 90х годов. Стандарт говорит "14 именованных шрифтов, и у них только западноевропейский набор букв". Я пробовал, помнится, в HEX-редакторе добавить определение кодовой страницы стандартному шрифту, но любой вьювер просто ломался и говорил что в pdf некорректное определение шрифта.
Поэтому, чтобы гарантированно нарисовать русскую букву, вам надо обязательно запихнуть в pdf бинарник шрифта, в котором - возможно! - есть эта русская буква. И CMap тогда сможет работать для копипаста. Шрифт-бинарник не обязан быть полным, главное чтоб логика перекодирования связная была. Если буквы (глифа) во встроенном шрифте нет, то вьювер pdf будет стараться подобрать схожий шрифт из операционки, где он запустился. Поэтому я Ариал поминаю.  

Всего записей: 2101 | Зарегистр. 15-07-2010 | Отправлено: 12:46 26-04-2022 | Исправлено: TelecomUral, 13:45 26-04-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Ма Цзян в djvutoy взял Courier New. Выглядит ужасно
\
 
Помнится был такой баг в ФР8 - когда программа подставляла Courier New в ПДФ при рендеринге страниц в картинки для распознавания, если в системе не было шрифта из ПДФ. Когда символы налагаются друг на друга порой в три слоя - это жесть....

Всего записей: 3294 | Зарегистр. 17-09-2001 | Отправлено: 18:10 26-04-2022
kamenkapenza



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Вы всё про новенькое, а я про старенькое, т.е. про работу в существующей версии программы. Такая вот ситуация. На страницах с фотографиями в основном текст бледный, размытый, и надо поднимать бинаризацию. Можно ли не снимая маркировку страниц, как то выделить их группой для работы только с частью страниц (даже если они идут не по порядку, требуется выборка). То есть из всех маркированных страниц выделить часть, потом только эту часть обработать, не включая в обработку остальные страницы.

Всего записей: 534 | Зарегистр. 23-05-2021 | Отправлено: 22:04 27-04-2022 | Исправлено: kamenkapenza, 22:05 27-04-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
да.  
 
в окне RV используй хоткей F2   (если разворот, то для правой части - F3)
и читай  пар. 4.1. Хрестоматии   про типы выделений

Всего записей: 955 | Зарегистр. 13-06-2013 | Отправлено: 04:20 28-04-2022
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2023

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru