Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163

Открыть новую тему     Написать ответ в эту тему

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: сканирование, обработка, сборка
 
Текущая версия программы : ScanKromsator v6.8 ScanKromsator v6.75
добавки и замечания к v6.75 от bolega
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate! Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.
 
Предыдущая версия программы: ScanKromsator v6.71 Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  Устаревшие версии: Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее...
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...
 


ВАЖНО ! Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом... и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: TelecomUral, 12:36 25-11-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
задание на свой фтп положил.

Не увидел там нужного задания, т.е. чтобы было и out-задание и вых.формат=pdf.
У вас есть out-задания без pdf, и наоборот, исх.задание с pdf (но так не сработает! нужно именно out task).
В итоге открыл test-out-ocr1.spt, задал вых.формат=pdf, включил Add OCR и все получилось...
 
Добавлено:
serg28serg

Цитата:
ScanKromsator v6.8 с комплектом sk6.75-add.rar  

Да, то, что было в 6.75-add, годится для всех последующих версий.
 
asku

Цитата:
А разве в СК можно создавать djvu с текстовым слоем?  

В новой версии уже можно. Но она еще не до конца готова.

Всего записей: 4202 | Зарегистр. 09-09-2002 | Отправлено: 18:33 23-11-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
bolega
В итоге открыл test-out-ocr1.spt, задал вых.формат=pdf, включил Add OCR и все получилось.

хм.
я просто это задание с параметрами pdf и add ocr не стал сохранять...
Попробовал - да, так вышло, как вы написали.
 
UPD
подумал, повспоминал. Вероятно, я всё же не поставил add ocr. Эта галка в странном месте, неассоциативном. Лучше, возможно, вынести её в опции, или ставить включённой по умолчанию.

Всего записей: 2284 | Зарегистр. 15-07-2010 | Отправлено: 18:38 23-11-2022 | Исправлено: TelecomUral, 18:42 23-11-2022
Skvodo

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Раз уж тут пошла речь о Тессеракте, есть предложение по улучшению его функциональности в SK.  
Сейчас в SK есть меню подключения языковых моделей к Тессеракт в виде файла (Options > Apps) и отдельно меню с выбором языков распознавания Page > Special > More2 (в котором нет таких распространенных языков как испанский, например).
Было бы очень полезно добавить в SK отдельную опцию, по которой для языков OCR можно было бы выбирать те языки или целые алфавиты, языковые модели к котором были бы просто скинуты в папку с файлами Тессеракта и они бы все подключались к SK автоматически, а галочки к нужным в данный момент языкам можно было бы ставить самому. Это бы решило проблему работы с редкими языками, чтобы каждый раз не переписывать программный код под малоиспользуемые языки, добавило бы возможность подключения языков c экзотическими сложными алфавитами, для которых вообще нет поддержки распознавания в Finereader, но она есть в Тессеракте.
На картинке нарисовано схематично, что я имею в виду. https://imgur.com/a/7jRZxJB

Всего записей: 72 | Зарегистр. 25-09-2004 | Отправлено: 04:04 24-11-2022 | Исправлено: Skvodo, 04:06 24-11-2022
serg28serg



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Цитата:
задание на свой фтп положил.
bolega
Цитата:
Не увидел там нужного задания, т.е. чтобы было и out-задание и вых.формат=pdf.

не идет в 6.8 OCR на  TIFF, я вообще без PDF даже, мне бы просто - как и в 6.75 вначале текстовуху на TIFF увидеть (про PDF пока и речи нет)
не идет - ни через Result All , ни через спешел уже во вьювере на любой странице
делаю с теми же настройками что и в 6.75 (да и  выше приводил уже мануальчик) , папки конечно индивидуальные под 6.8 и 6.75 , включая Add свои же вложенные  
 
может кто то скинуть свое задание именно из  6.8 с проверенным уже рабочим наложением текстовухи на TIFF во вьювере - задаю вопрос вам, поскольку как миниму вы оба уже это проделали )
скину конечно свой TIFF_to_OCR.spt на яндекс диск , но там смотреть особо и нечего (упоминаю что я на TIFF тренируюсь, про PDF пока рано думать, увидеть бы на картинке слой текста как 6.75)
 
 

Всего записей: 165 | Зарегистр. 03-08-2003 | Отправлено: 13:08 24-11-2022 | Исправлено: serg28serg, 13:10 24-11-2022
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
ну что ж, напишу мануал по встроенному OCR через tesseract, пока все помню
что бы откликалось в поисковике яндекса :
"Как распознать текст через встроенный OCR в ScanKromsator", " tesseract"
1. скачать версию ScanKromsator v6.75 (эту версию потому как в шапке на текущий момент добавки для этой версии : )  скачать из шапки "добавки и замечания к v6.75 от bolega" архив sk6.75-add.rar, правда там папка 6.72
2. все файлы/папки из архива sk6.75-add.rar кинуть в папку с экзешником ScanKromsator
3. настроить путь до , файла "\tessdata2\rus.traineddata"" в меню SK "FILE->Options..->Apps->Tesseract" указать на данный файл
4. в "Page->special->More2->OCR Languares" отметить чекбокс Russian, English , отмечать обязательно с удержанием кнопки Ctrl !!!
5. OCR работает только с BW файлами , выбрать в Files->Color - B/W
6. сохранить как task и Закрыть-Открыт SK , с сохраненным task
......добавляем наши сканы... меняем остальные настройки как нужно нам....
7. Генерим выходной TIFF B/W  
8. Генерим выходной tocr (SCAN_0001.tif.tocr) - Result->OCR output files->All  
9. если нужен цветной TIFF , то меняем B/W на цветной , генерим TIFF на выход
10. смотрим через встроенный вьювер , во вьювер вызывая OCR через - правый клик->Special->OCR page , наводим на слова , распознанное слово должно всплывать желтым текстовым хинтом
 
в ScanKromsator v6.8 есть прямо опция PDF сгенерить с OCR
но распознавание в v6.8 с комплектом sk6.75-add.rar - запустить не удалось, распознавание не работает
поэтому PDF создается без текстовой подложки
 
может будут всплывать сообщения  о недостающей DLL или не указан язык или нет папки - значит что то не доделали по пунктикам, конечно касательно версии sk6.75.
 
может кому то поможет в раскопках по вопросу "как распознать текст в ScanKromsator"


Цитата:
serg28serg
 
Цитата:
запустить не удалось, распознавание не работает  
 
Попробуйте продолжить последовательность:
11. File > Create out task
12. В out-task задаем output format=pdf, задаем имя файла, ставим галку на Add ocr
13. Генерим pdf: т.е. process all или для проверки process current page
На выходе будет pdf с OCR слоем.
 
 

 
Эх! Некому всё это в ролике показать, было бы наглядное пособие по созданию pdf с ocr-слоем. Заодно продемонстрировали,что такое tesseract, про него только человек 15 знают, не более.
 
djvu-книгу я создаю так (нашел самый быстрый оптимальный и качественный способ:
1. После обработки файлов TIFF в Кромсаторе сохраняю задание под определенным именем - субтаск с этим именем - Тулс - Создание джву с установленными параметрами качества файла.  
2. Выходной  djvu-файл открываю программой Документ Экспресс Эдитор, в ней можно поменять местами страницы,удалить страницы и добавить djvu-страницы извне, если такая необходимость существует.  
3. Открываю djvu-файл в Файн Ридере через меню Открыть в ОКР редакторе, распознаю и сохраняю файл с окр слоем так же в формате  djvu
4. После выхода с Файн Ридера выходной файл получается раза в 2 по объему меньше оригинального, т.е. Файн ридер съедает качество изображения.  
5. Для решения проблемы порчи файла Файн ридером меняем слои, вставляем слой с файла, изготовленного Файн ридером, в первоначальный файл с помощью программы FR11Djvu Text Layer Crutch 0.3.1
6. Оглавление создаем с помощью PdfDjvuBookmarker
7.Pdf-книгу я создавал путем конвертации из готового djvu с помощью программы DjVuToy, в результате получается Pdf-книга с оглавлением, но с текстовым слоем или нет не совсем понятно, потому что в Pdf-файлах неизвестно где находится поиск по тексту.
 
.... поэтому процесс создания  pdf-книги с ocr-слоем очень актуален и нужен видеообзор!
 
 

Всего записей: 620 | Зарегистр. 23-05-2021 | Отправлено: 14:28 24-11-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
serg28serg
обычно в новом СК забывают нажать кнопочку "отобразить текст" в окне VR.

Всего записей: 2284 | Зарегистр. 15-07-2010 | Отправлено: 14:29 24-11-2022 | Исправлено: TelecomUral, 14:33 24-11-2022
serg28serg



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Цитата:
обычно в новом СК забывают нажать кнопочку "отобразить текст" в окне VR.

это ж надо и вправду
в 6.75 она почему то нажата была (может когда текстовуху выжимал из SK - случайно клацнул) , а в 6.8 - отжата , а при запуске VR - морда свое старое состояние помнит, так сразу и не заметишь
спасибо

Цитата:
Эх! Некому всё это в ролике показать, было бы наглядное пособие по созданию pdf с ocr-слоем

не понятно востребованность этого действа
то есть в пределах одной софтины , клацая кнопками получить некий читабельный PDF как результат на выходе
мне то например понадобился - Жирный печатный документ , в котором надо чет постоянно искать, но глаза и мозги не казенные - много не на ищут, а тут будет стандарт - поиск по PDF текстовухе - то что я обычно юзаю по документам,   и другим для поиска передавать.
если доберусь (будет время) до получения PDF OCR, то включу запись и запишу процесс, если кому то это нужно.
 

Всего записей: 165 | Зарегистр. 03-08-2003 | Отправлено: 15:13 24-11-2022 | Исправлено: serg28serg, 15:14 24-11-2022
xMARx

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
__Всем привет. Обработал статью (10 стр), осталось только pdf сделать. Увидел галочку "add OCR" и решил сделать pdf файл с распознаванием. Файл создаю из out task. Но почему-то SC не создает текстовый слой в выходном pdf файле на 7, 8 и 10 страницах (не могу выделить его в Adobe Acrobat Reader). На остальных страницах слой есть. Причем если задать обработку изображений с 7 по 10 (встать на 7 изображение и выбрать process from the current to the last), то текстовый слой на них появится. Если обработать изображения с 4 по 10, то на последней (7-й) странице текстового слоя не будет.
__Немного напрягает вывод величины зума в окне RV. Несколько раз приблизил колесиком изображение, при этом величина зума в соответствующем поле увеличивается. Потом один раз отдалил, а зум увеличился!?.  Если продолжить отдалять, то величина зума будет уменьшаться.

Всего записей: 46 | Зарегистр. 22-06-2009 | Отправлено: 18:15 24-11-2022 | Исправлено: xMARx, 18:20 24-11-2022
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Особой сути наличия текстового слоя я так и не понял. Читатели открывают книгу (pdf или djvu) и читают текст, смотрят картинки. Кому надо искать и ковырять этот слой?

Всего записей: 620 | Зарегистр. 23-05-2021 | Отправлено: 18:48 24-11-2022
xMARx

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Особой сути наличия текстового слоя я так и не понял. Читатели открывают книгу (pdf или djvu) и читают текст, смотрят картинки. Кому надо искать и ковырять этот слой?

__Ну... в статье, наверно, смысла особого в текстовом слое нет. А в книгах (технических например) иногда бывает необходимо что-то поискать через поиск.  
__В англоязычной литературе удобно копировать текст и вставлять в яндекс переводчик.

Всего записей: 46 | Зарегистр. 22-06-2009 | Отправлено: 18:55 24-11-2022 | Исправлено: xMARx, 18:56 24-11-2022
serg28serg



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Кому надо искать и ковырять этот слой?

для :
1. контекстный поиск
2. копирование цитат
например у меня есть книга на 600 (до 12000 бывает у меня) страниц, и надо найти где там упоминается число 3000H - искать глазками тратить время. и таких книг например сотня - бывают с текстовухой  , а бывает только как скан.
и если таких книг много и чисел тоже - время на поиск ручками-глазками расходуется в какой-то некоей прогрессии .  
контекстный поиск - ищет менее чем за минуту, можно сразу в нескольких файлах.
 
что-то вытаскивать и вставлять в какие то описание - тоже надо что бы был текст, не ручками же по клавишам стучать и ошибки еще плюс генерить.

Всего записей: 165 | Зарегистр. 03-08-2003 | Отправлено: 19:08 24-11-2022 | Исправлено: serg28serg, 19:09 24-11-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xMARx

Цитата:
Но почему-то  SC не создает текстовый слой в выходном pdf файле на 7, 8 и 10 страницах

К сожалению, без самого примера не понять причину.

Всего записей: 4202 | Зарегистр. 09-09-2002 | Отправлено: 19:13 24-11-2022
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
для :
1. контекстный поиск

В Djvu-файлах (в программе WinDjView) есть меню "Поиск", т.е. по тексту можно найти его местоположение в книге. В pdf-программах типа Фокзит Ридер, Адобе акробат я меню поиска по тексту не нашел.
 
Когда изготавливается джву-книга непосредственно в Кромсаторе после Креате аут таск всплывает второе окно программы, где в меню Тулс выбирается пункт Креате джву. Почему в последующей версии программы не сделать бы тут же рядом ниже пункт Креате пдф и всплывающее окно Визард ПДФ, а все настройки для пдф-файла также внести в профиль?
 Или вообще сделать запуск одновременного изготовления джву и пдф (для тех, кто создает и джву и пдф книги)
 
 По изготовлению пдф-книги непосредственно в Скан Кромсаторе плюс наложение тут же текстового слоя понял только 6 пунктов, вот тут мои недопонимания ситуации https://disk.yandex.ru/i/qM9_1yLJ6Ujo1Q

Всего записей: 620 | Зарегистр. 23-05-2021 | Отправлено: 19:31 24-11-2022 | Исправлено: kamenkapenza, 20:13 24-11-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
kamenkapenza
Все просто.
Открываете свой 3-out.spt
На закладке опций Files задаете Output format=pdf, после этого там же задаете PDF filename.
Никаких опций больше менять/задавать не нужно!
Нажимаете кнопку Process! в верхней панели MW.
И все. Ждете когда СК сделает pdf.
 
В этом и особенность out-задания: в нем все готово для одновременного создания как djvu, так и pdf.

Всего записей: 4202 | Зарегистр. 09-09-2002 | Отправлено: 20:45 24-11-2022 | Исправлено: bolega, 20:48 24-11-2022
qwaxym



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
 В pdf-программах типа Фокзит Ридер, Адобе акробат я меню поиска по тексту не нашел.
 

Должен быть! Обычно поиск Ctrl+F.

Всего записей: 93 | Зарегистр. 19-12-2007 | Отправлено: 21:09 24-11-2022
serg28serg



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
В Djvu-файлах (в программе WinDjView) есть меню "Поиск", т.е. по тексту можно найти его местоположение в книге. В pdf-программах типа Фокзит Ридер, Адобе акробат я меню поиска по тексту не нашел.

Ctrl+F нажмите в акробате и ввести слово которое ищем

Цитата:
Должен быть! Обычно поиск Ctrl+F.

уже и ответили

Всего записей: 165 | Зарегистр. 03-08-2003 | Отправлено: 00:04 25-11-2022
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
kamenkapenza

Цитата:
Особой сути наличия текстового слоя я так и не понял

Если хотите, чтобы с обработанной вами книгой знакомились только знающие русский язык, то выше уже указали, для чего может быть полезно распознавание, особенно это важно для справочной литературы или энциклопедий.
Распознавание других книг на русском позволяет не знающим этого языка через онлайн переводчики знакомиться с их содержанием.

Всего записей: 6763 | Зарегистр. 14-01-2005 | Отправлено: 00:30 25-11-2022
xMARx

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
К сожалению, без самого примера не понять причину.

__Попробовал открыть PDF файл с помощью браузера. В нем текст выделяется, но если текст с 7, 8 и 10 страниц вставить в WORD,  то получаю кракозябры...  
__Приложил другой пример, в котором задание состоит из скопированной 10 раз первой страницы из той самой статьи. Тут 1-я страница распознается нормально, а остальные 9 - нет (из браузера текст можно скопировать в WORD, где получаются кракозябры).
ссылка на файл проекта

Всего записей: 46 | Зарегистр. 22-06-2009 | Отправлено: 10:21 25-11-2022 | Исправлено: xMARx, 10:23 25-11-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
У xMARx в pdf при открытии мой акробат ридер говорит что не найден шрифт Helvetika.
PDF-XChange Editor показывает со второй страницы кракозябры. Любопытно.
 

Всего записей: 2284 | Зарегистр. 15-07-2010 | Отправлено: 11:13 25-11-2022
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega, большое спасибо!
qwaxym,serg28serg, shch_vg, большое спасибо!
Сегодня попробую.

Всего записей: 620 | Зарегистр. 23-05-2021 | Отправлено: 11:19 25-11-2022
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2023

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru

Рейтинг.ru