Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v6.97 | ScanKromsator v6.91 |
 ScanKromsator v6.8 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: mvk2006, 21:12 04-08-2023
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Удалил файл в исходной папке.
При нажатии на меню  Edit  (ищу, как его теперь удалить из списка, почему-то этой команды нет в ПКМ на списке файлов, хотя add там имеется) вылетает access violation

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 04:20 23-10-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
при работе с автоглифами команду analize можно применить сразу для нескольких страниц.
А команду  apply all  только для текущей.  
 
Можно ли apply   как-нибудь сделать сразу для нескольких страниц, пускай даже список со всеми буквами разных страниц и не высвечивается ?
 
(я один глиф меняю на другой и контролировать мне там уже нечего, а 200 раз применять apply - устал)

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 08:48 23-10-2022
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Добрый день.
 
Опять что-то не получается добавить текстовый слой проекту. Может забываю какой-то нюанс.
Использую Файнридер 15.
 
Насколько помню, в самом файнридере ничего менять (символы и т.п.) категорически нельзя.
Я открываю ФР, кидаю туда сканы ск-проекта, распознаю, сохраняю фр-проект и закрываю (делал и немного в другом порядке с тем же результатом: открываю фр, сохраняю проект, потом кидаю сканы, распознаю и закрываю).
 
Парсер помещаю в папку data, создаю файл result.bookmarks, который копирую в ск-проект/out/ocr.
Потом в СК в главном окне меню Result — OCR output files — All.
 
В результате этого в папке OCR создаются постраничные файлы с расширением *.bookmarks.
Сканов у меня в ск-проекте 42 штуки (формат tif) — на первых двух текста нет; bookmarks-файлов же создано 38 (с result00004.bookmarks по result00042.bookmarks), focr-файлов (в папке Out, рядом с тифками) создано 37 (!) — с 0005.tif.focr по 0041.tif.focr
 
Открываю СК, и там, естественно, текстовый слой смещен на всех страницах, которые я проверял.
 
Прошу подсказать что я упустил.
Sub-test нужен?

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 16:06 26-10-2022 | Исправлено: asku, 16:13 26-10-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Сканов у меня в ск-проекте 42 штуки (формат tif) — на первых двух текста нет; bookmarks-файлов же создано 38 (с result00004.bookmarks по result00042.bookmarks), focr-файлов (в папке Out, рядом с тифками) создано 37 (!) — с 0005.tif.focr по 0041.tif.focr

 
Отсюда надо разбираться, почему распознанных страниц меньше, чем реальных.... Бывает и довольно часто очень странная расстановка блоков распознавания в FR.....  
 
При условии запрета правки пакета - единственный путь обхода - создание постраничных пакетов в FR c ручным исправлением проблемных мест.....
 

Цитата:
текстовый слой смещен на всех страницах, которые я проверял.

Как вариант, можно попытаться перенумеровать файлы вручную в правильном порядке.....
 
 
Если OCR вы используете для исправления марашек и т.п. - теоретически можно попытаться сохранить файл из FR в ПДФ с исправленным текстом поверх страницы, предварительно создав или подобрав похожий шрифт а затем снова его  сконвертировать в страничные тиффы.  (сам пока не пробовал)

Всего записей: 3674 | Зарегистр. 17-09-2001 | Отправлено: 16:40 26-10-2022
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
создание постраничных пакетов в FR c ручным исправлением проблемных мест

 
А если страниц в книге 100? 150? ) Тяжеловато.

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 16:43 26-10-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А если страниц в книге 100? 150? ) Тяжеловато.

 
Ну во-первых, никто лёгких путей и не обещал....
Во вторых - проблемы могут быть не на всех страницах. и следовательно не нужно делать 150 пакетов.
В-третьих - ну попробуйте исправить пакет вручную, а потом по тексту вручную восстановить соответствие между tiff и focr. Может этот путь рабочий - тогда решается проблема ручного исправления в ФР,

Всего записей: 3674 | Зарегистр. 17-09-2001 | Отправлено: 16:49 26-10-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku
А что задано в options > misc > bn type=? и v=0?
 

Цитата:
сохраняю фр-проект

"сохранить как" под другим именем пробовали? Мне это помогало, даже если я вносил правки
 
да в конце концов, откройте result00004.bookmarks (это обычный текстовый файл), посмотрите, какой реально странице он соответствует. Может у вас сдвиг задан в options > misc >

Всего записей: 4431 | Зарегистр. 09-09-2002 | Отправлено: 18:46 26-10-2022 | Исправлено: bolega, 18:48 26-10-2022
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
Вот тест-файл. Он правда объемный получился — под 50 мег, там первые несколько сканов.
 
Вот options > misc > bn type= и v=

Что такое bn type я не знаю, и не трогал ее.
А v изменял, думал, подгоню, но что-то я не понимаю, как там меняется. Пробую и -1, и +1, и -2, и +2, и т.д. По-моему никаких изменений.
 

Цитата:
да в конце концов, откройте result00004.bookmarks

 
Открыл. На самом деле у меня не две первые страницы пустые а три (первый разворот и левая страница второго разворота). Вот result00004.bookmarks соответствует первой странице (после пустых) на которой есть текст. Логично, но как подогнать options > misc > и v=.
 

Цитата:
"сохранить как" под другим именем пробовали? Мне это помогало, даже если я вносил правки

Все равно все смещено.

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 23:26 26-10-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
По тексту внутри определить номера страниц легко - но их перенумерация ничего не даёт. Где хранится информация о привязке - х.з.
 
Добавление 0 к названиям focr файлов не привело к удалению OCR информации из пакета..... Чудеса....

Всего записей: 3674 | Зарегистр. 17-09-2001 | Отправлено: 00:27 27-10-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Пробую и -1, и +1, и -2, и +2, и т.д. По-моему никаких изменений.  

Задайте v=0, что означает, что в FR передавались все страницы, включая и первые пустые. Если передавать начиная со второй, т.е. пропустить одну, то v=1.
После изменения v обязательно в СК выполнить команду ocr all pages, чтобы пересоздать focr-файлы с учетом привязки v. Иначе ничего не поменяется.

Всего записей: 4431 | Зарегистр. 09-09-2002 | Отправлено: 01:32 27-10-2022
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega, получилось! Спасибо!
 
А что означает опция options > misc > bn type ?

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 01:40 27-10-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
что означает опция options > misc > bn type ?  

В FR-файле bookmarks страницы нумеруются всегда начиная с 1. Чтобы СК мог определить, какому выходному файлу задания СК соответствует i-я страница из bookmarks, используется  bn type и v. V задает смещение, а bn type - тип соответствия. Если выходные файлы СК имеют сплошную нумерацию (по умолчанию так), то bn type=res#=#tif, т.е. номер страницы пакета FR равен номеру в имени out-файла. Если выходные файлы СК имеют произвольные имена (это когда задавалось prefix=*), то предыдущий вариант не сработает. Тогда bn type=res#=#out, т.е. номер страницы пакета FR равен порядковому номеру out-файла.
Таким образом, привязка ocr к out-файлам выполняется только в момент вызова команды СК ocr (всех страниц, или текущей). После этого bn type и v не используются.  
Если уже после команды OCR выполнять изменение порядка страниц в задании СК (перемещать страницы, менять местами, удалять, добавлять, дублировать), то СК автоматически будет переименовывать focr-файлы. Но вот повторно давать команду OCR уже нельзя. Потому что внутри FR-файла bookmarks порядок страниц остался прежним и он уже не будет соответствовать порядку файлов в задании СК. В этом случае придется распознавать в FR по новой, с созданием нового задания.

Всего записей: 4431 | Зарегистр. 09-09-2002 | Отправлено: 02:04 27-10-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
 
Если не трудно, объясните, почему нельзя выставить соответствие tiff и focr простым переименованием?

Всего записей: 3674 | Зарегистр. 17-09-2001 | Отправлено: 15:33 27-10-2022
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
Вы не могли бы еще добавить выбор буквы «й». Вот где к выбору предлагается «и», там чтобы и «й» была.
Мелочь, но облегчает работу.
 

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 16:05 27-10-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
niccolo

Цитата:
соответствие tiff и focr простым переименованием?

Вы можете переименовывать focr в файловом менеджере, это не запрещается. Но следует иметь в виду, что СК считывает focr-файлы один раз, т.е. кэширует их. Если вы вручную что-то переименовываете, то надо обязательно переоткрыть задание, чтобы СК перечитал файлы с ocr-слоем.

Всего записей: 4431 | Зарегистр. 09-09-2002 | Отправлено: 16:42 27-10-2022
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega, опять та же проблема с текстовым слоем.
Сделал смещение 0, заново сделал Result — OCR output files — All..
 
На первой странице, имеющей текст (титул), все нормально с текстовым слоем, дальше смещение. Я не понимаю, в чем проблема. Неужели это будет теперь в каждом проекте происходить...
 
Прилагаю на всякий случай субтест.

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 18:54 29-10-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Я уже книг 7 сделал с автоглифами, и ни разу не видел таких смещений, будь то титул или страницы-пустышки.
Посмотрел субтест, и рискну предположить:
 
я всегда сначала разрезаю развороты на отдельные страницы и только потом распознаю.
Т.е., когда я делаю автоглифы, у меня отдельный самостоятельный проект из одинарных ч.б. страниц. После "реставрации" я их возвращаю в тот проект, в котором пойдет сборка.
Может, в работе с разворотами причина проблемы ?
 
У меня версия FR  14.0.107.232

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 08:01 30-10-2022 | Исправлено: daa2013, 08:02 30-10-2022
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
«я всегда сначала разрезаю развороты на отдельные страницы и только потом распознаю».
 
Я тоже, естественно, так делаю.

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 08:26 30-10-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
в смысле, что у меня в проекте, где я распознаю, вообще нет разворотов. Даже как входных.

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 08:29 30-10-2022
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
 
Пересохранил проект файнридера под другим именем и все встало на свои места. Спасибо.
 
Странно как-то все-таки...

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 18:32 30-10-2022
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)
Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru