Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163

Открыть новую тему     Написать ответ в эту тему

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: сканирование, обработка, сборка
 
Текущая версия программы : ScanKromsator v6.8 ScanKromsator v6.75
добавки и замечания к v6.75 от bolega
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate! Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.
 
Предыдущая версия программы: ScanKromsator v6.71 Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  Устаревшие версии: Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее...
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...
 


ВАЖНО ! Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом... и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: TelecomUral, 12:36 25-11-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku
Если откроете в текстовом редакторе свой result.bookmarks, то увидите, что стр.2 на 8-месте, а не на 2-м! У вас что-то не то с FR
Вы не правили результат в самом FR?

Всего записей: 4202 | Зарегистр. 09-09-2002 | Отправлено: 08:39 31-05-2022
asku



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Вы не правили результат в самом FR?

 
Правил. В смысле, если ФР неправильно распознавал букву, то я ее вручную исправлял. Порядок страниц в ФБ я, конечно, не правил.

Всего записей: 391 | Зарегистр. 04-05-2016 | Отправлено: 11:49 31-05-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Правил. В смысле

а вы попробуйте в том же ФР новый проект с этими же страницами. Но не править ни буквы, и сразу парсером сохраненный проектик жамкнуть. Тогда мы все хоть поймём - в чём же тут дело.
 
upd
наваял хоть какую-то схемку в помощь
https://disk.yandex.ru/i/t_48GjS9enyw0g
пока только ввод ocr в СК
кстати, если есть конкретные вопросы, то вот заготовка статьи. Куда двигаться дальше, мне непонятно и самому глаза разбегаются
https://disk.yandex.ru/i/uaTbyUdXGA-GKw

Всего записей: 2284 | Зарегистр. 15-07-2010 | Отправлено: 12:29 31-05-2022 | Исправлено: TelecomUral, 13:17 31-05-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Как и предупреждал NME, правка может спутать порядок страниц.  
Хотя наверняка там должен быть где-то реальный номер страницы, просто NME еще не понял, где он записан.  
Но лучше не править, так как после правки координаты букв тоже могут сбиться, а без них все не имеет смысла

Всего записей: 4202 | Зарегистр. 09-09-2002 | Отправлено: 13:18 31-05-2022
asku



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
правка может спутать порядок страниц

 
А как же быть. Ведь новые функции СК для того и нужны, чтобы улучшить скан, но скан можно улучшить с помощью распознанной инфы из ФР, а ФР плохой скан распознает плохо ) Это замкнутый круг получается. )
 

Цитата:
а вы попробуйте в том же ФР новый проект с этими же страницами.

 
Вечером попробую. Сейчас нет возможности.

Всего записей: 391 | Зарегистр. 04-05-2016 | Отправлено: 13:26 31-05-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А как же быть.

править в самом СК, там есть фичи коррекции распознанных символов.

Всего записей: 2284 | Зарегистр. 15-07-2010 | Отправлено: 13:37 31-05-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
"неправильный тессеракт"
Не помню с какой версии, но с какой-то файлы tessdata изменились и стали несовместимы со всеми предыдущими тессерактами. Новые tessdata подходят для любой новой версии (после той, переломной). Именно поэтому я изменил имя папки на tessdata2, чтобы оставить прежние данные на всякий случай (имена то файлов разработчики тессеракта оставили прежними).  
По этой же причине и dll, работающую только с новыми tessdata, я переименовал в ocr2.dll  
 
 
Добавлено:

Цитата:
А как же быть.  

А вы как обычно правите, заменяете одну букву на другую или что-то добавляете. Если первое, то надо проверять, возможно, все прокатит. Добавление букв точно не прокатит, т.к. при этом в FR не создаются новые rectы для них. Но этот вопрос тоже надо исследовать на практике.

Всего записей: 4202 | Зарегистр. 09-09-2002 | Отправлено: 13:46 31-05-2022
asku



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
заменяете одну букву на другую или что-то добавляете

 
И то и другое. )

Всего записей: 391 | Зарегистр. 04-05-2016 | Отправлено: 14:00 31-05-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
! мысль тут пришла:
я выше писал, что взял проект asku и пересохранил его с помощью своего ФР в новой папке. И он нормально потом скушался парсером и Кромсатором. Однако asku отписал тут, что он правил проект ФР вручную. Таким образом, вполне вероятно, что ручная правка проекта ФР "нейтрализуется" через пересохранение. Или через переоткрытие с пересохранением.
 

Всего записей: 2284 | Зарегистр. 15-07-2010 | Отправлено: 16:26 31-05-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
И он нормально потом скушался  

Это хорошо. Теперь надо проверить как повлияло добавление новых букв на работу парсера и соответствие скану.

Всего записей: 4202 | Зарегистр. 09-09-2002 | Отправлено: 16:33 31-05-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
ну, это домашнее задание для asku
Я, конечно, днём мышкой повозил по страницам, косяков не заметил, но точное место правки искать, да ещё осетинского языка - увольте... Пусть товарищ добьёт тему.

Всего записей: 2284 | Зарегистр. 15-07-2010 | Отправлено: 16:37 31-05-2022
asku



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Сделал новый проект. В ФР ничего не правил. Сразу парсером сделал файл резулт. Создал все файлы focr. Правда сдвиг пришлось делать +1. Не знаю почему, я же ничего не сдвигал, не правил. Ну это мелочь.

Всего записей: 391 | Зарегистр. 04-05-2016 | Отправлено: 17:43 31-05-2022
asku



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Сейчас на всей 255-страничной книге попробовал. Опять нужно было делать сдвиг (хотя в ФР те же страницы, что и в СК). После сдвига на части страниц (вроде на большинстве) текст из ФР лег нормально, на других смещение на страницу.
Почему так может быть?

Всего записей: 391 | Зарегистр. 04-05-2016 | Отправлено: 22:53 31-05-2022
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku
чтоб страницы не смещались надо проект сначала сохранить, а не создавать файл result во временной папке.. если делать во временной, то порядок может быть нарушен.. при сохранении порядок страниц нормализуется..
 
Добавлено:
и еще.. править символы в файнридере бессмысленно, т.к. парсер берет данные из того блока, где они находятся в первоначальном виде.. информация о ручных правках, видимо, сохраняется в каких-то других местах.. но, на всякий случай лучше не делать ручных правок, т.к. программа мало тестировалась и теоретически могут вылезать всякие баги при этом..
критичным для парсера является изменение размеров блоков - в этом случае программа может не создать файл result вообще или создать, но с ошибками.. если все-таки нужно изменить блоки на странице по каким-то причинам (не определился или не правильно определился какой-то блок и т.п.), по после внесения данных изменений эту страницу нужно полностью перераспознать, тогда программа должна работать корректно.. но опять же - если без этого можно обойтись, то лучше ничего не трогать..

Всего записей: 1390 | Зарегистр. 26-07-2007 | Отправлено: 00:37 01-06-2022
asku



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
NME, так я так и делаю. Я даже не знаю где находится временная папка.
Может у меня какая-то неправильная версия ФР.  

Всего записей: 391 | Зарегистр. 04-05-2016 | Отправлено: 08:03 01-06-2022
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku
Это очень странно, потому что пересохранив выложенный выше пакет файнридера страницы встали на свои места..
 
Предлагаю еще раз по пунктам выполнить следующее:
1. Открыть ФР, зайти в настройки и отключить все "улучшалки", такие как исправить перекос, искажение, разрешение изображение и всё остальное..
2. Добавить картинки для распознания. Распознать всё.
3. После полного распознания, ничего не изменяя, сохранить проект (файл -> сохранить документ finereader).. указать какое-то новое имя для сохранения..
4. Найти в этой сохранённой папке подпапку data и скопировать туда парсер последней версии (2.3.1)..
5. Дважды кликнуть по парсеру - должен появиться файл result.bookmarks.. далее скопировать этот result в нужное кромсатору место и провести работы с СК..
Далее следует НЕ ОБЯЗАТЕЛЬНАЯ К ИСПОЛНЕНИЮ инструкция по импорту файла result.bookmarks в djvu-книгу, которая КРАЙНЕ НЕ РЕКОМЕНДУЕТСЯ на больших книгах и при отсутствии WinDjview версии Extended!!! (актуальная 3.1)
Подробнее...

Всего записей: 1390 | Зарегистр. 26-07-2007 | Отправлено: 10:06 01-06-2022 | Исправлено: NME, 14:43 01-06-2022
asku



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
При внедрении ocr в СК такое сообщение
 

 
На некоторых сканах рисунки без текста. Это же не может повлиять?
 
Добавлено:

Цитата:
Далее ОБЯЗАТЕЛЬНО!!! удаляем букмарки из книги - для этого на поле книги кликаем правую клавишу мыши и выбираем пункт "удалить все аннотации", после закрываем книгу.. Если не удалить эти аннотации, то всё это может записаться в реестр (при соответствующих настройках), так что лучше их предварительно удалить указанным способом..

 
Вот это я не понял. Не нашел, где это.
 
Добавлено:
В общем, я сделал, как вы написали, только без «Далее ОБЯЗАТЕЛЬНО!!!», и все вроде получилось. Текстовый слой везде на месте. Делал со сдвигом 0 (ноль).

Всего записей: 391 | Зарегистр. 04-05-2016 | Отправлено: 13:31 01-06-2022
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku

Цитата:
На некоторых сканах рисунки без текста. Это же не может повлиять?

не должно влиять..

Цитата:
Вот это я не понял. Не нашел, где это.

А что непонятного во фразе "на поле книги кликаем правую клавишу мыши"? Если такой команды при клике ПКМ в появившемся меню нет, то читаем выше фразу

Цитата:
WinDjview Extended (именно Extended, а не оригинальная версия, т.к. в оригинальной нет функции для массового удаления аннотаций)
нужно скачать Extended-версию WinDjview, есть здесь на форуме..
 
Добавлено:
Подправил предыдущее сообщение, спрятал инфу об импорте аннотаций в djvu-книгу.. А то хочешь как лучше, а получается как всегда..

Всего записей: 1390 | Зарегистр. 26-07-2007 | Отправлено: 14:19 01-06-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А почему, уважаемые форумчане, вы не пишете, при помощи каких версий FR (номер, билд) и в каких ОС вы все эти действия совершаете ?
 
Я четыре книги при помощи 14-й FR (14.0.107.232), Win 7  распознал, проблем с их импортом в SK не было.

Всего записей: 972 | Зарегистр. 13-06-2013 | Отправлено: 15:02 01-06-2022
asku



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Я четыре книги при помощи 14-й FR (14.0.107.232), Win 7  распознал

 
А вы их где-нибудь в инете публикуете? Можно взглянуть?

Всего записей: 391 | Зарегистр. 04-05-2016 | Отправлено: 15:35 01-06-2022
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2023

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru

Рейтинг.ru