Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v6.97 | ScanKromsator v6.91 |
 ScanKromsator v6.8 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: mvk2006, 21:12 04-08-2023
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Т.е. не исключено, что СК не добавляет информацию о размерах изображения

Какой бред...
Если бы не было информации о размерах, ни один вьюер не смог бы показать его. По факту акробат и даже сам FR прекрасно открывают и абсолютно правильно отображают его! Проблема начинается у FR когда нужно сохранить как word. Проверил на лицензионном FR15 - та же ошибка что и у вас.
Я даже знаю в чем проблема. 99,99% баг FR. У вас там раскраска фона. СК такую раскраску фона кодирует в pdf, помещая в pdf изображение размером 1х1 пикселя, растягивая его на нужную площадь и тем самым используя его как фон. Все по стандарту, но почему FR не может справиться с таким простым и в общем то штатным случаем, нужно спрашивать у них. Я даже ради интереса поменял код в СК, используя вместо 1х1 изображение 2х2. Результат тот же. Можно поэкспериментировать увеличивая размер, но мне это не интересно. Скажу точно, что если размер фона сделать равным размеру картинки, то тогда FR все прекрасно делает. Чтобы сейчас сделать это, нужно для раскраски задать градиент, но 2-й цвет сделать равным первому, т.е. по факту градиента не будет. Это по сути рабочий костыль для вашего случая

Всего записей: 4441 | Зарегистр. 09-09-2002 | Отправлено: 17:52 27-12-2020
DmitryKz

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Какой бред...

Вполне возможно — я не знаю, как устроен формат pdf, поэтому озвучил первую возникшую идею, так как также не мог бы поверить, что ФР не может справиться с простейшими случаями.
За совет с костылем спасибо — обращаться в поддержку не буду, так как обычно это редко каким-то полезным телодвижением со стороны Abbyy заканчивается. Тем более 14-ю версию уже точно никто не будет исправлять.

Всего записей: 3142 | Зарегистр. 29-09-2005 | Отправлено: 18:01 27-12-2020
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Но на страницах, где был применен White transparent, происходит упомянутая выше  

Думаю, это ни при чем. Проблема не в том, что pdf после СК некорректен (ведь все этот pdf успешно отображают), а в том, что FR не может адекватно воспроизвести фичи pdf (в данном случае раскраску фона) при его конвертации в ocr-формат. Возможно, FR и в страшном сне не мог предвидеть ситуацию, когда ему дают распознать картинку размером 1х1 и он уходит в переполнение или что-то в этом роде. А может ему не нравится что изображение растягивается на площадь, большую на один-два порядка чем размер этого изображения. ХЗ.
 

Всего записей: 4441 | Зарегистр. 09-09-2002 | Отправлено: 18:07 27-12-2020
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
DmitryKz
 
15 из местных портабл без проблем открыла pdf из пакета, распознала и сохранила в Ворд.
 
А то что толку от поддержки Абби, как от козла молока - это точно.

Всего записей: 3675 | Зарегистр. 17-09-2001 | Отправлено: 23:15 27-12-2020
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
сильный оффтоп

Цитата:
А то что толку от поддержки Абби, как от козла молока - это точно.

писать надо продажникам, если саппорт мышей не ловит.
Черкнул я в техподдержку, файл приложил. Авось выйдет что.

Всего записей: 3058 | Зарегистр. 15-07-2010 | Отправлено: 09:28 28-12-2020
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
писать надо продажникам, если саппорт мышей не ловит.
Черкнул я в техподдержку, файл приложил. Авось выйдет что.

 
Ну попробуйте попросить 2543 билд 8-й версии, где решена проблема с подстановкой неизвестных шрифтов в PDF... Официально он не выходил, но он есть. ОЕМ-щиков они посылают к Эпсону, Минольте и другим производителям, со сканерами которых поставлялся FR.
 
С пользователями старых версий у них вообще разговор простой - переходите на новую версию, косяки которой они точно так же не собираются исправлять.

Всего записей: 3675 | Зарегистр. 17-09-2001 | Отправлено: 10:57 28-12-2020
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
оффтоп
niccolo
Кабы мне это было нужно, я бы раскопал.  
Вот уж проблема из проблем, найти и купить старый сканер с сохранившимся cd-диском. Даже один диск. Даже образ диска. Определите модель(и), и дело в шляпе.
Значит, так "нужно".
 
bolega, сорри. Больше не буду.

Всего записей: 3058 | Зарегистр. 15-07-2010 | Отправлено: 12:30 28-12-2020
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
 
Ну-ну.
 
bolega
 
При редактировании изображения в сторонней программе может разумнее обновление картинки в СК НЕ ПО ЗАКРЫТИЮ внешней программы, а по сохранению изменённого файла (изменению первоначальной даты/времени....), как например пакетное переименование с ручным редактированием имён файлов в тота Коммандер.
 

Всего записей: 3675 | Зарегистр. 17-09-2001 | Отправлено: 13:39 28-12-2020
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
в завершение переписки про глюк ФР. Ответ саппорта. Быстро, и надеюсь что адекватно. Мне проверить не на чем, только восьмеркой пользуюсь.
 


Всего записей: 3058 | Зарегистр. 15-07-2010 | Отправлено: 19:02 28-12-2020
DmitryKz

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral, спасибо! Действительно, ошибки нет после удаления скрытых данных.
Но качество изображения ухудшается — почему-то появляются артефакты, в виде размытия краев букв/ореолов, характерные для jpg-сжатия.
То есть, по сути, это не "удаление скрытых данных", а конвертация страницы с ее видимым оформлением из BW в Grey:
— до:

 
— после:


Всего записей: 3142 | Зарегистр. 29-09-2005 | Отправлено: 19:14 28-12-2020 | Исправлено: DmitryKz, 08:34 29-12-2020
igogo22

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Извните за вопрос не по теме. Периодически попадаются мне книги с экслибрисом  

Кто это? На каком сайте живет?

Всего записей: 45 | Зарегистр. 05-12-2011 | Отправлено: 20:33 28-12-2020 | Исправлено: igogo22, 20:34 28-12-2020
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Но качество изображения ухудшается

Очень своеобразное у FR понятие об "удаление скрытых данных". Я выбрал только "скрытые объекты и текст". В результате файл сильно распух, и это немудрено: FR слил все слои в одно цветное изображение (как если бы в СК дать команду merge zones) и сжал его в jpg с приличными артефактами. Понятное дело, что такой pdf не вызовет никаких проблем.
 
Добавлено:
Поставил последнее обновление для своего лицензионного FR15, теперь ваш файл  конвертировался в WORD без ошибок, серый фон остался, но рамку вокруг него FR  все-таки потерял... Впрочем, для ocr это не важно.  
Попробовал не конвертацию в word, а просто внедрить ocr-слой, в итоге и фон, и рамка остались, но FR понизил dpi текста с 400 до 300dpi (это можно увидеть например, импортировав в СК полученный после FR pdf). В настройках FR увидел, что так по дефолту и должно быть. Задал там не менять цветность и dpi, и... FR все равно поменял dpi, теперь уже до 600, и текст сделал серым (( хотя и без артефактов. Возможно, нужно еще ковыряться в настройках, чтобы достичь правильного результата. Но мне это не удалось, либо качество падает, либо ч/б становится серым. Возможно, если бы не было раскраски фона, было бы все ок.
 

Всего записей: 4441 | Зарегистр. 09-09-2002 | Отправлено: 09:11 29-12-2020
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Еще поэкспериментировал. Если убрать из зоны фон, то FR после ocr оставляет страницу ч/б. Иначе конвертирует в серое. К сожалению, сколько ни игрался настройками, добиться того, чтобы FR просто подклеил оcr, ничего более не трогая, мне не удалось
Вроде бы раньше PDF Transformer делал это без проблем. Но он больше не выпускается, его функционал полностью ушел в FR15.  
Причина увеличения dpi до 600 тоже стала понятна, страница была 400dpi, чб зона - 600, вот FR их разрешение и выравнивал. Это я могу понять, но зачем он b/w превращает в серое, мне не понятно.  
Это я все не с целью критики FR, а чтобы понимать может ли СК подготовить для FR такой файл, который бы не менялся в FR при добавлении OCR. Прихожу к выводу, что при наличии раскраски фона - нет. Но возможно я плохо еще знаю возможности FR.

Всего записей: 4441 | Зарегистр. 09-09-2002 | Отправлено: 11:48 29-12-2020
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
добиться того, чтобы FR просто подклеил оcr, ничего более не трогая

может у них где-нибудь FAQ на сайте есть с таким вопросом. Я вот ни разу хорошего слова про ФР не слыхал насчет pdf с его участием. Всегда траблы.

Всего записей: 3058 | Зарегистр. 15-07-2010 | Отправлено: 12:17 29-12-2020
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Причина увеличения dpi до 600 тоже стала понятна, страница была 400dpi, чб зона - 600, вот FR их разрешение и выравнивал.

bolega, а как это вы вычисляете dpi внутри pdf ? Сами же говорили что такого слова стандарт pdf не знает, всё в долях дюйма.

Всего записей: 3058 | Зарегистр. 15-07-2010 | Отправлено: 17:44 29-12-2020
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega

Цитата:
...добиться того, чтобы FR просто подклеил оcr, ничего более не трогая, мне не удалось

 
http://forum.ru-board.com/topic.cgi?forum=93&topic=3514&start=3160#6
 
 
test_2.zip

Всего записей: 2794 | Зарегистр. 31-05-2010 | Отправлено: 19:59 29-12-2020 | Исправлено: ComboFZ, 04:23 30-12-2020
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ComboFZ
Спасибо. Так сработало. А я давал команду в меню "сохранить документ pdf с возможностью поиска". Оказывается, результаты кардинально отличаются.
 
TelecomUral

Цитата:
как это вы вычисляете dpi внутри pdf  

Так просто. dpi=дюймы/пиксели. Размер в дюймах известен, размер в пикселях тоже известен. Размер в дюймах в pdf хранится не непосредственно, а рассчитывается из аффинной матрицы, которая в нем хранится. Конечно, нет никакой гарантии, что генератор pdf задал физические размеры картинки адекватно исходнику. Ведь изображение в pdf можно растянуть в любом направлении, в этом случае реальное dpi узнать уже невозможно.

Всего записей: 4441 | Зарегистр. 09-09-2002 | Отправлено: 09:21 30-12-2020
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
да не, я не про теорию расчета. Вы ж не в hex-редакторе аффинную матрицу извлекаете, вот о чем вопрос. Поделить несложно, а где вы видите исходные числа - ? PDF-редактор какой-то, типа pdfxchange editor?
 
мелкая ошибка, dot per inch это пиксели на дюймы.

Всего записей: 3058 | Зарегистр. 15-07-2010 | Отправлено: 14:30 30-12-2020
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
а где вы видите исходные числа

Я же написал выше:

Цитата:
 (это можно увидеть например, импортировав в СК полученный после FR pdf).

 

Цитата:
Вы ж не в hex-редакторе аффинную матрицу извлекаете

Вы наверно забыли, что я в коде СК это делаю

Всего записей: 4441 | Зарегистр. 09-09-2002 | Отправлено: 14:53 30-12-2020 | Исправлено: bolega, 14:54 30-12-2020
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А, ну да. Не сообразил
Своему коду как не доверять

Всего записей: 3058 | Зарегистр. 15-07-2010 | Отправлено: 15:40 30-12-2020
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)
Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru