Scan Tailor (часть 2) - [90] :: Программы :: Компьютерный форум Ru.Board

Много текста для 4lex4. Другим читать можно, возмущаться нет, просто примите к сведению.
[spoiler]Эх, Алёха (имя взял из ника), расстроили Вы меня этой фразой "В этом году новых сборок ждать не стоит.", чувствую закинули этот проект на самую дальнюю полку и всё из-за того, что фанаты дежавю переубедили Вас и убили энтузиазм.

Я хоть перед Вашими знаниями о пдф и программировании чувствую себя дошкольником, всё-же постараюсь провести некий тренинг и вернуть желание продолжить этот неблагодарный труд.
Ничего не читал из профессорских докладов, при этом ранее имел личный опыт и с дежавю и сейчас с пдф, вот на основе этого опыта, плюс вижу, что выкладывается в сеть, скажу своё мнение.

Итак, то что Вы назвали "коэффициентом качество/размер", я бы назвал "коэффициентом размытие/размер", ориентироваться на такой "ABBYY FR MRC PDF - 181.5 KB" результат нельзя. Скорее всего кто-то из дежавюшников собрал эту страницу, тем самым задал типа нормы, как-будто именно это и есть качество в маленьком размере. Ориентироваться на такое может только новичок в оцифровке, но не мы. Кстати, предложенный вариант обработки букв действительно заслуживает похвалы, надеюсь не только я это отметил, а вот картинка с корабликом сильно пострадала, о ней и речь.
Что же тогда есть качество, как оно выглядит, где тот предел сжатия, до которого можно опуститься? Отвечу так, чем меньше искажений от оригинала, тем качественнее сделан файл. Не позволяйте задавать стандарты фанатам дежавю, покажите как это выглядит в пдф и объявите это эталоном, пусть дежавюшники подстраиваются под пдф, а не наоборот.
4lex4, а помните Никулина?, над которым тогда посмеялись (к сожалению pixs.ru убил все заливки), так вот .zip]этот файл, думаю гуру дежавю насчитают тут очень хороший коэффициент качество/размер, а вот pdf, который никогда не сможет превзойти, потому что с плохим коэффициентом.

Если мы не можем победить по правилам, давайте их изменим.
Вот ссылка на пдф, и я говорю, что это качественный файл. Теперь ожидаем нападки со стороны дежавюшников, мол соберут не хуже и размером меньше, да ради Бога, пусть сидят и парятся, раскладывают на картинки и текст, потом раскрашивают цветные буквы и т.д. Теперь посчитаем времязатраты и это будет для кого-то новостью, что на создание такого пдф нужно лишь полчаса от окончания сканирования, ну да ещё нужно иметь некие методики, навык и достаточно удачные исходники. Скажу так, на данном примере просто повезло с крупным шрифтом, поленился даже поднимать до 600 dpi, хотя при 600 качество шрифта было бы ровнее, кто работает с клеарсканом, тот понимает разницу. Специально для неверующих записал на видео оцифровку другой книги, чуть потолще и чуть подольше, там исходные сканы похуже и результат менее приятный и всё же именно в таком виде файл пойдёт в сеть, претензии не ко мне, а к сканировщику, я бы таких затемнений у корешка не допустил, например как правильно сканирую я.
Конечно, если у оцифровщика времени навалом, то можно неделями вылизывать сканы и пытаться сэкономить байты, но я предпочту за это время собрать десяток-другой подобных книг/журналов, пользы для интернета гораздо больше, чем появление лишь одной качественной книги/журнала.
Эти файлы, на самом деле, не могут быть идеальным образцом и можно поковыряться подольше и сделать ещё лучше, но не было такой цели, на мой взгляд это очень хорошие и качественно-собранные пдф.

Теперь на том же отклеарсканенном файле кому-то открою глаза на ещё одно явление.
Ранее 4lex4 показал два файла, обратив внимание на меньший размер из ФР
Adobe ClearScan (300 DPI) PDF - 215 KB
ABBYY FR MRC PDF - 181.5 KB
По одной странице сравнивать некорректно. Разберите корабли на отдельные страницы в pdf (помогу тем, кто не умеет - ссылка), теперь сравните размер полного пдф (чуть больше 9 МБ) и общий размер постраничных файлов (около 15 МБ). ПДФ умеет находить одинаковую информацию и объединять её, снижая размер полного файла, и именно на клеарскане это явление особо сильно заметно, а вот на пдф, собранных обычным способом эффект малозаметен, а на дежавю вообще ни байта выгоды. Кому скучно, предложу ещё один эксперимент - нужна лишь одна страница в пдф и/или дежавю, теперь сделайте её копию десяток раз, далее весь десяток объединяйте в общий файл, результат всегда будет такой - общий пдф чуть-чуть увеличится от размера одной страницы (допустим одна страница=100 КБ, общий пдф=123 КБ), а дежавю станет ровно в десять раз тяжелее (допустим одна страница=100 КБ, общий дежавю=1000 КБ).

К чему всё это пишу, не всё так плохо у пдф, есть к чему стремиться, есть чему учиться. Напомню про адаптивное сжатие, допустим в Акробате, которым толком не научился пользоваться, каждый раз дело случая, повезёт, не повезёт (ссылка на пример с достаточно приличным результатом адаптивного сжатия, смысл в том, что вокруг букв нет артефактов, это при наличии на странице картинки). Также напомню про векторные пдф, это же просто песня, вот куда надо смотреть, для примера такой файл, и качество картинок может быть гораздо лучше, соответственно увеличивая вес, ещё пример векторного.
Вот если бы научить СТ делать не только бинаризацию, а и векторизацию, думаю выиграли бы все, и для дежавю тоже польза. Но я в этом не бум-бум, просто хочу верить, что вдруг и это возможно.
4lex4, мне показалось, что именно в этом направлении и были Ваши задумки, делить на разные зоны, цвета текста и типа того, что было бы очень похоже на результат клеарскана.

Про технологию обработки MRC в ФР ничего писать не стану, не умею я хорошо готовить из тормознутого jpeg2000, потому не использую, либо ради эксперимента очень редко могу вставить страницу-другую, но не полный файл пдф. Если увижу впечатляющий результат, то скорее всего возьму на вооружение для каких-то случаев, к примеру мне понравились буквы на Вашем примере "ABBYY FR MRC PDF - 181.5 KB", но убитая под стиль дежавю картинка вызывает отторжение, вот не было бы на странице никакой фотки, то согласился.
4lex4, расписали бы схему получения символов в точности как в оригинале, интересно же.

Я не надеюсь, что Вы прямо сейчас засядите и быстро доделаете свою сборку, далее решение за Вами, мы люди взрослые, должны сами разбираться, кто на нас давит и зачем, соответственно и реагировать адекватно создавшемуся случаю.

Пояснение к тексту: я не против djvu, я к нему с некоторых пор стал равнодушен, считаю что и этот формат должен жить, спрос на него есть и будет есть, и я одинаково уважаю всех оцифровщиков, даже тех кто откровенно косячит в любом формате, они научатся, я в них верю.[/spoiler]

p.s. Есть ещё пожелание в режиме распрямления строк увидеть дополнительные точки редактирования на вертикальных сторонах, было бы очень полезно при обработке фотоснимков книг, коих в последнее время появляется всё больше, как бы не вытеснили сканеры ))

Извиняюсь, предыдущий тест был некорректен, ибо файнридер пихает картинки в бекграунд, если сохранять без текста (я не сразу заметил), потому они размывались из-за сильного пережатия.

Теперь корректный тест и анализ результатов, на этот раз с djvu:
Сырой исходник (300DPI)
Исходное обработаное изображение, из которого создавались результаты (600 DPI)
Исходное обработаное изображение для визуального сравнения с результатами (300 DPI)

Результаты (все - 300 DPI):
Растровый PDF JPEG - 475 КБ - качество сжатия* - JPEG 50%.

Растровый PDF JPEG2000 - 481 КБ - качество сжатия* - JPEG2000 25%, размер частей - 1024.

Adobe ClearScan - 219 КБ - качество сжатия* картинок - JPEG 50%, текст векторизован.

FineReader PDF MRC - 335 КБ - качество сжатия* картинок - JPEG2000 25%, бинарная маска - 600 DPI.

DjVu - 195 КБ - качество сжатия* картинок в IW44 примерно равно 82 по шкале LizardTech или 34 по шкале DjVu Libre, бинарная маска - 600 DPI.

* У JPEG, JPEG2000, IW44 - разные шкалы качества, ибо это разные алгоритмы. Например JPEG2000 50% будет намного превосходить по качеству и размеру JPEG 50%. Я подобрал параметры так, чтоб размер JPEG и JPEG2000 был одинаков.

Явный победитель по параметру качество/размер с большим отрывом - DjVu.

По порядку качества:
1) Djvu, FineReader PDF MRC - примерно равны по качеству. Лучшее качество из всех.
При просмотре текст и линие четкие, гладкие. Символы (буквы) точно соответсвуют исходнику - засечки букв не повреждены и не укорочены, толщина деталей символов точна.
Картинки в хорошем качестве, качество сжатия можно регулировать. (хоть без потерь вывести, в PDF - JPEG2000 - lossless, в DjVu - IW44 - качество бэкграунда 100 (LizardTech)).
Сегментирование регулироемое. (В PDF FR - анализ и коррекция областей в самом FR, В DjVu - метод раздельных сканов. Но FR лучше, он позволяет сегментировать и текст на самих картинках. Для DjVu очень ограничено - недостаток инструментов, хотя с соответсвующим инструментом возможно.)

2) Растровый PDF JPEG2000. При просмотре текст и линие гладкие, но уже не такие четкие, но достаточно хорошие. В местах с текстом вокруг символов есть еле заметные артефакты сжатия на фоне, но они столь незначительны, что не влияют на восприятие. Картинки в хорошем качестве.
Сегментация не требуется.

3) Adobe ClearScan.
При просмотре текст и линие четкие и гладкие. Но! Символы не соответсвуют исходнику - засечки букв повреждены и укорочены, толщина деталей букв неточна, есть ужирнения в некоторых местах букв, символы заметно искажены и потеряли детали из-за сильной аппроксимации (приближения, по-другому сглаживания), необходимой для векторизации. Символы кажутся расплытыми, у всех символов с округлыми границами ("О", "C" и т.п.) видны острые грани, на крупных символах это особенно критично и заметно даже при 100% масштабе!

Картинки в среднем качестве, заметны артефакты сжатия JPEG (квадратики), настроить качество сжатия и выбрать более лучший JPEG2000 нельзя.

Сегментирование полностью нерегулироемое. Это означает, что надежда полностью на автоматический сегментатор от Adobe. Т. к. сегментирование задача еще нерешенная и сложная, автомат дает много искажений. Простые картинки вроде графиков, диаграм, геометрических фигур, стрелок, даже элементов в формулах и т. п. очень часто повреждаются до неузнаваемости. Нераспознаные сегментатором картинки идут в фон, где сильно даунсэмплится и сжимаются, становясь размытыми, полностью теряя качество. В дополнение картинки и формулы вообще могут пропасть (уйти за границу страницы), правда это можно откорректировать вручную, если заметить. Если фон предварительно не почистить, то даже небольшой мусор в бекграунде расплывается до больших размеров и становится заметным. Отдельно в этом режиме нельзя отключить автоматическую геометрическую коррекцию и поворот, которая иногда полностью искажает правильную страницу. И на примере видно, что тире в самом начале текста забрало в бекграунд и размыло - то есть потеря качества текста.

4) Растровый PDF JPEG. При просмотре текст и линии размыты из-за сильных артефактов сжатия. В местах с текстом вокруг символов есть заметные артефакты сжатия на фоне, фон поврежден и замусорен. Картинки в среднем качестве, заметны артефакты сжатия JPEG.
Сегментация не требуется.

Как видно, оптимальный размер дает только DjVu и PDF ClearScan. Когда задача сегментации сложна или вообще ручной труд не рационален (временные документы), подходит и PDF JPEG2000 или однослойный (Photo или псевдо) DjVu (IW44), но не PDF с JPEG, который все до сих пор юзают по неграмотности, делая большую ошибку.

ClearScan интересная технология, но на данный момент для практического использования не доработана. Нужна возможность ручной сегментации, настройки качества сжатия и даунсемпла изображений и бекграунда, возможность отключать автоматическую коррекцию геометрии и исправления багов вроде переноса элементов за границы страницы.
Максимум она годится для исправления исправления сильно деградированых документов или старых книг, с последующим экспортом в картинки в 600 DPI и ручным исправлением всех возникших косяков графическим редактором (их обычно очень много на научной литературе, проверено много раз).

Так что DjVu с нормальными ручными настройками (без даунсемпла бекраунда или даунсемплом его только до 300 DPI, предварительной обработкой исходника и апсемплом до 600DPI интерполяцией, чтобы текст был гладкий (бинарная маска должна быть 600DPI)) и метод раздельных сканов - лучшее, что есть на сегодня.

papaVlad

Цитата:

ПДФ умеет находить одинаковую информацию и объединять её, снижая размер полного файла

Глупость. Никакой одинаковой информации никто не ищет. На вашем примере:

Цитата:

Кому скучно, предложу ещё один эксперимент - нужна лишь одна страница в пдф и/или дежавю, теперь сделайте её копию десяток раз, далее весь десяток объединяйте в общий файл, результат всегда будет такой - общий пдф чуть-чуть увеличится от размера одной страницы

А теперь попробуйте изменить в каждом одинаковом N-ом изображении хотябы один пиксел, и получите в N раз больший PDF. Это происходит только потому, что один и тот же объект Adobe не копирует. Но стоит изменить хоть пиксел, вроде бы одинаковые изображения будут восприниматься как абсолютно разные, хотя отличаются только одним пикселом.
Получается, что мы имеем 99.9999% одинаковой информации, но она не "находится".

Поэтому даже если вы идеально отсканируете одну и туже страницу и запакуете в PDF (не ClearScan), размер будет в 2 раза больше. Даже если части абсолютно одинаковы, никакого объединения нет, ибо как я еще раз повторю, стоит изображениям отличиться хотябы пикселом.

И не стоит путать растровый PDF с PDF после ClearScan - последний уже не растровый PDF, а со сложными объектами и структурой.

Цитата:

ПДФ умеет находить одинаковую информацию и объединять её, снижая размер полного файла, и именно на клеарскане это явление особо сильно заметно

ClearScan (Editable text and Images, редактируемые текст и изображения) - это закрытая технология Adobe для сканов, к PDF отношение имеет косвенное, по большей части это технология работы именно с изображением. Суть в том, что сегментатором на растровом изображении ищутся символы - апроксимируются - векторизуются - похожие символы идут в словарь как один. Поэтому здесь действительно будет выигрыш размера на страницу, но точно такой же, как и в DjVu, потому что в DjVu уже давно похожие символы объединяются в словари c помощью JB2. То есть выигрыша перед DjVu в размере все равно не будет. И это верно только для символов, на похожие изображения это не действует. Тем более это не ключевой фактор, сжатие в обоих случаях идет именно за счет сегментации, а словари лишь вспомогательный фактор.
Поэтому сравнение одной страницы полностью корректно.

По сути ClearScan по принципу действия в точности такой же как DjVu и PDF MRC с той лишь разницей, что вместо деления на слои и использования эффективных алгоритмов сжатия для каждого слоя у него используются векторные объекты.

Цитата:

не умею я хорошо готовить из тормознутого jpeg2000, потому не использую

Очень глупое высказывание. JPEG2000 просто алгоритм сжатия изображений, более совершенный чем JPEG, чего тут надо уметь? При том же размере всегда дает лучшее по качеству изображение. Загуглите, узнаете много нового.
Вот тестовая площадка, выберете JPEG и JPEG2000 и сравните картинки:
http://xooyoozoo.github.io/yolo-octo-bugfixes/#fruits&jpg=s&jp2=s

Цитата:

но убитая под стиль дежавю картинка

Зря вы так. В DjVu можно настроить любое качество картинок, хоть исходное без потерь, вот хоть на мой пример взгляньте, явно лучше чем ваш любимый ClearScan, у которого при приближении на изображениях видны только квадратики вместо деталей. Просто все стандартные профили DjVu, которые юзает большинство неопытных пользователей, почему то норовят сжать картинки до 100 DPI в паршивом качестве, наверное потому что ПО устарело, раньше может это и был результат

, но не сейчас. Поэтому мы и видим размытое гавно, но это не относится к DjVu, а к кодировщикам, не умеющим пользоваться инструментом. Достаточно самому все настроить, и DjVu будут прекрасного качества при равном или меньшем, чем у PDF размере.

Цитата:

к примеру мне понравились буквы на Вашем примере "ABBYY FR MRC PDF

Цитата:

а вот картинка с корабликом сильно пострадала, о ней и речь.

Изображение вообще можно сохранить в исходном качестве, как я написал выше, просто я не заметил странность FR, что если сохранять без текстового слоя, то FR портит картинки, суя их в фон. Я исправился, посмотрите теперь, ясно видно, что детальность теперь высокая. И на ClearScan посмотрите, у которого из-за артефактов JPEG (квадратиков) при приближении ничего не разлядишь.

Способ для PDF MRC:

Пусть есть исходники 300 DPI.
1) Обрабатываем исходники.
2) Апсемплим изображение до 600DPI бикубической интерполяцией (можно прям из ST, выбрать режим Color [Цветной]).
PDF:
3) Суем в FR. Распознаем. Здесь важно! Сохраняем с параметрами: PDF - текст под изображением - галочка на MRC - Качество изображений: Выборочное - отключть даунсеплинг и выбрать - потеря качества не разрешена.
4) Получим большой PDF 600DPI без потерь. Теперь дожимаем и даунсемплим в Adobe Acrobat изображения до 300 DPI.
Выбираем сжатие для цвета и серого ZIP - даунсемпл 300ppi, если больше 300ppi
Для ЧБ - JBIG2 без потерь. Даунсемплинг выключен.
Получим PDF 300DPI без потерь с бинарной маской 600DPI.
Теперь опять переходим к сжатию:
Выбираем сжатие для цвета и серого JPEG2000 - качество по желанию, размер частей (tile size) - 1024.
Для ЧБ - JBIG2 без потерь. Даунсемплинг выключен.

*Почему нельзя сразу в JPEG2000 за один раз: дело в том, что Adobe ничего не делает с изображениями, если они уже в JPEG2000, то есть они не сожмутся без промежуточного шага в ZIP (почему ZIP? Чтоб не потерять качество, он без потерь).

Для DjVu нужна настройка соответсвующих утилит. Для DjVu много настроек, самое главное - сабсемплинг фона - 2 (600DPI / 2 = 300 DPI), качество фона - 80 (LizardTech, DjVu Small, Caminova) или 32 для Djvu Libre (DjVu Image и др.). Остальное по своему усмотрению, только никаких трансформаций (они должны быть до), естественно сабсемплинг фореграунда >=2 (лучше 12). Главное, что бинарная маска должна получаться 600 DPI, Background - 300 DPI. Получим качественный DjVu с цветным текстом и гладкими буквами, и хорошими картинками.
Есть способ с mask upsample 2 из сканов 300 DPI, тогда бинарная маска тоже будет 600DPI, но текст будет менее качественным и более зубристым, не рекомендую.

----------
ScanTailor Advanced v1.0.16 | Пожертвования

Модерирует : gyra, Maz
Maz (10-01-2024 10:45): Scan Tailor (часть 3)	Версия для печати • Подписаться • Добавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200