Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)

Модерирует : gyra, Maz

Maz (10-01-2024 10:45): Scan Tailor (часть 3)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

Widok



Moderator-Следопыт
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие части: Часть 1
Scan Tailor


Задача программы - пост-обработка сырых сканов книг для последующей сборки в PDF/DJVU,CBR/CBZ и т.д.
Программа обеспечивает большое удобство для использования, большую интерактивность и не меньшую автоматизацию процесса (по сравнению со СканКромсатором).
Кросс-платформенный (Windows,Mac OS, Linux) проект с открытыми исходниками.


Англоязычный топик по ScanTailor
 
Ветки:
Scan Tailor (ncraun) >>>  последняя версия
Scan Tailor Experimental (Tulon) >>>  последняя версия (обсуждение на DIY Book Scanner)
Scan Tailor Plus (Vadim "DikBSD" Kuznetsov) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Еnhanced (Petr "pejuko" Kovar) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Featured (monday2000) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Universal (trufanov-nok) >>>  последняя версия (обсуждение на publ.lib.ru)
Scan Tailor Advanced (4lex4) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Advanced (актуальный форк) >>>  история версий
 
Документация:
Документация (Wiki) | Зоны картинок в ScanTailor | ScanTailor. Быстрое начало | Видеоуроки и скринкасты новых функций СТ от Tulona
Статья: Scan Tailor. Программа для обработки отсканированных книг
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
Использование Scan Tailor совместно с Djvu Imager (сборка djvu методом разделенных сканов)
Как собрать Scan Tailor из исходных кодов под Windows
Почему нельзя сделать сплошную нумерацию вывода


Автор проекта - Tulon. Почему его здесь не видно? .
DikBSD автор ветки ScanTailor Plus история повторяется.
Юзеры! Будьте скромнее!


Прочие дистрибутивы, форки, дополнения

Всего записей: 24190 | Зарегистр. 07-04-2002 | Отправлено: 12:17 17-02-2010 | Исправлено: Maz, 10:43 10-01-2024
papaVlad



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ikea999
Учитывая Ваше последнее сообщение на рутрекере, по планам обработки страниц с искажениями строк, посоветую остаться на этой версии, она не даёт белых полос по краям страницы. А если имеете 64-х битную машину, то ещё есть вариант Scan Tailor experimental, по ссылке https://github.com/Tulon/scantailor/releases
Остальные версии СТ пока косячат, ждём обновления Advanced.
 
Обнаруженный Вами глюк ни на что не влияет, сделали вчера 100 страниц, сохранили проект, сегодня открыли проект на сотой странице и продолжили, сделали ещё сотню, завтра с двухсотой доделаете книгу, в папке out всё сохраняется как Вы сделали, ничего не исчезнет.

Всего записей: 161 | Зарегистр. 22-04-2012 | Отправлено: 15:36 15-05-2016
ikea999



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
papaVlad
 

Цитата:
Обнаруженный Вами глюк ни на что не влияет, сделали вчера 100 страниц, сохранили проект, сегодня открыли проект на сотой странице и продолжили, сделали ещё сотню, завтра с двухсотой доделаете книгу, в папке out всё сохраняется как Вы сделали, ничего не исчезнет.

 
В общем, да. На качество не влияет, только на скорость. Правлю на двух компах, дома и на работе. Иногда бывают перерывы на неделю и больше. Чтобы посмотреть на результат, уточнить,  иногда требуется увидеть ранее сделанное.

Всего записей: 80 | Зарегистр. 14-12-2004 | Отправлено: 17:31 15-05-2016
Dmb_2007

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Господа-товарищи, чем дело кончилось с новой версией СканТэйлора и обсуждением использования ФайнРидера, на которое хотели дать ссылку?

Всего записей: 341 | Зарегистр. 07-05-2004 | Отправлено: 00:34 07-06-2016
4lex4

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
C pdf и FineReaderом дело кончилось тем, что лучше djvu для сканов нет ничего, pdf на данный момент никогда не сможет превзойти djvu по коэффициэнту качество/размер даже с делением на слои, плюс pdf еще и тормозной по сравнению c djvu. С СТ пока еще ничего не закончено, терпение. В этом году новых сборок ждать не стоит.

Всего записей: 346 | Зарегистр. 27-01-2016 | Отправлено: 09:18 07-06-2016 | Исправлено: 4lex4, 09:19 07-06-2016
Dmb_2007

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
4lex4

Цитата:
C pdf и FineReaderом дело кончилось тем, что лучше djvu для сканов нет ничего, pdf на данный момент никогда не сможет превзойти djvu по коэффициэнту качество/размер даже с делением на слои, плюс pdf еще и тормозной по сравнению c djvu.  

 
В целом согласен, но, к сожалению, часто PDF`у нет альтернативы.
А вопрос мой касался ссылки -
Цитата:
Способ опишу позже в другой ветке и ссылку дам сюда, он нетривиальный, но и не трудозатратный (почти все на автомате).

 отсюда http://forum.ru-board.com/topic.cgi?forum=5&topic=32945&start=1760#19
 

Цитата:
С СТ пока еще ничего не закончено, терпение. В этом году новых сборок ждать не стоит.

 
Ок, понял. В нынешней сборке меня напрягают элементы управления, прячущиеся за "край" боковой панели.
Ну и расцветка
 
Успехов!

Всего записей: 341 | Зарегистр. 07-05-2004 | Отправлено: 19:58 07-06-2016
papaVlad



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Много текста для 4lex4. Другим читать можно, возмущаться нет, просто примите к сведению.
[spoiler]Эх, Алёха (имя взял из ника), расстроили Вы меня этой фразой "В этом году новых сборок ждать не стоит.", чувствую закинули этот проект на самую дальнюю полку и всё из-за того, что фанаты дежавю переубедили Вас и убили энтузиазм.
 
Я хоть перед Вашими знаниями о пдф и программировании чувствую себя дошкольником, всё-же постараюсь провести некий тренинг и вернуть желание продолжить этот неблагодарный труд.
Ничего не читал из профессорских докладов, при этом ранее имел личный опыт и с дежавю и сейчас с пдф, вот на основе этого опыта, плюс вижу, что выкладывается в сеть, скажу своё мнение.
 
Итак, то что Вы назвали "коэффициентом качество/размер", я бы назвал "коэффициентом размытие/размер", ориентироваться на такой "ABBYY FR MRC PDF - 181.5 KB" результат нельзя. Скорее всего кто-то из дежавюшников собрал эту страницу, тем самым задал типа нормы, как-будто именно это и есть качество в маленьком размере. Ориентироваться на такое может только новичок в оцифровке, но не мы. Кстати, предложенный вариант обработки букв действительно заслуживает похвалы, надеюсь не только я это отметил, а вот картинка с корабликом сильно пострадала, о ней и речь.
Что же тогда есть качество, как оно выглядит, где тот предел сжатия, до которого можно опуститься? Отвечу так, чем меньше искажений от оригинала, тем качественнее сделан файл. Не позволяйте задавать стандарты фанатам дежавю, покажите как это выглядит в пдф и объявите это эталоном, пусть дежавюшники подстраиваются под пдф, а не наоборот.
4lex4, а помните Никулина?, над которым тогда посмеялись (к сожалению pixs.ru убил все заливки), так вот .zip]этот файл, думаю гуру дежавю насчитают тут очень хороший коэффициент качество/размер, а вот pdf, который никогда не сможет превзойти, потому что с плохим коэффициентом.
 
Если мы не можем победить по правилам, давайте их изменим.
Вот ссылка на пдф, и я говорю, что это качественный файл. Теперь ожидаем нападки со стороны дежавюшников, мол соберут не хуже и размером меньше, да ради Бога, пусть сидят и парятся, раскладывают на картинки и текст, потом раскрашивают цветные буквы и т.д. Теперь посчитаем времязатраты и это будет для кого-то новостью, что на создание такого пдф нужно лишь полчаса от окончания сканирования, ну да ещё нужно иметь некие методики, навык и достаточно удачные исходники. Скажу так, на данном примере просто повезло с крупным шрифтом, поленился даже поднимать до 600 dpi, хотя при 600 качество шрифта было бы ровнее, кто работает с клеарсканом, тот понимает разницу. Специально для неверующих записал на видео оцифровку другой книги, чуть потолще и чуть подольше, там исходные сканы похуже и результат менее приятный и всё же именно в таком виде файл пойдёт в сеть, претензии не ко мне, а к сканировщику, я бы таких затемнений у корешка не допустил, например как правильно сканирую я.
Конечно, если у оцифровщика времени навалом, то можно неделями вылизывать сканы и пытаться сэкономить байты, но я предпочту за это время собрать десяток-другой подобных книг/журналов, пользы для интернета гораздо больше, чем появление лишь одной качественной книги/журнала.
Эти файлы, на самом деле, не могут быть идеальным образцом и можно поковыряться подольше и сделать ещё лучше, но не было такой цели, на мой взгляд это очень хорошие и качественно-собранные пдф.
 
Теперь на том же отклеарсканенном файле кому-то открою глаза на ещё одно явление.
Ранее 4lex4 показал два файла, обратив внимание на меньший размер из ФР
Adobe ClearScan (300 DPI) PDF - 215 KB
ABBYY FR MRC PDF - 181.5 KB
По одной странице сравнивать некорректно. Разберите корабли на отдельные страницы в pdf (помогу тем, кто не умеет - ссылка), теперь сравните размер полного пдф (чуть больше 9 МБ) и общий размер постраничных файлов (около 15 МБ). ПДФ умеет находить одинаковую информацию и объединять её, снижая размер полного файла, и именно на клеарскане это явление особо сильно заметно, а вот на пдф, собранных обычным способом эффект малозаметен, а на дежавю вообще ни байта выгоды. Кому скучно, предложу ещё один эксперимент - нужна лишь одна страница в пдф и/или дежавю, теперь сделайте её копию десяток раз, далее весь десяток объединяйте в общий файл, результат всегда будет такой - общий пдф чуть-чуть увеличится от размера одной страницы (допустим одна страница=100 КБ, общий пдф=123 КБ), а дежавю станет ровно в десять раз тяжелее (допустим одна страница=100 КБ, общий дежавю=1000 КБ).
 
К чему всё это пишу, не всё так плохо у пдф, есть к чему стремиться, есть чему учиться. Напомню про адаптивное сжатие, допустим в Акробате, которым толком не научился пользоваться, каждый раз дело случая, повезёт, не повезёт (ссылка на пример с достаточно приличным результатом адаптивного сжатия, смысл в том, что вокруг букв нет артефактов, это при наличии на странице картинки). Также напомню про векторные пдф, это же просто песня, вот куда надо смотреть, для примера такой файл, и качество картинок может быть гораздо лучше, соответственно увеличивая вес, ещё пример векторного.
Вот если бы научить СТ делать не только бинаризацию, а и векторизацию, думаю выиграли бы все, и для дежавю тоже польза. Но я в этом не бум-бум, просто хочу верить, что вдруг и это возможно.  
4lex4, мне показалось, что именно в этом направлении и были Ваши задумки, делить на разные зоны, цвета текста и типа того, что было бы очень похоже на результат клеарскана.
 
Про технологию обработки MRC в ФР ничего писать не стану, не умею я хорошо готовить из тормознутого jpeg2000, потому не использую, либо ради эксперимента очень редко могу вставить страницу-другую, но не полный файл пдф. Если увижу впечатляющий результат, то скорее всего возьму на вооружение для каких-то случаев, к примеру мне понравились буквы на Вашем примере "ABBYY FR MRC PDF - 181.5 KB", но убитая под стиль дежавю картинка вызывает отторжение, вот не было бы на странице никакой фотки, то согласился.
4lex4, расписали бы схему получения символов в точности как в оригинале, интересно же.
 
Я не надеюсь, что Вы прямо сейчас засядите и быстро доделаете свою сборку, далее решение за Вами, мы люди взрослые, должны сами разбираться, кто на нас давит и зачем, соответственно и реагировать адекватно создавшемуся случаю.
 
Пояснение к тексту: я не против djvu, я к нему с некоторых пор стал равнодушен, считаю что и этот формат должен жить, спрос на него есть и будет есть, и я одинаково уважаю всех оцифровщиков, даже тех кто откровенно косячит в любом формате, они научатся, я в них верю.[/spoiler]
 
p.s. Есть ещё пожелание в режиме распрямления строк увидеть дополнительные точки редактирования на вертикальных сторонах, было бы очень полезно при обработке фотоснимков книг, коих в последнее время появляется всё больше, как бы не вытеснили сканеры ))

Всего записей: 161 | Зарегистр. 22-04-2012 | Отправлено: 12:23 08-06-2016
hogu77

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Много текста для papaVlad. Другим читать можно, а возмущаться адресату - нет)
Пойми, больше всего мне не хочется переводить наш диалог в русло взаимных обвинений в глупости, выбирая стиль разговора при котором меряются тем чем обычно меряются в бане но твой формат подачи материала требует зеркальности. Постараюсь много не рассусоливать, быть предельно кратким и при желании с твоей или иной стороны - ответить более детально. И последнее, это не апология формата DjVu.

Цитата:
<...> чувствую закинули этот проект на самую дальнюю полку и всё из-за того, что фанаты дежавю переубедили Вас и убили энтузиазм.

Я ничего не в ком не убивал, просто снова всплыл извечный вопрос со времён Tulon'а и его СТ - нахрена в программе функция получения фото- и текст-слоя если эта программа сама не разделят тиффы которые по логике самой программы должны быть разделены? Это из той серии если я например сделаю звуковой редактор уровня Аудишена или Саундфорджа только звуковой формат будет исключительно мой, а это уже ваша печаль как переводить из моего формата в ту же вавку, где то так.
И вот, со слов 4lex4 оказывается что разделение на субсканы вещь полезная и для PDF формата!
Так что, ... мы ничего не убивали.

Цитата:
Если мы не можем победить по правилам, давайте их изменим.

Значит ли это что PDF'щик никогда не любили играть по правилам?

Цитата:
Теперь ожидаем нападки со стороны дежавюшников, мол соберут не хуже и размером меньше, да ради Бога, пусть сидят и парятся, раскладывают на картинки и текст, потом раскрашивают цветные буквы и т.д.

«Нападки» не заставили себя ждать.
Думал будет что-то аховое, оказалось - нет. Был убран персиковый фон в автомате и загружены полученные страницы в коробку PDF, однокнопочным нажатием - изменены. В итоге, покорёженный шрифт букв и подозреваю, убитое качество картинок. Между тем, ничего не мешало прогнать субсканы-фото через ту же Саттву (убрав растр) и/или другие «улучшайзеры» если необходимо. В наиболее важных случаях вместо саттвы использую изменённый Descreen в GIMP'е. Фиг с ним с текстом, хоть фотки и чертежи в наилучшем качестве ироды оставьте!!
Второе, малоцвет тоже можно автоматизировать без уменьшения качества и разрисовывания буковок. Хотя единой схемы и нет, надо в каждом случае выбирать приемлемое соотношение качества-времени.

Цитата:
<...> я одинаково уважаю всех оцифровщиков, даже тех кто откровенно косячит в любом формате, они научатся, я в них верю.

Ага, научаться, держи карман шире. Не задавал себе вопрос почему существует несколько тем посвященных качественной оцифровке на том же рутрекере а народ туда не спешит? Что, все такие профи? Походи по книжно-журнальным раздачам на том же ресурсе и многое станет понятно.

Всего записей: 118 | Зарегистр. 14-02-2012 | Отправлено: 18:44 08-06-2016
papaVlad



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
hogu77

Цитата:
Значит ли это что PDF'щик никогда не любили играть по правилам?

За всех не скажу, но меня "правило маленького файла" никогда не устраивало, даже в эпоху дежавьюирования постоянно пытался использовать "профиль фото".

Цитата:
Думал будет что-то аховое, оказалось - нет.

Временем не располагаю, зато есть огроменная очередь на оцифровку. Хотя иногда меня заносит и интересное издание могу вылизывать неделю-две, потом бывает жалею потраченное время.

Цитата:
Между тем, ничего не мешало прогнать субсканы-фото через ту же Саттву (убрав растр) и/или другие «улучшайзеры»...

Ну вот, опять пытаетесь навязать свои правила.
Отвечу так - именно эти изменения, которые маскируются под фразу "убрать растр, муар", я и считаю бедой, это просто размытие, пусть и умное/подконтрольное, о всех произведённых изменениях знаете только Вы, как оно действительно было в оригинале/скане приходится просто догадываться. Лично я никогда не поверю, что не замылилась какая-то полезная деталь, потому пытаюсь сохранить всё так, как увидел сканер, а далее, при обработке на меня начинают воздействовать "правила", типа фон должен быть отбелен, шрифт достаточно контрастным и размер итоговый не превышать среднестатистический, вот и выходят неаховые файлы в маленьком размере. Частенько я плюю на правила и ничего не изменяю, оставляю и фактуру бумаги, и в пдф при минимальном сжатии без каких-либо клеарсканов. Также иногда делаю полезные коррекции сканов, но то для других, поверьте, всё красиво, а если у меня есть сомнения, мол могут возникнуть проблемы при обработке, то отправляю ещё вариант сырого скана, пока жалоб нет.

Цитата:
Что, все такие профи?

Зря Вы так на них, народ делает полезное дело, каждый в меру своих возможностей, если мне есть что посоветовать, то я пишу в личку, но только действительно нужные, простые и понятные подсказки.

Всего записей: 161 | Зарегистр. 22-04-2012 | Отправлено: 01:03 09-06-2016
hogu77

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
papaVlad
Временем не располагаю, зато есть огроменная очередь на оцифровку.

А обратиться сюда или попросить помощи в личном сообщении не хочешь по религиозным соображениям?)

Цитата:
Ну вот, опять пытаетесь навязать свои правила.

Боже упаси! С каких это пор правила хорошего тона стали исключительно моими?!

Цитата:
Отвечу так - именно эти изменения, которые маскируются под фразу "убрать растр, муар", я и считаю бедой, это просто размытие, пусть и умное/подконтрольное, <...>

Под размытием, подозреваю, ты понимаешь действие гауссовского блюра. Забегая вперёд хочу сказать что даже после него, при выборе НОРМАЛЬНОГО значения размытия есть возможность восстановления казалось бы утраченной «решётчатой структуры» (растра) при помощи различных деблюрингов. Так что потерю деталей после гаусса можно считать далеко не тотальной и окончательной. Это раз.
Два. Блюрить растр тебе никто не навязывает, можно восстановить детали при помощи FFT. «Фурье», назовём его так для краткости, весьма хорошо зарекомендовал себя при убирании последовательно-равномерного шума. Немного погуглив можно найти примеры убирания тиснения («пупырчатости») на старых фотографиях довольно быстро и качественно, использовать при это только «штамп» и/или «лечащую кисть» никаких сил и времени не хватит. Для типографского цветного он тоже подходит.
По сути о размазывании растра речь не идёт, речь идёт о методе реконструкции, примерно так же если бы ты восстанавливал старую фотографию залатывая кляксы и белые «молнии» - сгибы. Понимаю, для тебя это всего лишь слова так что поговорим более предметно, с примерами.
Так как, после прочтений по ссылкам, ты уже немного вник в суть вопроса, (я про замазывание мелких звёздочек вокруг центральной) то серия примеров из одной и той же картинки будет «больше тысячи слов»:
Оригинал

После Gaussian Blur 2.1 (блюрил по минимуму что бы только избавиться от сетки)

Sattva Descreen по дефолту (75 - 133 - 88)

В завершение, тоже по дефолту (72) немного видоизменённый мною код Descreen для GIMP (в нём как и в предыдущем тоже всё автоматизировано, ничего красить не надо)


Цитата:
<...> о всех произведённых изменениях знаете только Вы, как оно действительно было в оригинале/скане приходится просто догадываться.

Ёпта, да-к никто же мешает задать вопрос и получить ответ!
 
P.S. Обращаюсь к модераторам данной темы. Не убирайте и не переносите мой ответ к papaVlad'у некоторое время. Я в полной мере понимаю что моё сообщение должно быть не в этой теме а то и вообще в личке.
P.P.S. Да, согласен, возможно надо оставлять фото из книг и журналов в таком виде

но мне больше нравиться так

и без всякого блюринга. Возможно я не прав.

Всего записей: 118 | Зарегистр. 14-02-2012 | Отправлено: 18:50 09-06-2016
papaVlad



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
hogu77

Цитата:
А обратиться сюда или попросить помощи
Ту хрень и объёмы, которые делаю, никому не нужны, потому сам как-нибудь, что-то нормальное скидываю по знакомым.

Цитата:
Под размытием, подозреваю, ты понимаешь действие гауссовского блюра.
У меня свой личный термин, поймёте из известной песни:
 
Я леплю из пластилина,  
Пластилин нежней, чем глина,  
Я леплю из пластилина  
Кукол, клоунов, собак.  
Если кукла выйдет плохо  
Назову ее - "Дуреха",  
Если клоун выйдет плохо  
Назову его - "Дурак".  
 
Подошли ко мне два брата,  
Подошли и говорят:  
Разве кукла виновата?  
Разве клоун виноват?  
Ты их лепишь плоховато,  
Ты их любишь маловато,  
Ты сама и виновата,  
А никто не виноват.  
 
Помните те детские времена, чтоб прям блестело, нужно ещё палец послюнявить и разгладить.

Цитата:
даже после него, при выборе НОРМАЛЬНОГО значения размытия есть возможность восстановления казалось бы утраченной «решётчатой структуры» (растра) при помощи различных деблюрингов
Я не знаю, вот этот файл с НОРМАЛЬНЫМ значением или нет, пробуйте https://yadi.sk/d/5jfG84KgsPTFg (в сообщении выше ссылка нерабочая получилась), мне результат показывать не нужно, у меня есть качественный файл в пдф.

Цитата:
Так как, после прочтений по ссылкам, ты уже немного вник в суть вопроса
Увидел слово фотошоп, а не пользуюсь, и точно никогда не осилю все премудрости, которыми Вы обладаете, но смысл я уловил, всё-таки требуется умное размытие, ладно уговорили, попробовал, но только чтоб в пакетную обработку просто добавить несколько ползунков.  
Тест получился таким https://yadi.sk/d/6y3KHpEWsPST8 , ещё сильнее размыть не могу, религия не позволяет, я же "PDF'щик". Обязуюсь в дальнейшем использовать,... может быть.

Цитата:
Не убирайте и не переносите мой ответ к papaVlad'у некоторое время
Вопрос решён, ситуация разгладилась, шрамы тоже уже можно удалить.

Цитата:
но мне больше нравиться так
Ваше право, но я бы не отступал от оригинала.
 
p.s. домашнее задание: hogu77, жутко интересно, как это будет в дежавю, в качестве, в Вашем исполнении https://yadi.sk/d/AkgUdq8gsPV72 (не ищите подвоха, просто скан, отнеситесь также с юмором).
 
p.p.s. Зачем на этом форуме при ответе постоянно выскакивает сообщение?, да ещё с чужим IP.
"Вам запрещен вход на этот сайт.
Ваш IP адрес 141.0.12.140  
Если это ошибка, то пишите письма на support@ru-board.com и не забудьте сообщить IP адрес который Вы видите выше, а тaкже, если Bы зарегистрированы на форуме, то Ваш ник.
Посмотрите пока немножко рекламы, если вас не затруднит. "

Всего записей: 161 | Зарегистр. 22-04-2012 | Отправлено: 01:51 10-06-2016 | Исправлено: papaVlad, 01:55 10-06-2016
hogu77

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
papaVlad
<...> как это будет в дежавю, в качестве, <...>

Примерно так: https://yadi.sk/d/c2kKAlIgsPvqa
(«не искал подвоха, отнёсся с юмором»).

Всего записей: 118 | Зарегистр. 14-02-2012 | Отправлено: 12:14 10-06-2016 | Исправлено: hogu77, 12:18 10-06-2016
papaVlad



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Улыбнуло ))
 
А дежавю совсем без потерь умеет?, а то ради 8,5 КБ получить кучу изменённых пикселей, фу-у-у ((
http://s33.radikal.ru/tempfiles/e9ab9693b4184d64b9388f635231c7c9/-88693455.png
https://yadi.sk/d/weQy6eSpsQ9np

Всего записей: 161 | Зарегистр. 22-04-2012 | Отправлено: 14:23 10-06-2016
hogu77

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
papaVlad
А дежавю совсем без потерь умеет?

DjVu Small Mod: Профиль кодирования (Псевдо-Djvu).

Всего записей: 118 | Зарегистр. 14-02-2012 | Отправлено: 19:28 10-06-2016
4lex4

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Извиняюсь, предыдущий тест был некорректен, ибо файнридер пихает картинки в бекграунд, если сохранять без текста (я не сразу заметил), потому они размывались из-за сильного пережатия.  
 
Теперь корректный тест и анализ результатов, на этот раз с djvu:
Сырой исходник (300DPI)
Исходное обработаное изображение, из которого создавались результаты (600 DPI)
Исходное обработаное изображение для визуального сравнения с результатами (300 DPI)
 
Результаты (все - 300 DPI):
Растровый PDF JPEG - 475 КБ - качество сжатия* - JPEG 50%.
 
Растровый PDF JPEG2000 - 481 КБ - качество сжатия* - JPEG2000 25%, размер частей - 1024.
 
Adobe ClearScan - 219 КБ - качество сжатия* картинок - JPEG 50%, текст векторизован.
 
FineReader PDF MRC - 335 КБ - качество сжатия* картинок - JPEG2000 25%, бинарная маска - 600 DPI.
 
DjVu - 195 КБ - качество сжатия* картинок в IW44 примерно равно 82 по шкале LizardTech или 34 по шкале DjVu Libre, бинарная маска - 600 DPI.
 
* У JPEG, JPEG2000, IW44 - разные шкалы качества, ибо это разные алгоритмы. Например JPEG2000 50% будет намного превосходить по качеству и размеру JPEG 50%. Я подобрал параметры так, чтоб размер JPEG и JPEG2000 был одинаков.
 
Явный победитель по параметру качество/размер с большим отрывом - DjVu.
 
По порядку качества:
1) Djvu, FineReader PDF MRC - примерно равны по качеству. Лучшее качество из всех.
При просмотре текст и линие четкие, гладкие. Символы (буквы) точно соответсвуют исходнику - засечки букв не повреждены и не укорочены, толщина деталей символов точна.  
Картинки в хорошем качестве, качество сжатия можно регулировать. (хоть без потерь вывести, в PDF - JPEG2000 - lossless, в DjVu - IW44 - качество бэкграунда 100 (LizardTech)).  
Сегментирование регулироемое. (В PDF FR - анализ и коррекция областей в самом FR, В DjVu - метод раздельных сканов. Но FR лучше, он позволяет сегментировать и текст на самих картинках.  Для DjVu очень ограничено - недостаток инструментов, хотя с соответсвующим инструментом возможно.)
 
2) Растровый PDF JPEG2000. При просмотре текст и линие гладкие, но уже не такие четкие, но достаточно хорошие. В местах с текстом вокруг символов есть еле заметные артефакты сжатия на фоне, но они столь незначительны, что не влияют на восприятие. Картинки в хорошем качестве.  
Сегментация не требуется.
 
3) Adobe ClearScan.  
При просмотре текст и линие четкие и гладкие. Но! Символы не соответсвуют исходнику - засечки букв повреждены и укорочены, толщина деталей букв неточна, есть ужирнения в некоторых местах букв, символы заметно искажены и потеряли детали из-за сильной аппроксимации (приближения, по-другому сглаживания), необходимой для векторизации. Символы кажутся расплытыми, у всех символов с округлыми границами ("О", "C" и т.п.) видны острые грани, на крупных символах это особенно критично и заметно даже при 100% масштабе!
 
Картинки в среднем качестве, заметны артефакты сжатия JPEG (квадратики), настроить качество сжатия и выбрать более лучший JPEG2000 нельзя.
 
Сегментирование полностью нерегулироемое. Это означает, что надежда полностью на автоматический сегментатор от Adobe. Т. к. сегментирование задача еще нерешенная и сложная, автомат дает много искажений. Простые картинки вроде графиков, диаграм, геометрических фигур, стрелок, даже элементов в формулах и т. п. очень часто повреждаются до неузнаваемости. Нераспознаные сегментатором картинки идут в фон, где сильно даунсэмплится и сжимаются, становясь размытыми, полностью теряя качество. В дополнение картинки и формулы вообще могут пропасть (уйти за границу страницы), правда это можно откорректировать вручную, если заметить. Если фон предварительно не почистить, то даже небольшой мусор в бекграунде расплывается до больших размеров и становится заметным. Отдельно в этом режиме нельзя отключить автоматическую геометрическую коррекцию и поворот, которая иногда полностью искажает правильную страницу. И на примере видно, что тире в самом начале текста забрало в бекграунд и размыло - то есть потеря качества текста.
 
4) Растровый PDF JPEG. При просмотре текст и линии размыты из-за сильных артефактов сжатия. В местах с текстом вокруг символов есть заметные артефакты сжатия на фоне, фон поврежден и замусорен.  Картинки в среднем качестве, заметны артефакты сжатия JPEG.
Сегментация не требуется.
 
Как видно, оптимальный размер дает только DjVu и PDF ClearScan. Когда задача сегментации сложна или вообще ручной труд не рационален (временные документы), подходит и PDF JPEG2000 или однослойный (Photo или псевдо) DjVu (IW44), но не PDF с JPEG, который все до сих пор юзают по неграмотности, делая большую ошибку.
 
ClearScan интересная технология, но на данный момент для практического использования не доработана. Нужна возможность ручной сегментации, настройки качества сжатия и даунсемпла изображений и бекграунда, возможность отключать автоматическую коррекцию геометрии и исправления багов вроде переноса элементов за границы страницы.
Максимум она годится для исправления исправления сильно деградированых документов или старых книг, с последующим экспортом в картинки в 600 DPI и ручным исправлением всех возникших косяков графическим редактором (их обычно очень много на научной литературе, проверено много раз).
 
Так что DjVu с нормальными ручными настройками (без даунсемпла бекраунда или даунсемплом его только до 300 DPI, предварительной обработкой исходника и апсемплом до 600DPI интерполяцией, чтобы текст был гладкий (бинарная маска должна быть 600DPI)) и метод раздельных сканов - лучшее, что есть на сегодня.
 


papaVlad

Цитата:
ПДФ умеет находить одинаковую информацию и объединять её, снижая размер полного файла

Глупость. Никакой одинаковой информации никто не ищет. На вашем примере:

Цитата:
Кому скучно, предложу ещё один эксперимент - нужна лишь одна страница в пдф и/или дежавю, теперь сделайте её копию десяток раз, далее весь десяток объединяйте в общий файл, результат всегда будет такой - общий пдф чуть-чуть увеличится от размера одной страницы

А теперь попробуйте изменить в каждом одинаковом N-ом изображении хотябы один пиксел, и получите в N раз больший PDF. Это происходит только потому, что один и тот же объект Adobe не копирует. Но стоит изменить хоть пиксел, вроде бы одинаковые изображения будут восприниматься как абсолютно разные, хотя отличаются только одним пикселом.  
Получается, что мы имеем 99.9999% одинаковой информации, но она не "находится".
 
Поэтому даже если вы идеально отсканируете одну и туже страницу и запакуете в PDF (не ClearScan), размер будет в 2 раза больше. Даже если части абсолютно одинаковы, никакого объединения нет, ибо как я еще раз повторю, стоит изображениям отличиться хотябы пикселом.
 
И не стоит путать растровый PDF с PDF после ClearScan - последний уже не растровый PDF, а со сложными объектами и структурой.
 

Цитата:
ПДФ умеет находить одинаковую информацию и объединять её, снижая размер полного файла, и именно на клеарскане это явление особо сильно заметно

ClearScan (Editable text and Images, редактируемые текст и изображения) - это закрытая технология Adobe для сканов, к PDF отношение имеет косвенное, по большей части это технология работы именно с изображением. Суть в том, что сегментатором на растровом изображении ищутся символы - апроксимируются - векторизуются - похожие символы идут в словарь как один. Поэтому здесь действительно будет выигрыш размера на страницу, но точно такой же, как и в DjVu, потому что в DjVu уже давно похожие символы объединяются в словари c помощью JB2. То есть выигрыша перед DjVu в размере все равно не будет. И это верно только для символов, на похожие изображения это не действует. Тем более это не ключевой фактор, сжатие в обоих случаях идет именно за счет сегментации, а словари лишь вспомогательный фактор.  
Поэтому сравнение одной страницы полностью корректно.
 
По сути ClearScan по принципу действия в точности такой же как DjVu и PDF MRC с той лишь разницей, что вместо деления на слои и использования эффективных алгоритмов сжатия для каждого слоя у него используются векторные объекты.  
 

Цитата:
не умею я хорошо готовить из тормознутого jpeg2000, потому не использую

Очень глупое высказывание. JPEG2000 просто алгоритм сжатия изображений, более совершенный чем JPEG, чего тут надо уметь? При том же размере всегда дает лучшее по качеству изображение. Загуглите, узнаете много нового.
Вот тестовая площадка, выберете JPEG и JPEG2000 и сравните картинки:
http://xooyoozoo.github.io/yolo-octo-bugfixes/#fruits&jpg=s&jp2=s
 

Цитата:
но убитая под стиль дежавю картинка

Зря вы так. В DjVu можно настроить любое качество картинок, хоть исходное без потерь, вот хоть на мой пример взгляньте, явно лучше чем ваш любимый ClearScan, у которого при приближении на изображениях видны только квадратики вместо деталей. Просто все стандартные профили DjVu, которые юзает большинство неопытных пользователей, почему то норовят сжать картинки до 100 DPI в паршивом качестве, наверное потому что ПО устарело, раньше может это и был результат , но не сейчас. Поэтому мы и видим размытое гавно, но это не относится к DjVu, а к кодировщикам, не умеющим пользоваться инструментом. Достаточно самому все настроить, и DjVu будут прекрасного качества при равном или меньшем, чем у PDF размере.
 

Цитата:
к примеру мне понравились буквы на Вашем примере "ABBYY FR MRC PDF


Цитата:
а вот картинка с корабликом сильно пострадала, о ней и речь.  

Изображение вообще можно сохранить в исходном качестве, как я написал выше, просто я не заметил странность FR, что если сохранять без текстового слоя, то FR портит картинки, суя их в фон. Я исправился, посмотрите теперь, ясно видно, что детальность теперь высокая. И на ClearScan посмотрите, у которого из-за артефактов JPEG (квадратиков) при приближении ничего не разлядишь.
 
Способ для PDF MRC:
 
Пусть есть исходники 300 DPI.
1) Обрабатываем исходники.
2) Апсемплим изображение до 600DPI бикубической интерполяцией (можно прям из ST, выбрать режим Color [Цветной]).
PDF:
3) Суем в FR. Распознаем. Здесь важно! Сохраняем с параметрами: PDF - текст под изображением - галочка на MRC - Качество изображений: Выборочное - отключть даунсеплинг и выбрать - потеря качества не разрешена.
4) Получим большой PDF 600DPI без потерь. Теперь дожимаем и даунсемплим в Adobe Acrobat изображения до 300 DPI.
Выбираем сжатие для цвета и серого ZIP - даунсемпл 300ppi, если больше 300ppi
Для ЧБ - JBIG2 без потерь. Даунсемплинг выключен.
Получим PDF 300DPI без потерь с бинарной маской 600DPI.
Теперь опять переходим к сжатию:
Выбираем сжатие для цвета и серого JPEG2000 - качество по желанию, размер частей (tile size) - 1024.
Для ЧБ - JBIG2 без потерь. Даунсемплинг выключен.
 
*Почему нельзя сразу в JPEG2000 за один раз: дело в том, что Adobe ничего не делает с изображениями, если они уже в JPEG2000, то есть они не сожмутся без промежуточного шага в ZIP (почему ZIP? Чтоб не потерять качество, он без потерь).
 
Для DjVu нужна настройка соответсвующих утилит. Для DjVu много настроек, самое главное - сабсемплинг фона - 2 (600DPI / 2 = 300 DPI), качество фона - 80 (LizardTech, DjVu Small, Caminova) или 32 для Djvu Libre (DjVu Image и др.). Остальное по своему усмотрению, только никаких трансформаций (они должны быть до), естественно сабсемплинг фореграунда >=2 (лучше 12). Главное, что бинарная маска должна получаться 600 DPI, Background - 300 DPI. Получим качественный DjVu с цветным текстом и гладкими буквами, и хорошими картинками.
Есть способ с mask upsample 2 из сканов 300 DPI, тогда бинарная маска тоже будет 600DPI, но текст будет менее качественным и более зубристым, не рекомендую.

----------
ScanTailor Advanced v1.0.16 | Пожертвования

Всего записей: 346 | Зарегистр. 27-01-2016 | Отправлено: 19:09 14-06-2016 | Исправлено: 4lex4, 00:38 16-06-2016
papaVlad



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
4lex4, ну, Вы сейчас основательно подготовились, многие будут благодарны за эти тесты, есть что почитать.
 
К сожалению, нет много времени, чтобы всё перепроверить, да и не понимаю некоторые термины, надеюсь они будут полезны другим оцифровщикам. Я лишь поверхностно пробежал по тексту, не вникая в то, чем не занимаюсь, а остановился на некоторых фразах, где могу сделать уточнения.
 
4lex4, смотрите какие ошибки бросились в глаза по клеарскану.
1. Ваш клеарскан собран частично неправильно:
- верно - подняли исходный тиф до 600 и его скормили Акробату,  
- неверно - Акробат съел исходник, наложив установленное в настройках сжатие, а надо было выставить в настройках "ZIP",
- верно - наложили клеарскан с понижением до 300,
- неверно - получили неудачный результат с двойным сжатием,
- правильный вариант будет такой https://yadi.sk/i/aiVagI74sVJ2y
2. Сравнение опять было некорректным, понял по фразе """у всех символов с округлыми границами ("О", "C" и т.п.) видны острые грани""", не буду спрашивать примеры, понимаю, что вытащили тиф из клеарскановского пдф на 300 dpi, вот правильный тиф https://yadi.sk/d/qmvGL3lUsVJgK , сравнивайте на нём с файлами из ФР и дежавю, которые на 600, хотя возможно из ФР у Вас на автомате тоже вылез на 300 dpi, не знаю.
3. Про клеарскан Вам удалось собрать всю негативную информацию, не написав ничего хорошего, соглашусь со многими фразами и откорректирую в положительную сторону:
- """настроить качество и выбрать более лучший JPEG2000 нельзя""", тут просто JPEG, без 2000, и при большом желании картинки можно заменить вручную хоть на ZIP,
- графики, диаграммы и прочее никто не заставляет клеарсканить, если неудача, то пробуем другие методы сжатия, либо меняем конкретно этот график на странице. Вообще, на технических книгах с формулами не советую использовать КС, также категорически не пригоден для жирного слипшегося шрифта,
- косячные искажения поворотов тоже лечатся, можно тупо в Акробате повернуть правильно, либо чуть по-другому подготовить страницу-исходник, если будет пример, то покажу способы лечения,
- """тире в самом начале текста забрало в бекграунд и размыло""" - ещё две вертикальные палочки добавьте, ну да случается, вон в ФР целое слово также выглядит, ищите синим шрифтом 1945 "года", ну так мы никак специально не готовили картинку, как для дежавю, кстати в пдф тоже можно шрифт раскрашивать, сделать сначала в СТ бинаризацию, а потом раскрасить, работает это правильно через раз, но работает же,
- добавлю в плюс, что заливка на всём шрифте равномерная, чего нет более нигде, в ФР плавные тона, а у дежавю симпатичные квадраты,
- время на изготовление этого пдф не замеряли случайно? Запишу заранее в плюс клеарскану, против ФР и дежавю,
- по кораблику, то есть про картинку - пока не могу привыкнуть к умному лёгкому размытию, но с подачи hogu77 начинаю использовать, по такому небольшому опыту из трёх файлов выделю ФР.
 
---

Цитата:
Глупость. Никакой одинаковой информации никто не ищет.

То есть 9 и 15 МБ практически неразличимы? Я там приложил конкретный пример, напомню ссылки
https://yadi.sk/i/8_aVoS4vsLAtp
https://yadi.sk/d/kwZqoe93sLDu2
Может это как по-другому называется, не объединение информации, а каким-то умным термином, не столь важно, собственно есть какой-то эффект и лишь на это обратил внимание. Возможно Вы правы, это несущественно в сравнении с возможностями дежавю, ну тогда просто остановим это обсуждение.
 

Цитата:
А теперь попробуйте изменить в каждом одинаковом N-ом изображении хотябы один пиксел

Речь шла именно об одинаковых страницах, ведь Вы попробовали?, получилось?, дежавю увеличился в 10 раз? Я тогда хотел дописать, как это использовать на практике, но то ли мысль потерял, то ли отвлёкся, поспешил далее.  
Простой пример - у книг есть форзацы, очень часто одинаковыми могут быть все 4 страницы, многие оцифровщики их выкидывают, а можно сделать одну и по ней скопировать ещё три. Копия - это когда все пиксели одинаковые. Чувствую дохловатый пример, на премию не тянет, да и ладно, обойдусь, главное что сам пользуюсь этим способом.
 
Кроме Акробата и ФР есть же ещё мощные программы, верстающие качественные пдф, они что, действительно все завязаны на тщательном распознавании текста?, или есть возможность векторизации не только изображений, но и шрифта? Вспомнились Пионеры https://yadi.sk/i/geHlTcwdh3e5t
 
Кроме обычной сборки в пдф помню писали про что-то типа метода разделённых сканов, и даже пару книг собрал с какими-то отдельными слоями, но всё так замудрёно и неотлажено, что не привлекло.
 
Ладно, пока что имеем, тем и пользуемся, почаще делитесь секретами, делайте полезные/правильные тесты и продвигайте СТ в массы, надеюсь он когда-нибудь станет однокнопочным, ну или двухкнопочным: DJVU и PDF
 
Всем бодрости духа!
 
p.s.
4lex4, я не успеваю за Вами, опять что-то добавили/изменили в прежнем сообщении, завтра внимательно почитаю, а пока такое неполное послание, это всё для поднятия настроения в создании обновлённого СТ.

Всего записей: 161 | Зарегистр. 22-04-2012 | Отправлено: 02:45 15-06-2016
4lex4

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
papaVlad

Цитата:
- верно - подняли исходный тиф до 600 и его скормили Акробату,  
- неверно - Акробат съел исходник, наложив установленное в настройках сжатие, а надо было выставить в настройках "ZIP",
- верно - наложили клеарскан с понижением до 300,
- неверно - получили неудачный результат с двойным сжатием,
- правильный вариант будет такой https://yadi.sk/i/aiVagI74sVJ2y

Не угадали. Мой ClearScan сжат один раз.
В настройках при импорте изображений у меня стоит JPEG2000 lossless (без потерь), можно и ZIP, но JPEG2000 лучше. Так что сжимал только ClearScan и один раз.
 

Цитата:
Сравнение опять было некорректным, понял по фразе """у всех символов с округлыми границами ("О", "C" и т.п.) видны острые грани""", не буду спрашивать примеры, понимаю, что вытащили тиф из клеарскановского пдф на 300 dpi, вот правильный

Снова нет. Написано же, при просмотре, то есть прям в pdf. И в тифе это тоже заметно. Вот:
Скрин
 

Цитата:
добавлю в плюс, что заливка на всём шрифте равномерная, чего нет более нигде

Вы просто еще не сталкивались с буквами, зачеркнутыми цветной линией, а в DjVu это давно есть. Вот пожайлуста:
DjVu с однородными цветами букв
 
А вот теперь о чем я говорил. Сожмем эту страницу в ClearScan:
Получим результат.
А теперь внимательно смотрим на текст, зачеркнутый зеленой линией. Что же мы видим на ClearScan'e?
 
Плюс в дополнение всплыли еще недостатки ClearScan. Посмотрите что он сделал с рисунками, и главное - с точками. ClearScan просто делает непригодный в данном случае результат.
 
Поэтому не стоит говорить

Цитата:
Про клеарскан Вам удалось собрать всю негативную информацию

То что есть, то и написал. Отрицать факты бессмысленно.
 

Цитата:
Речь шла именно об одинаковых страницах, ведь Вы попробовали?, получилось?, дежавю увеличился в 10 раз? Я тогда хотел дописать, как это использовать на практике, но то ли мысль потерял, то ли отвлёкся, поспешил далее.  
Простой пример - у книг есть форзацы, очень часто одинаковыми могут быть все 4 страницы, многие оцифровщики их выкидывают, а можно сделать одну и по ней скопировать ещё три. Копия - это когда все пиксели одинаковые. Чувствую дохловатый пример, на премию не тянет, да и ладно, обойдусь, главное что сам пользуюсь этим способом.  

Это работает только с копиями. В обычной ситуации практической пользы от этого нет. Только если в самом источнике есть копии, чего я не встречал, тогда можно взять одну из таких страниц и использовать копирование, но вряд ли выигрыш будет значительный перед DjVu или ClearScan.
 

Цитата:
То есть 9 и 15 МБ практически неразличимы? Я там приложил конкретный пример, напомню ссылки
https://yadi.sk/i/8_aVoS4vsLAtp
https://yadi.sk/d/kwZqoe93sLDu2
Может это как по-другому называется, не объединение информации, а каким-то умным термином, не столь важно, собственно есть какой-то эффект и лишь на это обратил внимание. Возможно Вы правы, это несущественно в сравнении с возможностями дежавю, ну тогда просто остановим это обсуждение.  

Я вам уже ответил. То что вы мне показываете - это ClearScan, а не обычный PDF. Вы путаете технологию ClearScan и свойства формата PDF. Читайте внимательно предыдущее сообщение, где я описал работу ClearScan.
 
Вывод: papaVlad, как видно, все ваши 3 домысла по поводу некорректности моего ClearScan опровергнуты.  
В дополнение я привел вам еще пример, с которым ClearScan вообще не справляется, есть над чем поразмыслить.

Всего записей: 346 | Зарегистр. 27-01-2016 | Отправлено: 12:39 15-06-2016 | Исправлено: 4lex4, 16:38 15-06-2016
papaVlad



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
4lex4
Цитата:
вот хоть на мой пример взгляньте, явно лучше чем ваш любимый ClearScan

Стоп, стоп, он никогда не был любимым, использую лишь под конкретные случаи. И прошлый ответ был посвящён только клеарскану, а можно далее обсудить и остальные способы сжатия, но я остановлюсь, т.к. наша беседа становится похожа на борьбу с ветряными мельницами, Вы меняете на ходу правила и файлы, почему-то сравниваете качество из просмотрщика, а я по-прежнему вижу разницу между Вашим и моим клеарсканом в свою пользу. Это всё бессмысленно получается, я останусь при своём мнении, Вы при своём.
Зачёркнутая страница для КС непригодна, это факт, и таких разнообразных страниц масса, кто понимает последствия работы клеарскана, тот откажется от него.
Дежавю умеет-таки равномерно заливать шрифт - это отлично, вот этому и научите тех, кто не умеет, но желает.
Если нет для Вас пользы от копий страниц, то я и не навязываю.
 
Вернёмся на чуть ранее
4lex4
Цитата:
В DjVu можно настроить любое качество картинок, хоть исходное без потерь,  
Согласен, hogu77 показал, но в жизни никто не будет это использовать, т.к. борьба за наименьший размер, Вы мне даже пример http://xooyoozoo.github.io/yolo-octo-bugfixes/#fruits&jpg=s&jp2=s дали на низкое качество для сравнения, но так никто и никогда не делает, обычно среднее или высокое, но тогда разницы в просмотрщике не заметно, а задача на унижение JPEG и показ квадратов для невооружённого глаза. Хорошо, пусть так, я тоже начинаю перестраиваться и делать предварительное умное размытие (это не размытие как таковое), пример из ранее-показанного https://yadi.sk/d/6y3KHpEWsPST8 , и возможно я когда-то и смогу перейти на JPEG2000, но пока не готов, т.к. по Вашей инструкции """Способ для PDF MRC: """ удалось приготовить только тормознутый пдф https://yadi.sk/i/juuD1fgSsWJ7g , а значит для оцифровки похожих страниц остаюсь на квадратах, для просмотра с экрана это гораздо комфортнее, чем так https://yadi.sk/i/APTN0U5osWKFx
 

Цитата:
есть над чем поразмыслить

Пойду лучше что-то полезное сделаю, чего и всем желаю!

Всего записей: 161 | Зарегистр. 22-04-2012 | Отправлено: 16:38 15-06-2016
4lex4

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
papaVlad, поменьше эмоций.

Цитата:
т.к. наша беседа становится похожа на борьбу с ветряными мельницами, Вы меняете на ходу правила и файлы, почему-то сравниваете качество из просмотрщика, а я по-прежнему вижу разницу между Вашим и моим клеарсканом в свою пользу.

Свойства из моего сообщения:
Отправлено: 19:09 14-06-2016 | Исправлено: 4lex4, 01:52 15-06-2016  
 
Ну и какие же файлы изменены, если сообщение больше не редактировалось?
 

Цитата:
Согласен, hogu77 показал, но в жизни никто не будет это использовать, т.к. борьба за наименьший размер

А я где то написал, что надо юзать исходное? Любое же написано, это означает - какое хотите.  
Вы все время обвиняли формат DjVu в том, что он портит изображения, но на самом деле это не так, что вам и показали.
 

Цитата:
Вы мне даже пример http://xooyoozoo.github.io/yolo-octo-bugfixes/#fruits&jpg=s&jp2=s дали на низкое качество для сравнения, но так никто и никогда не делает, обычно среднее или высокое, но тогда разницы в просмотрщике не заметно, а задача на унижение JPEG  

Вы даже не удосужились как следует посмотреть, что качество настраиваемое и сравниваются просто качество алгоритмов сжатия при одном размере файла, тут нет никакой предвзятости, это научный источник. А у вас эмоции.
 

Цитата:
Дежавю умеет-таки равномерно заливать шрифт - это отлично, вот этому и научите тех, кто не умеет, но желает.  

Информации по созданию и настроке программ для DjVu полно, достаточно самому поискать и почитать.
 

Цитата:
по Вашей инструкции """Способ для PDF MRC: """ удалось приготовить только тормознутый пдф https://yadi.sk/i/juuD1fgSsWJ7g , а значит для оцифровки похожих страниц остаюсь на квадратах, для просмотра с экрана это гораздо комфортнее, чем так https://yadi.sk/i/APTN0U5osWKFx

Вы написали полную глупость.
 
Вот посмотрите:
Чтоб изготовить PDF JPEG, нужно просто взять изображение, перевести в PDF и сжать JPEG. Все.  
Чтоб изготовить PDF JPEG2000, нужно просто взять изображение, перевести в PDF и сжать JPEG2000. Все.

 
Неужели все так сложно?
 
Это первые два PDF в тесте, самые простые. Причем тут мой способ PDF MRC? Это вообще другое.
 

Цитата:
"""Способ для PDF MRC: """ удалось приготовить только тормознутый пдф

Именно поэтому для сканов лучше DjVu ничего нет. PDF MRC и DjVu работают по одному принципу и имеют одно качество, но DjVu работает в разы быстрее тормозного PDF MRC и весит меньше при том же качестве. Поэтому по параметру качество/вес DjVu впереди планеты всей.
 

Цитата:
Вы меняете на ходу правила и файлы, почему-то сравниваете качество из просмотрщика, а я по-прежнему вижу разницу между Вашим и моим клеарсканом в свою пользу. Это всё бессмысленно получается, я останусь при своём мнении, Вы при своём.  

Я сделал тест. В этом тесте одно исходное изображени, и пять результирующих файлов из этого изображения для сравнения. Вы мне предъявили необоснованые претензии, что я неправильно изготовил ClearScan, я их опроверг. Возьмите исходное изображение по ссылке и сделайте свой ClearScan, расскажите что делали. Редактировать и менять исходник нельзя, иначе сравнение будет некорректным, нужно будет переделывать и остальные результаты.  
 
Сам тест полностью объективен, я никого не убеждаю, никаких мнений и нет, только ваши глаза, файлы и технические характеристики. Берете файлы, сравниваете, смотрите. Далее я написал анализ чтоб вам было легче все заметить. Там тоже использованы только факты.
 
В конце теста я подвожу итоги, уже используя свое мнение, и там уже все субъективно.
Мое мнение слушать необязательно, но отрицать факты глупо.

 
Если вы считаете, что я что-то непрасильно сделал, выкладывайте свой файл, подробно объясните, как вы изготовили ваш файл из исходника, чтоб я сам мог сам получить его, и я поправлю его и в тесте, если не нарушены правила.

Всего записей: 346 | Зарегистр. 27-01-2016 | Отправлено: 17:19 15-06-2016 | Исправлено: 4lex4, 18:56 15-06-2016
papaVlad



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
4lex4
Цитата:
Возьмите исходное изображение по ссылке и сделайте свой ClearScan, расскажите что делали.
видеоответ + заказанный pdf.
 

Всего записей: 161 | Зарегистр. 22-04-2012 | Отправлено: 21:45 15-06-2016
4lex4

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
papaVlad, ваш ClearScan хуже, и это не ваша вина. Объясняю. Вы использовали бикубический апсемпл (СТ) с 300 до 600 DPI - изображение было изменено 2 раза. Я выложил исходник 300DPI как демонстрацию, он сам был получен из 600DPI.  
 
То есть получается:
Ваше грязное изображение в JPEG (реальный исходник, 300 DPI) -> очищенный, обрезаный и повернутый исходник из СТ (600DPI) - из этого все делалось -> даунсемпленный исходник для сравнения (300DPI) -> и ваше преобразование над исходником (600DPI).  
 
Поэтому у вас оно и размыто - качество потеряно. Вот источник 600DPI сразу после СТ, из которого все делалось, из него и делайте PDF: очищенный, обрезаный и повернутый исходник из СТ (600DPI) - правила те же - редактировать нельзя.
 
Изначально я не думал, что тут будут споры, поэтому выложил уменьшенный исходник для корректного сравнения (чтоб все было 300 DPI), выглядят они одинакого с 600DPI и для визуального сравнения подходит. Поправлю пост с тестом, добавлю исходник без даунсемпла.
 
Сравнивать для оценки качества по прежнему следует именно с демонстрационным исходником в 300 DPI, так как все результаты в 300 DPI.
 
Второе, гладкость букв в растровом формате (DjVu, обычные PDF) на масштабе 800% сравнивать с векторным (в ClearScan) не имеет смысла, естественно в первом на таком масштабе будет виден растр. Мы смотрим, как они выглядят при чтении. Главное, чтобы при чтении они были гладкие и как на исходнике - не теряли засечек, не меняли форму и толщину, ибо последние факторы влияют на восприятие на 100% масштабе.  
При чтении и при адекватном масштабе (до 400%) буквы в моих примерах как в DjVu, так в обычном PDF MRC гладкие.
 
PS. И да, учите матчасть, загуглите, что такое сжатие изображений без потерь, если вы не знали, ZIP тоже lossless - то есть сжатие без потерь. Сохранять тифы несжатыми глупо - они просто дольше будут открываться. Используйте LZW, ZIP, CCITT. Некоторые алгоритмы имеют два режима - JPEG2000, JBIG2 - с потерями и без потерь. JPEG, например, сжимает только с потерями.
 
Сжатие без потерь обозначает то, что изображение пиксел в пиксел одинаковое с несжатым (как будто мы сжали изображение в обычный архив), а весить может меньше.
 
Вот вам для справки: ZIP = JPEG2000 lossless = LZW = Deflate = НЕСЖАТОЕ изображение.

Всего записей: 346 | Зарегистр. 27-01-2016 | Отправлено: 23:03 15-06-2016 | Исправлено: 4lex4, 00:44 16-06-2016
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)
Maz (10-01-2024 10:45): Scan Tailor (часть 3)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru