Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153

Открыть новую тему     Написать ответ в эту тему

Widok



Moderator-Следопыт
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Scan Tailor


Задача программы - пост-обработка сырых сканов книг для последующей сборки в PDF/DJVU,CBR/CBZ и т.д.
Программа обеспечивает большое удобство для использования, большую интерактивность и не меньшую автоматизацию процесса (по сравнению со СканКромсатором).
Кросс-платформенный (Windows,Mac OS, Linux) проект с открытыми исходниками.


Англоязычный топик по ScanTailor
Ветки:
Scan Tailor Plus (Vadim "DikBSD" Kuznetsov) >>>  последняя версия   (Отличия от авторской версии)
Scan Tailor Еnhanced (Petr "pejuko" Kovar) >>>  последняя версия   (Отличия от авторской версии)
Scan Tailor Featured (monday2000) >>>  последняя версия   (Отличия от авторской версии)
Scan Tailor Advanced (4lex4) >>>  последняя версия (Отличия от авторской версии); ветка develop
 
Документация:
Документация (Wiki) | Зоны картинок в ScanTailor | ScanTailor. Быстрое начало | Видеоуроки и скринкасты новых функций СТ от Tulona
Статья: Scan Tailor. Программа для обработки отсканированных книг
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
Использование Scan Tailor совместно с Djvu Imager (сборка djvu методом разделенных сканов)
Как собрать Scan Tailor из исходных кодов под Windows
Почему нельзя сделать сплошную нумерацию вывода


Автор проекта - Tulon. Почему его здесь не видно? .
DikBSD автор ветки ScanTailor Plus история повторяется.
Юзеры! Будьте скромнее!


Дистрибутивы, форки, дополнения

Всего записей: 24190 | Зарегистр. 07-04-2002 | Отправлено: 12:17 17-02-2010 | Исправлено: ndch, 16:47 18-07-2018
hogu77

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
4lex4
Насчет экспорта: передумал переносить, <...> Вопрос закрыт.

Аргумент Ваш понятен. Жаль что пошли по Tulon'овскому пути, создавая «вещь в себе». Вообще я начинаю подозревать что это такой себе тонкий троллинг тех кто работает с DjVu форматом.
Я так понимаю, что бы добавить эту функцию из STF надо самому экзешник переделывать, добавляя кусок кода, простым добавлением файликов здесь не обойтись.

Цитата:
<...> если он вообще знает про нее, <...>

Знает.

Цитата:
<...> кто-нибудь юзал режим исправления marginal (по границам) из featured, есть ли от него польза?

Юзал и не единожды. Польза есть.
Учитывая тот факт что нормального деварпинга в ST, различных его форм и проявлений, так и не появилось, приходиться достаточно часто использовать несколько методов исправления кривизны страниц, в одной книге.
 
P.S.

Цитата:
<...> тем более djvu, про который в мире мало кто знает <...>

Вопрос дискуссионный, вот на рутрекере например проводят опрос-голосование за любимый формат, из трёх вариантов чуть меньше половины голосов отданы DjVu)
 
P.S.S.
Набор опций, именно Яркость и Контраст, в Cleaning & adjustment невообразимо радует но Вы не думали заменить это всё простым Avtolevel'ом? Выравнивание гаммы в автомате.

Всего записей: 118 | Зарегистр. 14-02-2012 | Отправлено: 10:07 08-02-2016
4lex4

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Подробнее...
 
hogu77, перечитайте пост, я изменил мнение. Я просек фишку экспорта, но только сделаю свою реализацию.
Я реализую следующее: при нажатиим на кнопку обработки вылезет окошечко, в котором будет чекбокс с предложением разделить страницы в смешаном режиме, так же будет опция сохранения текста в цвете (без бинаризации), то есть в папке out мы получим подпапку mixed с папками text и pictures, в певой будет то, что мы не выделяли как картинки, во второй слой с картинками. Реализация будет работать без посреднически функций напрямую, потому будет работать так же быстро, как происходит обычная обработка.
 
Делаю я это не только для экспорта в djvu, а для раздельной обработки, ибо жалко терять зоны с картинками.
Это пригодится для моего будущего проекта - PDF компрессора по технологии MRC, скорее всего c Multi-COS/CCC сегментацией. Компрессор сможет также принимать изображение в виде пользовательских субсканов, ибо автомат не всегда надежен, и качество, и сжатие PDF будет максимальным (сжатие как у djvu, но качество намного выше). Задача - максимально сжать издания со сложной структурой (журналы например) при сохранении в хорошем качесвте картинок и цветного текста. Сейчас все это делают в PDF с JPEG сжатием, но в результате имеем большой размер и артефакты сжатия. В djvu это вообще невозможно, ибо там юзается сегментация по скрытой модели Маркова, повлиять ничего нельзя или трудозатратно, из-за этого получается это: https://yadi.sk/i/ShqBI5BnmWdy2
PDF более гибкий формат и для него можно сделать что угодно, чем я и займусь в будущем, благо появилось много новых хороших научных работ. (В одногй из работ как раз сравнивается djvu, LuraTech для PDF, и оба проигрывают новым технологиям)
 

Цитата:
Я так понимаю, что бы добавить эту функцию из STF надо самому экзешник переделывать, добавляя кусок кода, простым добавлением файликов здесь не обойтись.  

Вообще-то объединение это не совсем объединение, а частичное переписывание кода. Но в данном случае получится полное, ибо реализация нечистая и в добавок не оптимизированая.
 

Цитата:
Вопрос дискуссионный, вот на рутрекере например проводят опрос-голосование за любимый формат, из трёх вариантов чуть меньше половины голосов отданы DjVu)  

Я не встречал djvu за пределами рунета, а рунет - 5% мирового, везде в мире юзают pdf.
 

Цитата:
Набор опций, именно Яркость и Контраст, в Cleaning & adjustment невообразимо радует но Вы не думали заменить это всё простым Avtolevel'ом? Выравнивание гаммы в автомате.

Учтите, это функция еще не реализована, потому трогать пока не имеет смысла.
Так вообще можно было бы не парится и делать все в фотошопе или гимпе.  
Это для другого: иногда нужно вычистить бекграунд, не трогая контраст и яркость, или меняя их по другому, не как меняют уровни.
С уровнями это невозможно, никакая гамма не поможет, ибо она лишь дает нелинейный сдвиг остальных пикселей к новым границам, а мне нужно контролировать сами границы.
Пример: есть готовая книженция, нуб сжал ее в JPEG -> на белом фоне вокруг текста артефакты -> имеем размытый текст, плохо читаемый. Но контраст и яркость изображений в порядке - трогать нельзя, иначе получим искажение всех цветов. Как вы очистите левелами, чтоб не изменился контраст и яркость остального изображения? Для этого я и делаю новый инструмент: во первых автомат, во вторых гибкость, в отличие от уровней.
 
Подробнее...

Всего записей: 332 | Зарегистр. 27-01-2016 | Отправлено: 11:17 08-02-2016 | Исправлено: 4lex4, 12:04 08-02-2016
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Следующий этап: начинаю перенос системы исправления геометрических искажений из ST Experemental.  

Настоятельно рекомендую опубликовать исходники прежде чем браться за это. Перенос деварпинга на раннюю стадию потребовал серьезных изменений архитектуры, так что перенос этого в STA затянется надолго. В результате я опасаюсь получить один монолитный коммит "все в одном".
 
Строго говоря, бинарные сборки STA которые вы тут выкладываете являются варезом, так как нарушают лицензию. Если хотите подчистить код перед публикацией - сосредоточьтесь именно на этом.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 13:11 08-02-2016
hogu77

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
4lex4
<...> перечитайте пост, я изменил мнение.

WOW!!

Цитата:
Так вообще можно было бы не парится и делать все в фотошопе или гимпе.

Так и делаем.

Цитата:
Это для другого: иногда нужно вычистить бекграунд, не трогая контраст и яркость, или меняя их по другому, не как меняют уровни.
С уровнями это невозможно, никакая гамма не поможет, ибо она лишь дает нелинейный сдвиг остальных пикселей к новым границам, а мне нужно контролировать сами границы.

Чистка бэкграунда для многих уже не секрет. Существует несколько простых и изящных способов в 2D редакторах поддерживающих работу со слоями.

Цитата:
Пример: есть готовая книженция, нуб сжал ее в JPEG -> на белом фоне вокруг текста артефакты -> имеем размытый текст, плохо читаемый. Но контраст и яркость изображений в порядке - трогать нельзя, иначе получим искажение всех цветов. Как вы очистите левелами, чтоб не изменился контраст и яркость остального изображения?

Одними лэвэлами тут конечно же не поможешь, но можно записать action в PH по удалению ringing'а (или чего там появиться) и последующего sharping'а (по необходимости).
Если инструменты в Вашей программе помогут юзверю создавать классные книги/журналы/буклеты без максимального привлечения граф. редакторов — отлично! Вы помогли значительно уменьшить количество кривых работ.

Цитата:
Я не встречал djvu за пределами рунета, а рунет - 5% мирового, везде в мире юзают pdf.

Всё так, совершенно согласен.
Памятуя про разговор вокруг перевода программы на русский я ещё более утвердился в мнении что готовите Вы свою программу не только для русскоязычного сектора интернета. Только вот, на том же рутрекере есть релизы которых не найдёшь на забугорных площадках. Добавьте сюда и другие меньшие, но не менее значимые трекеры и Вы уведите что оцифровкой больше заняты по эту сторону Атлантики, чем по ту. Моё мнение.
 
P.S. Спасибо за Ваш труд, он будет оценён по достоинству.

Всего записей: 118 | Зарегистр. 14-02-2012 | Отправлено: 14:32 08-02-2016
4lex4

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Так, ну тут вроде все норм работает, в таком случае следующая сборка нескоро будет. Буду потихонечку переносить деварпер, сделаю раздельный выход, доделаю систему сборки, будет первый пререлиз на x32 и x64, выложу исходники.

Всего записей: 332 | Зарегистр. 27-01-2016 | Отправлено: 14:54 08-02-2016
papaVlad



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
4lex4

Цитата:
* При перелистывании страницы больше не пропадают для предотвращения резких перепадов яркости.  

Отлично! Я бы и не додумался до такого варианта.

Цитата:
это OpenCL ... прирост производительности от него милипизерный, потому пока не горит переносить его.

Ясно, подождём.

Цитата:
Следующий этап: начинаю перенос системы исправления геометрических искажений из ST Experemental.  
Следующий вопрос: кто-нибудь юзал режим исправления marginal (по границам) из featured, есть ли от него польза?  

Довольно часто нужен при обработке чужих сканов, ну не понимают некоторые человеки, что загибульки по краям строк - это некрасиво, сканят лишь бы как. Обязательно оставьте эту функцию, и спасибо monday2000 за её реализацию.
Скажу больше, всё что связано с поворотом и исправлением кривизны, короче весь этот новый блок от Tulonа из ST-e, работает гораздо правильнее в сравнении с остальными ST, у которых он одинаков. Я делал тесты, вот сохранился один на видео https://yadi.sk/mail/?hash=PqSb/o4a4GYtYfdTdk7%2BDk2zZWv2x/wBfHJWaSSJSpU%3D на котором видно, что Tulon изменил алгоритмы воздействия на искривления, результат более правильный.  
4lex4, не оставьте без внимания этот момент, пусть народ поюзает новые возможности.
Tulon, ещё раз спасибо в Вашу сторону, действительно очень помогли оцифровщикам, сидящим на ST.
 
4lex4, на стадии Вывода добавились некоторые функции, некоторые пока не работают, подождём, но здесь от меня прежняя просьба, при изменении ползунков картинка сбрасывается, Вам же удалось исправить на стадии Поля и Полезная область, вдруг и на Выводе сможете, в других ST на этом этапе всегда, при изменении чего-либо, например регулировка толщины шрифта, картинка уменьшается, а хочется видеть разницу изменений на увеличенной картинке.
 
4lex4, на стадии Вывод, в режиме Цветной/серый появляется возможность Выравнивания освещения, но только после установки галки на Белые поля, да, это нормально и правильно, я понимаю, что программе нужно отчего-то отталкиваться для выравнивания, нужен кусок белого, и всё же, вдруг решите и эту заковыку и галка на Выравнивание будет доступна без белых полей.  
Объясню зачем. Если Вы упоминаете журналы для оцифровки, то возможно встречали, где картинка на всю страницу, либо фон не белый, для таких случаев имею свою методику быстрой обработки. На стадии Полезная область обозначаю только край одного угла страницы, как правило внешний верхний, это экономит время (не нужно обозначать 4-е угла), затем на стадии Поля всё в 0 и жму на правых в верхний правый, применить к каждой второй, и также на левых. Но так я не могу воспользоваться Выравниванием из-за Белых полей.
На самом деле мне это не особо нужно, заранее или после прогоняю пакетом через графический редактор, но не все так могут и я бы им посоветовал использовать такую возможность, если бы она была, это лучше, чем облагораживать журнал коряво.  
НО, здесь имеется всем известный косяк, если картинка в край, то получаем по краям страницы засветы. Насколько я знаю никому это беду победить не удалось и народ и по ныне спотыкается на таких случаях в режиме Смешанный. Для тех, кто не понимает о чём я пишу, то выглядит этот дефект примерно так http://pixs.ru/showimage/1jpg_2325330_20595882.jpg и в таких случаях рекомендовали отключать выравнивание освещения в зонах картинок, что имелось только в STF и теперь в STA, тогда получаем оригинал http://pixs.ru/showimage/2jpg_1983855_20595920.jpg
4lex4, если сможете победить эту болячку...
И нужно ли будет кому-либо вообще это выравнивание, если будет грамотный инструмент, о котором речь ниже.
 
4lex4

Цитата:
Пример: есть готовая книженция, нуб сжал ее в JPEG -> на белом фоне вокруг текста артефакты -> имеем размытый текст, плохо читаемый. Но контраст и яркость изображений в порядке - трогать нельзя, иначе получим искажение всех цветов. Как вы очистите левелами, чтоб не изменился контраст и яркость остального изображения? Для этого я и делаю новый инструмент: во первых автомат, во вторых гибкость, в отличие от уровней.  

Здесь можно развернуть длинную дискуссию, в которой каждый поделится своими методами очистки фона, грязи, артефактов и прочими улучшениями. Пока подожду.
Чуток недопонимаю такой момент, Вы ругаете применение яркости и контраста и в тоже время прикрутили эти ползунки в обновлении (пока не активны), говорите о создании нового инструмента, работающего на автомате (видимо речь о кнопке Auto в Cleaning options <- тут ошибка Clearing), автомат будет из этих трёх возможностей? Имеются ли у Вас образцы того, на что будете ориентироваться?, оригинал и результат. Можем ли мы, участники форума, показать/порекомендовать что-то из своего опыта?, но только в случае, если Ваш результат будет очень спорным.
 
4lex4, я надеюсь такое количество предложений от оцифровщиков пока не сильно напрягает Выбор всегда остаётся за Вами, что продвинуть вперёд, а что отложить.

Всего записей: 141 | Зарегистр. 22-04-2012 | Отправлено: 17:09 08-02-2016
amaid



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
позволю себе вставить дилетантские 5 коп.
4lex4, с нетерпением жду вашу версию под 32 бита!
пробовал исправление геометрии в нескольких прошлых версиях ST, имхо: юзать можно, но в целом FR 12 делает это намного лучше (на серых сканах) или получше (на ч/б). Хотя допускаю, что мог упустить из виду что-то.  

Цитата:
сжатие PDF будет максимальным (сжатие как у djvu, но качество намного выше)

вау! это стало бы сенсацией мирового масштаба

Цитата:
Я не встречал djvu за пределами рунета

попробуйте поиск на http://gen.lib.rus.ec/ (крупнейший коллектор пиратских книжек на сегодня)
djvu делит 2-3 место с epub.
pdf, ясное дело, вне конкуренции, но главным образом за счет издательских оригинал-макетов.
если брать только сканы, доля djvu в районе 20% (на глаз), но это ЛУЧШИЕ по качеству 20%.
А по удобству для научной работы windjvu extended (от N.M.E.) на голову превосходит acrobat reader.

Всего записей: 523 | Зарегистр. 25-01-2006 | Отправлено: 17:47 08-02-2016
papaVlad



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
amaid

Цитата:
но в целом FR 12 делает это намного лучше (на серых сканах) или получше (на ч/б).

Не соглашусь.

Цитата:
Хотя допускаю, что мог упустить из виду что-то.

Спасибо, что понимаете. Постом выше ссылка на видео, посмотрите возможности ST и ответьте, сможете ли Вы вручную в FR что-либо поправить?

Цитата:
вау! это стало бы сенсацией мирового масштаба

Не издевайтесь, дождитесь появления нового продукта, тогда и поднимайте панику.

Цитата:
доля djvu в районе 20% (на глаз)

Я больше верю этому ответу

Цитата:
Я не встречал djvu за пределами рунета

Есть подтверждения других заграничных жителей и сам видел пример заграничного обсуждения на несколько страниц, что это за djvu такой и как бы внутрь заглянуть, да достать бы страницы и в пдф переделать, обсуждали какой-то мой каталог с часами, это стало переломным моментом для меня, тогда начал параллельно выпускать пдф, а к тем несчастным зарегистрировался и дал ссылку на тифы. Сейчас к дежавю равнодушен, лишь бы оцифровывали, хоть в какой формат, и для книг он действительно удобен, но то что его используют на цветных журналах, ужимая до книжных размеров - это беда.
Из дежавю http://pixs.ru/showimage/3png_5311365_20598937.png
Из пдф http://pixs.ru/showimage/4png_2685602_20598941.png
И это не самый худший пример, первый попавшийся.

Цитата:
А по удобству для научной работы windjvu extended (от N.M.E.) на голову превосходит acrobat reader.

Да, ради Бога, пользуйтесь, сравнили автобус и тапочки, каждый для разных нужд, и почему Вы считаете, что все поголовно пользуются акробатовским ридером? Пдф любая электронная читалка примет, а вот дежавю не любая. Обычно, чтоб не париться, рекомендуют STDU, не знаю, чем он замечателен, наверное потому что всё открывает, и этого большинству достаточно. И почему именно для "научной работы", а детям комиксы полистать можно?, просто полистать, как их мамы читают женские журналы, просто читают и смотрят на любимых звёзд.

Цитата:
попробуйте поиск на http://gen.lib.rus.ec/ (крупнейший коллектор пиратских книжек на сегодня)  
djvu делит 2-3 место с epub.  

Не самый удачный пример для показа доли дежавю и пдф на планете.
В основной массе заливки сделаны из российских колхозов и прочих библиотек начала века, когда за каждый байт боролись, выпуская дежавю, да и сейчас сервера не резиновые, перед заливкой перегоняют не глядя пдф в дежавю ради экономии места. Всё правильно делают, кому нужно, тот в любом формате будет читать.

Всего записей: 141 | Зарегистр. 22-04-2012 | Отправлено: 19:46 08-02-2016
allo04

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
papaVlad, да ну,  создать djvu, имея прямые руки, можно и из цветных сканов, и ни в чем уступать по качеству пдфкам не будет. Но прямые руки у нас  дефицит.

Всего записей: 168 | Зарегистр. 15-10-2009 | Отправлено: 21:23 08-02-2016
papaVlad



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
allo04, а кто будет спорить, конечно можно, и делают отличные дежавю, но не все. Так же как и в пдфках бывает откровенный шлак выпускают.
И прямые руки при выборе сжатия не нужны, нужно просто посмотреть хотя бы один раз на результат своего труда, похоже именно этого не хватает нерадивым оцифровщикам.
Дежавю или пдф, это выбор оцифровщика, мне без разницы, просто у дежавьюрщиков откровенно просматривается тяга к мелким файлам, они готовы тратить много времени и жертвовать качеством картинок, а мне главное побыстрее, объёмы большие, всё пакетом корректирую и в пдф, качество сохранения картинок всегда важный момент. Не нравится размер, пережмите на худшее. Но мои файлы никто не будет пересканировать, а на замену дежавю много делаю пересканов.  
И не важно прямые руки были у оцифровщика или кривые, дежавю или пдф, если человек экономил, значит там беда.

Всего записей: 141 | Зарегистр. 22-04-2012 | Отправлено: 23:11 08-02-2016
hogu77

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
papaVlad
<...> они готовы тратить много времени и жертвовать качеством картинок<...>

Это да, иногда такие «виртуозы» попадаются — кровь в жилах стынет от увиденного.
А те, кто с помощью своих программ и дополнений-исправлений способствуют продвижению качественного продукта в массы, заслуживают самых хороших слов в свой адрес. Незачем разработчикам смотреть и ориентироваться на всякий шлак. Помните, вашей вины здесь нет. Нормальные книгоделы, держат руку на пульсе а те кто гонит брак, как не учились, так и продолжают, это их выбор.

Всего записей: 118 | Зарегистр. 14-02-2012 | Отправлено: 00:46 09-02-2016
iit512

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Я реализую следующее: при нажатиим на кнопку обработки вылезет окошечко, в котором будет чекбокс с предложением разделить страницы в смешаном режиме

 
А мне кажется, что это затруднит работу, лишний клик раздражает. Будет гораздо лучше опцию установить.
 
Но вообще говоря, есть совершенно четкая договоренность: ST выводит текст как 255 и 0, а картинки -- как все остальные значения. Поэтому никаких подпапок не нужно. Более того, одну и ту же папку вывода можно использовать в разных программах-кодировщиках, как разделяющих, так и не разделяющих слои. Разделение слоев на основе этой договоренности реализовать достаточно просто, и я это сделал (по результатам обсуждения в этом форуме) в img2djvu (см. гитхаб). Вот так это делается с ImageMagick (выдернуто из img2djvu):
 

Код:
 
convert "$1" -threshold 1 "$tmcdir/fore.pbm"
convert "$1" -fill white -opaque black $usepro -resize $newsize\! "$tmcdir/back.ppm"
 

 
Очень просто, на мой взгляд, и два слоя готовы безо всяких дополнительных ухищрений в ST. Заодно картиночный слой можно по-всякому дополнительно обработать, это очень помогает.
 
Если хотите сделать PDF MRC encoder, рекомендую именно этот путь (а может быть, Вы даже захотите взять за основу LayerTaylor, см. http://alexrey036.narod.ru/). Непонятно, почему monday2000 так не сделал, неужели он этого не знал?

Всего записей: 176 | Зарегистр. 18-05-2005 | Отправлено: 05:03 09-02-2016 | Исправлено: iit512, 05:14 09-02-2016
4lex4

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Подробнее...
allo04

Цитата:
да ну,  создать djvu, имея прямые руки, можно и из цветных сканов, и ни в чем уступать по качеству пдфкам не будет.

Нет, нельзя. Если верстка сложная, алгоритм сегментации будет давать слишком много ошибок. Есть научные работы на этот счет, на сегодняшний день djvu, как реализация технологии MRC, лучший (только из практичеки реализованых), но и его не хватит. Поэтому только PDF JPEG/JPEG2000.
 
iit512

Цитата:
Но вообще говоря, есть совершенно четкая договоренность: ST выводит текст как 255 и 0, а картинки -- как все остальные значения.  

Есть, и когда я сделаю свою систему раздела сканов, ее больше не будет, ибо мешает сжатию.
 
Вы не поняли самую главную фишку экспорта из featured, ни одна отдельная утилита вам тут не поможет: вывод и текста в цвете (без бинаризации), и картинок! Если у вас есть важный цветной текст, то его можно не бинаризовывать, а картинки будут в другом месте. Потом мы можем текст отдельно сжать в pdf mrc, а картинки не будут испорчены, будут сжаты отдельно в JPEG2000, причем они еще и будут выделятся как структурный элемент, только нужна программа, которой еще нет, и я ей займусь. Это позволит создавать pdf по сжатию как djvu, а по качеству превосходящее. По сути мы превращаем ST в инструмент ручной сегментации, и это идея меня радует, она пригодится в будущем.
 

Цитата:
Если хотите сделать PDF MRC encoder, рекомендую именно этот путь (а может быть, Вы даже захотите взять за основу LayerTaylor

Это намного более сложная вещь, чем вы думаете. Даже коммерческая компания ABBYY (и еще LuraTech компрессор, который юзяет движок от ABBYY) не сделали нормальный алгоритм сегментации, ошибок больше, чем у скрытой модели Маркова у djvu. На это есть целая отдельная научная работа.  
Я взял это на будущее как хобби, попробую сделать just for fun, возможно нарушив пару патентов
 
Подробнее...

Всего записей: 332 | Зарегистр. 27-01-2016 | Отправлено: 05:41 09-02-2016 | Исправлено: 4lex4, 08:07 09-02-2016
iit512

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Есть, и когда я сделаю свою систему раздела сканов, ее больше не будет, ибо мешает сжатию.

Тогда я буду вынужден отказаться от использования этой программы. Но воля Ваша, оперсорс, только исходники опубликуйте все же как можно скорее, Tulon совершенно правильно говорит.

Цитата:
вывод и текста в цвете (без бинаризации), и картинок

Удачи

Всего записей: 176 | Зарегистр. 18-05-2005 | Отправлено: 06:24 09-02-2016
4lex4

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
iit512,
Я же не могу цветной текст разместить вместе с картинками, в одной картинке, а это нужно многим, например применить свою бинаризацию к тексту, а не которая в ST, поэтому тока отдельные папки. Всегда можно потом обратно объеденить.
 
И вообще у вас странная логика, зачем юзать сторонние программы, когда тоже самое быстрее можно сделать в ST?
 

Цитата:
Есть, и когда я сделаю свою систему раздела сканов, ее больше не будет, ибо мешает сжатию.


Цитата:
Но вообще говоря, есть совершенно четкая договоренность: ST выводит текст как 255 и 0, а картинки -- как все остальные значения.  

Договоренность для обычного выхода возможно я сделаю под опцию в ini файле, но вряд ли она будет кому нужна, когда я сделаю экспорт. Просто такие скрытые области могут испотить, например, графики, выделенные как картинки при экспорте в djvu или pdf mrc. Этот момент нужнот протестировать. Предлагаю вынести это вопрос на обсуждение.

Всего записей: 332 | Зарегистр. 27-01-2016 | Отправлено: 06:48 09-02-2016 | Исправлено: 4lex4, 08:34 09-02-2016
papaVlad



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ну не знаю, буду ли я сидеть и специально выделять картинки и текст на сложных страницах, чтоб потом разделять на папки, сжимать отдельно и заново объединять, всё лишь ради правильного сохранения цвета текста и отдельных картинок. Технология ClearScan в Acrobat достаточно грамотно это делает, конечно есть косяки, и качество сохранения картинок часто хочется повыше, а не среднее, неизменяемое. Но в целом, без выделения картинок и текста в ST под бинаризацию, экономия времени на оцифровку ощутимая, только графическая коррекция.
Для примера, о чём речь
CS 300dpi http://pixs.ru/showimage/03png_2094638_20605611.png
оригинал http://pixs.ru/showimage/04jpg_8994771_20605634.jpg
сырой скан http://pixs.ru/showimage/05jpg_1230519_20605792.jpg

Всего записей: 141 | Зарегистр. 22-04-2012 | Отправлено: 10:13 09-02-2016
allo04

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
papaVlad, на вкус и цвет все фломастеры разные, мне оригинал больше нравится, чем акробатовский ClearScan, хоть и весить он будет в несколько раз больше.

Всего записей: 168 | Зарегистр. 15-10-2009 | Отправлено: 10:50 09-02-2016
papaVlad



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
allo04, ну так здесь каждый проголосует за оригинал, мы же пытаемся решить дилемму, как преподнести читателю, чтоб и качество не страдало и размер был оптимальный, и сохранить цветные элементы, такие как колонтитулы, номера страниц и заголовки. А так представьте на секунду, что будут выходить в сеть такие "оригиналы" без сжатия, а в некоторых случаях на 600dpi, типа одна страница газеты на 400 МБ (ссылка есть где-то выше)

Всего записей: 141 | Зарегистр. 22-04-2012 | Отправлено: 11:13 09-02-2016
Dmb_2007

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Добрый день!
 
Несколько вопросов
 
1) Не могу изменить ширину докера Filters, только высоту. Из-за этого часть элементов управления недоступна. Это у меня наблюдается и в плавающем и "докированном" состоянии.
 
2) Не могу полностью удалить зоны картинок в смешанном режиме. Такое ощущение, что хоть одна автоматически определённая  картинка остаться должна. Они вообще удаляются только в режиме Quadro, но одна остается. точнее удаляется, вроде-бы, но появляется опять после переключения в режим вывода.  
Всё что с ней можно сделать - использовать как заготовку для ручного выделения, перетягивая узлы в нужные места
 
3) Можно как-то изменить "раскраску" интерфейса?
 
4) В режиме Output изменение режима компрессии не вызывает пересохранения выходного файла, в отличии от изменения других опций. И даже насильственное нажатие на зелёный треугольничек  не помогает. При попытке использовать сжатие Jpeg или Deflate, обрабатываемая страница просто исчезла из директории вывода.
 
Возможно это глюки моей системы, не знаю - Win8 и монитор 4K

Всего записей: 318 | Зарегистр. 07-05-2004 | Отправлено: 22:55 09-02-2016
papaVlad



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dmb_2007
1. тоже не расширяется, попросим исправить для владельцев 4К, друг я такой куплю лет через N.
2. удаляются.
Смотрите какая схема, у Вас программа неправильно определила картинку, выделяете ненужную область, правой кнопкой мыши, выскочит меню, жмите на верхнее, потом точку на нижнее (просто у меня по-русски, Свойства и Вычесть из авто-слоя)
3. самому никак, но возможно, при большом количестве совпадений в заявках, в будущем зачтутся пожелания. К примеру меня сейчас беспокоит выделение мышкой, ничего не вижу в цифрах на стадии Поля, нужен отступ не 9.0, а 9.2, двигаю мышь приблизительно, часто ошибаюсь, стирая запятую. Вот такой конфуз.
4. компрессия меняется, иначе я не смог бы радоваться любимому None. Не знаю зачем Вам понадобился Jpeg или Deflate, но тут схема действия такая, нужно при первом обращении на Вывод сразу поменять вид компрессии, а если уже процесс пошёл и в папке out есть файлы, вот они уже не изменятся, хоть сколь нажимай. Нужно что-то изменить, к примеру добавить/убавить Поля на миллиметр, теперь опять на Вывод. Если нужны именно те поля, то вернутся поменять и снова на Вывод.

Всего записей: 141 | Зарегистр. 22-04-2012 | Отправлено: 00:01 10-02-2016
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)

Имя:
Пароль:
Сообщение

Для вставки имени, кликните на нем.

Опции сообщенияДобавить свою подпись
Подписаться на получение ответов по e-mail
Добавить тему в личные закладки
Разрешить смайлики?
Запретить коды


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.Board
© Ru.Board 2000-2018

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru