Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 3)
Программа для автоматизированной обработки сканов тип.книг

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54

Открыть новую тему     Написать ответ в эту тему

Maz



Дед Мазай
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
 Предыдущие части: Часть 1,  Часть 2

Scan Tailor


Задача программы - автоматизированная пост-обработка сырых сканов типовых книг (ЧБ текст + прямоугольные иллюстрации) для последующей сборки в PDF/DJVU,CBR/CBZ и т.д.
Программа обеспечивает большое удобство для использования, большую интерактивность и не меньшую автоматизацию процесса, что сильно ускоряет обработку типового материала  (ЧБ текст + прямоугольные иллюстрации). Для нетипового материала следует использовать СканКромсатор, PhotoShop, или GIMP.
ST изначально не позиционировался как единственный инструмент обработки и применяется в комплексе с другими программами.
Кросс-платформенный (Windows,Mac OS, Linux) проект с открытыми исходниками.


Англоязычный топик по ScanTailor
 
Ветки:
Scan Tailor (ST) (ncraun) >>>  последняя версия
Scan Tailor Experimental (STex) (Tulon) >>>  последняя версия (обсуждение на DIY Book Scanner)
Scan Tailor Experimental (STEX) (мод. звездочёта, Нубия-IV и plzombie) >>>  последняя версия (статистика)
Scan Tailor Deviant (STD) (Нубия-IV) >>>  последняя версия ("фотосканы")
Scan Tailor Plus (STP) (Vadim "DikBSD" Kuznetsov) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Еnhanced (STE) (Petr "pejuko" Kovar) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Featured (STF) (monday2000) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Universal (STU) (trufanov-nok) >>>  последняя версия (обсуждение на publ.lib.ru)
Scan Tailor Advanced (STA) (4lex4) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Advanced (STA) (актуальный форк) >>>  история версий
ScanTailor Spectre (STS) (для macOS 12 и дальше) >>>  история версий
 
Документация:
Документация (Wiki) | Зоны картинок в ScanTailor | ScanTailor. Быстрое начало | Видеоуроки и скринкасты новых функций СТ от Tulona
Статья: Scan Tailor. Программа для обработки отсканированных книг
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
Использование Scan Tailor совместно с Djvu Imager (сборка djvu методом разделенных сканов)
Как собрать Scan Tailor из исходных кодов под Windows
Почему нельзя сделать сплошную нумерацию вывода

"Описание порогов от AlVaKo"
"Дополнение к описание порогов в контексте ST от звездочёта"

Автор проекта - Tulon. Почему его здесь не видно? .
DikBSD автор ветки ScanTailor Plus история повторяется.
Юзеры! Будьте скромнее!


Прочие дистрибутивы, форки, дополнения
 
Хронология разработки Scan Tailor и её форков (livejournal, 20 февраля 2025).
 
Примеры и статьи к релизам STEX...

Всего записей: 39763 | Зарегистр. 26-02-2002 | Отправлено: 10:44 10-01-2024 | Исправлено: zvezdochiot, 23:40 18-01-2026
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
psikov
Чего я точно не понимаю - почему подойдет JPEG - это ведь формат с потерями в качестве. Очевидно, что сканировать надо в формат БЕЗ потерь.

бывает такой плохой оригинал что ему размытие/артефакты только на пользу.

Всего записей: 3701 | Зарегистр. 15-07-2010 | Отправлено: 19:44 22-11-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral say:
Цитата:
плохой оригинал

Не только.
Допустим, из-за объёма материала, есть 2 варианта: TIFF lossless в 150dpi либо JPEG quality=75 в 600dpi. Не знаю как вы, а я выберу второй вариант.
 
PS: Пока не забыл: Выпущена наконец под винду консольная утилитка resdet, позволяющая по распределению частот в изображении определять оригинального ли оно размера, либо увеличено из более мелкого каким-либо методом интерполяции и даёт числовые оценки возможных исходных размеров.

Всего записей: 1102 | Зарегистр. 18-05-2023 | Отправлено: 20:11 22-11-2025 | Исправлено: zvezdochiot, 20:22 22-11-2025
psikov

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
У кого-то грузится сайт www.scantailor.org ?
Раньше я туда нормально заходил, а теперь он у меня перестал загружаться почему-то...

Всего записей: 87 | Зарегистр. 26-02-2025 | Отправлено: 20:58 22-11-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
psikov

Цитата:
Как понять - понимаю ли я что я делаю или не понимаю

Чтобы понять, понимаете ли вы, что пишете, или нет, можно для начала:
- объяснить простыми словами каждое из используемых понятий
- аргументировать каждое своё утверждение
- привести конкретные примеры из практики
Например:

Цитата:
предлагают, во-первых, выбрать параметр сжатия от нуля до девяти

кто и где предлагает?
почему во-первых именно сжатие?
что такое параметр сжатия для png?
есть ли ещё какие-то настройки при сохранении в png и что они означают?

Цитата:
Видимо, выбирать надо 0 (без сжатия). Или, в крайнем случае, не более шести (6 - стандартное значение)

Почему 0? Почему в крайнем случае? Почему не более 6?
Какие ваши доказательства? Аргументируйте.
Ну и иллюстрация всего этого конкретными примерами.
 
TelecomUral

Цитата:
бывает такой плохой оригинал что ему размытие/артефакты только на пользу

Не понял.
Артефакты уж точно никому не на пользу.
А размытие будет проявляться с такого значения качества, что уже и артефакты полезут.
Если уж нужно размытие, что лучше специализированные фильтры наложить.
Не знаю, что имел в виду slava_kry, но различить tiff и jpg с качеством 95 и сабсэмплингом 1-1-1 вместо стандартного 2-1-1 не так уж просто, а разница в размере существенная.

Всего записей: 1064 | Зарегистр. 04-11-2019 | Отправлено: 21:29 22-11-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager say:
Цитата:
сабсэмплингом 1-1-1 вместо стандартного 2-1-1 не так уж просто, а разница в размере существенная.

Более того, четырёхкратное прореживание цветных компонент для текста (не цветного) значения вообще не имеет, и влияет только на иллюстрации. При этом сокращаются цветные составляющие JPEG в 4 раза.

Всего записей: 1102 | Зарегистр. 18-05-2023 | Отправлено: 22:18 22-11-2025 | Исправлено: zvezdochiot, 22:19 22-11-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
оффтоп
 

Цитата:
zvezdochiot
для текста (не цветного) значения вообще не имеет, и влияет только на иллюстрации

не надо забывать, что реальная черная краска не бесцветная, да и сенсоры не идеальны.
 

Цитата:
jourmager
Артефакты уж точно никому не на пользу.

вы мало материала видели. теоретически правы, а я на практике встречался со сканами, которые при явных искажениях от джипега в готовой дежавюшке смотрелись лучше, чем при попытке обработать другие сканы той же книги в исходных тиффах. Искажения больше, а читается мелкий текст лучше.

Всего записей: 3701 | Зарегистр. 15-07-2010 | Отправлено: 06:05 23-11-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral say:
Цитата:
не надо забывать, что реальная черная краска не бесцветная

Никто и не забывает. Только какое значение имеют цветные (цветные!) компоненты для порога (неважно какого!), который использует только (только!) яркостную компоненту?

Всего записей: 1102 | Зарегистр. 18-05-2023 | Отправлено: 09:33 23-11-2025 | Исправлено: zvezdochiot, 09:33 23-11-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
оффтоп
 
upd
 
оффтоп 2

Всего записей: 3701 | Зарегистр. 15-07-2010 | Отправлено: 09:46 23-11-2025 | Исправлено: TelecomUral, 09:57 23-11-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral say:
Цитата:
оффтоп...

AAW, абстрагироваться конечно можно, но мы в этой теме про ST. А раз про ST, то это автомавтически приводит нас к порогу. И во всех представителях семейства ST используются пороги на базе яркостной составляющей. Ни в одном не используются пороги на база цветной кластеризации, типа stb-image-djvul. И это в определённом смысле хорошо, потому что указанные методы - плоть от плоти автосегментаторы, противником коих являетесь совсем не только вы.

Всего записей: 1102 | Зарегистр. 18-05-2023 | Отправлено: 10:23 23-11-2025 | Исправлено: zvezdochiot, 10:23 23-11-2025
psikov

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Допустим, планируется обработка под бинаризацию. Наверное, в этом случае можно сканировать и в JPEG. Допустим, я отсканировал как цветное, в формат JPEG, 300 dpi. Обработал в Тейлоре, выбрав на последнем этапе черно-белый режим. Будут ли тогда какие-либо потери в качестве?
Или по-любому надо сканировать в 600 dpi и в формат без потерь?

Всего записей: 87 | Зарегистр. 26-02-2025 | Отправлено: 13:21 23-11-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
psikov say:
Цитата:
я отсканировал как цветное, в формат JPEG, 300 dpi.

Не сканируйте вообще! Я несколькими постами выше привёл пример, когда JPEG имеет какое то оправдание. А вы нам что? Формат говно, так еще и разрешение - оно же! И что же хотите получить из "этого"?

Всего записей: 1102 | Зарегистр. 18-05-2023 | Отправлено: 13:25 23-11-2025 | Исправлено: zvezdochiot, 13:26 23-11-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
psikov
Допустим, я отсканировал как цветное, в формат JPEG, 300 dpi.

смотря какой оригинал, какой коэф.сжатия джипега и какой результат вас устроит.
По моему опыту, в 98% книг/журналов/открыток/прочего джипег и 300дпи убивает смысл сканирования и перевода в эл.вид. Так что - попадайте в эти 2 процента. Иначе - ...
 
upd
 
psikov
 
давно для себя определил, что есть нижняя граница файлового размера, приближение - ступенчатое - к которой сильно влияет на обработку. И пофиг какое сжатие и дпи.
Для стандартного книжного блока (~20см), разворот, в цвете, должно получаться никак не ниже 2,2Мбайт на скан, это джипегами. Если файл больше трех Мб, это уже вселяет надежду. Больше пяти - весьма неплохо, я стараюсь под эту цифру сжатие подгонять. Больше 12 точно не надо, такой размер дает растр от иллюстраций, а его для дескрина всё равно надо беспотерьно хранить.
Но эти 2,2Мбайт - их еще надо суметь потом обработать. И, конечно, "есть нюансы". Одно дело все страницы в фотках, другое - чистый текст рубленым шрифтом на отбеленой бумаге. Одно дело 300дпи, другое 600дпи - на 300 даже большого размера файл все-таки хуже передает тонкие места. Размываются контуры линий, так что уже нечего вытягивать. Поэтому надежнее - 600.
Век назад, 1925-1940гг, были шрифты с буквально волосяными линиями у букв. Там в 300 сканить просто время терять.

Всего записей: 3701 | Зарегистр. 15-07-2010 | Отправлено: 14:18 23-11-2025 | Исправлено: TelecomUral, 17:00 23-11-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
psikov
вот, пример минимализма.
https://disk.yandex.ru/i/RgOyN76JEH2gQw
Это от российских библиотек, не моё творчество.

Всего записей: 3701 | Зарегистр. 15-07-2010 | Отправлено: 06:24 28-11-2025
psikov

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
вот, пример минимализма

Почему у меня при добавлении приведенного вами скана в проект Скантейлора картинка отображается зеркально?  
Кажется, это тот самый формат, в который сканировать не нужно - TIFF с кодированием JPEG с потерями качества и странностями. Такой ТИФФ от ЖПЕГа мало чем отличается, по ходу.  
Исходный скан весит 2,13 МБ. Если сохранить его как TIFF (LZW), полученный файл будет весить 12 МБ, что совсем не минимализм уже, но зато проблема зеркального отображения картинки в Тейлоре будет решена.  
И вряд ли стоит обрабатывать подобное творчество в черно-белом режиме - у исходного цветного скана читабельность получше будет. Хоть это и 600 dpi, всё равно при обработке под бинаризацию уходят тонкие/бледные линии букв и цифр, а их там немало (таких линий).  
Как устранить потери тонких/бледных линий при бинаризации... Ну, может быть, в таких случаях лучше сканировать и обрабатывать как цветное или сканировать в не менее чем 600 dpi, но в формат БЕЗ странностей и потерь... и конечно многое зависит от того, какой оригинал - под него подстраиваться...

Всего записей: 87 | Зарегистр. 26-02-2025 | Отправлено: 19:38 28-11-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
psikov say:
Цитата:
Кажется, это тот самый формат, в который сканировать не нужно - TIFF с кодированием JPEG с потерями качества и странностями. Такой ТИФФ от ЖПЕГа мало чем отличается, по ходу.  

 

Код:
 
tiffinfo 0.tif  
=== TIFF directory 0 ===
TIFF Directory at offset 0x2217c8 (2234312)
  Image Width: 5196 Image Length: 6732
  Resolution: 600, 600 pixels/inch
  Bits/Sample: 8
  Compression Scheme: JPEG
  Photometric Interpretation: YCbCr
  FillOrder: msb-to-lsb
  Orientation: row 0 rhs, col 0 top
  Samples/Pixel: 3
  Rows/Strip: 6732
  Planar Configuration: single image plane
 

 
psikov say:
Цитата:
И вряд ли стоит обрабатывать подобное творчество в черно-белом режиме - у исходного цветного скана читабельность получше будет. Хоть это и 600 dpi, всё равно при обработке под бинаризацию уходят тонкие/бледные линии букв и цифр, а их там немало (таких линий).  
Как устранить потери тонких/бледных линий при бинаризации...

 
Обычно: обработано в STEX.

Всего записей: 1102 | Зарегистр. 18-05-2023 | Отправлено: 20:12 28-11-2025 | Исправлено: zvezdochiot, 20:13 28-11-2025
psikov

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot

Цитата:
Обычно: обработано в STEX.

С какими параметрами? Обработано очень даже неплохо, вот только бы ещё паразитные объекты каким-то образом поудалять...
Я пользуюсь STA в основном. В STA так обработать не получится?

Всего записей: 87 | Зарегистр. 26-02-2025 | Отправлено: 22:36 28-11-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
psikov say:
Цитата:
В STA так обработать не получится?

Совершенно точно. Именно так. Но вы попробуйте. Возможно в 1.0.20 что то и удастся. Но вряд ли.
 
PS: Но ежели воспользоваться базовой концкпцией ST, что он не является единственным средством, то результат можно достичь на любом представителе семейства ST: GIMP: фильтр Balance.

Всего записей: 1102 | Зарегистр. 18-05-2023 | Отправлено: 22:46 28-11-2025 | Исправлено: zvezdochiot, 23:02 28-11-2025
esys

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Получится. Параметры.

Всего записей: 729 | Зарегистр. 22-06-2016 | Отправлено: 15:23 29-11-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys say:
Цитата:
Параметры.

А я бы всё-таки поигрался бы с дельтой в 1.0.20 (не в 1.0.19 и ранее!): коефф. = 0,20 дельта = -75,0.

Всего записей: 1102 | Зарегистр. 18-05-2023 | Отправлено: 19:16 29-11-2025 | Исправлено: zvezdochiot, 19:17 29-11-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Всем привет.
 
В Публичной библиотеке у AbsurdMan возник вопрос #1294.
 
Как бы ответить "грамотно"? Для начала приведу результат всех порогов STEX без доп. эффектов, кроме "Выровнять освещение":
 
AbsurdMan-Буфер_обмена_12-10-2025_01-threshold.pdf
 
А теперь приведу результат некоторых порогов с доп. фильтром Balance:
 
AbsurdMan-Буфер_обмена_12-10-2025_01-balance.pdf
 
И как же объяснить суть? И где изначальное заблуждение? Чуть позже, наверное...
 

Всего записей: 1102 | Зарегистр. 18-05-2023 | Отправлено: 23:18 30-12-2025 | Исправлено: zvezdochiot, 23:24 30-12-2025
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 3)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.Board
© Ru.B0ard 2000-2026

LiteCoin: LgY72v35StJhV2xbt8CpxbQ9gFY6jwZ67r

Рейтинг.ru