Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 3)
Программа для автоматизированной обработки сканов тип.книг

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48

Открыть новую тему     Написать ответ в эту тему

Maz



Дед Мазай
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
 Предыдущие части: Часть 1,  Часть 2

Scan Tailor


Задача программы - автоматизированная пост-обработка сырых сканов типовых книг (ЧБ текст + прямоугольные иллюстрации) для последующей сборки в PDF/DJVU,CBR/CBZ и т.д.
Программа обеспечивает большое удобство для использования, большую интерактивность и не меньшую автоматизацию процесса, что сильно ускоряет обработку типового материала  (ЧБ текст + прямоугольные иллюстрации). Для нетипового материала следует использовать СканКромсатор, PhotoShop, или GIMP.
ST изначально не позиционировался как единственный инструмент обработки и применяется в комплексе с другими программами.
Кросс-платформенный (Windows,Mac OS, Linux) проект с открытыми исходниками.


Англоязычный топик по ScanTailor
 
Ветки:
Scan Tailor (ST) (ncraun) >>>  последняя версия
Scan Tailor Experimental (STex) (Tulon) >>>  последняя версия (обсуждение на DIY Book Scanner)
Scan Tailor Experimental (STEX) (мод. звездочёта, Нубия-IV и plzombie) >>>  последняя версия (статистика)
Scan Tailor Deviant (STD) (Нубия-IV) >>>  последняя версия ("фотосканы")
Scan Tailor Plus (STP) (Vadim "DikBSD" Kuznetsov) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Еnhanced (STE) (Petr "pejuko" Kovar) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Featured (STF) (monday2000) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Universal (STU) (trufanov-nok) >>>  последняя версия (обсуждение на publ.lib.ru)
Scan Tailor Advanced (STA) (4lex4) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Advanced (STA) (актуальный форк) >>>  история версий
 
Документация:
Документация (Wiki) | Зоны картинок в ScanTailor | ScanTailor. Быстрое начало | Видеоуроки и скринкасты новых функций СТ от Tulona
Статья: Scan Tailor. Программа для обработки отсканированных книг
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
Использование Scan Tailor совместно с Djvu Imager (сборка djvu методом разделенных сканов)
Как собрать Scan Tailor из исходных кодов под Windows
Почему нельзя сделать сплошную нумерацию вывода

"Описание порогов от AlVaKo"
"Дополнение к описание порогов в контексте ST от звездочёта"

Автор проекта - Tulon. Почему его здесь не видно? .
DikBSD автор ветки ScanTailor Plus история повторяется.
Юзеры! Будьте скромнее!


Прочие дистрибутивы, форки, дополнения
 
Хронология разработки Scan Tailor и её форков (livejournal, 20 февраля 2025).

Всего записей: 39744 | Зарегистр. 26-02-2002 | Отправлено: 10:44 10-01-2024 | Исправлено: ndch, 15:44 06-11-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist say:
Цитата:
PNG может тратить по несколько секунд на сохранение скана в 600dpi.

С какими опциями кодирования? Подсказка: программы сканирования использую опции (настройки) быстрого PNG-кодирования. Как минимум все, которые мне известны.

Всего записей: 1044 | Зарегистр. 18-05-2023 | Отправлено: 19:08 15-11-2025 | Исправлено: zvezdochiot, 19:09 15-11-2025
indifirent

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Archivist
Различные программы (Photoshop, <...>) также могут ударить в спину отбрасыванием разрешения скана при сохранении в PNG

... не может.

Всего записей: 223 | Зарегистр. 02-06-2018 | Отправлено: 12:48 16-11-2025
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
indifirent

Цитата:
не может

Всегда отбрасывает при сохранении основным методом (Save for web), как для PNG, так и для JPG.
По крайней мере, в версии CC2014 и старше.

Всего записей: 389 | Зарегистр. 10-08-2018 | Отправлено: 13:22 16-11-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist say:
Цитата:
при сохранении основным методом (Save for web)

А этот ваш "основной" метод в TIFF сохраняет?

Всего записей: 1044 | Зарегистр. 18-05-2023 | Отправлено: 17:53 16-11-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Не понял.
1) Какое отношение имеет выбор лучшего формата для сканирования к теме этой передачи? Уже все темы по СканТейлору исчерпались?
2) у меня сейчас под рукой нет Фотошопа, но с какой стати Save for web - это основной метод сохранения?
3) как можно ставить в вину формату то, что при сохранении для веба у него пропадают значения dpi, которые для веба вообще бессмысленны?
4) вообще любые утверждения на тему кто лучше-хуже без конкретных подтвержденных примеров - голословны
5) советы сканировать в tiff основаны только на одном - это формат "без потерь". Только эти советчики забывают про то, что начиная с Revision 6 аж 1992 года формат TIFF поддерживает для цветных изображений кодирование JPEG с потерями
6) формат PNG разрабатывался специально для веб как замена GIF, поэтому изображения такого формата открываются без проблем в любом браузере. Формат TIFF был разработан для сканеров, когда веба ещё не было вообще, и за 40 лет нативной поддержки в браузерах у него так и не сделали (кроме Сафари ЕМНИП)
7) формат PNG, кроме прочих разных причин, появился из-за того, что формат TIFF - это интеллектуальная собственность Adobe, и ставить в зависимость от хотелок одной фирмы существование изображений в вебе никто не захотел. Уже с GIF накушались
8) что TIFF, что PNG - это контейнеры, с кучей всяких опций, и реализация всех этих опций - не такая уж простая задача. И всякие самодельные программы могут запросто обламываться над какой-то хитромудрой опцией. И TIFF - сложнее, чем PNG, и проблем с совместимостью у него должно быть больше
9) если у программы сканирования нет опции "сохранять в PNG" - это проблемы программы, а не свидетельство того, подходит ли формат PNG для сканирования или нет

Всего записей: 1064 | Зарегистр. 04-11-2019 | Отправлено: 19:35 16-11-2025 | Исправлено: jourmager, 19:42 16-11-2025
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
но с какой стати Save for web - это основной метод сохранения?

Так уж повелось в этой программе. Save as не дает толком настроек и записывает гору метамусора вплоть до картинки превью. Жаль, что информацию о DPI тоже сочли мусором.
Я не призываю сохранять сканы через save from web, сам никогда так не делал, а делюсь наблюдением. ACDSee же очень хороший конвертер, поддерживающий все варианты кодирования TIFF, вплоть до факсимильного CCITT4 и с ним ситуация отбрасывания DPI вообще не понятна.
 

Цитата:
Только эти советчики забывают про то, что начиная с Revision 6 аж 1992 года формат TIFF поддерживает для цветных изображений кодирование JPEG с потерями  

Ага, с таким сталкивался, человек наделал порченых сжатием тифок через МФУ, пришлось ему советовать BMP.

Всего записей: 389 | Зарегистр. 10-08-2018 | Отправлено: 20:00 16-11-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Коротко о проблемах с TIFF, с которыми столкнулись при разработке СканТейлора
Тема СканТейлора -> Часть 1 -> Версия для печати -> Поиск -> tiff
 
В Qt паршивая поддержка TIFF'а, в частности туда не пишутся DPI.  Да и вообще этот формат - настоящий франкенштейн.  Я с ним уже намучился когда делал поддержку чтения,  
Это было обосновано плохой поддержкой формата TIFF в Qt.  Он их всегда сохраняет в RGB режиме, а кроме того не прописывает в них DPI,  
Сжатие deflate тоже использовать нельзя - его не поддерживают LizardTech'овские программы,  
LibTIFF - ужасная гадость, если использовать ее напрямую.  И тем не менее альтернатив с открытыми исходниками ей нет,  
При выводе в TIFF надо явно прописывать тег 262 - Photometric Interpretation (в данном случае надо в Photometric Interpretation записывать 0.0), иначе просмоторщик XnView показывает негатив,  
цветные файлы TIFF после СТ не редактируются в 7-ом фотошопе, но если поменять canvas хотя бы чуть-чуть, то все нормально,  
ZIP (он же Deflate) жмет чуть лучше, но не всеми программами читается

Всего записей: 1064 | Зарегистр. 04-11-2019 | Отправлено: 20:31 16-11-2025
esys

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
наделал порченых сжатием тифок через МФУ, пришлось ему советовать BMP.

BMP с потерями не бывает?

Всего записей: 696 | Зарегистр. 22-06-2016 | Отправлено: 00:02 17-11-2025
psikov

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
Коротко о проблемах с TIFF, с которыми столкнулись при разработке СканТейлора


Цитата:
В Qt паршивая поддержка TIFF

Ну так в какой же тогда формат сканировать для последующей обработки в СканТейлоре? Какой формат не странный, без потерь и в Qt хорошо поддерживается? BMP что ли?

Всего записей: 84 | Зарегистр. 26-02-2025 | Отправлено: 10:15 17-11-2025
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys

Цитата:
BMP с потерями не бывает?  

Нет. Ходят слухи про встраивание JPG в BMP для обмана некоторых программ, но такое случайно не провернуть. У BMP и со сжатием большие ограничения. Есть слабый алгоритм RLE, который применим только к 8-битным изображениям.
 
psikov

Цитата:
Ну так в какой же тогда формат сканировать для последующей обработки в СканТейлоре? Какой формат не странный, без потерь и в Qt хорошо поддерживается? BMP что ли?

ST не поддерживает BMP. Предлагаю повторить свой опыт, я начинал с PNG, но через несколько книжек перешел на TIFF.

Всего записей: 389 | Зарегистр. 10-08-2018 | Отправлено: 11:04 17-11-2025
psikov

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist

Цитата:
я начинал с PNG, но через несколько книжек перешел на TIFF

А почему вы перешли на TIFF, что конкретно вас не устроило когда сканировали в PNG и обрабатывали полученные сканы в Тейлоре?
В TIFF можно использовать алгоритмы сжатия: ZIP, LZW (без потерь), JPEG (с потерями). Но сканировать надо именно в Uncompressed (Несжатый) TIFF. И на вход подавать в Тейлор именно в несжатом ТИФФе картинки - тогда будет без потерь. Так ведь?
А что касается паршивой поддержки TIFF в Qt и возникающими от этого при работе Тейлора странностями - так это по ситуации на 2008-й год. В последних форках Тейлора проблемы уладили. Разве нет?

Всего записей: 84 | Зарегистр. 26-02-2025 | Отправлено: 12:44 17-11-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
psikov

Цитата:
Но сканировать надо именно в Uncompressed (Несжатый) TIFF. И на вход подавать в Тейлор именно в несжатом ТИФФе картинки - тогда будет без потерь. Так ведь?

Нет. Не так.
Вы же сами сначала пишете "ZIP, LZW (без потерь)", а потом вдруг странный вывод - "на вход подавать в Тейлор именно в несжатом ТИФФе картинки - тогда будет без потерь".
Короче - сканировать лучше в TIFF LZW - меньше места на диске, это стандартный выходной формат СканТейлора. Или в PNG. И следит за битностью и прочими опциями.
 
Вообще-то все ответы вам бессмысленны, т.к. никто не знает какие форматы сохранения есть у вашей программы сканирования.
 
Когда-то были ещё холивары на тему - что лучше хранить несжатые файлы, но тогда тратить время на их загрузку с диска в ОЗУ, или хранить сжатые файлы, но тогда тратить время на их распаковку процессором. Как и все холивары это ничем не закончилось, просто потеряло актуальность.
 
И ещё: один несжатый А4 600 дпи - это 108 МБ
 
Archivist

Цитата:
ST не поддерживает BMP

Нет. Не так.
ScanTailor Universal 0.2.14 поддерживает входные файлы BMP.
 

Цитата:
Так уж повелось в этой программе. Save as не дает толком настроек и записывает гору метамусора вплоть до картинки превью

Начиная с Photoshop CC 2015 (проверить нет возможности) опция "Save for web" помечена как "legacy", так что называть её "основным методом сохранения" - как минимум странно.

Всего записей: 1064 | Зарегистр. 04-11-2019 | Отправлено: 13:49 17-11-2025 | Исправлено: jourmager, 14:16 17-11-2025
psikov

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
Нет. Не так.
Вы же сами сначала пишете "ZIP, LZW (без потерь)", а потом вдруг странный вывод - "на вход подавать в Тейлор именно в несжатом ТИФФе картинки - тогда будет без потерь".

Это потому что я вот в это руководство случайно залез - по ссылке из темы про электронные книги:
https://www.djvu-soft.narod.ru/scan/twdragon_djvu.htm
 
Там пишут, что если нет особых проблем с наличием места на диске, лучше всегда использовать несжатый файл (Uncompressed TIFF). Иначе разнообразные проблемы могут возникать часто и непредсказуемо, поскольку с LZW не все программы работают корректно. Например, FineReader испытывает устойчивую "идиосинкразию" конкретно к формату сжатия LZW.
Но это руководство совсем не новое уже, теперь оно уже не актуально...
 

Цитата:
Вообще-то все ответы вам бессмысленны, т.к. никто не знает какие форматы сохранения есть у вашей программы сканирования.

Форматы стандартные: BMP, JPEG, PNG, TIFF, PDF.

Всего записей: 84 | Зарегистр. 26-02-2025 | Отправлено: 16:08 17-11-2025 | Исправлено: psikov, 16:18 17-11-2025
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
Начиная с Photoshop CC 2015 (проверить нет возможности) опция "Save for web" помечена как "legacy"

Это говорит лишь о том, что в штате не осталось специалиста, который занимался этим модулем еще в Adobe ImageReady и некому поддерживать местами устаревший код. У многих программ есть свой пик развития, по достижении которого они начинают лишь жиреть и обрастать ненужными возможностями, а нужные отбрасывать. Тот же ACDSee был лучшим просмотровщиком на версиях 2.4-3.1 (и продолжает им быть), а во что превратился. В новых версиях Photoshop не добавили ничего нового в плане работы со сканами, но запускается программа уже не мгновенно, а секунд по 10.

Всего записей: 389 | Зарегистр. 10-08-2018 | Отправлено: 16:12 17-11-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
psikov

Цитата:
Например, FineReader испытывает устойчивую "идиосинкразию" конкретно к формату сжатия LZW.

1) "идиосинкразия" - термин медицинский, и в руководстве по сканированию неуместный. Что конкретно имелось в виду - непонятно
2) вы упустили важную деталь - версию ФайнРидера - в первоисточнике шла речь про 7-ю
3) у меня ушло 5 минут, чтобы распаковать 8-й ФайнРидер, сконвертировать первый попавшийся PNG в TIFF LZW и распознать его в ФайнРидере 8 и сохранить в PDF. Я этот коммент дольше пишу. Ну и?
 

Цитата:
Форматы стандартные: BMP, JPEG, PNG, TIFF, PDF.

Опять-25. Вот только что выяснили, что TIFF имеет как минимум 4 варианта сжатия (на самом деле десяток) и тут опять. Каждый из этих форматов имеет десятки вариантов сохранения и неизвестно, какие из них поддерживаются программой сканирования, и какие там стоят по умолчанию.
 
С учётом того, что BMP на входе поддерживается только для STU, который из-за своей однопоточности не очень интересен, то из "безпотерьных" для СканТейлоров остаются PNG и TIFF. Но у них надо смотреть расширенные настройки. На всякий случай можно глянуть PDF, в каком формате там изображения.
 
Archivist

Цитата:
Это говорит лишь о том, что в штате не осталось специалиста, который занимался этим модулем еще в Adobe ImageReady и некому поддерживать местами устаревший код.

Это говорит лишь о том, что уже 10 лет опцию "Save for web" не рекомендуется применять и если кого-то ударяет в спину с её применением, то это не вина формата, не вина программ, а вина пользователя, который не думает перед её применением. Ещё раз - в вебе понятие dpi или вообще отсутствует или равно 72 или 96, в отличие от dpi, полученного при сканировании, которое жестко привязано к физическим размерам физической страницы. Т.е. использование PNG для входа для СканТейлора с этой точки зрения полностью допустимо.

Всего записей: 1064 | Зарегистр. 04-11-2019 | Отправлено: 17:27 17-11-2025 | Исправлено: jourmager, 17:29 17-11-2025
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
это не вина формата, не вина программ, а вина пользователя, который не думает перед её применением

О чем же должен должен думать пользователь популярной программы ACDSee перед сохранением скана в PNG через TWAIN, или массовой конвертацией сканов в PNG? У меня нет желания проверять работу других популярных конвертеров, Photoshop был приведен в пример как еще один из них.
 

Цитата:
уже 10 лет опцию "Save for web" не рекомендуется применять

Ага, "на самом деле, вам это не нужно". Опытные пользователи как применяли, так и применяют, в отсутствие вменяемой альтернативы. Если реализуют все былые возможности, я только за.

Всего записей: 389 | Зарегистр. 10-08-2018 | Отправлено: 17:48 17-11-2025 | Исправлено: Archivist, 17:57 17-11-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Для "опытных" пользователей, которые снова начал пороть горячку, процитирую:
 
Archivist say:
Цитата:
PNG может тратить по несколько секунд на сохранение скана в 600dpi. Хорош только для длительного хранения исходников/финального результата.

Повторю вопрос: С какими опциями (настройками) кодирования такое время выполнения? И какие программы сканирования используют такие опции (настройки) кодирования?

Всего записей: 1044 | Зарегистр. 18-05-2023 | Отправлено: 18:46 17-11-2025 | Исправлено: zvezdochiot, 18:49 17-11-2025
esys

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
К вопросу о размыливании из-за кривой интерполяции после поворота в СТ: возможно из-за этого после бинаризации буквы в СТ по сравнению со СК выглядят оплывшими и скругленными.

Всего записей: 696 | Зарегистр. 22-06-2016 | Отправлено: 10:31 22-11-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys say:
Цитата:
возможно из-за этого после бинаризации буквы в СТ по сравнению со СК выглядят оплывшими и скругленными.

Нет. Не "возможно".
Делается "это" специально и нарочно с помощью морфологии для снижения дефектов букв. В STA и STEX это точно отключается соответствующими опциями/настройками.
И по поводу вашего ложного утверждения о размытости результата во всех представителях семейства ST: Вам был представлен результат обработки в STEX, который менее размытый, чем результат так полюбившегося вам DT на максимальных настойках. Врём и не краснеем?

Всего записей: 1044 | Зарегистр. 18-05-2023 | Отправлено: 10:58 22-11-2025 | Исправлено: zvezdochiot, 10:59 22-11-2025
psikov

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
slava_kry

Цитата:
ТИФ рекомендуют от безысходности, т.к. обычный человек наваяет такого, что изумляться будешь очень и очень долго.
Если понимаете что делаете и ЖПЕГ пойдёт.

Как понять - понимаю ли я что я делаю или не понимаю? Чего я точно не понимаю - почему подойдет JPEG - это ведь формат с потерями в качестве. Очевидно, что сканировать надо в формат БЕЗ потерь.  

Цитата:
ПНГ формат странный, т.к. его воплощение разное в разных программах и вы в самый неожиданный момент можете получить "удар в бок" в виде очень  долгой записи или долгого открытия.  
А в попытке сделать файлы минимального объёма вы очевидно будете использовать максимальную компрессию.

В IrfanView надо установить плагин OptiPNG.
Когда сохраняешь что-то в PNG, предлагают, во-первых, выбрать параметр сжатия от нуля до девяти. 9 соответствует максимальной компрессии. Видимо, выбирать надо 0 (без сжатия). Или, в крайнем случае, не более шести (6 - стандартное значение).
Во-вторых, предлагают использовать этот плагин OptiPNG с параметром, который варьируется от нуля до семи. 0 - очень быстро, 7 - очень медленно. Очевидно, выбирать надо 0 или стандартное значение - оно равно 2.

Всего записей: 84 | Зарегистр. 26-02-2025 | Отправлено: 19:17 22-11-2025
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 3)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2025

LiteCoin: LgY72v35StJhV2xbt8CpxbQ9gFY6jwZ67r

Рейтинг.ru

Рейтинг.ru