Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 3)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

Открыть новую тему     Написать ответ в эту тему

Maz



Дед Мазай
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
 Предыдущие части: Часть 1,  Часть 2

Scan Tailor


Задача программы - автоматизированная пост-обработка сырых сканов типовых книг (ЧБ текст + прямоугольные иллюстрации) для последующей сборки в PDF/DJVU,CBR/CBZ и т.д.
Программа обеспечивает большое удобство для использования, большую интерактивность и не меньшую автоматизацию процесса, что сильно ускоряет обработку типового материала  (ЧБ текст + прямоугольные иллюстрации). Для нетипового материала следует использовать СканКромсатор, PhotoShop, или GIMP.
ST изначально не позиционировался как единственный инструмент обработки и применяется в комплексе с другими программами.
Кросс-платформенный (Windows,Mac OS, Linux) проект с открытыми исходниками.


Англоязычный топик по ScanTailor
 
Ветки:
Scan Tailor (ST) (ncraun) >>>  последняя версия
Scan Tailor Experimental (STex) (Tulon) >>>  последняя версия (обсуждение на DIY Book Scanner)
Scan Tailor Experimental (STEX) (мод. звездочёта, Нубия-IV и plzombie) >>>  последняя версия (статистика)
Scan Tailor Deviant (STD) (Нубия-IV) >>>  последняя версия ("фотосканы")
Scan Tailor Plus (STP) (Vadim "DikBSD" Kuznetsov) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Еnhanced (STE) (Petr "pejuko" Kovar) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Featured (STF) (monday2000) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Universal (STU) (trufanov-nok) >>>  последняя версия (обсуждение на publ.lib.ru)
Scan Tailor Advanced (STA) (4lex4) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Advanced (STA) (актуальный форк) >>>  история версий
 
Документация:
Документация (Wiki) | Зоны картинок в ScanTailor | ScanTailor. Быстрое начало | Видеоуроки и скринкасты новых функций СТ от Tulona
Статья: Scan Tailor. Программа для обработки отсканированных книг
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
Использование Scan Tailor совместно с Djvu Imager (сборка djvu методом разделенных сканов)
Как собрать Scan Tailor из исходных кодов под Windows
Почему нельзя сделать сплошную нумерацию вывода

"Описание порогов от AlVaKo"
"Дополнение к описание порогов в контексте ST от звездочёта"

Автор проекта - Tulon. Почему его здесь не видно? .
DikBSD автор ветки ScanTailor Plus история повторяется.
Юзеры! Будьте скромнее!


Прочие дистрибутивы, форки, дополнения
 
попытка обозреть историю разработки и форков программы Scan Tailor (livejournal, 20 февраля 2025).

Всего записей: 39685 | Зарегистр. 26-02-2002 | Отправлено: 10:44 10-01-2024 | Исправлено: zvezdochiot, 16:30 31-08-2025
LonerD



Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору

Цитата:
автоматическое отделение картинок от текста

Для полного счастья ещё бы отделение цветовой сегментации, хотя бы вручную зоны указывать.
В журнале на некоторых страницах цветные буквы попадаются (как правило заголовки).  
Без цветовой сегментации в режиме Mixed весть текст становится чёрным (что логично).
С сегментацией ST не может отделить цветной от чёрно-белого, в результате чего обрабатывается всё, и основной текст вместо чёрного получается сероватым. Оформлять цветной текст как картинку (с неочищенной подложкой) - тоже не очень интересно.  
Ввести бы или какую-то границу, после которой весь чёрный определяется как чёрный, или зоны по аналогии с зонами картинок.

Всего записей: 906 | Зарегистр. 27-06-2006 | Отправлено: 03:42 30-05-2024 | Исправлено: LonerD, 03:43 30-05-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
LonerD
зоны по аналогии с зонами картинок

ну наконец-то прозвучала эта мысль. Не прошло и десятка лет, как сделали mixed режим, и дошло до следующего шага, автовыделения CLA.
 

Цитата:
Archivist
но там достигается более высокое качество бинаризации текста


Цитата:
zvezdochiot
все актуальные семейства ST поддерживают не один порог, а целый набор, включая как классические, так и использующие предфильтрацию

Дело же не в пороге. ST конечно стал отлично бинаризовывать страницу (сужу по поделкам от derevyaha на publ.lib.ru). Но вы не поставите в нем на полстраницы один метод бинаризации, на вторые полстраницы другой метод, а на конкретное пятно - третий. А в кромсаторе нет проблем, практически все инструменты универсально применяются, комбинируются к любым объектам.

Всего записей: 3610 | Зарегистр. 15-07-2010 | Отправлено: 05:25 30-05-2024 | Исправлено: TelecomUral, 05:29 30-05-2024
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LonerD say:

Цитата:
С сегментацией ST не может отделить цветной от чёрно-белого, в результате чего обрабатывается всё, и основной текст вместо чёрного получается сероватым.

В STEX работа с К-средних более гибкая, но указанный недостаток в определённой степени присутствует. А вот цветовую сегментацию STA я так понять (и простить) не смог. Как с ней вообще работать то?
 
PS: На более ранних этапах я для таких целей использовал "Добавить по маске" ("Add to foreground") для добавления цветного текста без фона в виде картинки. Но это требует дальнейшей обработки в чём то ещё.

Всего записей: 983 | Зарегистр. 18-05-2023 | Отправлено: 07:06 30-05-2024 | Исправлено: zvezdochiot, 07:19 30-05-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
оффтоп про искажения сканирования

Всего записей: 3610 | Зарегистр. 15-07-2010 | Отправлено: 07:56 30-05-2024
MZN

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Optiсbook не берет все, это неправда. Когда фото или рисунок на разворот - очевидно не возьмет. Когда поля у корешка малы - тоже. Хотя иногда разворотами получается. Намокшие и неправильно высушенные при толстой бумаге - не возьмет. Потом не забывайте, что качество его сканирования по сравнению с Epson или Canon просто плохое. Даже дорогущие сканеры Элары иногда дают искажения, правда, сами с ними успешно борются

Всего записей: 1806 | Зарегистр. 23-10-2004 | Отправлено: 08:24 30-05-2024 | Исправлено: MZN, 08:30 30-05-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
оффтоп

Всего записей: 3610 | Зарегистр. 15-07-2010 | Отправлено: 08:39 30-05-2024 | Исправлено: TelecomUral, 09:17 30-05-2024
esys

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Ты хотел сказать в СК?

Да.

Всего записей: 620 | Зарегистр. 22-06-2016 | Отправлено: 09:14 30-05-2024
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Привет всем.
 
Кое-кто тут бил себя пяткой в грудь, что мол при правильном сканировании искажения "незначительны" и "несущественны".
 
Но! Е.М. Гершензон и др. | Радиотехника (1986); сканировал AAW (не будем тыкать пальцем, но сканировал ровно тот, кто и бил себя пяткой в грудь). Для меня такие искажения являются значительными и я их исправляю в обязательном порядке в STEX. Такие вот дела.

Всего записей: 983 | Зарегистр. 18-05-2023 | Отправлено: 14:03 04-06-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
оффтоп о Гершензоне

Всего записей: 3610 | Зарегистр. 15-07-2010 | Отправлено: 14:41 04-06-2024
esys

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Е.М. Гершензон и др

Для чего там часть рисунков и текста красные? То что они красные, а не черные вроде бы ничего не улучшает. Или это в оригинале так и стремление повторить оригинал?

Всего записей: 620 | Зарегистр. 22-06-2016 | Отправлено: 16:22 04-06-2024
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys say:

Цитата:
Для чего там часть рисунков и текста красные?

Без понятия. Мне вообще этот момент "слегка" неинтересен. Точнее неинтересен потому, что это кривая "малоцветка", вместо 3 цветов (чёрного, белого и красного) на кой то ляд используются 16 цветов.
 
Но речь то за другое: некий свидетель Кромсатора целую страницу темы загадил измышлениями, что исправление геометрических искажений ненужно, а надобно только "правильно" сканировать. А на деле отрываем книгу и видим фигу. Такие вот дела.
 

Всего записей: 983 | Зарегистр. 18-05-2023 | Отправлено: 16:35 04-06-2024 | Исправлено: zvezdochiot, 16:35 04-06-2024
esys

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Нашел только специально высматривая.

Всего записей: 620 | Зарегистр. 22-06-2016 | Отправлено: 16:55 04-06-2024
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys say:

Цитата:
только специально высматривая.

Шутить изволите? Меня без всяких всматриваний данный перекос корёжить стал. Хотите сказать, что это уже "профессиональная деформация" из-за постоянного использования STEX? И "рука сама уже тянется" к этапу 3: "Геометрические искажения"? Ну может быть, может быть...

Всего записей: 983 | Зарегистр. 18-05-2023 | Отправлено: 17:16 04-06-2024
esys

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Если красный сделать черным и запаковать Гершензона в джвю, то вес снижается в 28 раз без потери качества.

Всего записей: 620 | Зарегистр. 22-06-2016 | Отправлено: 17:34 04-06-2024 | Исправлено: esys, 17:37 04-06-2024
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Выскажу свои ничуть не авторитетные 2 копейки по pdf-файлу Е.М. Гершензон и др. | Радиотехника (1986).
Факт, что там куча искажений геометрии. Также имеются и другие серьезные огрехи.
На мой непросвещённый взгляд, исходные сканы были обработаны в СканТейлоре с использованием режима исправления геометрических искажений на полном автомате без просмотра результата вообще. Могу и ошибаться, могу и аргументировать.
 
 
esys

Цитата:
Или это в оригинале так и стремление повторить оригинал?

Походу, вы данную пдф-ку смотрели невнимательно, иначе бы не оплошали бы с  

Цитата:
Если красный сделать черным

По пути грохнув оглавление в букмарках.  
Торопляемость рождает ошибаемость.

Всего записей: 1023 | Зарегистр. 04-11-2019 | Отправлено: 18:18 04-06-2024 | Исправлено: jourmager, 18:22 04-06-2024
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys say:

Цитата:
Если красный сделать черным и запаковать Гершензона в джвю...

А чего не раскрасить соответствующие надписи данного djvu в красный ("#FF0000") цвет? Или обязательно ГУИ-ка нужна? А DjVuEditor этого не умеет?

Всего записей: 983 | Зарегистр. 18-05-2023 | Отправлено: 18:25 04-06-2024
esys

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
букмарках

Это что?
 
Добавлено:

Цитата:
Торопляемость рождает ошибаемость

Хотел показать, что вес необоснованно очень большой.

Всего записей: 620 | Зарегистр. 22-06-2016 | Отправлено: 18:40 04-06-2024
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys say:

Цитата:
Хотел показать, что вес необоснованно очень большой.

Так 16 цветов вместо 3х, вот и результат.
Как мне известно, обработка производилась в STA. В нём не только исправление искажений находится в неудобном месте (на выводе), но и зачастую приводит к падению, поэтому этим не пользуются даже те, кто хочет исправить искажения. А уж с "цветовой сегментацией" я вообще не разобрался, но fire_varan похоже сумел совладать с этой странной штукой, настолько насколько получилось. Но получилось не очень.
 

Всего записей: 983 | Зарегистр. 18-05-2023 | Отправлено: 18:49 04-06-2024
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Как мне известно, обработка производилась в STA.

Ну вот. Как я написал ранее

Цитата:
На мой непросвещённый взгляд, исходные сканы были обработаны в СканТейлоре

А почему я так решил (про СТ) и почему ещё написал

Цитата:
с использованием режима исправления геометрических искажений на полном автомате без просмотра результата вообще.

потому что в файле на некоторых страницах видны геометрические искажения, вносимые при автоматическом исправлении геометрических искажений, алгоритм хорошо отрабатывает на тексте, но может лажать при наличии иллюстраций. Я такую фигню видел при работе СТ неоднократно, поэтому в конце концов плюнул на такое исправление. Походу, алгоритм отлаживали на небольшом количестве сканов сравнительно хорошего качества. При этом исправить такое исправление практически невозможно.
 
Ещё раз, утверждать не берусь, но вполне вероятно, что сканы не имеют вообще никаких геометрических искажений, а все видимые искажения внесены неумелым применением автоматического исправления геометрических искажений в СканТейлоре.
 

Цитата:
исправление искажений находится в неудобном месте (на выводе)

Ага. Автор оригинально СканТейлора Tulon, в своём стремлении облегчить жизнь пользователю, загнал этих пользователей в прокрустово ложе жесткой схемы, которую сам придумал. Всё бы ничего, но на момент написания архитектуры СТ у Тулона был опыт книгоделания аж в две простеньких книжки. И когда оказалось, что не все пользователи в это ложе помещаются, то оказалось, что Тулон также и сам себя в это прокрустово ложе уложил и исправлять свои огрехи в проектировании не захотел. Поэтому и всех желателей дополнительных фич посылал лесом. Он погромист, он так видит. А потом получил нервы и вот это вот всё. Такова цена изначально неверно выбранной архитектуры. Кстати в это прокрустово ложе он и всех форкоделателей уложил.
 
Сорри за оффтоп.
esys

Цитата:
Хотел показать, что вес необоснованно очень большой.

А что? Кто-то будет спорить? Что pdf из 4-bit index проиграет с разгромным счетом одноцветному djvu? Но зачем при этом переднюю обложку в 100 dpi загонять, зачем терять заднюю обложку вообще, зачем забыть про оглавление (букмарки-закладки - панель слева от страницы книги). И т.к. в оригинальном файле некоторые иллюстрации остались необработанными, т.е. автор pdf вообще свою работу не проверял, то при вашем преобразовании в djvu эти оригинальные бледно-красные иллюстрации на фоне желтой бумаги превратились в ничего. Всё бы ничего, если бы это была одна страница, но вы так целую книгу обработали - типа нате пользуйтесь. Не комильфо.

Всего записей: 1023 | Зарегистр. 04-11-2019 | Отправлено: 20:58 04-06-2024
esys

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
зачем терять заднюю обложку вообще

В оригинале их было аж две одинаковые, на каждой было только "90 коп." Убрал обе, т. к. это мусор, кому нужна цена всегда найдет ее на последней странице.

Цитата:
зачем забыть про оглавление (букмарки-закладки - панель слева от страницы книги)

В оригинале они левые, т. к. не повторяют оригинального оглавления книги, поэтому их копировать я не стал, нормального тоже делать не стал и распознавать не стал, т. к. цель другая была (см. выше).
 
Добавлено:

Цитата:
в djvu эти оригинальные бледно-красные иллюстрации на фоне желтой бумаги превратились в ничего

Какие страницы для примера?

Всего записей: 620 | Зарегистр. 22-06-2016 | Отправлено: 21:13 04-06-2024 | Исправлено: esys, 21:16 04-06-2024
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 3)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2025

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru