Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 3)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

Открыть новую тему     Написать ответ в эту тему

Maz



Дед Мазай
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
 Предыдущие части: Часть 1,  Часть 2

Scan Tailor


Задача программы - автоматизированная пост-обработка сырых сканов типовых книг (ЧБ текст + прямоугольные иллюстрации) для последующей сборки в PDF/DJVU,CBR/CBZ и т.д.
Программа обеспечивает большое удобство для использования, большую интерактивность и не меньшую автоматизацию процесса, что сильно ускоряет обработку типового материала  (ЧБ текст + прямоугольные иллюстрации). Для нетипового материала следует использовать СканКромсатор, PhotoShop, или GIMP.
ST изначально не позиционировался как единственный инструмент обработки и применяется в комплексе с другими программами.
Кросс-платформенный (Windows,Mac OS, Linux) проект с открытыми исходниками.


Англоязычный топик по ScanTailor
 
Ветки:
Scan Tailor (ST) (ncraun) >>>  последняя версия
Scan Tailor Experimental (STex) (Tulon) >>>  последняя версия (обсуждение на DIY Book Scanner)
Scan Tailor Experimental (STEX) (мод. звездочёта, Нубия-IV и plzombie) >>>  последняя версия (статистика)
Scan Tailor Deviant (STD) (Нубия-IV) >>>  последняя версия ("фотосканы")
Scan Tailor Plus (STP) (Vadim "DikBSD" Kuznetsov) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Еnhanced (STE) (Petr "pejuko" Kovar) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Featured (STF) (monday2000) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Universal (STU) (trufanov-nok) >>>  последняя версия (обсуждение на publ.lib.ru)
Scan Tailor Advanced (STA) (4lex4) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Advanced (STA) (актуальный форк) >>>  история версий
 
Документация:
Документация (Wiki) | Зоны картинок в ScanTailor | ScanTailor. Быстрое начало | Видеоуроки и скринкасты новых функций СТ от Tulona
Статья: Scan Tailor. Программа для обработки отсканированных книг
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
Использование Scan Tailor совместно с Djvu Imager (сборка djvu методом разделенных сканов)
Как собрать Scan Tailor из исходных кодов под Windows
Почему нельзя сделать сплошную нумерацию вывода

"Описание порогов от AlVaKo"
"Дополнение к описание порогов в контексте ST от звездочёта"

Автор проекта - Tulon. Почему его здесь не видно? .
DikBSD автор ветки ScanTailor Plus история повторяется.
Юзеры! Будьте скромнее!


Прочие дистрибутивы, форки, дополнения
 
попытка обозреть историю разработки и форков программы Scan Tailor (livejournal, 20 февраля 2025).

Всего записей: 39598 | Зарегистр. 26-02-2002 | Отправлено: 10:44 10-01-2024 | Исправлено: zvezdochiot, 16:30 31-08-2025
indifirent

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
zvezdochiot
То есть ты их (фильтры) все попробовал?

Попробовал. Но не во всех значениях спектра их действия. Попробовал как один так и в сочетании с другим(-ми). Поверь, у меня есть дела поважнее чем до посинения крутить крутилки во всех возможных положениях ползунка(-ов). Тем более обширной инструкции к применению мы так и не увидели. Только несколько рецептов на которые при должной сноровке можно ориентироваться.

Всего записей: 221 | Зарегистр. 02-06-2018 | Отправлено: 15:23 26-05-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Привет всем.
 
К вопросу о том, чего можно добиться в последних версиях STEX, а чего нет.
 
Очередной проблемный материал выложен в SK (comment).
 
Результат обработки данного проблемного материала в последней версии STEX, с использованием целого набора фильтров в системе управления цветом (СУЦ) "Фильтры" (включая "Balance" и "Шумодав EM") и уже ставшего "классическим" для меня порогом EdgeDiv с "классическими" параметрами.

Всего записей: 973 | Зарегистр. 18-05-2023 | Отправлено: 13:59 09-06-2025
esys

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Иногда надо оставить как есть, это тот самый случай.

Всего записей: 616 | Зарегистр. 22-06-2016 | Отправлено: 15:42 09-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys say:
Цитата:
это тот самый случай.

Моё мнение противоположное. Конкретнее, весь материал, без исключений, должен быть обработан! Другое дело, как обработан? Ежели пока что то не получается, то надо искать пути, средства и методы решения, а не поднимать лапки к верху.
 
Но вопрос был в пределах возможностей текущего состояния. А пределы видны только на таких вот проблемных материалах. И использование чего то другого для тестирования - пыль в глаза. Такие вот дела.

Всего записей: 973 | Зарегистр. 18-05-2023 | Отправлено: 16:36 09-06-2025
esys

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Дело не в лапах к верху, а в настолько плохом качестве исходника, что любая обработка делает хуже.
В этом случае, если уж хочется улучшить, то надо распознать вычитать и векторизовать.

Всего записей: 616 | Зарегистр. 22-06-2016 | Отправлено: 17:47 09-06-2025 | Исправлено: esys, 17:47 09-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys say:
Цитата:
если уж хочется улучшить

Никакой речи за "улучшить". Это вообще сколько "в граммах", это ваше самое "улучшить"? Речь за обработать. А вот как обработать? В этом и соль. Обсуждаемо. И поиск решений не возбраняется.

Всего записей: 973 | Зарегистр. 18-05-2023 | Отправлено: 18:02 09-06-2025 | Исправлено: zvezdochiot, 18:04 09-06-2025
esys

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Никакой речи за "улучшить". Это вообще сколько "в граммах", это ваше самое "улучшить"? Речь за обработать.

В смысле "главное процесс, а не результат"? Я считаю, если после обработки читабельность снижается, то такая обработка не нужна. Если бы вы предложили как без снижения читабельности (без бинаризации, т. к. это гробит читабельность) снизить вес файла, это было бы интересно.

Всего записей: 616 | Зарегистр. 22-06-2016 | Отправлено: 19:49 09-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys say:
Цитата:
В смысле "главное процесс, а не результат"?

В смысле вы сами себя обманываете. Сначала внезапно за некое "улучшить", а как до дела дошло - так речь внезапно за ухудшение.
 
Ну а раз речь таки за ухудшение, то я не почувствовал ухудшения читаемости, а мой OCR сказал вообще обратное - что читаемость стала менее плохой. Такие вот дела.
 
Вот и возвращается вопрос: В каких "граммах" и "попугаях" мерится это ваше "улучшить"?

Всего записей: 973 | Зарегистр. 18-05-2023 | Отправлено: 20:00 09-06-2025 | Исправлено: zvezdochiot, 20:03 09-06-2025
esys

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
я не почувствовал ухудшения читаемости

Надо проголосовать.

Всего записей: 616 | Зарегистр. 22-06-2016 | Отправлено: 21:56 09-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys say:
Цитата:
Надо проголосовать.

Плохо. Ни о чём. Что даст такое голосование? С чем его "есть"?
Другое дело - "взамен". "А что взамен"? Ежели предложить какой-либо иной вариант. Чтобы, если даже не визуально, но чтобы OCR на него среагировал, тогда да.

Всего записей: 973 | Зарегистр. 18-05-2023 | Отправлено: 22:02 09-06-2025
esys

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Сравнивайте (вертикальную границу в середине можно двигать).

Всего записей: 616 | Зарегистр. 22-06-2016 | Отправлено: 23:31 09-06-2025 | Исправлено: esys, 23:32 09-06-2025
VSHY

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Сравнивайте (вертикальную границу в середине можно двигать).
Если бы правила форума позволяли, то назвал бы то, что справа, дерьмом. Очень грубый результат. Вручную уровнями можно было бы в фотошопе поиграться. Если ничего лучше не вытянуть, то лучше пробовать распознать.
 
А вообще, что касается данного материала, то не вижу смысла цепляться именно за него, - хороших учебников по предмету "Электропривод" навалом.

Всего записей: 1207 | Зарегистр. 19-05-2008 | Отправлено: 00:05 10-06-2025 | Исправлено: VSHY, 00:09 10-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys say:
Цитата:
Сравнивайте

Разницы, ухудшающей читаемость, не узрел. Что до обработки дерьмово читается, что после. Без разницы. Разницу только OCR выдал, для него более читабельный - обработанный вариант.
 
VSHY say:
Цитата:
Вручную уровнями можно было бы в фотошопе поиграться.

Ну так все ждут. Где же, где же? Выкладывай свою игру с уровнями. На OCR проверим.

Всего записей: 973 | Зарегистр. 18-05-2023 | Отправлено: 00:20 10-06-2025 | Исправлено: zvezdochiot, 00:25 10-06-2025
trion1

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Сравнивайте (вертикальную границу в середине можно двигать).
Многие индексы стали нечитаемыми, на сером фоне хоть что-то можно было с трудом, но угадать; в черно-белом варианте местами просто кляксы. Например:

Да и для удобного сравнения можно было бы сканы по высоте подрезать(

Всего записей: 2112 | Зарегистр. 15-03-2006 | Отправлено: 09:36 10-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
trion1 say:
Цитата:
можно было с трудом, но угадать

Намекаете, что "надо оставить как есть"? Категорически не согласен. Текст должен быть обработан и распознан. Иначе это не текст.
А то, что и данный конкретный исходник, и его обработка - помоечный вариант, не поспоришь.

Всего записей: 973 | Зарегистр. 18-05-2023 | Отправлено: 10:20 10-06-2025 | Исправлено: zvezdochiot, 10:22 10-06-2025
esys

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Счет 2:1 в пользу необработки.
У меня сервис сравнения картинок перестал открываться, подскажите другой рабочий вариант.
 
Добавлено:

Цитата:
Текст должен быть обработан и распознан

Текст можно взять от любого изображения и вставить на лучшее по читабельности, поэтому это отдельная задача, не надо смешивать.

Всего записей: 616 | Зарегистр. 22-06-2016 | Отправлено: 10:39 10-06-2025 | Исправлено: esys, 10:53 10-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys say:
Цитата:
Счет 2:1 в пользу необработки.

Так вы всё-таки меряться собрались? Напоминаю суть вопроса:
 
zvezdochiot say:
Цитата:
К вопросу о том, чего можно добиться в последних версиях STEX, а чего нет.

Это тестирование, а не то, что вы подумали.

Всего записей: 973 | Зарегистр. 18-05-2023 | Отправлено: 10:52 10-06-2025
esys

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
чего можно добиться в последних версиях STEX

Подбирайте положительные, а не отрицательные примеры результатов обработки, иначе будут говорить, что STEX плохой.

Всего записей: 616 | Зарегистр. 22-06-2016 | Отправлено: 10:56 10-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys say:
Цитата:
иначе будут говорить, что STEX плохой.

Пускай говорят. Мне не нужен STEX для других, мне нужен он для себя родного.
 
Суть тестирования:
zvezdochiot say:
Цитата:
Но вопрос был в пределах возможностей текущего состояния. А пределы видны только на таких вот проблемных материалах.


Всего записей: 973 | Зарегистр. 18-05-2023 | Отправлено: 11:02 10-06-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
оффтоп, я так думаю.
 

Цитата:
zvezdochiot
Текст должен быть обработан и распознан. Иначе это не текст.

Странное утверждение. С потолка взятое, пафосное и никчёмное.
на публ либ ру лежит книжка Трикоми 1957 года. Написано что обработка ваша.  
Я занырнул в распознанный текст, и вижу вот такую ерунду.

она же
https://disk.yandex.ru/i/UEQ1klJZpNO8Rw
И нафиг такое распознавание текста как "должное" - ? Должен - так вычитывайте. сигмы, границы ("rpanuua"), D, N, курсивный шрифт, это минимум к распознаванию. "иначе это не текст".
 
Не оффтоп.
По личному опыту, есть некоторая граница плохости скана (или оригинала), плюс конкретность информации (смысла черных значочков на бумаге), которую при бинаризации переходить не имеет смысла. В данном примере из ветки SK конечно можно чуть подтянуть по жирности бледные полосы, и ФР8 прекрасно тогда их распознает (проверил утром). В текстовой части. Но с формулами-то что делать - ?? В них нет ни символа избыточности, а значит хоть бинаризация хоть распознавание должны давать гарантию 100% попадания в исходный знак. Чего дать ничто, никакое потерьное преобразование, не может. Отсюда и граница "оставить серым". Давно стало понятным и единственно приемлемым решением. Я потому и ocr чаще всего и не делаю, и не приветствую, что если уж делать, то вычитывать, а это неприемлемые затраты. Необоснованные, точнее, если бинаризация проделана тщательно.
Конечно, от обработки хочется идеального оригинал-макета, но это тупая работа по набору всего текста с нуля. Никакого отношения к здешней теме.

Всего записей: 3599 | Зарегистр. 15-07-2010 | Отправлено: 11:28 10-06-2025 | Исправлено: TelecomUral, 11:31 10-06-2025
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 3)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2025

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru