Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 3)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

Открыть новую тему     Написать ответ в эту тему

Maz



Дед Мазай
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
 Предыдущие части: Часть 1,  Часть 2

Scan Tailor


Задача программы - автоматизированная пост-обработка сырых сканов типовых книг (ЧБ текст + прямоугольные иллюстрации) для последующей сборки в PDF/DJVU,CBR/CBZ и т.д.
Программа обеспечивает большое удобство для использования, большую интерактивность и не меньшую автоматизацию процесса, что сильно ускоряет обработку типового материала  (ЧБ текст + прямоугольные иллюстрации). Для нетипового материала следует использовать СканКромсатор, PhotoShop, или GIMP.
ST изначально не позиционировался как единственный инструмент обработки и применяется в комплексе с другими программами.
Кросс-платформенный (Windows,Mac OS, Linux) проект с открытыми исходниками.


Англоязычный топик по ScanTailor
 
Ветки:
Scan Tailor (ST) (ncraun) >>>  последняя версия
Scan Tailor Experimental (STex) (Tulon) >>>  последняя версия (обсуждение на DIY Book Scanner)
Scan Tailor Experimental (STEX) (мод. звездочёта, Нубия-IV и plzombie) >>>  последняя версия (статистика)
Scan Tailor Deviant (STD) (Нубия-IV) >>>  последняя версия ("фотосканы")
Scan Tailor Plus (STP) (Vadim "DikBSD" Kuznetsov) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Еnhanced (STE) (Petr "pejuko" Kovar) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Featured (STF) (monday2000) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Universal (STU) (trufanov-nok) >>>  последняя версия (обсуждение на publ.lib.ru)
Scan Tailor Advanced (STA) (4lex4) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Advanced (STA) (актуальный форк) >>>  история версий
 
Документация:
Документация (Wiki) | Зоны картинок в ScanTailor | ScanTailor. Быстрое начало | Видеоуроки и скринкасты новых функций СТ от Tulona
Статья: Scan Tailor. Программа для обработки отсканированных книг
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
Использование Scan Tailor совместно с Djvu Imager (сборка djvu методом разделенных сканов)
Как собрать Scan Tailor из исходных кодов под Windows
Почему нельзя сделать сплошную нумерацию вывода

"Описание порогов от AlVaKo"
"Дополнение к описание порогов в контексте ST от звездочёта"

Автор проекта - Tulon. Почему его здесь не видно? .
DikBSD автор ветки ScanTailor Plus история повторяется.
Юзеры! Будьте скромнее!


Прочие дистрибутивы, форки, дополнения
 
попытка обозреть историю разработки и форков программы Scan Tailor (livejournal, 20 февраля 2025).

Всего записей: 39687 | Зарегистр. 26-02-2002 | Отправлено: 10:44 10-01-2024 | Исправлено: zvezdochiot, 16:30 31-08-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral say:
Цитата:
Я потому и ocr чаще всего и не делаю, и не приветствую

Всё понятно. Разговор закончен. Вы и выпрямление страниц не делаете и не приветствуете.

Всего записей: 983 | Зарегистр. 18-05-2023 | Отправлено: 11:34 10-06-2025 | Исправлено: zvezdochiot, 13:05 10-06-2025
esys

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
OCR даже кривой может быть полезен для удобства поиска по нужному слову. Только это не в адоб, а в джвю удобно. Сам если OCR делаю, то всякий хлам удаляют через "найти и заменить" в ФР.

Всего записей: 620 | Зарегистр. 22-06-2016 | Отправлено: 12:10 10-06-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot

Цитата:
мой OCR сказал вообще обратное - что читаемость стала менее плохой

Взял FR16 и сделал OCR 3 исходников: оригинал (только Recommended Preprocessing, Crop), ваш STEX, и мой STA 2019.8.16, Wolf default (200; 0.30) полностью на автомате (4 клика мышкой).
Количество неправильно распознанных слов и знаков препинания на 2 сканах:
Оригинал - 28, STEX - 15, STA - 17.
Распознавался только текст без формул. Учитывались даже самые незначительные ошибки.
Оригинал хуже распознался относительно STEX на 1-м бледном абзаце на 12 слов, на 2-м бледном абзаце - на 1 слово.
Все материалы по желанию могу предоставить. Но зачем?
 
Резюме:
1) Бинаризация действительно может улучшить результат OCR
2) Использование

Цитата:
STEX, с использованием целого набора фильтров в системе управления цветом (СУЦ) "Фильтры" (включая "Balance" и "Шумодав EM") и уже ставшего "классическим" для меня порогом EdgeDiv с "классическими" параметрами.

на данном материале по сравнению с STA не дало ощутимых улучшений
3) Вычитывать текст надо в любом случае

Всего записей: 1023 | Зарегистр. 04-11-2019 | Отправлено: 13:51 10-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager say:
Цитата:
Wolf default (200; 0.30)

Дай небольшой скриншотик. Жирность буков интересует. С учётом, что фильтр Balance я выкрутил на полную, жирность не должна сильно отличаться. Но глянуть бы хотелось, ну а вдруг я маху двл.

Всего записей: 983 | Зарегистр. 18-05-2023 | Отправлено: 14:02 10-06-2025 | Исправлено: zvezdochiot, 14:05 10-06-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot

Цитата:
Дай небольшой скриншотик

Вот архив с 2 tiff от STA, и 3 текстовых файла с текстом после OCR

Цитата:
Жирность буков интересует

А смысл? Я же вообще ничего не крутил. Только Отцу на Вольфа поменял.
У меня была другая задача - показать, что для улучшения OCR достаточно стандартного STA, без всяких дополнительных наворотов, и что вычитка нужна в любом случае.
Кроме того, а чего бы не попробовать окрутить крутилки в STA самому?

Цитата:
а вдруг я маху двл

двл - я же говорю, вычитка (и авто проверка орфографии) нужна в любом случае.
Я очень бегло покрутил настройки (window, k) моего STA и сравнил с результатом STEX. И, наверное, мог бы сказать, что результат STEX лучше в некоторых местах. Но это не настолько лучше, чтобы оправдывать геморой с настройками оптимальных параметров в СТ.
 
Ну серьёзно.
Вышел на этап Output.
Крутанул колёсиком мыши чтобы увеличить масштаб на проблемной области.
Отцентрировал страницу на самое проблемное место на проблемной области.
Примерно запомнил как и что.
Поменял значение Window.
3 секунды наблюдаю шарики на экране.
Масштаб скинулся в дефолтный.
Снова для сравнения масштабирую и центрирую.
Сравнивать уже не с чем, т.к. визуальный склероз. Уже точно не помню, что было раньше.
Опять запоминаем и повторяем процесс.
Опять 3 секунды шариков и сброс масштаба.
Через несколько минут такого подбора оптимальных параметров у меня от шариков начинают ехать ролики.
И это только на проблемной области, а надо ещё проверить нормальные области, не испортилось ли там чего.
И это только на одной странице, а проверять надо если не все, то на плохих сканах дофига вообще-то.
И это только 2 параметра у STA и комбинации их изменений. А если таких параметров 3-4-5?
 
Мне очень интересны 2 вещи.
Какого лешего СканТейлор делает 3 секунды, пока крутятся шарики на экране? Крутит шарики?
Как авторы СканТейлоров выдерживали процесс подбора оптимальных параметров при тестировании программы без битья своей головой об клавиатуру?

Всего записей: 1023 | Зарегистр. 04-11-2019 | Отправлено: 15:23 10-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager say:
Цитата:
У меня была другая задача

Это понятно. К этому вопросов нет. Чисто для себя, вдруг перемудрил. А самому ковыряться - "слегка" влом.
 
jourmager say:
Цитата:
пока крутятся шарики на экране?

Так это ж фитча STA. Таймаут перед применением новых параметров. Вдруг ты ещё какой параметр поменяешь.

Всего записей: 983 | Зарегистр. 18-05-2023 | Отправлено: 15:34 10-06-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
можно чуть подтянуть по жирности бледные полосы, и ФР8 прекрасно тогда их распознает (проверил утром)

 
Подтянуть-то можно, но в прекрасное распознавание ФР8 очень слабо верится.
Хотелось бы взглянуть на образец "подтягивания" и распознанный текст после ФР8.
Чтобы сравнить ваш результат в СканКромсаторе и тутошние СканТейлоры. Для научного интереса.
 

Цитата:
Но с формулами-то что делать - ??

 
Как один вариант - оставить картинками. Видел и такое. В СканТейлоре это автоматом не выйдет, придется вручную.
Как другой вариант - бинаризовать, но не распознавать.
 

Цитата:
хоть бинаризация хоть распознавание должны давать гарантию 100% попадания в исходный знак

 
100% гарантию даёт только страховой полис. Вернее давал, 100 лет назад.
Откуда такая категоричность, что кто-то кому-то должен? Автор, переводчик, редактор, корректор, наборщик тоже должны выполнять свою работу без ошибок, однако нет. Ошибки сплошь и рядом. Так что мозги надо применять в любом случае при чтении как обычного текста, так и формул, как отсканенных книг, так и печатных оригиналов.
 
СканТейлор даёт вполне нормальное качество на большинстве сканов книг. Книга - это источник знаний, а не объект для фетишизма.
 

Цитата:
Отсюда и граница "оставить серым". Давно стало понятным и единственно приемлемым решением.

 
А я вот не понял, где эта граница.
Простой текст. "Казнить нельзя помиловать". Граница тогда, когда пропадает запятая? А если её и в оригинале не видно? В данном тексте были места, которые не только СканТейлор не вытягивал, но и человеческий глаз и мозг могли распознать только по контексту.
 

Цитата:
Я потому и ocr чаще всего и не делаю, и не приветствую, что если уж делать, то вычитывать, а это неприемлемые затраты. Необоснованные, точнее, если бинаризация проделана тщательно.

 
Смешались звери, кони. Причём тут у вас бинаризация к OCR? OCR делается для поиска текста и возможности цитирования и запоминания текста, а также для перевода текста в векторные шрифты. Бинаризация делается для уменьшения размера изображений в байтах, для облегчения OCR, для лучшей читабельности.
 
Т.е. OCR нужен в любом случае, если с книгой будут работать: искать что-либо в тексте, запоминать интересные и нужные места из текста. А сейчас так вообще улёт. Я сам не пробовал, но надо бы. Дать на обработку в какой-либо ChatGPT, чтобы он сделал резюме (саммари). С одной только бинаризацией не выйдет, только с OCR.
 
А СканТейлор очень хорош для быстрой подготовки сканов к OCR. Ещё раз - после загрузки данных сканов в STA я кликнул мышкой 4 раза (Margins -Play, Method, Wolf, Output - Play) и получил результат, пригодный для OCR.
 

Цитата:
неприемлемые затраты. Необоснованные, точнее

 
Угу. Обрезка сканов, выравнивание освещённости, подбор уровня бинаризации, устранение дырок в символах, удаление спеклов, марашек и прочей фигни и куча всякой другой неинтересной работы ничего не дающей ни уму ни сердцу - это приемлемые и обоснованные затраты. А хорошую книжку почитать (и вычитать) - фу, это неприемлемо и необосновано.
 
Есть операции, которые лучше и проще делать в СканТейлоре, чем в редакторе OCR - изменение ориентации, разделение разворотов, исправление наклона, устранение геометрических искажений. И такой мало-мальски подготовленный материал отправлять на OCR.
Кстати, у СканТейлора, ИМХО, очень неплохой баланс между "неприемлемыми и необоснованными затратами" и качеством результата.
 
Другое дело, что нормального редактора для вычитки нет, но это уже тут обсуждалось, безрезультатно.
 

Цитата:
Конечно, от обработки хочется идеального оригинал-макета, но это тупая работа по набору всего текста с нуля

Не помню где, или на dwg или на publ или ещё где, видел книгу по математике или физике распознанную и перенабранную в Latex. Где-то её сберёг, как образчик.
 
Не надо набирать весь текст с нуля. Есть OCR с заменой шрифтов на векторные. Т.е., как вариант, в ST (Advanced) можно сделать раздельный вывод и отправить на OCR только текстовую часть, чтобы снизить ошибки распознавания.
 
И работа не тупая. Если человеку нужно и интересно то, что написано в книге. В моё время (не знаю, как сейчас) студенты совсем не зря писали конспекты (особенно первоисточников).
А если электронная книга делается просто потому, что под рукой была какая-то бумажная, ну ОК, ещё куча человеко-часов сожжены почем зря.
 
ИМХО, быстрая обработка сканов в СканТейлоре, для последующего OCR, высвобождает время для последующей вычитки.

Всего записей: 1023 | Зарегистр. 04-11-2019 | Отправлено: 17:28 10-06-2025
VSHY

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Цитата:
Я потому и ocr чаще всего и не делаю, и не приветствую, что если уж делать, то вычитывать, а это неприемлемые затраты.
Я давно OCR не занимался. Лет 15 назад пользовался лёгкой и бесплатной прогой для распознавания субтитров в видео, так она была очень удобная - задаёшь уровень автоматического распознавания, чтобы не повредить текст, а остальные символы прога у тебя спрашивает, предлагая варианты, и ты просто клацаешь предлагаемый вариант или вводишь свой, постоянно обучая её. Прога на 95% распознала всё сама. Остальное - мне пришлось проклацать вручную, это где-то десятая часть от нераспознанных букв, и по моим ответам прога всё дальше распознала сама. Ошибок почти не было. Можно было отключить обучение и всё проклацать, отвечая на вопросы, чтобы потом не перепроверять. Это было очень быстро. Наверняка сейчас есть бесплатные проги с подобной функциональностью полуавтоматического OCR.
Да, и естественно для полуавтомата лучше использовать оригинальное изображение, т.к. в оригинале можно было увидеть знак градуса, а после обработки это преобразовалось в кляксы (это я о примере от esys, который мы выше обсуждали).

Всего записей: 1209 | Зарегистр. 19-05-2008 | Отправлено: 18:06 10-06-2025 | Исправлено: VSHY, 18:10 10-06-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
jourmager
Хотелось бы взглянуть на образец "подтягивания" и распознанный текст после ФР8.

там не на что глядеть. я лишь уловил что точность распознавания сильно зависит от уровня жирности перед бинаризацией. Некоторые слова в исходнике не опознавались вообще, а после коррекции - на 100 %. Зато соседние строчки стали хуже. То есть подобрать - можно, и результат - будет. А вглубь я не вдавался, по вышеуказанной причине. Есть хорошее предположение что расстановкой узких зон-полосок с толковыми параметрами автокоррекции можно добиться многого. Но, повторяю, в эту степь я не пошел, не вижу смысла. Хотите поглядеть - так сами проверьте, что с распознаванием.

Цитата:
А я вот не понял, где эта граница.

так вы и не обрабатываете, откуда ж понимание. Это надо посидеть над 20-30 трудными случаями, попыхтеть, словить дзен, затратить месяц-другой времени. Довести хоть один трудный случай до идеала.
 

Всего записей: 3612 | Зарегистр. 15-07-2010 | Отправлено: 18:10 10-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral say:
Цитата:
адо посидеть над 20-30 трудными случаями, попыхтеть, словить дзен, затратить месяц-другой времени.

Я всё это сделал. Но вопрос тот же. По вашему ответу - граница там, где надоедает возиться с материалом. Именно надоедает и никак иначе. А мне не надоедает.
 
TelecomUral say:
Цитата:
Довести хоть один трудный случай до идеала.

Я с вас улыбаюсь. "Покажите мне его, я хочу видеть этого человека".

Всего записей: 983 | Зарегистр. 18-05-2023 | Отправлено: 18:22 10-06-2025 | Исправлено: zvezdochiot, 18:24 10-06-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
zvezdochiot
граница там, где надоедает возиться с материалом. Именно надоедает и никак иначе.

граница там, например, где экономически эффективнее заплатить наборщику за новый набор.
Это одна из границ.
Мне приходилось потратить около пяти часов на один листок. Сделав бинаризацию так, что последующий ocr давал одну, изредка две ошибки на этом листке. И граница нашлась, когда я понял что если бы я отпечатал скан, положил его рядом на пюпитр, и набрал текст с нуля в ворде, даже с пятью формулами, что там были, я бы потратил час. Ну два в худшем случае.

Всего записей: 3612 | Зарегистр. 15-07-2010 | Отправлено: 18:30 10-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral say:
Цитата:
я бы потратил час. Ну два в худшем случае.

Чем дальше, тем более низко падает значимость ваших слов в моих глазах.
Есть же нюансы! И две большие разницы между "набрать тот же текст" и "набрать тот же тест, таким же образом и с тем же начертанием".

Всего записей: 983 | Зарегистр. 18-05-2023 | Отправлено: 18:40 10-06-2025 | Исправлено: zvezdochiot, 18:40 10-06-2025
VSHY

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Чем дальше, тем более низко падает значимость ваших слов в моих глазах.
Какая трагедия!...

Всего записей: 1209 | Зарегистр. 19-05-2008 | Отправлено: 19:38 10-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
VSHY say:
Цитата:
Какая трагедия!...

Не. Констатация факта...
Рассказывать такое тому, кто этим занимался?! Вот это наглость!

Всего записей: 983 | Зарегистр. 18-05-2023 | Отправлено: 19:49 10-06-2025 | Исправлено: zvezdochiot, 19:52 10-06-2025
indifirent

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
zvezdochiotНу так все ждут. Где же, где же?

Тутоньки. – https://imgsli.com/Mzg3NDkw/0/3
1. Оригинал.
2. Surface Blur+Levels (не идеальный фотошоп)
В g'mic:
3. Easy Skin Retouch (это далеко не единственный инструмент с таким или похожим результатом в gmic)
4. + Iain's Noise Reduction Old (если кому то больно смотреть на лёгкую шероховатость бумаги).
Я остановился на третьем варианте.
Ну а если кому то не позволяет религия использовать gmic то в фотошопе тоже есть возможность повторить такое, только муторнее, (смотреть видеоуроки на тему разглаживания кожи).
 
P.S. Может, когда то там zvezdochiot и прикрутит вейвлетный денойз с крутилками но только после того как поменяет последовательность выполнения в stex. О чём я говорил ранее.
 

Цитата:
zvezdochiotВсё понятно. Разговор закончен.

Разговор о stex походу давно закончен. Программа назначает от балды dpi для загруженных сканов, фильтры применяются ДО а не ПОСЛЕ маски. Ну а все сопричастные, на этот и другой счёт, молчат как советские партизаны.
 

Цитата:
esysOCR даже кривой может быть полезен для удобства поиска по нужному слову.

Например по слову "rpanuua"?
 

Цитата:
jourmager
А сейчас так вообще улёт. Я сам не пробовал, но надо бы. Дать на обработку в какой-либо ChatGPT, чтобы он сделал резюме (саммари).

Я делал. Скармливал grok сканы с google books для ocr.  

Цитата:
VSHY
Лет 15 назад пользовался лёгкой и бесплатной прогой для распознавания субтитров в видео

Subtitle Edit?

Всего записей: 221 | Зарегистр. 02-06-2018 | Отправлено: 20:17 10-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
indifirent say:
Цитата:
Тутоньки... 4.

Тоже самое. Но я не уверен, что OCR воспримет ваш результат так же радостно, как результат STEX.
 
indifirent say:
Цитата:
Разговор о stex походу давно закончен.

Скатертью дорожка. Насильно никого держать не станем.

Всего записей: 983 | Зарегистр. 18-05-2023 | Отправлено: 20:36 10-06-2025 | Исправлено: zvezdochiot, 20:36 10-06-2025
indifirent

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
zvezdochiot
Но я не уверен

Не уверен – не обгоняй.

Цитата:
Скатертью дорожка.

Правда глаза колет?
 

Всего записей: 221 | Зарегистр. 02-06-2018 | Отправлено: 21:04 10-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
indifirent say:
Цитата:
Не уверен – не обгоняй.

Вот именно, вот именно...
 
indifirent say:
Цитата:
Правда глаза колет?

Какая правда? Нет за тобой никакой правды.

Всего записей: 983 | Зарегистр. 18-05-2023 | Отправлено: 21:08 10-06-2025 | Исправлено: zvezdochiot, 21:09 10-06-2025
indifirent

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
zvezdochiot
Какая правда?

Правда про назначение dpi и правда про очерёдность воздействия фильтров на скан.

Всего записей: 221 | Зарегистр. 02-06-2018 | Отправлено: 21:22 10-06-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
indifirent say:
Цитата:
Правда про...

А может правда в том, что окромя нескольких человек, которых можно пересчитать по пальцам одной руки, STEX никогда и никому нужен не был? И так и по сей день. Может в этом правда? А все ваши остальные "правды" - это пускание пыли в глаза? Не так? Да именно так!

Всего записей: 983 | Зарегистр. 18-05-2023 | Отправлено: 21:33 10-06-2025 | Исправлено: zvezdochiot, 21:33 10-06-2025
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 3)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2025

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru