Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 3)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

Открыть новую тему     Написать ответ в эту тему

Maz



Дед Мазай
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
 Предыдущие части: Часть 1,  Часть 2

Scan Tailor


Задача программы - автоматизированная пост-обработка сырых сканов типовых книг (ЧБ текст + прямоугольные иллюстрации) для последующей сборки в PDF/DJVU,CBR/CBZ и т.д.
Программа обеспечивает большое удобство для использования, большую интерактивность и не меньшую автоматизацию процесса, что сильно ускоряет обработку типового материала  (ЧБ текст + прямоугольные иллюстрации). Для нетипового материала следует использовать СканКромсатор, PhotoShop, или GIMP.
ST изначально не позиционировался как единственный инструмент обработки и применяется в комплексе с другими программами.
Кросс-платформенный (Windows,Mac OS, Linux) проект с открытыми исходниками.


Англоязычный топик по ScanTailor
 
Ветки:
Scan Tailor (ST) (ncraun) >>>  последняя версия
Scan Tailor Experimental (STex) (Tulon) >>>  последняя версия (обсуждение на DIY Book Scanner)
Scan Tailor Experimental (STEX) (мод. звездочёта, Нубия-IV и plzombie) >>>  последняя версия (статистика)
Scan Tailor Deviant (STD) (Нубия-IV) >>>  последняя версия ("фотосканы")
Scan Tailor Plus (STP) (Vadim "DikBSD" Kuznetsov) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Еnhanced (STE) (Petr "pejuko" Kovar) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Featured (STF) (monday2000) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Universal (STU) (trufanov-nok) >>>  последняя версия (обсуждение на publ.lib.ru)
Scan Tailor Advanced (STA) (4lex4) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Advanced (STA) (актуальный форк) >>>  история версий
 
Документация:
Документация (Wiki) | Зоны картинок в ScanTailor | ScanTailor. Быстрое начало | Видеоуроки и скринкасты новых функций СТ от Tulona
Статья: Scan Tailor. Программа для обработки отсканированных книг
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
Использование Scan Tailor совместно с Djvu Imager (сборка djvu методом разделенных сканов)
Как собрать Scan Tailor из исходных кодов под Windows
Почему нельзя сделать сплошную нумерацию вывода

"Описание порогов от AlVaKo"
"Дополнение к описание порогов в контексте ST от звездочёта"

Автор проекта - Tulon. Почему его здесь не видно? .
DikBSD автор ветки ScanTailor Plus история повторяется.
Юзеры! Будьте скромнее!


Прочие дистрибутивы, форки, дополнения
 
попытка обозреть историю разработки и форков программы Scan Tailor (livejournal, 20 февраля 2025).

Всего записей: 39599 | Зарегистр. 26-02-2002 | Отправлено: 10:44 10-01-2024 | Исправлено: zvezdochiot, 16:30 31-08-2025
indifirent

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Отлично, новый трешхолдер в СТ мягко говоря и нафиг не нужен, зато мы теперь знаем что автор интересуется средневековой демонологией. Будет о чём поговорить за чашкой кофе.

Всего записей: 221 | Зарегистр. 02-06-2018 | Отправлено: 22:17 17-05-2024
AndrejGarker

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Здравствуйте. Недавно занялся оцифровкой книг, и хотел бы попросить поделиться опытом. Мой настоящий пайплайн выглядит следующим образом:

  1. Предобработка изображений с использованием ImageMagick
  2. ScanTailor Advanced
  3. OCR в FineReader 15, создание djvu-донора
  4. Создание основного djvu в Djvu Small Mod
  5. Ивлечение OCR-слоя из файла донора и добавление его в основной файл с помощью DjVuLibre
  6. Конвертация djvu в pdf с помощью DjVuToy

Большую часть из перечисленного мне подсказал какой-то анон с двача (за что я ему бесконечно благодарен). Такой подход позволяет создавать файлы с минимальным объемом, но тем не менее весь процесс кажется довольно неуклюжим. К сожалению, больше релевантной инфы я раздобыть не смог, поэтому обращаюсь к вам. Можно ли здесь что-нибудь оптимизировать? Несколько напрягает использование древней Djvu Small Mod.

Всего записей: 7 | Зарегистр. 25-05-2024 | Отправлено: 19:07 25-05-2024 | Исправлено: AndrejGarker, 19:21 25-05-2024
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
AndrejGarker.
 

Предобработка изображений с использованием ImageMagick
пункт списка 2
пункт списка 2  

 
STEX
6. Вывод: Порог > EdgeDiv, Size > 15, Coef > 0.75.
 
Удачи.

Всего записей: 973 | Зарегистр. 18-05-2023 | Отправлено: 19:20 25-05-2024
AndrejGarker

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot
Исправил.

Всего записей: 7 | Зарегистр. 25-05-2024 | Отправлено: 19:22 25-05-2024
LonerD



Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
В Scan Tailor Advanced (актуальный форк) есть какая-то закономерность по заливке фона?
Страницы разного размера. Выставляю галочку в Aligment.
На этапе Output в разделе Filling есть White, Black и Background. Что должен делать Background - непонятно. А вот White и Black работают непонятно. Я хочу залить весь фон белым, выбираю White  (л-логика), - на одних страницах заливка по краям идёт белым, на других почему-то чёрным. На этих других страницах выбираю Black - и заливает белым. Логика не понимает, что происходит.
На версии 4lex4 заливка только чёрная. Тоже логика отдыхает (обычно фон страниц книг белый, и правильнее было бы белым края заполнять).
 
Можно ли в Scan Tailor Advanced добиться того, чтобы буквы и прочие элементы в тексте были разных цветов (галочка Color Segmentation), при этом чёрный основной текст оставался именно чёрным? У меня чёрный становится сероватым.
В Experimental есть такая возможность (при этом цветные буквы заметно истончаются), а в Advanced пока не могу подобрать настройки.

Всего записей: 900 | Зарегистр. 27-06-2006 | Отправлено: 21:01 25-05-2024 | Исправлено: LonerD, 02:43 26-05-2024
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
AndrejGarker
п.5 лучше выполнять с помощью DjVuNMEditor или FR11 DjVu Text Layer Crutch, т.к. текстовый слой djvu после фр15 очень кривой, а эти программы его приводят к нормальному, стандартному виду..

----------
DjVu Utils

Всего записей: 1545 | Зарегистр. 26-07-2007 | Отправлено: 16:42 26-05-2024
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Господа форумчане.
 
Имеется просьба: Надобно в качестве примера сохранить произвольный многослойный тифф. Желательно сделать это в фотошопе. Для каких целей? Точно сказать не могу, потому как это plzombie что то там мутит с многослойностью.

Всего записей: 973 | Зарегистр. 18-05-2023 | Отправлено: 17:23 26-05-2024
yozhic



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot (пост)
Цитата:
Надобно в качестве примера сохранить произвольный многослойный тифф. Желательно сделать это в фотошопе.

Выложил там, на Гите, в 4х видах компрессии (none, LZW, ZIP, JPEG). Если чего ещё надо поменять в характеристиках, там пишите.

Всего записей: 3136 | Зарегистр. 20-03-2008 | Отправлено: 19:02 26-05-2024
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
yozhic say:

Цитата:
Выложил там, на Гите

 
Спасибо.
 

Всего записей: 973 | Зарегистр. 18-05-2023 | Отправлено: 19:09 26-05-2024 | Исправлено: zvezdochiot, 19:09 26-05-2024
AndrejGarker

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
NME
Спасибо, обязательно опробую. Посмотрел ваши программы в топике. Есть репозиторий на гитхабе?

Всего записей: 7 | Зарегистр. 25-05-2024 | Отправлено: 19:58 26-05-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
AndrejGarker
личку видели?

Всего записей: 3600 | Зарегистр. 15-07-2010 | Отправлено: 07:38 27-05-2024
AndrejGarker

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Да, видел, спасибо. Подскажите, актуален ли на сегодняшней день SkanKromsator по сравнению со ScanTailor и его форками? Или, возможно, какие-то отдельные аспекты лучше получаются в конкретных программах?

Всего записей: 7 | Зарегистр. 25-05-2024 | Отправлено: 19:23 29-05-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
AndrejGarker
Подскажите, актуален ли на сегодняшней день SkanKromsator по сравнению со ScanTailor и его форками?

как понять ваш вопрос? что есть "актуальность"? прога только что вышла в релизе 7.00, это актуально или нет вам?  
тем более что это оффтоп в данной ветке. пишите уж в личку.

Всего записей: 3600 | Зарегистр. 15-07-2010 | Отправлено: 21:02 29-05-2024
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
AndrejGarker

Цитата:
Или, возможно, какие-то отдельные аспекты лучше получаются в конкретных программах?

Главные козыри ScanTailor - автоматическое отделение картинок от текста и простота работы.  
В Кромсатор с наскоку не запрыгнуть, нужно долго его изучать, но там достигается более высокое качество бинаризации текста.

Всего записей: 362 | Зарегистр. 10-08-2018 | Отправлено: 21:57 29-05-2024
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist say:

Цитата:
Главные козыри ScanTailor - автоматическое отделение картинок от текста и простота работы.

Про простоту абсолютно верно. Но про картинки не совсем: главный козырь STEX, по сравнению с остальными семействами ST - это исправление геометрических искажений. По сравнению с этим, какое то там отделение картинок - детская шалость. Но в других семействах ST с исправлением искажений дело обстоит значительно хуже.
 
Archivist say:

Цитата:
но там достигается более высокое качество бинаризации текста.

Нет. У вас очень сильно устаревшая инфа. На данный момент все актуальные семейства ST поддерживают не один порог, а целый набор, включая как классические, так и использующие предфильтрацию.
 

Всего записей: 973 | Зарегистр. 18-05-2023 | Отправлено: 22:39 29-05-2024 | Исправлено: zvezdochiot, 22:47 29-05-2024
esys

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Нет. У вас очень сильно устаревшая инфа. На данный момент все актуальные семейства ST поддерживают не один порог, а целый набор, включая как классические, так и использующие предфильтрацию.

В СТ вроде можно буквы непропечатанные заменять нормальными.

Всего записей: 617 | Зарегистр. 22-06-2016 | Отправлено: 23:29 29-05-2024 | Исправлено: esys, 23:29 29-05-2024
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot

Цитата:
главный козырь STEX, по сравнению с остальными семействами ST - это исправление геометрических искажений

Нужно просто сканировать без искажений и никогда не сталкиваться с этой проблемой
 

Цитата:
какое то там отделение картинок - детская шалость

Эта шалость уже сэкономила мне сотни часов.
 

Цитата:
Нет. У вас очень сильно устаревшая инфа.

Так говорят местные эксперты по Кромсатору, которые сразу отличат результаты. Меня лично устраивает бинариция СТ. Что не устраивает - так это быстрый мыльный алгоритм поворота страниц, который нельз поменять на bicubic/lanczos. Иногда это необходимо (например, для 300dpi сканов журналов) и приходится задействовать Кромсатор, или DeskewTools под эту задачу.

Всего записей: 362 | Зарегистр. 10-08-2018 | Отправлено: 23:46 29-05-2024
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys say:

Цитата:
В СТ вроде можно буквы непропечатанные заменять нормальными.

Ты хотел сказать в СК? Но это сложное и неблагодарное занятие. В рамках СТ такое может быть только путём внедрения автоматического классификатора от minidjvu.
 
Archivist say:

Цитата:
Нужно просто сканировать без искажений

То есть все старые деформированные книги на помойку? Заводить речь про бережное хранение бесполезно, ибо книги уже деформированы. Такие вот дела.
 
Archivist say:

Цитата:
Так говорят местные эксперты по Кромсатору

И вот встаёт вопрос: Чему верить? Собственным глазам или свидетелям Кромсатора?

Всего записей: 973 | Зарегистр. 18-05-2023 | Отправлено: 00:11 30-05-2024 | Исправлено: zvezdochiot, 00:24 30-05-2024
indifirent

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
esys
можно буквы непропечатанные заменять нормальными.

В таких случаях я использую копипаст в граф. редакторе. Даже если буквы бледные и/или страница грязная то куча трешхолдеров в стэксе реально помогают. Не гатосом единым, как говориться.
Только на кой ляд при таком изобилии стары-добрый Оцу – ума не приложу. Это как в один класс посадить первоклашек, студентов и кандидатов технических наук.

Цитата:
zvezdochiot
или свидетелям Кромсатора?

... тонко.

Всего записей: 221 | Зарегистр. 02-06-2018 | Отправлено: 01:05 30-05-2024
MZN

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist

Цитата:
Нужно просто сканировать без искажений и никогда не сталкиваться с этой проблемой  

Вот те раз! Это даже на книжном сканере не всегда удается.
indifirent

Цитата:
В таких случаях я использую копипаст в граф. редакторе.

Аналогично, но в СК все же удобнее и быстрее. А вот STEX оставляет сильное впечатление недоделанности и заброшенности.

Всего записей: 1804 | Зарегистр. 23-10-2004 | Отправлено: 02:05 30-05-2024
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 3)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2025

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru