Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 3)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Открыть новую тему     Написать ответ в эту тему

Maz



Дед Мазай
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие части: Часть 1,  Часть 2
Scan Tailor


Задача программы - пост-обработка сырых сканов книг для последующей сборки в PDF/DJVU,CBR/CBZ и т.д.
Программа обеспечивает большое удобство для использования, большую интерактивность и не меньшую автоматизацию процесса (по сравнению со СканКромсатором).
ST, изначально не позиционировался как единственный инструмент обработки и применяется в комплексе с другими программами.
Кросс-платформенный (Windows,Mac OS, Linux) проект с открытыми исходниками.


Англоязычный топик по ScanTailor
 
Ветки:
Scan Tailor (ncraun) >>>  последняя версия
Scan Tailor Experimental (Tulon) >>>  последняя версия (обсуждение на DIY Book Scanner)
Scan Tailor Experimental (мод. звездочёта, Нубия-IV и plzombie) >>>  последняя версия
Scan Tailor Plus (Vadim "DikBSD" Kuznetsov) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Еnhanced (Petr "pejuko" Kovar) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Featured (monday2000) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Universal (trufanov-nok) >>>  последняя версия (обсуждение на publ.lib.ru)
Scan Tailor Advanced (4lex4) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Advanced (актуальный форк) >>>  история версий
 
Документация:
Документация (Wiki) | Зоны картинок в ScanTailor | ScanTailor. Быстрое начало | Видеоуроки и скринкасты новых функций СТ от Tulona
Статья: Scan Tailor. Программа для обработки отсканированных книг
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
Использование Scan Tailor совместно с Djvu Imager (сборка djvu методом разделенных сканов)
Как собрать Scan Tailor из исходных кодов под Windows
Почему нельзя сделать сплошную нумерацию вывода

"Описание порогов от AlVaKo"
"Дополнение к описание порогов в контексте ST от звездочёта"

Автор проекта - Tulon. Почему его здесь не видно? .
DikBSD автор ветки ScanTailor Plus история повторяется.
Юзеры! Будьте скромнее!


Прочие дистрибутивы, форки, дополнения
 
попытка обозреть историю разработки и форков программы Scan Tailor (livejournal, 19 августа 2024).

Всего записей: 39187 | Зарегистр. 26-02-2002 | Отправлено: 10:44 10-01-2024 | Исправлено: zvezdochiot, 16:51 18-09-2024
VSHY

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235
Цитата:
Опять же,  для ST отсутствует  такая вещь как bus factor.
Как раз для ST справедливо обратное - на каждом форке один разраб, и его "выход из строя", как мы видим, фактически хоронит проект.
Минимальный bus factor там, где много разработчиков, которые хорошо знают структуру проекта. Выбывание одного или нескольких из них почти никак не ведёт к потере управляемости проектом, т.к. в ходе его жизни вовлекаются и новые разработчики.
 
Один проект ST - это не монополизм. Конкурирующий продукт (если можно это так назвать в open source), к примеру, Кромсатор. Разнообразие форков хорошо для активно развивающегося проекта, и при условии договорённости о каком-то общем формате хранения данных/настроек. Здесь бы больше толку было, если бы все пилили один. Проблема в том, что больше всего хотят пилить молодые и горячие, но у них меньше всего желания и умения коммуницировать, идти на компромиссы и т.п... потому и форки.

Всего записей: 1148 | Зарегистр. 19-05-2008 | Отправлено: 18:57 07-06-2024 | Исправлено: VSHY, 19:04 07-06-2024
esys

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Конкурирующий продукт (если можно это так назвать в open source), к примеру, Кромсатор.

А он "open source?"

Всего записей: 521 | Зарегистр. 22-06-2016 | Отправлено: 19:32 07-06-2024
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
VSHY если бы уход разработчика хоронил проект, то никаких форков бы изначально не было. Что было бы если бы Tulon не открыл бы исходники и перестал бы заниматься ST? Был бы просто экзешник десятилетней давности. Вот это было бы  по настоящему все, окончательный конец проекта.  

Всего записей: 989 | Зарегистр. 14-12-2005 | Отправлено: 19:51 07-06-2024
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Есть пожелание к разработчикам форков. Сделайте раздельное разрешение вывода в смешанном режиме текста и картинок. Вроде же очевидная и необходимая вещь. Для 600dpi сканов картинки уменьшаются до 300, текст остается в 600. Для 300dpi - наоборот.

Всего записей: 356 | Зарегистр. 10-08-2018 | Отправлено: 20:31 07-06-2024
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist say:

Цитата:
Есть пожелание к разработчикам...

А хде эти самые разработчики? Случаем не разбежались все кто куда (о чём написано в шапке темы)?
 

Всего записей: 755 | Зарегистр. 18-05-2023 | Отправлено: 21:10 07-06-2024
LonerD



Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
U235

Цитата:
ну так выложите новые и старые сейвы

Вот старые, судя по всему делал в Featured 2013.05.31
https://www.upload.ee/files/16722192/NkJ.rar.html
Открыть в Advanced и Experimental не вышло. Редактировать и искать различия пока не успел попробовать.
 
VSHY

Цитата:
Извечный спор - новшества или совместимость

Одно другому не мешает. Координаты точек зон выделения, картинок и разрезки - это не новшества, и их несложно перенести (сохранив структуру сэйва или просто сделать импорт).
 
-------------------------------
 
Очень не хватает возможности перетаскивать зоны выделения на этапе выделения контента.
Очень часто страницы книг или журналов имеют примерно одинаковое наполнение по ширине и высоте. Делаем выделение нужно размера на одной странице, применяем этот же размер выделения ко всем остальным страницам. И на остальных страницах мышкой перетаскиваем зону, подправляя её положение. Размер выделения при этом не меняется, получаем все страницы одинаковой ширины и высоты, при необходимости добавляем белые поля. Неплохо бы процесс упростился...

Всего записей: 889 | Зарегистр. 27-06-2006 | Отправлено: 21:35 07-06-2024 | Исправлено: LonerD, 21:36 07-06-2024
esys

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
раздельное разрешение вывода в смешанном режиме текста и картинок

Картинки вклеиваю через DjVu Imager, в котором разрешение картинки любое ставится.

Всего записей: 521 | Зарегистр. 22-06-2016 | Отправлено: 22:27 07-06-2024 | Исправлено: esys, 22:27 07-06-2024
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys

Цитата:
Картинки вклеиваю через DjVu Imager, в котором разрешение картинки любое ставится.

ST проделывает лишнюю дурную работу по апскейлу картинок с 300dpi до 600 (заодно с текстом). Будете их использовать и просить DjVu Imager уменьшить обратно?

Всего записей: 356 | Зарегистр. 10-08-2018 | Отправлено: 23:34 07-06-2024
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist say:

Цитата:
ST проделывает лишнюю дурную работу...

Неверно. ST как раз не делает никаких лишних работ, а работает с одним и только одним изображением. Это вы пытаетесь навязать эту самую лишнюю работу, чтобы ST работал сразу с несколькими изображениями и при этом на выходе эти изображения должны чётко стыковаться. Даже на простейших "фокусах-покусах" с масками никакой чёткой стыковки не происходит. Проверено в STA в смешанном режиме в зонах "добавить по маске" ("add to foreground") и "добавить вне маски" ("add to background"). Такие вот дела.

Всего записей: 755 | Зарегистр. 18-05-2023 | Отправлено: 08:16 08-06-2024 | Исправлено: zvezdochiot, 08:17 08-06-2024
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Даже на простейших "фокусах-покусах" с масками никакой чёткой стыковки не происходит.

У вас не происходит, а у меня происходит. Приходится делать прогон в 300, забирать картинки из папки Background, потом еще один в 600 и тексты из Foreground.

Всего записей: 356 | Зарегистр. 10-08-2018 | Отправлено: 10:41 08-06-2024
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist

Цитата:
Для 600dpi сканов картинки уменьшаются до 300, текст остается в 600.

Тут вот какие дела.
Для начала процитирую самого Tulon-а:

Цитата:
Избавление от концепции DPI - это фишка версии Experimental. Как выясняется, в ответ на требование ввести правильные DPI, большинство пользователей сначала пытаются ввести пиксельное разрешение (чего СТ не позволит), а потом пытаются ввести что-нибудь от балды, пока СТ не согласится это принять.

Это я к тому, что оригинальный Scan Tailor experimental 2016-02-22 by Tulon вообще не имеет значения dpi в выходных файлах, а STEX-ы от "энтузиастов" имеют в выходных файлах dpi = 96.
 


Мне тут другое интересно. Почему STEX и все другие СканТейлоры промахивается при разделении разворота на отдельные страницы - там же всё элементарно. Конечно, можно сказать, что пару миллиметров туда-сюда тут не критично. Но ...
 


LonerD

Цитата:
Очень не хватает возможности перетаскивать зоны выделения на этапе выделения контента. ... И на остальных страницах мышкой перетаскиваем зону, подправляя её положение.

Ничего не понял. Т.е. вместо полного автомата выделения полезной области, обрезания всего ненужного, добавления полей и центрирования - предлагается каким-то образом ручками и глазками находить среди сотен страниц зону с максимальной шириной и высотой контента, вводить эти значения для рамки, а потом опять ручками и глазками центрировать эту рамку на сотнях страниц? Вы точно темой не ошиблись?

Всего записей: 891 | Зарегистр. 04-11-2019 | Отправлено: 11:31 08-06-2024
LonerD



Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
jourmager

Цитата:
вместо полного автомата выделения полезной области

Этот "автомат" настолько хреново работает, что нужно пересматривать все страницы и примерно 2/3 из них корректировать вручную (а если изображения занимаю значительную часть страницы - то автомат не работает вообще). А редактировать вручную - это захватывать по нескольким сторонам боковые стороны и подтаскивать их к краям текста.  
Так что да - перетянуть рамку будем намного быстрее. Плюс страницы получатся одного размера. Захватится чуток лишнего фона, но на последнем этапе этот лишний фон всё-равно отбелится.
 

Цитата:
предлагается каким-то образом ручками и глазками находить среди сотен страниц зону с максимальной шириной и высотой контента

Я такого не предлагал.
В моём тексте речь идёт про страницы, которые "имеют примерно одинаковое наполнение по ширине и высоте".

Всего записей: 889 | Зарегистр. 27-06-2006 | Отправлено: 14:05 08-06-2024
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Этот "автомат" настолько хреново работает, что нужно пересматривать все страницы и примерно 2/3 из них корректировать вручную

Доктор, где же вы такие страницы берёте?
Вообще-то, если количество ошибок превышает 20% (грубо говоря), то надо менять программу.
 
А теперь по делу. Прогнал через СканТейлоры несколько книжек. В результате получил боль головного мозга в области затылочной коры. Потому что результаты работы автоматики надо проверять. Потому что в 2024 году СканТейлор - программа специально разработанная для потоковой обработки изображений, эти самые изображения листает с тробберами. Т.е. выводится страница, жму PgDn, вижу троббер и скачок яркости экрана, выводится следующая страница. Кроме того, при обработке сырого криво-косого скана, получившееся изображение дёргается вверх-вниз-влево-вправо, потому что центрируется на странице не относительно области контента, а относительно задней ноги программиста. Я прекрасно понимаю книгоделателей, которые забивают на проверку промежуточных результатов - здоровье дороже.  
И да, я знаю про лайф-хак с сортировкой по размеру области контента.
 
Про промахи алгоритма выделения полезной области контента.
Замечу сразу, что у меня таких промахов не выше 10-15%.
По моим наблюдениям алгоритм промахивается в таких случаях:
1) Когда контент в виде заголовка или колонтитула далеко отстоит от основного текста - они не захватываются
2) Когда есть недалеко от основного текста какая-то крупная маращка в виде точки или чёрточки или пятна - она захватывается
3) Если развороты сфотографированы, а не отсканированы, и тогда захватываются вертикальные срезы страниц
4) Спорный случай, когда на страницах есть типографские метки типа 3* или Ф.И.О. Автора** - они как бы лишние в электронной книге, и они захватываются
5) Необъяснимая фигня, когда на одной странице всё захватывается отлично, рядом на такой же самой странице захватывается больше чем надо. Вообще-то сравнительная редкость.
6) Тяжёлый случай, когда иллюстрации расположены до края страницы
7) Тяжёлый случай, когда на странице хаотично вперемежку иллюстрации и текст
 
Все эти проблемы давно известны и решаемы, но программистов они не интересуют. Поэтому у любителей СканТейлора голова будет болеть по-прежнему.

Всего записей: 891 | Зарегистр. 04-11-2019 | Отправлено: 16:12 08-06-2024
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Для всех страждущих:
 
В STEX, в отличии от других семейств ST, есть "Режим отладки", включив который вы можете сами увидеть что да как делает ST на том или ином этапе. Причём всё это он покажет вам на вашем материале.

Всего записей: 755 | Зарегистр. 18-05-2023 | Отправлено: 20:07 08-06-2024 | Исправлено: zvezdochiot, 20:07 08-06-2024
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
В STEX, в отличии от других семейств ST, есть "Режим отладки"

1) Надо понимать, что STEX-ов, т.е. ScanTailor EXperimental, существует два: оригинальный от Tulon-а, и его "развитие" от "энтузиастов"
2) "Режим диагностики", он же "Debug Mode", он же "режим отладки", был сделан автором оригинального СканТейлора практически с самого начала, и поэтому имеется в таких версиях СТ (указаны последние версии):
- оригинальный ScanTailor-0.9.11.1-64bit
- Scan Tailor experimental 2016-02-22 by Tulon
- Scan Tailor Featured 2013-05-31 32bit by monday2000
- Scan Tailor Universal 0.2.14 by trufanov-nok
- scantailor-deviant-2023.11.27-alpha-win-x64
- scantailor-experimental-0.2024.05.18-Win32-X86-64-Qt6
и скорее всего имеется (имелся) в
- scantailor-enhanced-20140214
- ScanTailor Plus 0.9.11-2012-03-06
Режима отладки я не нашел только в ST Advanced
3) Включение/выключение режима отладки сделано через одно место
4) Как все понимают, нет никакого описания, где бы подробно объяснялось бы, что такое режим отладки, и как им пользоваться
5) И наконец процитирую самого Tulon-а:

Цитата:
режим отладки - он для разработчиков, для отыскивания проблем под руководством разработчика, и может для тех, кому сильно интересно, как работает тот или иной алгоритм (кстати на разных стадиях набор вкладок разный). На этих вкладках отображаются промежуточные результаты работы алгоритмов. Даже если описать что есть что, это поймут только разработчики.

Т.к. разработчиков среди сообщества пользователей СканТейлора уже нет , то получается, что этот режим отладки практически бесполезен
 
Добавлено:
P.S. Режим отладки применительно к выделению области контента и ошибкам алгоритма этого выделения: как я уже написал выше, в большинстве случаев без всяких режимов отладки прекрасно видно, из-за чего алгоритм ошибается. Минимизировать такие ошибки вполне возможно, но за 15 лет никто из программистов так и не сделал этого.

Всего записей: 891 | Зарегистр. 04-11-2019 | Отправлено: 22:43 08-06-2024
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
"Кто о чём, а вшивый о бане..."
 
Повтор для танкистов: zvezdochiot say:

Цитата:
А хде эти самые разработчики? Случаем не разбежались все кто куда (о чём написано в шапке темы)?

 
 

Всего записей: 755 | Зарегистр. 18-05-2023 | Отправлено: 23:05 08-06-2024
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Не понял. О каком бане "zvezdochiot say"?
Не вижу никакого бана в цитате "А хде эти самые разработчики? Случаем не разбежались все кто куда (о чём написано в шапке темы)?". То, что его банят в других местах за его поведение - так это другое дело, как бы оффтоп здесь в теме по СканТейлору. За брехню вроде бы ещё не банят.
 
trufanov-nok последнюю версию своего STU выпустил в 2023, принимал участие в STEX в 2023
На протяжении 2023-2024 было выпущено 28 новых версий STEX, где контрибьютерами числятся zvezdochiot, plzombie, noobie-iv
Вот тут я прифигеваю по 2 причинам: первая, это что под именем zvezdochiot выпущено 28 версий STEX-а с кучей новых, нужных и понятных только ему, фич, но как только разговор заходит о том, чтобы поменять что-то нужное сообществу - так разработчики все разбежались. А вторая - plzombie и noobie-iv тихонько пилят себе STEX на своём гитхабе, хотя основное сообщество пользователей СканТейлора тут, на ру-борде.
 
Ну и самое главное - большинство проблем СканТейлора выявилось очень быстро, некоторые ещё на альфа-версии, когда даже не было вывода. Из-за позиции Tulon-а по исправлению недочётов и расплодились все эти клоны-форки СТ в количестве 5-6 штук, monday2000 от бессилия даже С++ выучил чтобы Scan Tailor Featured запилить. И это клоно-форко-деланье плодовито продолжалось несколько лет. Но устранение одних недочётов было программистам неинтересно, а устранение других требовало запредельных усилий. Так что увы.

Всего записей: 891 | Зарегистр. 04-11-2019 | Отправлено: 00:14 09-06-2024
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LonerD
Журналы дело тонкое, с большим количеством подводных камней. СТ же рассчитан на книги, или книгоподобные журналы (с простым белым фоном и пустыми полями), которые он обрезает до контента и заливает поля сплошным цветом. Просто и удобно. Я бы мысль с "перетаскиванием рамки" заменил на следующую: "автоматическое кадрирование набора страниц под общий, оптимальный для них размер". Такая штука была бы очень полезна для журналов.
 
Важно понимать, что страницы журналов выходят из типографий с большим допуском по смещению и наклону напечатанного на них контента. Даже если сканировать разобранный журнал строго в углу рабочей поверхности сканера и получить идеально ровные одинаковые страницы, контент будет плясать как попало. Необходимо делать deskew, который приведет к уменьшению полезной области страницы, а в случае СТ еще и к ее размытию (снова моя пластинка по lanczos/bicubic). При наличии дополнительного времени выравниваются развороты и прочее. Все это уводит в сторону постобработки в ФШ.
 
jourmager

Цитата:
я знаю про лайф-хак с сортировкой по размеру области контента

Есть еще лайфхак с подсовыванием высококонтрастных страниц (например, отдельно взятый выкрученный черный канал CMYK режима) и последующей заменой на нормальные страницы после успешного определения границ программой.

Всего записей: 356 | Зарегистр. 10-08-2018 | Отправлено: 01:01 09-06-2024 | Исправлено: Archivist, 01:08 09-06-2024
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist

Цитата:
Есть еще лайфхак с подсовыванием высококонтрастных страниц (например, отдельно взятый выкрученный черный канал CMYK режима) и последующей заменой на нормальные страницы после успешного определения границ программой. Делается простой пакетный макрос (Action) в ФШ, который преобразовывает исходные сканы в контрастные и складывает в папку для СТ. В дальнейшем вызывается одной копкой. СТ как правило не может определить границы страниц со сложным фоном, а на контрасте справляется.

Спасибо, записал, но пока выглядит сложновато

Цитата:
Есть пожелание к разработчикам форков. Сделайте раздельное разрешение вывода в смешанном режиме текста и картинок. Вроде же очевидная и необходимая вещь. Для 600dpi сканов картинки уменьшаются до 300, текст остается в 600. Для 300dpi - наоборот.


Цитата:
Я бы мысль с "перетаскиванием рамки" заменил на следующую: "автоматическое кадрирование набора страниц под общий, оптимальный для них размер". Такая штука была бы очень полезна для журналов.

Да. Именно так. Горячо поддерживаю.
И эти предложения высказывались и ранее другими пользователями. Под катом небольшой экскурс в историю с предложениями пользователей и ответами Tulon-a:
Подробнее...

Всего записей: 891 | Зарегистр. 04-11-2019 | Отправлено: 12:50 09-06-2024 | Исправлено: jourmager, 13:18 09-06-2024
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
выглядит сложновато

Делается простой пакетный макрос (Action) в ФШ, который преобразовывает исходные сканы в контрастные и складывает в папку для СТ. В дальнейшем вызывается одной копкой. СТ как правило не может определить границы страниц со сложным фоном, а на контрасте справляется.
 
По хорошему нужно (искать) отдельную программу именно для "журнального" автокадрирования, ведь к СТ это почти не имеет отношения.

Всего записей: 356 | Зарегистр. 10-08-2018 | Отправлено: 13:08 09-06-2024
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 3)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru

Рейтинг.ru