Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)

Модерирует : gyra, Maz

Maz (10-01-2024 10:45): Scan Tailor (часть 3)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

Widok



Moderator-Следопыт
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие части: Часть 1
Scan Tailor


Задача программы - пост-обработка сырых сканов книг для последующей сборки в PDF/DJVU,CBR/CBZ и т.д.
Программа обеспечивает большое удобство для использования, большую интерактивность и не меньшую автоматизацию процесса (по сравнению со СканКромсатором).
Кросс-платформенный (Windows,Mac OS, Linux) проект с открытыми исходниками.


Англоязычный топик по ScanTailor
 
Ветки:
Scan Tailor (ncraun) >>>  последняя версия
Scan Tailor Experimental (Tulon) >>>  последняя версия (обсуждение на DIY Book Scanner)
Scan Tailor Plus (Vadim "DikBSD" Kuznetsov) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Еnhanced (Petr "pejuko" Kovar) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Featured (monday2000) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Universal (trufanov-nok) >>>  последняя версия (обсуждение на publ.lib.ru)
Scan Tailor Advanced (4lex4) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Advanced (актуальный форк) >>>  история версий
 
Документация:
Документация (Wiki) | Зоны картинок в ScanTailor | ScanTailor. Быстрое начало | Видеоуроки и скринкасты новых функций СТ от Tulona
Статья: Scan Tailor. Программа для обработки отсканированных книг
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
Использование Scan Tailor совместно с Djvu Imager (сборка djvu методом разделенных сканов)
Как собрать Scan Tailor из исходных кодов под Windows
Почему нельзя сделать сплошную нумерацию вывода


Автор проекта - Tulon. Почему его здесь не видно? .
DikBSD автор ветки ScanTailor Plus история повторяется.
Юзеры! Будьте скромнее!


Прочие дистрибутивы, форки, дополнения

Всего записей: 24190 | Зарегистр. 07-04-2002 | Отправлено: 12:17 17-02-2010 | Исправлено: Maz, 10:43 10-01-2024
karst

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
yozhic
Спасибо, но у меня этого меню нет.
Каким вариантом программы вы пользуетесь?

Всего записей: 344 | Зарегистр. 05-07-2008 | Отправлено: 15:44 17-09-2021
yozhic



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
karst (пост)
Цитата:
у меня этого меню нет

Это меню появилось в программе начиная с версии 1.0.9, т.е. с февраля 2018 г. Видимо, у Вас ещё более ранняя версия. В авторском репозитории лежит версия 2019.08.16, а на предыдущей странице этой ветки я дал ссылку на сборку DikBSD от 2020.02.11 — ссылку здесь повторно на даю, просто просмотрите предыдущую страницу, т.к. там был и другой связанный вопрос про пароль.
 
Я свою собирал из последних исходников, но только потому, что для Макинтоша нет готовых собранных релизов, поэтому пришлось сидеть-разбираться самому.

Всего записей: 2773 | Зарегистр. 20-03-2008 | Отправлено: 17:20 17-09-2021
yozhic



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
4lex4
Не могли бы буквально парой слов прокомментировать этот pull request с QOpenGLWidget? Толковое предложение или бестолковое? (Спрашиваю потому, что научился собирать себе ScanTailor на Mac OSX при помощи brew и могу добавлять теперь коммиты в персональную сборку).

Всего записей: 2773 | Зарегистр. 20-03-2008 | Отправлено: 22:57 20-09-2021 | Исправлено: yozhic, 23:04 20-09-2021
Skay91

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
yozhic
В Вашей сборке пропала возможность рисовать прямоугольные зоны для картинок в смешенном режиме.
В 2019.8.16_EA тыкаешь, нажимаешь Ctrl и сразу зона становится прямоугольная, которую ты растягиваешь.
судя по дате последнего поста от 4lex4 крайнемаловероятно что он тут ответит

Всего записей: 129 | Зарегистр. 06-03-2011 | Отправлено: 23:53 30-09-2021
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Есть ли в ST (или его форках) возможность выводить в смешанном режиме картинки и текст раздельно с разным разрешением (300/600)? Или запрещать вывод зон. Мне кажется нерациональным гонять задание по два раза и при этом еще каждый раз "бонусом" получать склееный вариант (зачем он нужен вообще). Речь о подготовке PDF, понятно что для DjVu картинки вынужденно апскейлятся.

Всего записей: 329 | Зарегистр. 10-08-2018 | Отправлено: 13:15 01-10-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Archivist
понятно что для DjVu картинки вынужденно апскейлятся

а это вы про что? мне на понимание. В формате джву нет, по-моему, никакой вынужденности. Пожалуйста, клейте 300дпи картинку в 600дпи текст.

Всего записей: 3059 | Зарегистр. 15-07-2010 | Отправлено: 14:10 01-10-2021
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Я DjVu не пользуюсь, слышал что там текст и картинка в одном разрешении идут и предположил что ST обыгрывает это дело.

Всего записей: 329 | Зарегистр. 10-08-2018 | Отправлено: 14:19 01-10-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist
нее
http://djvu-soft.narod.ru/scan/scan_likbez.htm

Всего записей: 3059 | Зарегистр. 15-07-2010 | Отправлено: 15:05 01-10-2021
yozhic



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Skay91 (пост)
Цитата:
В Вашей сборке

Вы про какую? Если для Windows, то это не моя, я просто обновил ссылку. Если Вы о форках для MacOS, то единственное, что могу сделать, это откатиться назад по коммитам, в надежде исключить проблемный. Я ж не программист.
 
Добавлено:

Цитата:
судя по дате последнего поста

Просто вижу, что регулярно заходит смотреть другие ветки, вот и понадеялся, что может сюда заглянет...

Всего записей: 2773 | Зарегистр. 20-03-2008 | Отправлено: 22:22 01-10-2021
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Господа! К чему такие сложности? Всё намного проще! Книги с черно-белым текстом без мусора или с малым его количеством от и до (от исправлении ориентации до вывода готовых файлов) делать в Скан Тейлоре. Так же от и до в Тейлоре можно делать книги с простыми иллюстрациями (прямоугольная зона картинки). Если сложные картинки, мусор на страницах и т.п., то лучше использовать комбинированный метод: ориентация, разрезка страниц и установление полезной области в Скан Тейлоре, вывод делается в цветном все страницы, потом выходящие файлы из Тейлора (из папки "аут") переносятся во входящую папку Кромсатора и остальная заточка вплоть до изготовления джву производится в Кромсаторе. В Кромсаторе долго и муторно устанавливать резаки, а в Тейлоре вся операция по установке геометрических параметров страницы и подготовки их на вывод занимает несколько минут, поэтому метод указанный мной, наиболее оптимален, прост и понятен. В Тейлоре (какая бы модификация ни была) нет такого набора инструментов, как в Кромсаторе.

Всего записей: 666 | Зарегистр. 23-05-2021 | Отправлено: 18:07 02-10-2021 | Исправлено: kamenkapenza, 18:10 02-10-2021
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
kamenkapenza
Для моих энциклопедий необходимо автоматическое определение зон картинок, которых там по тысяче на том, т.ч. СТ без вариантов. А как тут отдельно вывести серую страницу без зон картинок (например, чтобы дальше бинаризовать в СК), или задавать картинкам другое разрешение в рамках одного задания — неясно (никак). TelecomUral увел вопрос в сторону, ухватившись за мою некомпетентность в формате DjVu

Всего записей: 329 | Зарегистр. 10-08-2018 | Отправлено: 19:58 02-10-2021
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Если автоматически, то это в Тейлор, но тот не всегда правильно определяет зону, и один фиг править вручную. В Кромсаторе каждую зону картинки надо устанавливать вручную, но настройки позволяют делать всё что угодно. В Тейлоре нет возможности отдельно устанавливать другое дпи для картинки, можно изменить дпи для отдельных страниц, в Кромсаторе вы можете для картинки задать своё дпи. В Тейлоре нет разделений: зона текста и зона картинки, отдельно их вывести нельзя.

Всего записей: 666 | Зарегистр. 23-05-2021 | Отправлено: 20:31 02-10-2021 | Исправлено: kamenkapenza, 20:37 02-10-2021
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
но тот не всегда правильно определяет зону

На хороших сканах и после приведения фона к белому (уровнями), точность определения близка к 100%
 

Цитата:
зона текста и зона картинки, отдельно их вывести нельзя

Ну, зона текста - это все, что не попало в картинки. Забираются отдельно из папок "background"/"foreground", только приходится 2 раза прогонять задание, если исходники в 300dpi.
 

Всего записей: 329 | Зарегистр. 10-08-2018 | Отправлено: 20:47 02-10-2021
kamenkapenza



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Ну, зона текста - это все, что не попало в картинки. Забираются отдельно из папок "background"/"foreground", только приходится 2 раза прогонять задание, если исходники в 300dpi.

Я перестал пользоваться этим методом (разложением сканов на бэкграунд и фореграунд ), как немножко Кромсатору научился. И так напрямую из Кромсатора создание джву, а если пдф надо, через джву той программу за полминуты создается пдф.

Всего записей: 666 | Зарегистр. 23-05-2021 | Отправлено: 01:54 03-10-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Archivist
картинок, которых там по тысяче на том, т.ч. СТ без вариантов

ну почему "без вариантов". Когда-то я сканировал пятитомник "Искусство стран и народов мира", _http://publ.lib.ru/ARCHIVES/S/Sovetskaya_Enciklopediya/_SE.html#0033  
кое-что посканил плохо, потом пересканировал по просьбе обработчика, пересканировал тяп-ляп, так обработчик упомянул по этому поводу, что в одном томе более 2500 мелких иллюстраций. И перевыставлять их из-за моих косяков заново, пусть и частично, ему довольно накладно.
Так что варианты бывают разные.
Я пробовал автосегментер ST и ему не верю. Лажает влёгкую, и вычислить ошибку трудно. Если предварительно готовить сканы, так это сожрёт время. Как ни крути, надёжнее не спеша глазами всё один раз отсмотреть, зоны обозначить, и к этому вопросу не возвращаться. Чем каждый раз тревожиться за конечный результат, запуская автораспознавалку. Если, конечно, результат вообще важен.
 
Где-то есть внятные рекомендации, как заюзать сегментер, чтобы быть уверенным в его работе? Что он берёт, что не берёт в распознавании. Потому что я подсовывал при тестах что ни попадя. И криволинейные рисунки, и завороты, и обрезанные по краю книги. Более-менее уверенно рамка ставится только на беленых страницах с прямоугольной фоткой внутри текстового блока. А это 5% литературы.

Всего записей: 3059 | Зарегистр. 15-07-2010 | Отправлено: 08:07 03-10-2021
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist

Цитата:
в смешанном режиме картинки и текст раздельно с разным разрешением (300/600)?

Что мешает пакетно сделать даунсемплинг картинок тем же XnView/Irfan?

Всего записей: 884 | Зарегистр. 14-12-2005 | Отправлено: 09:13 03-10-2021
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
Я пробовал автосегментер ST и ему не верю. Лажает влёгкую, и вычислить ошибку трудно.

Ну смотрите, ничего трудного и сомнительного тут нет. Сперва нужно получить в ST чистые ровные страницы (серые/цветные) стандартным способом. Их потом пакетно прогнать через Photoshop/Gimp на предмет удаления фона (создается Action, в нем жмете Ctrl+L и с зажатым Alt ведете правый ползунок до исчезновения мусора, обычно это где-то 230-240). На этом этапе также можно срезать колонтитулы и номера страниц, если они громоздкие и неровные (потом вернуть векторными). Получившееся обратно в ST для чистовой обработки. В настройках Picture shape: прямоугольная, 100%. Если у картинок нежные серые рамки, или наоборот рюшечные ч/б - галку higher sensitivity. Результат проверяется в выходных папках, на миниатюрах сразу видно если иллюстрации попали в текст, или случайная буквица влезла в картинки. Затраты времени 5 минут вместо 5 часов на перегруженных графикой книгах.
 
U235

Цитата:
Что мешает пакетно сделать даунсемплинг картинок тем же XnView/Irfan?  

Зачем же гонять несчастные картинки из 300 в 600 и обратно, лучше изменить в выводе 600 на 300 и пойти пить чай. Мне не сложно, удивляет что нет возможности сделать сразу как надо.
 

Всего записей: 329 | Зарегистр. 10-08-2018 | Отправлено: 10:29 03-10-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist
5 минут, чтобы проверить 700 страниц, перегруженных графикой?? Я даже когда пропущенную страничку полистно ищу, просто нумерацию смотрю на уголке, 700 страниц листаются больше 3х минут. А тут нужно сконцентрировать внимание и принять решение. Выписать найденный косяк и то не секунда.
 
Дело в том, что я довольно часто делал хоть и не вполне хронометраж, но близко к нему. Поскольку ритм жизни на неделе задан жёстко, потеря одного часа ощущается вполне. Как засел с проектом, так пара часов вылетела.
Но ладно.
Я-то о другом спрашивал, о рекомендациях к применению.  
 
В вашем workflow, рабочем потоке, есть уязвимое место - пакетная операция ФШ. Вот "канает" только на новых книгах. Всё старье, пожелтелое, с разной плотностью красок по странице и тетрадкам - этого не потерпит. Вы потом на миниатюрах увидите 20% ошибок, и что - ? Ручками повторный прогон ФШ постранично? Сколько времени на это улетит в итоге.
Это только кажется, что затраты времени копеечные.

Всего записей: 3059 | Зарегистр. 15-07-2010 | Отправлено: 10:59 03-10-2021
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
5 минут, чтобы проверить 700 страниц, перегруженных графикой??

В галерее миниатюр же. Вы кажется тоже используете старый ACDSee.  

 
Впрочем, я сужу только по "своим" книгам, они действительно новые и попадают в те 5% компьютерной литературы, где иллюстрации прямоугольные (скриншоты и фотографии).

Всего записей: 329 | Зарегистр. 10-08-2018 | Отправлено: 11:09 03-10-2021
slava_kry

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Читаю и улыбаюсь...
Вот тут и нужно понимание что и как работает.  
Пробегаете глазами по сканам и делаете для себя вывод.
Картинки сильно отличаются от фона (10-15 единиц). Тогда можно запускать автосегментатор. Если же картинки часто близки к фону (часто детские книги с рисунками), то ручками постранично.
 
Есть автоматизация... своеобразная и если у вас мощный комп (у мну 12 ядер по 4 ГГЦ). Вы просто запускаете сегментатор с разделением "картинки+текст", а потом смотрите на результат текстовой части. Если в "текстовых" картинках много остатков картинок (а они сразу кидаются в глаза, т.к. только чёрное и белое) - то к чёрту сегментатор, а если мало, то можно воспользоваться.
 
Картинки "в край" - сегментатор лажает всегда!
Всегда ставьте "прямоугольный" фрейм.

----------
Вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом

Всего записей: 4309 | Зарегистр. 18-09-2003 | Отправлено: 12:52 03-10-2021
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)
Maz (10-01-2024 10:45): Scan Tailor (часть 3)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru