Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155

Открыть новую тему     Написать ответ в эту тему

Widok



Moderator-Следопыт
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Scan Tailor


Задача программы - пост-обработка сырых сканов книг для последующей сборки в PDF/DJVU,CBR/CBZ и т.д.
Программа обеспечивает большое удобство для использования, большую интерактивность и не меньшую автоматизацию процесса (по сравнению со СканКромсатором).
Кросс-платформенный (Windows,Mac OS, Linux) проект с открытыми исходниками.


Англоязычный топик по ScanTailor
Ветки:
Scan Tailor Plus (Vadim "DikBSD" Kuznetsov) >>>  последняя версия   (Отличия от авторской версии)
Scan Tailor Еnhanced (Petr "pejuko" Kovar) >>>  последняя версия   (Отличия от авторской версии)
Scan Tailor Featured (monday2000) >>>  последняя версия   (Отличия от авторской версии)
Scan Tailor Advanced (4lex4) >>>  последняя версия (Отличия от авторской версии); ветка develop
 
Документация:
Документация (Wiki) | Зоны картинок в ScanTailor | ScanTailor. Быстрое начало | Видеоуроки и скринкасты новых функций СТ от Tulona
Статья: Scan Tailor. Программа для обработки отсканированных книг
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
Использование Scan Tailor совместно с Djvu Imager (сборка djvu методом разделенных сканов)
Как собрать Scan Tailor из исходных кодов под Windows
Почему нельзя сделать сплошную нумерацию вывода


Автор проекта - Tulon. Почему его здесь не видно? .
DikBSD автор ветки ScanTailor Plus история повторяется.
Юзеры! Будьте скромнее!


Дистрибутивы, форки, дополнения

Всего записей: 24190 | Зарегистр. 07-04-2002 | Отправлено: 12:17 17-02-2010 | Исправлено: ndch, 16:47 18-07-2018
papaVlad



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist
>>Так он по графику почти ничего не повернул.<<
Так это значит я неправильно прочитал график, я думал высота - это степень погрешности, а это всего лишь градус поворота, из которого неясно насколько он точен оказался.
 
>>PDF не лучший выбор для *отсканированных* журнальных страниц из-за проблем с масштабированием.<<
Как у Вас всё запущено, давайте мне разномастные страницы из книг/журналов/газет/плакатов, соберу так, что все будут на экране в одну ширину, как в djvu, а внутри будут иметь оригинальный размер в пикселях, в виде подсказки - решается подгонкой DPI, причём высчитывать самому ничего не нужно.
 
>>Но в любом случае странно, что программа для чтения предпочитает настройки PDF пользовательским.<<
Это будет идеальная читалка, которая правильно понимает, что заложил оцифровщик в пдф.
 
>>А этот принудительный вид учитывал, что титульная страница должна идти отдельно, а последующие парами?<<
Да, конечно, есть все возможные варианты, просто парами, с прокруткой и без, и с отдельной обложкой, любой каприз, только настоящему читателю это всё нафиг не нужно, а для пролистать и глянуть картинки попарно можно переключателем в читалке.

Всего записей: 141 | Зарегистр. 22-04-2012 | Отправлено: 21:11 27-03-2019
4lex4

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Сразу скажу, что в СТЕ вообще нет никаких изменений в алгоритмах выравнивания и поиска контента. Но результаты будут отличаться, ибо в сте отсуствует базирование на DPI, и поэтому перед работой алгоритмов изображение масштабируется (в сторону уменьшения) к рабочему разрешению по разному: в СТЕ автору пришлось забить четкую величину в пикселах, а в остальных СТ рабочее разрешение относительно исходного и высчитывается по ДПИ, поэтому алгоритмы просто получают исходник с разными разрешениями и отсюда отличия в результатах.

Всего записей: 332 | Зарегистр. 27-01-2016 | Отправлено: 21:12 27-03-2019 | Исправлено: 4lex4, 21:21 27-03-2019
Archivist

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
papaVlad

Цитата:
Как у Вас всё запущено, давайте мне разномастные страницы из книг/журналов/газет/плакатов, соберу так, что все будут на экране в одну ширину, как в djvu

Я ни слова ни сказал про djvu. Подходящий формат для отсканированных журналов — CBR/CBZ. Процитирую сам себя с другого форума:
 
Почему PDF — плохой выбор для отсканированных страниц
 
Я просто приведу пример участка страницы со 100% масштабом оригинального файла и помещенного без перекодирования в контейнер PDF. Присмотритесь к этим изображениям:
 
100% в CBR, 100% в PDF.
 
PDF хорош для изначально цифровых документов с текстовыми и векторными слоями, очень удобен для печати, но вы не будете печатать журналы. Вы будете читать их с монитора и тут PDF мало что может предложить для отсканированных страниц. Дело в том, что PDF при выборе масштаба 1:1 не показывает изображение пиксель в пиксель и вообще чихать хотел на пиксели и разрешение. Он оперирует другими величинами, приближенными к типографии. Единственный сценарий использования PDF для сканов — страницы с высоким разрешением и очень низким качеством. На планшетах, смартфонах и мониторах непритязательных пользователей картинка в этом случае будет достаточно хороша.
 
 
Извиняюсь за оффтоп.

Всего записей: 86 | Зарегистр. 10-08-2018 | Отправлено: 21:41 27-03-2019 | Исправлено: Archivist, 21:42 27-03-2019
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist

Цитата:
А вы можете посоветовать, как с помощью IM и значений угла из лога Deskew 1.25 пакетно поворачивать страницы?

Если лог вида:

Код:
...
166.PNG 0.456
345.PNG -0.723

то нужно сделать из него такой файл скрипта:

Код:
...
convert 166.PNG -set filename:original %t -rotate 0.456 %[filename:original].tif
convert 345.PNG -set filename:original %t -rotate -0.723 %[filename:original].tif

 
В windows  это можно быстро сделать в Excel, добавив столбцы, также можно сделать это в текстовых редакторах, где есть поиск и замена с регулярками.  
Если работать под linux, то проще всего awk или sed, или построчное чтение лога в цикле.
Далее сохраняете этот bat/sh скрипт в папке со сканами и запускаете его.
 
IM90 это автоматический deskew IM предварительно повернутой на 90 градусов страницы. Результаты не очень.  
 

Всего записей: 642 | Зарегистр. 14-12-2005 | Отправлено: 21:41 27-03-2019 | Исправлено: U235, 21:45 27-03-2019
Archivist

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235
Спасибо! В логе много лишнего мусора, как раз регулярками его и удалял, теперь буду заменять непосредственно под скрипт.

Всего записей: 86 | Зарегистр. 10-08-2018 | Отправлено: 21:44 27-03-2019
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
del

Всего записей: 642 | Зарегистр. 14-12-2005 | Отправлено: 21:47 27-03-2019 | Исправлено: U235, 21:48 27-03-2019
Archivist

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235
Исправил сразу после отправки, видимо недостаточно оперативно. [del]

Всего записей: 86 | Зарегистр. 10-08-2018 | Отправлено: 21:49 27-03-2019 | Исправлено: Archivist, 21:49 27-03-2019
papaVlad



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist
>>Почему PDF — плохой выбор для отсканированных страниц<<
Даже так?! И что, на старых играх все согласны?
 
>>Присмотритесь к этим изображениям:<<
Можно красной стрелкой сделать метку, на что смотреть и в чём отличие.
 
>>PDF при выборе масштаба 1:1 не показывает изображение пиксель в пиксель<<
Погодите, а как Вы вычисляете разрешение экрана моего монитора?, ведь размеры экрана могут быть в пикселях 800х600, а могут 4000х3000 пикселей, то есть "original_fullsize" просто не поместится в первый или будет слишком мал для второго. Какой скрытый смысл у чтения 1:1 со 100% масштабом?
А если журнал не как на Вашем примере, а вертикальный?
https://i100.fastpic.ru/big/2018/0309/68/c7b8f80dae4433d9d29b891cf3224468.jpg
Найдёте его в сети, это моя поделка, не знал что нельзя в пдф, народ мучается теперь, да ещё блин там размеры страниц огромные, в пикселях 2450х3332, хорошо хоть на 300 DPI сканил, а если бы на 600... страшно представить страдания читателей.
Или я не туда забрёл?, а масштабирование под экран используется и в читалках CBR/CBZ?, наверняка да, и потому пофиг на размеры в пикселях и DPI картинки, в каком бы контейнере она не была, хоть голая в jpg/tif/png или любом другом формате, пусть даже под офисный Word, так и так растягиваем или сужаем до размера экрана, а значит сама идея продвижения конкретного формата для сканов выглядит как-то странно.
Или я и сейчас промахнулся?, а упор нужно делать на слово "пиксели", именно их умеет показывать читалка CBR/CBZ, а для пдф читалки сглаживают пиксели, об этом речь?, так отключите сглаживание в настройках читалки и разглядывайте пиксели, как в оригинале 1:1 со 100% масштабом.
 
Так в чём отличие между пдф и CBR/CBZ?, я не против Вашего формата, но покажите разницу, желательно красной стрелкой.
 
И не оффтопик это вовсе, а заявли именно в топике, где первой строкой сказано
"Задача программы - пост-обработка сырых сканов книг для последующей сборки в PDF/DJVU,CBR/CBZ и т.д."
Archivist, Вы ранее уже запретили использовать СТ для подкручивания страниц, так добивайтесь запрета использования сканов для остальных форматов.

Всего записей: 141 | Зарегистр. 22-04-2012 | Отправлено: 00:47 28-03-2019
TelecomUral

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
оффтоп
 
Archivist
papaVlad
вы ещё подеритесь на ровном месте: проблема не в формате и не в масштабе, а тот результат, который читатель фиксирует в своей голове, "осознаёт как прочитанное" и с чем-то сравнивает (чаще всего не понимая, что это делает). Этот результат от читателя зависит, а не от размытости пикселей или размеров монитора. Приёмный аппарат в уме у людей различный. Одному важен текстовый остаток смысла, а другой морду кривит от неточности совмещения красок в колонтитуле, и чихать хотел на смысл.

Всего записей: 588 | Зарегистр. 15-07-2010 | Отправлено: 05:15 28-03-2019
papaVlad



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral, в данном случае меня беспокоит не то, что человек что-то недопонял в формате пдф или не разобрался с использованием читалки, а как это недопонимание преподносится, в жирном шрифте, пдф тире плохо.  
И если не разводить "драку" на ровном месте, то и я бы по сегодняшний день старался сохранить каждый пиксель, как на скане, но мне мозги вправили, лично Вы, Слава и 4lex4. Спасибо вам за терпение, зря огрызался, действительно небо приятнее смотрится когда состоит только из синих и голубых пикселей и где отсутствуют вкрапления жёлтого/зелёного/красного. Удаление цветного шума, сглаживание и всё-такое - очень полезно, передаю ваши нравоучения каждому встречному при случае, но Archivist'у пока рано об этом знать, ему бы для начала разобраться почему в пдф его журнал показывается 900х1200 мм, а не 200х280, как в бумаге (цифры от балды, не считать за эталон).
 
Конечно, можно улыбнуться и пройти мимо таких сообщений, а можно объяснить что не так и как исправить, первое легче, второе получается только через "драки", из которых возможно выйдет отлично подготовленный боец, с полученным опытом в тренировочном спарринге.
 
А так согласен, каждый видит результат по-своему, кому инфу, кому пиксели, кто в чём преуспел и т.п.
 

Всего записей: 141 | Зарегистр. 22-04-2012 | Отправлено: 08:54 28-03-2019
Archivist

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
papaVlad
На OG хорошо приняли CBR, тем более что именно оттуда я и почерпнул информацию о формате.
Отличие картинок в том, что первая в масштабе 1:1, текст на ней четкий, а типографский растр выглядит красиво и упорядоченно. На второй текст неаккуратно разъезжается, растр превратился в кашу. Для черно-белых иллюстраций, необработанных дескрином, сохранить упорядоченный растр еще важнее, вот картинка для примера. Попробуйте увеличить, или уменьшить ее в браузере и более наглядно увидите, что получится.
 
   
 
Если покажете мне в рядовой PDF-читалке (или даже в офицерской) возможность отображения растрового контента пиксель в пиксель, я пересмотрю свое отношение к формату.
 

Цитата:
Какой скрытый смысл у чтения 1:1 со 100% масштабом?

Основной смысл описал выше. Когда на сканах присутствует типографский растр, рассмотреть что-нибудь на странице, или просто восхититься красивой картинкой, можно только в масштабе 1:1. А когда нельзя — приходится извлекать картинки из PDF.
 

Цитата:
Так в чём отличие между пдф и CBR/CBZ?

Отличие в подходе. PDF я обычно собираю из низкокачественных картинок высокого разрешения, т.к. при увеличении все равно будет каша и нет смысла пытаться сохранить детали, а на отдалении разница малозаметна. CBR делается для ценителей качества — все страницы можно рассматривать вблизи, не боясь повредить глаза об JPEG-артефакты, или кривое масштабирование.
 
Если же сравнивать PDF и CBR отдельно от их содержимого и особенностей масштабирования, на ум приходят следующие отличия:
1. CBR может содержать файлы любого графического формата, например PNG, или активно внедряемый гуглом WebP. У PDF набор сильно ограничен.
2. CBR представляет собой несжатый архив картинок и работает мгновенно. PDF нередко попадаются очень задумчивые.
3. Работа с отдельными страницами (замена, извлечение) в CBR несоизмеримо легче, чем в PDF.
 
Про "удаление цветного шума, сглаживание" и прочее я прекрасно знаю и даже иногда пользуюсь Sattva Descreen для удаления растра. Такие изображения для PDF вполне подходят, но обработка с дескрином картинок, удалением фонов и бинаризацией шрифтов занимает несоизмеримо больше времени и не всегда возможна.

Всего записей: 86 | Зарегистр. 10-08-2018 | Отправлено: 11:50 28-03-2019
papaVlad



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist, интересная у вас там секта секция организовалась, уже боюсь что-то поперёк сказать, сожрёте с потрохами и танцы на костях устроите ))
 
PDF придумала компания Adobe, они же распространяют бесплатный ридер, рядовой он или офицерский решайте сами. У меня его нет, просто незачем иметь, и тут вспомнил анекдот...
 
Чукча написал книгу.
- О чём книга, - спрашивают его.
- Не знаю, чукча не читатель, чукча писатель.

 
Раз уж на OG некому поковырять настройки читалки, то установил и получил скрин с подсказками

 
Таких настроек точно нет в читалке STDU, про остальные рядовые и офицерские просто не знаю и почему в одной есть, а в другой нет тоже не скажу.
 
Про остальное не вижу смысла писать свой взгляд, оно вашей секции тоже не понравится, уступлю место другой жертве, заходи народ на раскалённую сковороду ))

Всего записей: 141 | Зарегистр. 22-04-2012 | Отправлено: 13:03 28-03-2019
Archivist

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
papaVlad
STDU хорошая читалка, пользовался ей пру месяцев, пока не перешел на Sumatra PDF, которая оказалась значительно шустрее и удобнее. Порекомендовал бы ее и вам, но боюсь воспримете как очередную ересь и подрыв многовековых устоев

Всего записей: 86 | Зарегистр. 10-08-2018 | Отправлено: 13:55 28-03-2019
papaVlad



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist, про Sumatra PDF - отлично помню такую, запомнилась абсолютной примитивностью и теперь я понимаю как выглядит рядовая читалка в Ваших глазах, по сравнению с ней STDU даже не офицерская, а что там выше есть, может президентская ))
 
Смотрите, вот про шустрость давайте поговорим, говорите Суматра быстро листает, а читателю это точно нужно?
А теперь про удобство - в STDU мгновенное переключение вида (значки вынесены внизу справа), работа с текстом, поиск по тексту, копирование, мгновенное извлечение любой страницы в 4 популярных формата с различным разрешением, куча читаемых форматов, она одна заменяет все читалки, потому она самая популярная, ой, вот тут на всякий случай добавлю, что это по моим наблюдениям - вот это всё читателю точно надо и может даже больше умеет полезного, о чём я сейчас забыл упомянуть про STDU.
 
А теперь Вам на закуску самое неприятное, передайте в OG, что STDU умеет читать cbz/cbr, а значит большинство читателей поделки сообщества будут читать в ней, в той, которая размывает пиксели.
Сочувствую, правда, очень жаль, но ваши усилия по сохранению пикселей идут в топку за ненадобностью для читателя, но с другой стороны остаются востребованы для единиц - ценителей несжатых картинок.

Всего записей: 141 | Зарегистр. 22-04-2012 | Отправлено: 14:30 28-03-2019
Archivist

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
papaVlad
Скорость очень важна для пользователя.
 
Вы перечислили часть возможностей Суматры как эксклюзивные удобства STDU. За исключением экспорта страниц, который был бы более полезен в случае экспорта из файла исходных джейпегов, но не рендеров.
 
Поддержка CBR в STDU реализована скверно (периодически теряет и снова подгружает в память изображения страниц), это стало одной из причин отказа от приложения. К тому же я не нашел возможности убрать обрамление страниц тенями и отступами, что не позволяло просматривать развороты в сплошном неразрывном виде. В Суматре это настроилось элементарно.
 
PS Давайте уже остановимся, хотя это и забавно, лет 15 уже не спорил на форумах
Я бы весь этот оффтоп перенес отсюда в тему http://forum.ru-board.com/topic.cgi?forum=93&topic=3514

Всего записей: 86 | Зарегистр. 10-08-2018 | Отправлено: 15:16 28-03-2019
papaVlad



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist, ну, опять написали спорные фразы, конечно пора остановится, отвлекаюсь от своих дел, переносите, мне без разницы. Интересный там топик, никогда не был в нём, как-то давали ссылку на ру-бордовский топик про пдф, вот туда такие диалоги точно не надо отсылать, а то у местных челюсть не только отвиснет, а сразу отвалится ))
 
Archivist, пусть и не переубедил полностью, но надеюсь теперь имеете некоторые сомнения.
Всего доброго и с наилучшими!

Всего записей: 141 | Зарегистр. 22-04-2012 | Отправлено: 15:42 28-03-2019
slava_kry

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Народ, завязывайте.
Всё решает Моск!
Я вон Бажова в Палехе делаю уже месяц т.с. "за Красоту", а "насладятся" им от силы пара-тройка человек. А мог бы клепать ч/б пачками.
 
Хотите бодаться дальше - идите туда
 
papaVlad

Цитата:
пусть и не переубедил полностью, но надеюсь теперь имеете некоторые сомнения.  

Не нужно на это надеяться. Всё зависит от Человека и его системы взглядов...
Высказали мнение и видение - достаточно.  
Захочет ли человек ими воспользоваться - это уже его боль и страдания.

----------
Вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом

Всего записей: 4136 | Зарегистр. 18-09-2003 | Отправлено: 07:16 29-03-2019
Shurix83

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
STDU хорошая читалка, пользовался ей пру месяцев, пока не перешел на Sumatra PDF, которая оказалась значительно шустрее и удобнее. Порекомендовал бы ее и вам, но боюсь воспримете как очередную ересь и подрыв многовековых устоев  

Сам недавно (где-то с полгода) перешел на Sumatra PDF с STDU из-за того, что время от времени STDU на многосложных djvu-шках отображает дефекты, которых на самом деле нет. Насколько я знаю, эта проблема создателям STDU известна давно, но что-то править они её не собираются...
 
А по теме темы: эх, была б STA модульность и поддержка плагинов, не стояла бы так остро проблема продажи-появления разработчика. За время его отсутствия сами бы что наклепали на коленках, а там, глядишь, он бы шлифанул и зарелизил "официально".

Всего записей: 76 | Зарегистр. 12-04-2007 | Отправлено: 14:49 29-03-2019
Dmb_2007

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
4lex4
Рад возвращению
Вопрос: входной формат JP2 можно как-то включить по простому?
Ну чтобы не конвертировать перед обработкой?

Всего записей: 318 | Зарегистр. 07-05-2004 | Отправлено: 22:43 29-03-2019
4lex4

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dmb_2007, приветсвую, тоже рад видеть.
Да, есть в планах, сам использую JPEG2000 для хранения.

Всего записей: 332 | Зарегистр. 27-01-2016 | Отправлено: 09:46 30-03-2019
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)

Имя:
Пароль:
Сообщение

Для вставки имени, кликните на нем.

Опции сообщенияДобавить свою подпись
Подписаться на получение ответов по e-mail
Добавить тему в личные закладки
Разрешить смайлики?
Запретить коды


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.Board
© Ru.Board 2000-2018

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru