Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Закладки » Scan Tailor (часть 2)

Модерирует : gyra, Maz

Maz (10-01-2024 10:45): Scan Tailor (часть 3)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

Widok



Moderator-Следопыт
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие части: Часть 1
Scan Tailor


Задача программы - пост-обработка сырых сканов книг для последующей сборки в PDF/DJVU,CBR/CBZ и т.д.
Программа обеспечивает большое удобство для использования, большую интерактивность и не меньшую автоматизацию процесса (по сравнению со СканКромсатором).
Кросс-платформенный (Windows,Mac OS, Linux) проект с открытыми исходниками.


Англоязычный топик по ScanTailor
 
Ветки:
Scan Tailor (ncraun) >>>  последняя версия
Scan Tailor Experimental (Tulon) >>>  последняя версия (обсуждение на DIY Book Scanner)
Scan Tailor Plus (Vadim "DikBSD" Kuznetsov) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Еnhanced (Petr "pejuko" Kovar) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Featured (monday2000) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Universal (trufanov-nok) >>>  последняя версия (обсуждение на publ.lib.ru)
Scan Tailor Advanced (4lex4) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Advanced (актуальный форк) >>>  история версий
 
Документация:
Документация (Wiki) | Зоны картинок в ScanTailor | ScanTailor. Быстрое начало | Видеоуроки и скринкасты новых функций СТ от Tulona
Статья: Scan Tailor. Программа для обработки отсканированных книг
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
Использование Scan Tailor совместно с Djvu Imager (сборка djvu методом разделенных сканов)
Как собрать Scan Tailor из исходных кодов под Windows
Почему нельзя сделать сплошную нумерацию вывода


Автор проекта - Tulon. Почему его здесь не видно? .
DikBSD автор ветки ScanTailor Plus история повторяется.
Юзеры! Будьте скромнее!


Прочие дистрибутивы, форки, дополнения

Всего записей: 24190 | Зарегистр. 07-04-2002 | Отправлено: 12:17 17-02-2010 | Исправлено: Maz, 10:43 10-01-2024
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Так синхронизация двух активных веток (в случае форка) будет еще затратнее.

Предполагается, что я этим заниматься не буду, ну разве что захочу перенести какую-нибудь фичу в основную ветку.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 17:49 19-02-2010
iit512

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
В следующем релизе либо доведу до ума деспекл, либо отключу его по умолчанию.

Спасибо!  

Цитата:
Ввод разрешения, сильно ниже реального, приводит к падениям из-за нехватки памяти.  Если же там реальное разрешение ниже 150, то использование СК для таких файлов - наилучший для меня вариант.

Там реальное было 300, указанное -- 360 и 600.  

Цитата:
Массовый сброс в ноль планируется, но не доходят до него руки.

Ждем. Это и вправду очень надо.  

Цитата:
Увеличу, когда руки до этого дойдут.

Еще раз спасибо!
Еще одна мелкая неприятность -- если после того, как определена полезная область, вернуться к первому этапу и повернуть скан, то ничего не переделывается, область остается на месте, приходится править наклон и область руками.

Всего записей: 177 | Зарегистр. 18-05-2005 | Отправлено: 12:06 20-02-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Там реальное было 300, указанное -- 360 и 600.  

В таком случае все должно работать.  Попробуйте еще раз, в крайнем случае запишите видеокаст, демонстрирующий проблему.
 

Цитата:
Еще одна мелкая неприятность -- если после того, как определена полезная область, вернуться к первому этапу и повернуть скан, то ничего не переделывается, область остается на месте, приходится править наклон и область руками.  

Не воспроизводится.  Ни с автоматической рамкой, ни с ручной - никак.  Можете опять же сделать видеокаст.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 12:59 20-02-2010
iit512

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
OK, еще раз столкнусь с этими проблемами -- сделаю.
 
Добавлено:
OK, еще раз столкнусь с этими проблемами -- сделаю.

Всего записей: 177 | Зарегистр. 18-05-2005 | Отправлено: 14:37 20-02-2010
bookreader_new

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Вчера случайно узнал о программе - опробовал. Общее впечатление - отлично. До этого пользовался кромсатором понемногу. В сравнении с ним интерфейс сделан намного грамотнее. Кромсатор фактически не мог работать в автомате, т.к. алгоритмы следаны очень тупо. СТ вполне нормально работает в автомате. Я его кормил серыми jpeg 300 dpi, грубых ошибок сегментирования не было ни одной на 2000 страниц ... Также мне нравится, что если что-то не так, то можно вернуть предыдущий шаг и поправить конктерный файл.
Иногда СТ захватывает на странице область больше, чем реальный размер текста (когда на краях страниц есть бяки), приходится многократно тыкать widest page, потом переходить на предыщущий этап и уменьшать страницу.
Еще у меня пара вопросов по программе:
1. В процессе работы наблюдал странный глюк: поскольку у меня 4-ядерный проц, а программа 1-поточная, я запустил обработку сразу 4 книг. И при этом в винде началась жуткая тормозня. Изменение приоритета ничего не давало. Окна проводника открываются секунд 30. такое впечатление, что это какой-то глюк в самом фреймворке, из-за которого в виновс пеерволняется какая-нибудь очередь собщений / блокируется gdi или что-то подобное. Что интересно, когда одна из 4 книг обраоталась - глюк прошел, несмотря на то, что я сразу запустил сжималку djvu, т.е. загрузка проца по-прежнему была 100%.
2. Чем / как собирать СТ под виндой? Visual Studio + Qt SDK пойдет? Хочется подробнее посмотреть какие функции основное время кушают, может получится в них AMD Framewave вставить для ускорения.

Всего записей: 22 | Зарегистр. 02-01-2006 | Отправлено: 23:40 20-02-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bookreader_new

Цитата:
1. В процессе работы наблюдал странный глюк: поскольку у меня 4-ядерный проц, а программа 1-поточная, я запустил обработку сразу 4 книг. И при этом в винде началась жуткая тормозня. Изменение приоритета ничего не давало. Окна проводника открываются секунд 30. такое впечатление, что это какой-то глюк в самом фреймворке, из-за которого в виновс пеерволняется какая-нибудь очередь собщений / блокируется gdi или что-то подобное. Что интересно, когда одна из 4 книг обраоталась - глюк прошел, несмотря на то, что я сразу запустил сжималку djvu, т.е. загрузка проца по-прежнему была 100%.  

Это нехватка памяти.  Хотя при простое ST потребляет минимум памяти, но на пиках вполне может скушать и 500 мегов и больше.  Также следите за тем, чтобы DPI входных файлов не было занижено - это тоже ведет к увеличению потребления памяти.
 

Цитата:
Чем / как собирать СТ под виндой? Visual Studio + Qt SDK пойдет? Хочется подробнее посмотреть какие функции основное время кушают, может получится в них AMD Framewave вставить для ускорения.

Подойдет.  В архиве с исходниками есть файл packaging/windows/readme.ru.txt - это инструкция по сборке.  Однако на радикальное ускорение я бы не надеялся.  Нет такого одного места, которое являлось бы источником всех тормозов.  Оптимизировать же функции, которые отъедают меньше 10% производительности - дело крайне не благодарное.  В общем будущее в вычислениях на GPU - OpenCL в частности.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 10:34 21-02-2010
LazyKent

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
Программа не компилируется с GCC 4.5. Вот фрагмент лога:
 

Код:
[ 10%] Generating ui_OrientationOptionsWidget.h
/usr/src/packages/BUILD/scantailor-0.9.7.2/imageproc/BinaryImage.cpp: In static member function 'static imageproc::BinaryImage::SharedData* imageproc::BinaryImage::SharedData::create(size_t)':
/usr/src/packages/BUILD/scantailor-0.9.7.2/imageproc/BinaryImage.cpp:58:14: error: non-placement deallocation function 'static void imageproc::BinaryImage::SharedData::operator delete(void*, size_t)'
/usr/src/packages/BUILD/scantailor-0.9.7.2/imageproc/BinaryImage.cpp:41:36: error: selected for placement delete
Scanning dependencies of target fix_orientation
[ 11%] Building CXX object filters/fix_orientation/CMakeFiles/fix_orientation.dir/ImageView.cpp.o
make[2]: *** [imageproc/CMakeFiles/imageproc.dir/BinaryImage.cpp.o] Error 1
make[1]: *** [imageproc/CMakeFiles/imageproc.dir/all] Error 2


Всего записей: 174 | Зарегистр. 17-08-2006 | Отправлено: 11:24 21-02-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Программа не компилируется с GCC 4.5.

Исправил - уже в Git.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 12:48 21-02-2010
bookreader_new

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
 
>>>Это нехватка памяти.  Хотя при простое ST потребляет минимум памяти, но на пиках вполне может скушать и 500 мегов и больше
 
На машине памяти 8 гигов, пиковое выделение памяти было примерно по 100 мегов на процесс.

Всего записей: 22 | Зарегистр. 02-01-2006 | Отправлено: 14:08 21-02-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ну тогда затык связан с доступом к диску.  Как ни странно, может помочь полное отключение свопа.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 15:14 21-02-2010
bookreader_new

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
 
Своп выключен, зачем он при 8 гигах памяти? У меня сложилось впечатление, что проблема именно где-то глубоко в самом Qt запрятана. Мне не удалось вопсроизвести что-то подобное, просто загрузив проц на 100% - при этом скорость реакции приложений вообще не падает. В Qt весьма подозрительные вещи наблаются. Например, приложение создает 7 потоков, хотя в самом приложении явно используются только 2. Что делают остальные, как они докумнтированы? Далее, Qt использует сигналы. По сути это функции, которые вызываются "паровозиком", они могут работать только синхронно. Если в приложении 5 службных потоков будут обмениваться ненужными сообщениями и по каждому из них синхронизироваться, то ожидаемый эффект будет получен.
 
Я вспомнил, что у меня где-то была статья с описанием алгоритма, позволяющего повышать DPI изображений без замыливания. Принцип действия - алгоритм построен на основе некоторой математической модели изображения, в которой одним из критериев оптимальности является показатель "скругленности линий" (выражаясь простым языком). В результате создается нужный эффект, т.е. аглоритм шарпит края текста таким образом, чтобы он выглядел ровненько. Если есть интерес, статью поищу.

Всего записей: 22 | Зарегистр. 02-01-2006 | Отправлено: 16:28 21-02-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bookreader_new
На самом деле ST создает 4 потока:
1. Поток пользовательского интерфейса.
2. Поток фоновой обработки изображений.
3. Поток подгрузки миниатюр.
4. Вспомогательный фоновый поток.  Тут выполняются всякие мелочи, типа отложенного антиалиазинга.
Еще один поток создает обработчик падений.  Он собственно ничего не делает, а просто ждет падения.
Еще один или два потока Windows создает для каких-то своих целей.
 
Обмен сообщениями между потоками в Qt асинхронный, да если бы и синхронный был - это не должно грузить процессор.  Хотя я слышал, что Windows можно ввести в полный ступор, просто захватывая и освобождая один и тот же мьютекс из нескольких потоков.  В общем фиг его знает, но я не склонен тут винить Qt.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 17:06 21-02-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
На книгах с большим количеством фотоиллюстраций (например, трехтомник Броделя) приходится вручную обводить ручной зоной почти каждую фотографию...
 
Нет ли в планах прямоугольных зон изображений? Ведь алгоритмически прямоугольные зоны давно уже вылизаны на той же полезной области.. Если не хотите усложнять интерфейс, может, хотя бы дадите возможность рисовать прямоугольники, скажем, при нажатом ctrl?
Надеюсь, необходимость в таких областях в доказательствах не нуждается. Очень сильно удручает необходимость тыкать мышкой в четыре угла картинки (и потом еще зачастую четыре раза поправлять вершины получившегося четырехугольника), зная, что того же самого можно было бы добиться в два клика...  
 
И все-таки, прошу обратить внимание на следующий вариант построения стадии вывод:
Я все-таки вижу ее несколько иной - не с выпадающим списком а с тремя кнопками:
- создать зону типа "вычесть из автослоя" площадью на весь скан;
- создать автослой площадью на весь скан;
- создать автозоны по автоматически найденным изображениям.
Возможность выбора области применения можно было бы сделать через всплывающее меню при щелчке ПКМ по соответствующей кнопке, либо через вспомагательные кнопки  с выпадающим списком (как SplitButton в тулбарах).  
Можно также добавить индикатор состояния - черно-белый/цветной-серый/смешанный, отображающий соответственно наличие лишь зоны "вычесть из автослоя" площадью на весь скан, лишь автослоя площадью на весь скан, или любой из оставшихся комбинаций.
 
Такое построение даст возможность, например, в случае недостаточно корректной работы автозон (а сейчас в случае отстутствия темной рамки на определяемой картинке максимально светлая область по понятным причинам почти всегда теряется) минимальными усилиями создать-таки зоны вручную.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 22:30 24-02-2010
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare

Цитата:
Нет ли в планах прямоугольных зон изображений?

Было уже
 
Настоятельно рекомендую
или версию для печати.

Всего записей: 6477 | Зарегистр. 31-08-2008 | Отправлено: 22:53 24-02-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ndch
В очередной раз огромное спасибо за советы.  
Я просто пытаюсь понять для себя, почему перемещение прямоугольной зоны за грани, которое уже реализовано как на стадии Полезная область, так и на стадии Макет страницы, приведет к увеличенным трудозатратам на стадии Вывод.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 23:21 24-02-2010 | Исправлено: StanFreeWare, 23:22 24-02-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare

Цитата:
На книгах с большим количеством фотоиллюстраций (например, трехтомник Броделя) приходится вручную обводить ручной зоной почти каждую фотографию...  

У вас что, все фотографии сливаются с фоном в той или иной части?
 

Цитата:
Нет ли в планах прямоугольных зон изображений?

Не планируется.  Я больше скажу - на ближайшие этак пол-года планируются всего две вещи: довести до ума despeckle и выравнивание кривизны строк.  Пока это не сделано, я бы вообще воздержался от ответов на вопросы "а планируется ли это?".  Отрицательный ответ потребует доводов с моей стороны, а с другой стороны возможно вызовет недовольство - кому это надо?  Каждый положительный ответ - это еще один кирпич мне в рюкзак.  Хрен редьки не слаще в общем.
 

Цитата:
И все-таки, прошу обратить внимание на следующий вариант построения стадии вывод:  

Фич реквесты продолжают игнорироваться.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 02:22 25-02-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
Характерные примеры некорректных автозон.  
Кстати, что бы такого сделать с колонтитулом (он напечатан более светлым шрифтом, чем остальной текст), чтобы улучшить его бинаризацию?
 
Вы серьезно хотите уложиться с кривизной строк всего за пол-года?  
Мне кажется, что исправление кривизны строк - это даже не кирпич в рюкзаке, а скорее колосник, привязанный к ногам..
 
Мне больше попадаются книги не с кривыми строками, а с потерянными при деспекле точками и знаками. А также со значительно измененным положением текста относительно страницы. Чувствую в том и свою долю ответственности - так как добиваясь корректного кодирования иллюстраций, я активно пропагандирую СТ.
 
Я в тысячу раз скорее согласен смириться со схемой  
разрезка страниц в СТ -> выправление строк в BR (или в другой утилите) -> Вывод в СТ,  
чем с возможностью потери информации в обработанной книге.  
 
Потеря информации - это очень серьезно. Это дискредитирует.
 

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 07:33 25-02-2010 | Исправлено: StanFreeWare, 09:10 25-02-2010
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Я в тысячу раз скорее согласен смириться со схемой  
разрезка страниц в СТ -> выправление строк в BR (или в другой утилите) -> Вывод в СТ,  
чем с возможностью потери информации в обработанной книге.

Вполне рабочий вариант. И понедельник на это намекал, в своей манере.

Всего записей: 6477 | Зарегистр. 31-08-2008 | Отправлено: 09:02 25-02-2010 | Исправлено: ndch, 09:02 25-02-2010
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare

Цитата:
Характерные примеры некорректных автозон.

Так все правильно, ничего в этом нет неожиданного. Дело в том, что ST выделяет автозоны, в том случае, если они состоят из типографского растра. Такой алгоритм. Если пожать картинки jpeg, или вейвлетом, или размазать Гауссом, то ST автозоны не найдет, что и произошло.  Tulon всегда говорил, что ST предназначен для обработки исходных tiff, а не для переделки готовых книг.

Всего записей: 883 | Зарегистр. 14-12-2005 | Отправлено: 09:29 25-02-2010
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
ST предназначен для обработки исходных tiff, а не для переделки готовых книг

Спасибо за пояснение. Теперь не буду удивляться такому поведению программы.
Как пользователь расстроен, т.к. сейчас только и делаю, что улучшаю чужие готовые книги со всеми вытекающими. Но! Смирюсь

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 10:43 25-02-2010
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » Закладки » Scan Tailor (часть 2)
Maz (10-01-2024 10:45): Scan Tailor (часть 3)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru