Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153

Открыть новую тему     Написать ответ в эту тему

Widok



Moderator-Следопыт
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Scan Tailor


Задача программы - пост-обработка сырых сканов книг для последующей сборки в PDF/DJVU,CBR/CBZ и т.д.
Программа обеспечивает большое удобство для использования, большую интерактивность и не меньшую автоматизацию процесса (по сравнению со СканКромсатором).
Кросс-платформенный (Windows,Mac OS, Linux) проект с открытыми исходниками.


Англоязычный топик по ScanTailor
Ветки:
Scan Tailor Plus (Vadim "DikBSD" Kuznetsov) >>>  последняя версия   (Отличия от авторской версии)
Scan Tailor Еnhanced (Petr "pejuko" Kovar) >>>  последняя версия   (Отличия от авторской версии)
Scan Tailor Featured (monday2000) >>>  последняя версия   (Отличия от авторской версии)
Scan Tailor Advanced (4lex4) >>>  последняя версия (Отличия от авторской версии); ветка develop
 
Документация:
Документация (Wiki) | Зоны картинок в ScanTailor | ScanTailor. Быстрое начало | Видеоуроки и скринкасты новых функций СТ от Tulona
Статья: Scan Tailor. Программа для обработки отсканированных книг
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
Использование Scan Tailor совместно с Djvu Imager (сборка djvu методом разделенных сканов)
Как собрать Scan Tailor из исходных кодов под Windows
Почему нельзя сделать сплошную нумерацию вывода


Автор проекта - Tulon. Почему его здесь не видно? .
DikBSD автор ветки ScanTailor Plus история повторяется.
Юзеры! Будьте скромнее!


Дистрибутивы, форки, дополнения

Всего записей: 24190 | Зарегистр. 07-04-2002 | Отправлено: 12:17 17-02-2010 | Исправлено: ndch, 16:47 18-07-2018
VidelSamogO



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
anagnost96
400 страниц. Причём и исходный dpi и выходной я сделал в 600 единиц. Это потребовало огромного времени при всяком малейшем движении мышкой.  
 
 
Вот ещё небольшой пример. Исходник, результат и проект. Сейчас обработал. Чтоб не качать 400 мегов.
 

Всего записей: 736 | Зарегистр. 16-08-2008 | Отправлено: 01:14 06-06-2011 | Исправлено: VidelSamogO, 01:21 06-06-2011
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
VidelSamogO
Качать с барыжного letitbit никто не будет. Лучше ifolder.  
Если это издание 2004 года, то можно посмотреть на рутрекере.
А массажу явно лучше не стало, особенно тексту. И так весь в инее был, а теперь количество инея удвоилось.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 07:11 06-06-2011 | Исправлено: StanFreeWare, 07:22 06-06-2011
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А я обложки просто постеризую, а потом отдаю cpaldjvu. По-моему, это проще всего.  

Применительно к цветному тексту ИМХО это самое разумное. Наверное, у Tulon просто руки не дошли, чтобы встроить прямо в СТ постеризацию цветного текста (ради подготовки скана под cpaldjvu). Такой подход позволил бы отказаться от извращенческой раскраски DjVu-текста (ликвидировав или сведя к минимуму нужду в DjVu Pal).
 
Насколько я понимаю, алгоритмы постеризации называются ещё "цветовая квантизация" и описаны тут:
 
http://www.leptonica.com/color-quantization.html (здесь исходники алгоритмов, можно взять и вставить в СТ).
 
http://en.wikipedia.org/wiki/Color_quantization
 
PS А вот обложки постеризовать как раз наоборот плохо - т.к. при этом уничтожается фактура обложки (тиснение фонового узора).
 
Добавлено:
StanFreeWare

Цитата:
Качать с барыжного letitbit никто не будет.  

А чем плох letitbit? Это самый обычный бесплатный файлообменник, и качать с него очень, кстати, удобно (через USD вообще автоматически).

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 12:51 06-06-2011 | Исправлено: monday2000, 13:00 06-06-2011
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000
Через USD - может быть. А без него сунулся - то телефон требуют ввести, то низкой скоростью пугают... Короче, резко не понравилось.
 
Мне кажется, что постеризация в чистом виде приведет в лучшем случае к результату, который мы видим в scanned-djvu для серых сканов - т.е. несколько оттенков в одном слове (или даже в одной букве), типа усредненного цвета в рамках бинаризованной буквы. Не думаю, что это будет красиво. Постеризация с предварительным статистическим анализом будет поинтереснее, но нужно знать количество искомых цветов и правильно выбирать критерии отбора.
 
 

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 13:18 06-06-2011
VidelSamogO



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare
Исходник
Обработанный кем то, вариант
Обработанным мной, вариант

Всего записей: 736 | Зарегистр. 16-08-2008 | Отправлено: 14:37 06-06-2011
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare

Цитата:
т.е. несколько оттенков в одном слове (или даже в одной букве), типа усредненного цвета в рамках бинаризованной буквы.  

Да, совершенно точно. Вот и меня это сильно смущает. Нужна какая-то более изощрённая квантизация - чтобы точно находить единый заменяющий цвет.

Цитата:
Постеризация с предварительным статистическим анализом будет поинтереснее, но нужно знать количество искомых цветов и правильно выбирать критерии отбора.

Я так представляю себе, что потребуется ввести в СТ новый тип зон - "зона цветного текста". Тогда будет легче найти количество искомых цветов. Пусть СТ внутри такой зоны будет автоматически постеризовывать цветной текст.

Цитата:
Через USD - может быть.

Через USD - просто вводите ссылку в программу, и нажимаете кнопку "старт" (скачивания). И далее программа не требует человеческого участия - программа сама при обрыве коннекта подключается, вводит каптчу, и докачивает с места последнего обрыва. Скорость скачивания - около 50 КБайт/сек - вполне ничего так.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 18:06 06-06-2011 | Исправлено: monday2000, 18:07 06-06-2011
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
В общем, думая про Шойгу, додумался до такого изврата, как отдельная программа, собирающая разные результаты окраски маски ST Separator в один. Подозреваю, что можно это сделать просто скриптом в стиле LayerTailor, но пока не знаю как.
Т.е. проходим первый раз - красим красные заголовки. Второй раз - красим синие буквицы (субсканы иллюстраций можно не сохранять).
И придуманной утилиткой собираем результаты обоих проходов (txt1 + txt2 = txt).

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 22:04 06-06-2011
VidelSamogO



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare
Жуть! Это ж очередные костыли! Когда надо просто добавить цвет с similarity. Ну с допуском. Добавить к относимым к небинаризуемой автообласти. Нет, программка для малоцвета, конечно лишней не будет.

Всего записей: 736 | Зарегистр. 16-08-2008 | Отправлено: 22:32 06-06-2011 | Исправлено: VidelSamogO, 22:33 06-06-2011
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
VidelSamogO
Почему же к небинаризируемой - цветной текст не зазорно и на передний план положить. А остальное описанное уже и так есть в Сепараторе. Только для одного цвета.
Иллюстрация к txt1 + txt2 для смешанного режима
Кстати, синяя буквица добавила проблем. Использовать режим однотонные символы нельзя - соседняя буква посинеет. Но со второго раза вроде бы попал с выделенной областью.
Еще попытался вместо смешанного режима использовать закраску фона в маске. Результат пока удручающий. Может маленькое разрешение виновато, а может и алгоритм.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 22:57 06-06-2011 | Исправлено: StanFreeWare, 23:11 06-06-2011
VidelSamogO



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare
Спасибо. Посмотрел. А чем эти цвета текста отделить? И главное, как потом слить в один Djvu?

Всего записей: 736 | Зарегистр. 16-08-2008 | Отправлено: 20:00 07-06-2011
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
VidelSamogO
Отделял Сепаратором по инструкции.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 20:27 07-06-2011 | Исправлено: StanFreeWare, 07:40 08-06-2011
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Добавил функционал склейки txt1 + txt2  + ... + txtN в свежую версию Сепаратора. Заодно добавил функционал ручного задания результирующего цвета маски, если усредненный цвет образца по какой-либо причине не устраивает.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 07:40 08-06-2011 | Исправлено: StanFreeWare, 07:41 08-06-2011
OleM2k



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Как-то поторопился и вместо сообщения в Scan Tailor создал тему http://forum.ru-board.com/topic.cgi?forum=5&topic=36571#1 и как удалить тему не знаю... Да ладно. Сообщение:
 
Scans To Booklets - Graphic Scripts of Nautilus
  »  Удобства при обработке отсканированных книг.  
 
Я часто пользуюсь скриптами «Scans To Booklets - Graphic Scripts of Nautilus», которые предназначены для обработки отсканированных книг, конвертации их в формат DjVu и управленим страницами pdf-файлов с помощью мышки в среде Nautilus — файловом менеджере Ubuntu по умолчанию. Не сомневаюсь, они многим окажутся полезными.
 
g-script-ы Nautilus-а: http://g-scripts.sourceforge.net/faq.php.  
 
Требуют установки:  
sudo apt-get sed scantailor libtiff djvulibre pdf2djvu bsh itext djvudigital  

  1. 1-0-rnWithoutS_p_a_c_e — переименовывает файлы в имена без пробелов.
  2. 1-1-ScanTailor — запуск ScanTailor-а.
  3. 2-1-tifs2pdf2djvuByDigital — преобразует tiff-ы через pdf-ы в djvu-юшки с помощью djvudigital и создает djvu-книгу.
  4. 2-2-tifs2pdf2djvuByPdf2djvu — то же самое, но с помощью pdf2djvu.
  5. 3-2-tifs2pdfs2pdfBookletWith20Pages2djvuByDigital — преобразует tiff-ы в pdf-ы, создает pdf-книгу/буклет из тетрадок по 20 страниц с помощью BeanShell и iText, преобразует ее в djvu-юшку с помощью djvudigital.
  6. 3-2-tifs2pdfs2pdfBookletWith24Pages2djvuByDigital — то же самое, но из тетрадок по 24 страницы.
     
    Полезные при буклетировании действия.
  7. 4-0-djvusConcatenateByDjvm — объединяет djvu-юшки в djvu-книгу с помощью  DjVuLibre.
  8. 4-1-pdfBookletOn20pagesByiText — преобразует pdf-ы в pdf-книгу/буклет из тетрадок по 20 страниц с помощью BeanShell и iText.
  9. 4-2-pdfBookletOn24pagesByiText — то же самое, но из тетрадок по 24 страницы.
  10. 4-3-pdfPagesNumberingByiText — нумерует страницы pdf-книги с помощью BeanShell и iText.
  11. 4-4-pdf&ps2djvuByDigital — преобразует ps-ы и pdf-ы в djvu-юшки с помощью djvudigital.
  12. 4-5-pdf2djvuWithText — то же самое, но только pdf-ы с помощью pdf2djvu с сохранением текста.
  13. 4-6-pdfsConcatenateByiText — объединяет pdf-ы в pdf-книгу с помощью BeanShell и iText.
  14. 4-7-tiffsplit — разрезает многокартиночные tif(f)-ы в однокартиночные tif-ы.
     
    Обрабатывающие pdf-ы скрипты написанные на java и исполняемые в bsh:
  15. pdfsBooklet.java — по вызову g-script-а преобразует в pdf-ы в pdf-книгу/буклет по arg[0] страниц с помощью BeanShell и iText.
  16. pdfsConcatenate.java — по вызову g-script-а объединяет pdf-ы в pdf-книгу с помощью BeanShell и iText.
  17. pdfsPageNumbering.java — по вызову g-script-а нумерует страницы pdf-книги с помощью BeanShell и iText.

Всего записей: 8 | Зарегистр. 01-06-2010 | Отправлено: 19:46 13-06-2011 | Исправлено: OleM2k, 19:53 13-06-2011
DikBSD

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Выложил новый релиз Scan Tailor Plus 1.0.0beta11:
Все изменения в основной ветке master влиты в эту версию plus
 
Изменения кода основной ветки master:
1. Fix failure to reserve pure white and pure black colors for B/W content. (Joseph Artsimovich <joseph.artsimovich@gmail.com>)
The problem happened in Color / Grayscale mode with "White margins" turned on.
2. Fixed deskew re-processing bug. (Masahiro Kitagawa <kitashi@users.sourceforge.net>)
 
Изменения ветки plus: (Vadim Kuznetsov (DikBSD) <dikbsd@gmail.com>)
~ Небольшие улучшения диалога Настроек - дизайн.
+ Этап Разрезки сканов: Сортировка по числу резаков по убыванию. Т.е. сверху - страницы с 2 резаками, за ними - с одним резаком (2 страницы), и в самом низу - без резаков (1 страница).
Данная сортировка удобна для отслеживания неверно разрезанных сканов, когда вместо 1 страницы автомат выставляет 2 резака. Сортировка сделана таким образом, чтобы эти "возможно проблемные" сканы оказались в самом верху.
 
Скачать: http://www.onlinedisk.ru/file/681179/
 
P.S Вечером залью код в git-репозиторий в ветку plus

Всего записей: 177 | Зарегистр. 23-11-2009 | Отправлено: 14:28 15-06-2011
VidelSamogO



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Неплохо бы сделать ещё, чтобы результат на выводе можно было видеть сразу. До выяснения параметров всех изображений. То есть на основе только уже обработанных, как будто другие - пустое место.
 
Добавлено:
Кстати, моё предложение не для разработчика, а для пользователей. Вначале изображения загружать и обрабатывать с минимальным разрешением, для ускорения определения начальных параметров. То есть на входе выбирая разрешение 600, а для вывода чернового прохода - 150. А потом в тексте проекта с помощью текстового редактора всё скопом поменять в соответствующем начальном блоке на качественный ввод 150-300. А на выходе - 600. Таким образом я обработал уже более 2000 книг. Берёте, запускаете на ночь пару десятков процессов с автоопределением. Утром остаётся только немного подкорректировать и поставить на вывод в консольном варианте. Только уже создав батничек поточной обработки всех проектов.
 
Добавлено:
ДА. Предлагаю упразднить пункт меню - "применить к выделенным страницам" и сделать его автовключаемым по-умолчанию. Потому, что зачем мы столько всё это выделяли, кроме как затем, чтобы ко всему этому применить наш параметр?

Всего записей: 736 | Зарегистр. 16-08-2008 | Отправлено: 23:40 15-06-2011 | Исправлено: VidelSamogO, 00:13 16-06-2011
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
DikBSD
Рад за освоение сортировки, значит и сортировка на стадии Вывод возможно не за горами.
 
Еще технический такой вопрос - можно ли в режиме смешанный как-либо анализировать, есть ли серые области, и если нет, то использовать однобитное кодирование тифов?  
Это бы значительно ускорило работу Сепаратора (он бы использовал простое копирование вместо лишнего в данном случае анализа). Естественно, если это не замедлит стадию Вывода.
 
В фич-реквестах СТ в очередной отметил необходимость увеличения размера кнопок-сцепок стадии Поля.  
 
Ну и все-таки подумать еще разок над заменой раскрывающегося списка Режима на простой список или набор кнопок. Мне кажется, что одно нажатие в данном случае более оправдано - по крайней мере мне приходится менять режим на порядок чаще, чем чувствительность деспекла, тем не менее последний реализован на кнопках. Правда, придумать адекватный рисунок для кнопки чтобы все было понятно с первого взгляда мне так и не удалось.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 23:53 15-06-2011
NoneNobody

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
При установке полей равнения на правый верхний угол вылетает во время вывода файлов. Баг?

Всего записей: 126 | Зарегистр. 12-09-2007 | Отправлено: 00:11 16-06-2011 | Исправлено: NoneNobody, 00:14 16-06-2011
VidelSamogO



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
NoneNobody
Да. Давно замечено. На старых версиях всё в порядке.

Всего записей: 736 | Зарегистр. 16-08-2008 | Отправлено: 00:36 16-06-2011
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
В фич-реквестах СТ в очередной отметил необходимость увеличения размера кнопок-сцепок стадии Поля

Реквест прошел. Кнопки-сцепки увеличены.
 
VidelSamogO
В баг-трекер СТ писали?

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 08:14 16-06-2011
Dashout



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
VidelSamogO

Цитата:
То есть на входе выбирая разрешение 600, а для вывода чернового прохода - 150. А потом в тексте проекта с помощью текстового редактора всё скопом поменять в соответствующем начальном блоке на качественный ввод 150-300. А на выходе - 600

опыт интересный
если не трудно, сделайте пожалуйста под [MORE] подробную инструкцию

Всего записей: 1129 | Зарегистр. 15-01-2005 | Отправлено: 11:14 16-06-2011
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)

Имя:
Пароль:
Сообщение

Для вставки имени, кликните на нем.

Опции сообщенияДобавить свою подпись
Подписаться на получение ответов по e-mail
Добавить тему в личные закладки
Разрешить смайлики?
Запретить коды


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.Board
© Ru.Board 2000-2018

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru