Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor

Модерирует : gyra, Maz

Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

   

Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Scan Tailor

 
Скриншот:

В разработке находится новая альтернатива СканКромсатору. Разработчик - ваш покорный слуга.
Задача программы - пост-обработка сырых сканов с целью их последующей сборки в PDF или DJVU.
 
Уже есть на что посмотреть, и возможно присоединиться к проекту. Проект с открытыми исходниками и кросс-платформенный (Windows + Linux).
 
По сравнению со СканКромсатором планируется большее удобство использования, большая интерактивность, но при этом не меньшая автоматизация процесса.
 
Сайт проекта: http://scantailor.sf.net     Скриншоты
 
Топик программы на форуме Натахаус       Англоязычный топик по ScanTailor

Документация
 
Документация (Wiki)              Зоны картинок в ScanTailor
 
Статья: Scan Tailor. Программа для обработки отсканированных книг
 
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
 
Методика использования STA совместно с Djvu Imager

Дистрибутивы
 
Версия СТ с функцией выпрямления искривленных строк (dewarp от Rob)
 
Патч от anagnost96 Вариант ScanTailor с этим патчем (STA)  Зеркало
 
ScanTailor для Mac
 
Последние изменения в дереве исходников - для сильно любопытных и владеющих английским.
Там же можно подписаться на rss/atom - для нетерпеливых.
 

Дополнительно
 
ST GreyText v1.0 Программа для генерации вывода как бы "Только текст (в режиме серого)" - для Scan Tailor от anagnost96.
 
LayerTailor Программа для разделения сканов (после "Смешанный режим) на foreground и background слои с целью последующего раздельного кодирования в djvu. Принцип работы: Все черные пиксели (яркость==0) переносятся в foreground, остальное - в background. Функция layer принимает на входе 3 параметра: исходное имя файла TIFF, имя файла для foreground и имя файла background. Автор: U235.
 
Предложения к anagnost96 по поводу улучшения его модификации СТ
Сравнение выпрямления искривленных строк в СТ и в BR

Статья О возможности альтернативы СканКромсатору     Полезные ссылки по теме топика
ArtScan - ещё одна программа для сканобработки.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 21:37 15-06-2008 | Исправлено: ndch, 22:37 12-02-2010
anagnost96

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Под windows скомпилированной пропатченной сборочкой не поделитесь?

 
Я, к сожалению, не имею ни малейшего понятия о сборке СТ под Windows и не могу в данный момент с этим разбираться. Возможно, кто-нибудь сделает это за меня?
 

Цитата:
А для последующей их склейки, если вы решите, что это несвойственно идеологии СТ, можно будет и какой-нибудь gimp-скрипт придумать, если уж приспичит.  

 
В том-то и дело, что никаких gimp-скриптов "для последующей склейки" не должно быть в принципе! С того момента, как мы сделали upsampling текста до 600 dpi, картинки просто обязаны существовать отдельно, поскольку для них такое разрешение абсолютно не нужно и даже вредно. Именно по этой причине объединение двух слоев должно делаться только при экспорте в pdf/djvu и никак не на этапе обработки графическим редактором.
 
 

Всего записей: 132 | Зарегистр. 01-05-2009 | Отправлено: 23:47 09-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
anagnost96
т.е вы потом делаете даунсэмплинг картинок? Или просто фильтруете, как я, гауссом?
Я имел в виду объединять 600 dpiшный текст с пост-обработанной картинкой перед подачей, скажем, на djvu-small..

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 23:56 09-11-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare

Цитата:
А сложно/долго будет перед работой над депескингом добавить галочку для вывода еще пары папок "gray" и "bw" c текстом и картинками отдельно, раз уж минимум тремя людьми эта фича упоминалась, как почти обязательная для профессионального книгопечатания.  

К подобным фичам я отношусь очень осторожно.  Добавишь одну такую фичу, другую, и пойдешь по стопам Кромсатора.  Введение дополнительных опций, которые почти никому будут непонятны, до добра не доведет.  Если бы я уж взялся за такое дело, то попробовал бы совсем обойтись без введения новых опций.  Например стал бы писать маску картинок как отдельный слой в TIFF.  Проверил бы, как DJVU кодеры воспримут такой слой.  Определил бы, насколько падает из-за этого производительность и есть ли смысл добавлять опцию для включения / выключения этого поведения.  А еще есть вероятность, что в самом ST появятся манипуляции с картинками - всякие там блюры и прочее.  В общем с такими вещами торопиться не стоит.
 
А кому сильно надо, могут использовать патченую версию от anagnost96.  Зоны там кстати должны учитываться.
 
Добавлено:
В крайнем случае я сам могу собрать патченную версию, но лучше, если кто другой соберет.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 23:56 09-11-2009
anagnost96

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
т.е вы потом делаете даунсэмплинг картинок?

 
Зачем делать какой-то даунсэмплинг потом? Я сейчас просто делаю два прогона патченной версии СТ: первый -- с выводом черно-белого текста в 600 dpi, второй -- с выводом одних только картинок в исходном или меньшем разрешении. Небольшой нюанс: полученные на выходе изображения потом приходится прогонять через convert, чтобы добиться строгой кратности пиксельных размеров (для djvu это важно).
 
Дальше черно-белые файлы кодируются в jb2 (с помощью minidjvu), а цветные/серые -- в iw44 (с помощью c44). Потом оба слоя объединяются утилитой djvumake. Всё это, конечно, не вручную, а посредством скрипта. Кстати, аналогичная технология возможна и для вывода в pdf.

Всего записей: 132 | Зарегистр. 01-05-2009 | Отправлено: 00:16 10-11-2009 | Исправлено: anagnost96, 00:16 10-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Мой "костыль". Утилитка бьет смешанные файлы на серые и черно-белые на базе информации в папке mask. Под Windows (NET 2.0). И может делать обратную операцию. http://www.onlinedisk.ru/file/263765/

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 14:30 10-11-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Выпустил версию 0.9.7.1, пока неофициально: http://www.onlinedisk.ru/file/266202/
Если новых проблем не будет обнаружено, завтра сделаю официальный релиз.
 
Ну и заодно патченную версию от anagnost96 соберу.  Хотя вообще-то взваливать на главного разработчика задачу сборки сторонних патченных версий - это не дело, особенно учитывая наличие хорошей документации.  На этот раз соберу, но будущих сборок не обещаю.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 10:51 13-11-2009 | Исправлено: Tulon, 10:51 13-11-2009
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon

Цитата:
Ну и заодно патченную версию от anagnost96 соберу

Нет ли смысла интегрировать патч в основную программу?

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 13:57 13-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Поясните такой способ заливки зон, пожалуйста:
http://www.onlinedisk.ru/edit_image/266351/
 
Добавлено:
monday2000

Цитата:
Нет ли смысла интегрировать патч в основную программу?

Вы как раз были третьим человеком, которого я имел в виду, говоря:

Цитата:
 ..для вывода еще пары папок "gray" и "bw" c текстом и картинками отдельно, раз уж минимум тремя людьми эта фича упоминалась, как почти обязательная для профессионального книгопечатания.  

 
 
Добавлено:
А в патче мне не очень нравится как раз двухпроходность и необходимость последующего конверта картинок в разрешение чб страниц отдельным действием.
Хотя групповой блур возможно быстрее делать на уменьшенных картинках.
Кстати, если кому нужен скриптик для фильтра гаусса по всем файлам папки средствами GIMP, могу выложить.
 
 

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 14:17 13-11-2009
anagnost96

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А в патче мне не очень нравится как раз двухпроходность и необходимость последующего конверта картинок в разрешение чб страниц отдельным действием.

 
Такой необходимости на самом деле нет: никто не мешает установить одно и то же разрешение вывода для обоих проходов. Однако я всё-таки так и не понял, зачем Вам нужны картинки в разрешении чб страниц? Что это может дать, кроме непомерного раздутия размера файлов на выходе?

Всего записей: 132 | Зарегистр. 01-05-2009 | Отправлено: 15:11 13-11-2009 | Исправлено: anagnost96, 15:11 13-11-2009
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare

Цитата:
Кстати, если кому нужен скриптик для фильтра гаусса по всем файлам папки средствами GIMP, могу выложить.  

Это можно ещё сделать и на базе http://www.djvu-soft.narod.ru/bookscanlib/013.htm - т.е. сам GIMP уже ставить не надо.
 
P.S. Лично мне хотелось бы:
 
1. Чтобы в СТ была возможность вывода после любой стадии обработки (как в СК).
 
2. Немного фантастическая идея: В случае реализации п.1, сделать бы так, чтобы вывод из СТ был напрямую понятен в СК, т.е., например, расставили зоны в СТ, перегрузили всё это дело в СК, и далее уже в СК докромсали до конца (а то и из СК на каком-то этапе перегружать в СТ и дообрабатывать до конца).
 
Тогда уж, наверное, в идеале, хорошо бы разработать некий универсальный формат мета-данных "загруженный пакет сканов" (наверное, в XML (?)) - и чтобы и СК, и СТ (и все такие будущие программы) поддерживали такой формат. Такой формат должен содержать список файлов, список зон, координаты зон на сканах. Типа out-task в СК. Тогда можно будет на любой стадии обработки "напрямую" "перекидывать" загруженный пакет сканов из СК в СТ и наоборот. Это было бы гибко и удобно.
 
Естественно, что при выполнении "геометрически-изменяющих" операций сканобработки координаты зон меняются - и их нужно будет корректировать в таком "выходном" мета-файле (что СК уже давно делает).

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 15:22 13-11-2009 | Исправлено: monday2000, 15:26 13-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
универсальный формат мета-данных

 
Tulon и так использует XML в файле проекта.
Для двусторонней совместимости нужно будет добавить в ST всех тараканов из СК. Я бы пока предпочел оставаться в рамках Scan Tailor с его удобной лаконичностью.
 
В Гимпе мне гаусс показался более качественным. По крайней мере резульаты моих попыток сделать гаусса на базе найденных в сети алгоритмов не дали такого эффекта. Проверял на вышеупомянутой странице-убийце - так вот она после гимповского гаусса + бинаризации по порогу стала наиболее читаемой.
 
А насчет п1 - в принципе не так уж много осталось:
По большому счету для реализации вашей идеи нужно лишь добавить:
для стадии поворота кнопку "применить к" - и применять 0.00 ко всем страницам.
На этапе полезная область кнопку "= страница целиком" + возможность применить к.
Поля уже, по-моему дают такую возможность.
Ну и на выводе отключение фильтрации из патча + применять смешанный цветной ко всем страницам.
 

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 15:56 13-11-2009 | Исправлено: StanFreeWare, 15:57 13-11-2009
ukpyr



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
В Гимпе мне гаусс показался более качественным. По крайней мере резульаты моих попыток сделать гаусса на базе найденных в сети алгоритмов не дали такого эффекта.

кто мешает посмотреть источник : http://git.gnome.org/cgit/gimp/tree/plug-ins/common/blur-gauss.c
тут они все : http://git.gnome.org/cgit/gimp/tree/plug-ins/common

Всего записей: 35 | Зарегистр. 13-01-2009 | Отправлено: 16:24 13-11-2009
alpopo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Если новых проблем не будет обнаружено
Скриншот: в начале темы.
прога просто мечта и замечания мои касаются очень простых пользовательских поблем(удобств).
1) не двигается (мышкой) правая граница центральной области (после разбивки 2-х страничных сканов, иконки уменьшаются в 2-ва раза,а граница остается на месте,как для разворота -интуитивно хочется ее придвинуть к одной страничке.
2)не двигается (мышкой) левая граница центральной области меньше чем занимают место кнопки в левой области.Толи расположить кнопки по вертикали (а не в ширину) и мах уменьшить их горизонтальный размер, или просто дать возможность перемещать границу до мин(например 1см) с наездом на кнопки
Почему это надо? При обработке многостраничного скана, предварительное быстрое листание страниц делается с контролем по иконкам правой области, а когда остановился хочется чтобы изображение в центре было мах размера (пункты полезная область и макет станицы). Т.е. параметры по правым кнопкам я установил, выбрал для всех(страниц) - открыл (передвинул границы) - на мах центральное окно и поехал листать материал. Конечно скролом масштаб в центральной области меняется(чтобы что-то разглядеть при работе с одной страницей) - но при быстром листании надо чтобы вся страница была видна мах возможного размера (при существующем у пользователя разрешении экрана- а оно может быть очень разным на каждом ПК) в центральной области

Всего записей: 1430 | Зарегистр. 02-08-2008 | Отправлено: 17:03 13-11-2009 | Исправлено: alpopo, 17:09 13-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ukpyr
так я и посмотрел)), а потом решил, что правильнее решить задачу копеечным скриптом.
 
Добавлено:
alpopo
А полноэкранный режим вас бы устроил? Про такой режим разговор уже велся и Tulon вроде бы не видел особых препятствий для этого.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 17:13 13-11-2009
ukpyr



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
непонятно почему и в СК и в СТ разрезание страницы сделано на основе резаков.
выделение страниц полигонами и разрезка по bounding rectangle более логичны, нет ?

Всего записей: 35 | Зарегистр. 13-01-2009 | Отправлено: 17:24 13-11-2009 | Исправлено: ukpyr, 17:25 13-11-2009
alpopo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А полноэкранный режим вас бы устроил
нет. При быстром листании многих страниц надо видеть все три области. В правой листаю по иконкам, при остановке на подозрительном листе смотрю его в центре, если необходимо исправляю опции в левой
области,корректирую конкретный лист, выбираю опции для последующих страниц и кручу просмотр дальше.

Всего записей: 1430 | Зарегистр. 02-08-2008 | Отправлено: 22:10 13-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
alpopo
Не знаю как насчет левой области - перекомпоновывать кнопки сложно, да и удобство из-за которого данная программа - супер, упадет,  а наезд на кнопки не особенно имеет смысл..
А вот насчет правой области - это вы ловко подметили - только вот проблемка - когда видны развороты страниц (и максимально нужна ширина рабочего пространства) в правой области тоже будут развороты.
А когда можно будет сузить полосу предпросмотра на эти 100 пикселей, уже работаем с отдельными страницами, и им ширина не так уж нужна.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 22:32 13-11-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000

Цитата:
Нет ли смысла интегрировать патч в основную программу?

В таком виде - нет.  Пользоваться этой функциональностью будут три человека, а понятность интерфейса ухудшится для всех.  В общем смотрите мой недавний пост, где я писал, что осторожно отношусь к таким фичам.
 
StanFreeWare

Цитата:
Поясните такой способ заливки зон, пожалуйста:
http://www.onlinedisk.ru/edit_image/266351/

Заливка ограничивается выходными размерами изображения.  В вашем случае это не очевидно, потому что логические поля (те, что выставлены на этапе "макет страницы") больше, чем поля на исходном изображении.  А вот если вы центрируете изображения в обоих вкладках - Output и Picture Zones, и попереключаетесь туда-сюда - все сразу станет понятно.
 
monday2000

Цитата:
1. Чтобы в СТ была возможность вывода после любой стадии обработки (как в СК).  

Я уже не раз писал, что думаю по этому поводу.  Не надо заставлять меня повторять это еще раз.
 
По поводу возможности СК и СТ открывать проекты друг друга: формат проекта СТ открыт - никто не мешает читать его из СК или любого другого софта.  Вот только файл проекта отражает внутренние концепции программы, и поэтому реализация загрузки чужого проекта - действительно ближе к фантастике, чем к реальности.  Другое дело какой-нибудь инструмент пост-обработки, например тот же DjVu кодер.  В этом случае он смог бы выудить кое-какую полезную информацию из проекта СТ, например расположение зон.

Цитата:
Естественно, что при выполнении "геометрически-изменяющих" операций сканобработки координаты зон меняются - и их нужно будет корректировать в таком "выходном" мета-файле (что СК уже давно делает).

СТ тоже это делает, точнее ему не приходится этого делать, так как зоны хранятся в координатах исходного изображения.  Проверьте сами - создайте зону, перейдите на Deskew, измените угол наклона - зона повернется вместе с изображением, хотя координаты в проектном файле останутся прежними.
 
StanFreeWare

Цитата:
В Гимпе мне гаусс показался более качественным. По крайней мере резульаты моих попыток сделать гаусса на базе найденных в сети алгоритмов не дали такого эффекта. Проверял на вышеупомянутой странице-убийце - так вот она после гимповского гаусса + бинаризации по порогу стала наиболее читаемой.  

В СТ есть реализация Гауссова размытия, портированная из Gimp.  Только для серого режима правда - не было необходимости делать для цветного.
 
alpopo
То, что вы просите - не актуально, потому что на любой стадии, начиная с Deskew, вы работаете с одиночными страницами.  Соответственно вас ограничивает уже не горизонтальный, а вертикальный размер.  Сделать тоже не просто.  Если тупо разрешить изменять размеры ленты миниатюр, то при ее малейшем сужении будет появляться горизонтальая полоса прокрутки.
 
ukpyr

Цитата:
непонятно почему и в СК и в СТ разрезание страницы сделано на основе резаков.
выделение страниц полигонами и разрезка по bounding rectangle более логичны, нет ?

А вы попробуйте автоматически вычислить этот полигон.  Да и вручную его править - тоже мало приятного.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 01:44 14-11-2009 | Исправлено: Tulon, 01:51 14-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
В вики-документации странички только вы имеете право создавать?
А то, может быть, пора завести страничку про зоны. Глядишь, общими усилиями и опишем инструмент.
Спасибо за Гаусса. Может быть тоже всуну в свой костыль-сепаратор.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 07:36 14-11-2009 | Исправлено: StanFreeWare, 08:32 14-11-2009
Olive77

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
загрузил несколько файлов, где СТ не справляется.
http://www.onlinedisk.ru/file/266970/
p0135, p0222, p0591 - неправильное определение полезной области, причем казалось бы (и хотелось бы), что на таких страницах ошибок происходить не должно.
 
p0003 - не только игнорируется номер страницы (и гориз. черта) при определении полезной области, но этот номер страницы удаляется на последнем этапе даже после правки пол. области.
 
Два предложения:
1) наверняка, всегда найдутся какие-нибудь страницы, где полез. область будет определена не правильно. Почему бы на этом этапе не ввести два режима. В одном показываются все страницы, в другом только те, где СТ "не уверен" в правильности выбора полез. области.
 
2) На этапе "output" также предоставить возможность переключаться между всеми страницами и только теми, которые содержат картинки/графики/гистограммы.

Всего записей: 1271 | Зарегистр. 26-12-2002 | Отправлено: 10:53 14-11-2009
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor
Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru