Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor

Модерирует : gyra, Maz

Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

   

Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Scan Tailor

 
Скриншот:

В разработке находится новая альтернатива СканКромсатору. Разработчик - ваш покорный слуга.
Задача программы - пост-обработка сырых сканов с целью их последующей сборки в PDF или DJVU.
 
Уже есть на что посмотреть, и возможно присоединиться к проекту. Проект с открытыми исходниками и кросс-платформенный (Windows + Linux).
 
По сравнению со СканКромсатором планируется большее удобство использования, большая интерактивность, но при этом не меньшая автоматизация процесса.
 
Сайт проекта: http://scantailor.sf.net     Скриншоты
 
Топик программы на форуме Натахаус       Англоязычный топик по ScanTailor

Документация
 
Документация (Wiki)              Зоны картинок в ScanTailor
 
Статья: Scan Tailor. Программа для обработки отсканированных книг
 
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
 
Методика использования STA совместно с Djvu Imager

Дистрибутивы
 
Версия СТ с функцией выпрямления искривленных строк (dewarp от Rob)
 
Патч от anagnost96 Вариант ScanTailor с этим патчем (STA)  Зеркало
 
ScanTailor для Mac
 
Последние изменения в дереве исходников - для сильно любопытных и владеющих английским.
Там же можно подписаться на rss/atom - для нетерпеливых.
 

Дополнительно
 
ST GreyText v1.0 Программа для генерации вывода как бы "Только текст (в режиме серого)" - для Scan Tailor от anagnost96.
 
LayerTailor Программа для разделения сканов (после "Смешанный режим) на foreground и background слои с целью последующего раздельного кодирования в djvu. Принцип работы: Все черные пиксели (яркость==0) переносятся в foreground, остальное - в background. Функция layer принимает на входе 3 параметра: исходное имя файла TIFF, имя файла для foreground и имя файла background. Автор: U235.
 
Предложения к anagnost96 по поводу улучшения его модификации СТ
Сравнение выпрямления искривленных строк в СТ и в BR

Статья О возможности альтернативы СканКромсатору     Полезные ссылки по теме топика
ArtScan - ещё одна программа для сканобработки.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 21:37 15-06-2008 | Исправлено: ndch, 22:37 12-02-2010
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon

Цитата:
Кстати купил новый ноут, так что с визуальными проблемами скоро разберусь.

Да уж пока эти E-Ink читалки разовьются до нормального размера-качества, тут ноги протянешь - т.е. в плане чтения DjVu-книг. Одна надежда - купить ноутбук и там их и читать... Жаль только, что клавиатуру там не отстегнёшь.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 09:08 07-04-2009
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Уважаемые, быть может добавить в шапку
RSS ленты:
 
http://scantailor.wiki.sourceforge.net/space/xmla?v=rss_2_0
SourceForge : scantailor - all changes
Всяческие изменения на сайте, в частности:
scantailor : Сборка из исходников под Linux
 
 
http://sourceforge.net/export/rss2_keepsake.php?group_id=227253
SourceForge.net - Recent activity for project: scantailor
Всяческие изменения бета-версий, в частности:
jart committed revision 328 to the Scan Tailor SVN repository, changing 3 files
 
 
 
http://sourceforge.net/export/rss2_projfiles.php?group_id=227253
Информация о релизах:
SourceForge.net: Project File Releases: Scan Tailor

Всего записей: 6467 | Зарегистр. 31-08-2008 | Отправлено: 09:55 11-04-2009
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Вопрос почему бы не сделать ST c "shared dll" ?
 
http://www.smlabs.net/tsmuxer.html
3mb static dll
300k shared dll

Всего записей: 6467 | Зарегистр. 31-08-2008 | Отправлено: 16:14 11-04-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Уважаемые, быть может добавить в шапку  
 RSS ленты:  

Для конечных пользователей может быть интересна разве что последняя лента - информация о релизах.  Кстати SourceForge может и по мылу оповещать о них.  Если зайти на сайт, оттуда на SourceForge Project Page -> Download -> Browse All Packages, то там иконки с конвертом - это как раз подписка на оповещение о релизах.
 

Цитата:
Вопрос почему бы не сделать ST c "shared dll" ?  

 То есть разделить пакет на две части - сама программа и библиотеки.  Экономия будет только при обновлениях, а гемороя значительно прибавится - и пользователям, и мне.  Например когда я захочу обновить какую-либо из этих библиотек, то придется писать на странице закачки: "если вы скачивали пакет с dll'ками до такого-то числа", значит вам нужно их обновить".  Кстати в первый раз качать придется больше, чем сейчас - поскольку исполнительный файл + dll'ки будут всяко больше, чем статически скомпилированный исполнительный файл.  В общем овчинка выделки не стоит.  Что такое два-три лишних мега по сравнению с потерей удобства?

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 02:48 12-04-2009
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
При всём моём уважении-напишите линию партии, дабы не было таких вопросов.
Может как помочь ?

Всего записей: 6467 | Зарегистр. 31-08-2008 | Отправлено: 14:15 12-04-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
При всём моём уважении-напишите линию партии, дабы не было таких вопросов.  
 Может как помочь ?

Задавание вопросов - это как раз способ узнать линию партии.
 
А помочь всегда можно найти чем.  Можно улучшить или нарисовать новую иконку к программе - кстати в ближайших сборках она уже будет нормально прицепляться к экзешнику.  Можно улучшить документацию (на wiki можно вносить изменения без регистрации), можно сделать перевод на другой язык (пока есть английский и русский, скоро возможно будет немецкий).  В конце концов можно пропиарить программу на своем блоге или где-нибудь еще.  Больше известность -> больше пользователей -> больше вероятность найти еще программистов для участия в проекте.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 18:02 12-04-2009
iit512

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
так может быть, тогда сохранять все же файлы без подстроки "pic"

Прошу прощения, это был даже не глюк DjVu Small, а сугубо мой личный глюк.
===
Может, кому-нибудь будет полезно...
Сейчас работаю с исчерканной, потрепанной, цветной (и рисунки, и фото) книгой. Результаты хороши, но только если выводить и в цветном, и в смешанном режиме, а потом в фотошопе совмещать куски.
Еще наблюлось, что при "удалять пятна" куски текста пропадают даже при адекватной установке разрешения. Пришлось эту галку отключить, а пятна удалять вручную.

Всего записей: 177 | Зарегистр. 18-05-2005 | Отправлено: 22:25 12-04-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Сейчас работаю с исчерканной, потрепанной, цветной (и рисунки, и фото) книгой. Результаты хороши, но только если выводить и в цветном, и в смешанном режиме, а потом в фотошопе совмещать куски.  

Тут поможет ручное выделение картинок, которое я еще не начал делать, хотя задача приоритетная.  Уже почти сделал удаление / добавление файлов в проект, а потом как раз займусь ручным выделением картинок.
Кстати вместо фотошопа можно наверное приспособить СК.  В СТ вывести в режиме Цветной / Серый и скормить это Кромсатору.  Правда сглаживания букв не будет, то есть будет, но СК'шное.
 

Цитата:
Еще наблюлось, что при "удалять пятна" куски текста пропадают даже при адекватной установке разрешения. Пришлось эту галку отключить, а пятна удалять вручную.  

Давайте пример.  Это надо сказать довольно странно.  Куски текста должны были сохраниться и на основании размера, и на основании близости к другим буквам.  Кстати какая у вас версия?

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 23:51 12-04-2009
iit512

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Тут поможет ручное выделение картинок, которое я еще не начал делать, хотя задача приоритетная.  Уже почти сделал удаление / добавление файлов в проект, а потом как раз займусь ручным выделением картинок.  

ЗдОрово! Спасибо!

Цитата:
Давайте пример.  Это надо сказать довольно странно.  Куски текста должны были сохраниться и на основании размера, и на основании близости к другим буквам.  Кстати какая у вас версия?
 

Версия Rev.326. Что касается примеров, то я уже сделал книгу (хорошо, кстати, получилась!), а исходные сканы, к сожалению, стер. Я с этим эффектом почему-то часто сталкиваюсь (некачественные сканы?), так что, как обнаружу в следующий раз, сохраню файлы.
Еще интересная штука: в некоторых файлах было (ошибочно) указано разрешение 300. У другой части файлов разрешение указано не было. В момент импорта ST попросил разрешение, я указал 150 для _всех_ файлов, однако у тех, у кого было 300, оно так и попало в проект. Когда это обнаружил (на этапе макета страницы, как водится), пришлось руками редактировать файл проекта. Хорошо, что он текстовый!

Всего записей: 177 | Зарегистр. 18-05-2005 | Отправлено: 09:51 13-04-2009 | Исправлено: iit512, 09:53 13-04-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
В момент импорта ST попросил разрешение, я указал 150 для _всех_ файлов, однако у тех, у кого было 300, оно так и попало в проект. Когда это обнаружил (на этапе макета страницы, как водится), пришлось руками редактировать файл проекта. Хорошо, что он текстовый!

Это потому, что вы разрешение указывали во вкладке "Нужно исправить", а не "Все страницы".  Эти вкладки выглядят идентично, и в каждой есть узел "Все страницы".  Мне самому не нравиться что "Все страницы" - это и имя вкладки, и корневой узел в обоих вкладках, но ничего лучше придумать не удалось.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 12:00 13-04-2009
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
iit512
http://apps.sourceforge.net/phpbb/scantailor/viewtopic.php?f=4&t=1&sid=decdefa21d408f7ad7b64d3136066a3a

Всего записей: 6467 | Зарегистр. 31-08-2008 | Отправлено: 12:18 13-04-2009
iit512

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Спасибо!

Всего записей: 177 | Зарегистр. 18-05-2005 | Отправлено: 17:43 13-04-2009
ukpyr



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
а можно реализовать представление страницы в виде слоев (типа Djvu) c возможностью независимого редактирования ?
плюс добавить возможность скриптования для автоматизации обработки.
чтобы можно было открыть Djvu файл, отредактировать фон (убрать пятна), передний план (сделать despeckle), и отредактировать текст, запаковать обратно с минимальными потерями.

Всего записей: 35 | Зарегистр. 13-01-2009 | Отправлено: 21:42 13-04-2009 | Исправлено: ukpyr, 21:49 13-04-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ukpyr

Цитата:
а можно реализовать представление страницы в виде слоев (типа Djvu) c возможностью независимого редактирования ?  
 плюс добавить возможность скриптования для автоматизации обработки.

Очень абстрактные у вас запросы.  Вы бы поконкретнее излагали свои пожелания.  По первому пункту еще можно догадаться, чего вы хотите - вывода графики и текста в разных файлах.  Насчет независимого редактирования - что именно вы хотите редактировать?
 
По второму пункту все еще туманнее.  Какие именно задачи вы хотите решать с помощью скриптов?

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 21:54 13-04-2009
ukpyr



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ладно, попробую набросать на PyQt4 как я вижу это...

Цитата:
Очень абстрактные у вас запросы. Вы бы поконкретнее излагали свои пожелания.

идея такая - возможность разделить страницу на слои - в одном - картинки (в цвете или сером), в другом - текст (чб или серый), в третьем - текстовый слой. Разделить можно вручную выделением или автоматически фильтрами. При загрузке DJVU эти слои уже присутствуют. К каждому слою при обработке можно применить разные операции и фильтры.
 
Далее - система плагинов (на Питоне реализуется очень просто). Представляется в виде дерева :

Код:
 
Plugins
    Scan
        .............
    OCR
        Engine1
        Engine2
        ...............
    Filters
        .............
    Import
        .............
    Export
        .............
 

Из Питона доступны граф.библиотеки PIL, встроенные средства Qt и интерфейсы к ImageMagick, VIPS и другие.
Пользователь выбирает действие в панели плагинов, настраивает его параметры, видит результат.
Каждое действие отображается в консоли скриптов в виде операции (например plugins.filters.brightness(image, level, ....). Из этих действий можно собрать скрипт и применить ко всем страницам, или сохранить и т.д. (как в XnView), но это к тому же будет полноценной Питон-программой, в которой можно будет делать что угодно.

Всего записей: 35 | Зарегистр. 13-01-2009 | Отправлено: 23:02 14-04-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ukpyr
Вы описали ни что иное, как графический редактор.  Единственное, чего нет в существующих редакторах - это сегментации на текст и графику.  Гораздо проще и правильнее будет написать плагин сегментации к какому-нибудь графическому редактору, чем преваращать СТ в графический редактор.  У СТ совсем другая концепция: набор шагов -> результат.  Вы предлагаете концепцию "Вот вам набор операций - делайте что хотите".  В общем ваши предложения не вписываются в концепцию СТ.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 23:31 14-04-2009
ukpyr



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Вы предлагаете концепцию "Вот вам набор операций - делайте что хотите".  В общем ваши предложения не вписываются в концепцию СТ.

концепция та же ( http://pic.ipicture.ru/uploads/090126/5kOaoD2OOq.jpg ), я описал только только то чего мне не хватает - расширить количество операций над изображениями, возможность правильного импорта и редактирования Djvu, встроенный OCR (можно прикрутить cuneiform,tesseract,ocropus), запоминание и применение последовательности действий к страницам и т.д. Свободного граф.редактора с удобной работой с последовательностью изображений и фильтрами специально для обработки сканов я не нашел. Гимп - монстрообразен и неудобен. Наиболее близок к идеалу - XnView, но все убивает его лицензия и непонятки с системой плагинов (нет документации, писал автору - он прислал невнятный ответ и некомментированный исходник на С).

Всего записей: 35 | Зарегистр. 13-01-2009 | Отправлено: 00:06 15-04-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ukpyr

Цитата:
я описал только только то чего мне не хватает - расширить количество операций над изображениями, возможность правильного импорта и редактирования Djvu, встроенный OCR (можно прикрутить cuneiform,tesseract,ocropus), запоминание и применение последовательности действий к страницам и т.д.

Звучит примерно как: "Я прошу только самое необходимое: виллу на Мальдивах, личный самолет, яхту ...".
Вы где-нибудь видели OCR и графический редактор в одной программе?  А все потому, что эти задачи предполагают разные пользовательские интерфейсы.  Если отбросить OCR, то вы хотите графического редактора с пакетной обработкой и импортом DJVU.  Работа со слоями - явный признак графического редактора.  Встраивать такое в СТ - скрещивать ежа с ужом.  СТ вообще не задумывался как инструмент для правки готовых DJVU файлов.  СТ задумывался как автоматическая система преобразования сырых сканов в состояние, пригодное для сборки DJVU файов.  Ручные операции, согласно задумке, были нужны для исправления ошибок автоматики и не более того.  Согласно концепции СТ, ручные операции - это иногда необходимое зло, которого надо стараться избегать.  То, что вы предлагаете - это как раз набор ручных операций, пусть и с возможностью их запуска в пакетном режиме.
Кстати каких имеено операций над изображениями вам нехватает?

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 00:44 15-04-2009
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
У меня возникла такая идея:
 
Может быть, Вам имеет смысл по ходу развития программы вычленять её ключевые виды функциональности и оформлять их как отдельные модули? (А СТ чтобы стал впоследствии на этих модулях базироваться - типа как на dll-библиотеках).
 
Мне кажется, что только так можно привлечь сторонних программистов к разработке. Сами посудите - вряд ли кто-то из программистов начнёт рыться в Вашей программе и улучшать её. Каждый же норовит написать свою программу.
 
А вот если будут некие программные модули - тогда, быть может, кто-то возьмёт такой модуль, и вставит его в некую свою программу - а потом, быть может, как-то и улучшит данный модуль - поскольку это будет требоваться для его программы.
 
Например, именно так была создана библиотека FreeImage - один человек стал писать программку для работы с графикой - а потом выделил часть её функциональности в отдельную dll-библиотеку, задокументировал - и народ стал активно это дело развивать, и за 6 лет получился весьма приличный и удобный продукт (FreeImage).
 
Путь, конечно, непростой - но ИМХО наиболее верный - это если ставить цель привлечь разработчиков к созданию сканобрабатывающих программ.
 
Я не призываю Вас начать это делать немедленно. Просто задумайтесь о таком варианте и имейте его в виду.
 
Например, можно вычленить в такой модуль все алгоритмы. Ещё один модуль - работа с TIF под Qt.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 10:24 15-04-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Думаю автор FreeImage не просто так решил выделить функции работы с графикой в отдельную библиотеку, а по какому-то поводу.  Может быть начал еще один проект, где нужна была работа с графикой, может захотелось на работе заюзать свой старый код.  Затевать такое дело без повода - работа в холостую.  Пользы ноль - только трудозатраты.  Надежда на то, что библиотеку будут улучшать другие люди - весьма призрачна.  Кому такая библиотека может понадобиться?  Это не библиотека обработки изображений общего назначения - там есть только то, что мне было нужно.  Видел я пару подобных библиотек - вот например.  Тоже отпочковалась от кагого-то проекта.  Никто кроме авторов ей похоже не занимается, и никому она больше не нужна.  Впрочем один алгоритм я взял как раз оттуда.  Такая же судьба скорее всего ожидала бы и СТшную библиотеку.  Как я уже говорил, даже имея реализации всех нужных алгоритмов - сделать программу сканобработки - все равно очень сложная и объемная задача.  Плюс ко всему 95% программистов просто не обладают для этого достаточной квалификацией, хотя отчета себе в этом не отдают.  Тут нужны и знания и опыт.  Кстати реакция типа "а что тут сложного" как раз является хорошим показателем отсутствия опыта.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 00:00 16-04-2009
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor
Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru