Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor

Модерирует : gyra, Maz

Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

   

Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Scan Tailor

 
Скриншот:

В разработке находится новая альтернатива СканКромсатору. Разработчик - ваш покорный слуга.
Задача программы - пост-обработка сырых сканов с целью их последующей сборки в PDF или DJVU.
 
Уже есть на что посмотреть, и возможно присоединиться к проекту. Проект с открытыми исходниками и кросс-платформенный (Windows + Linux).
 
По сравнению со СканКромсатором планируется большее удобство использования, большая интерактивность, но при этом не меньшая автоматизация процесса.
 
Сайт проекта: http://scantailor.sf.net     Скриншоты
 
Топик программы на форуме Натахаус       Англоязычный топик по ScanTailor

Документация
 
Документация (Wiki)              Зоны картинок в ScanTailor
 
Статья: Scan Tailor. Программа для обработки отсканированных книг
 
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
 
Методика использования STA совместно с Djvu Imager

Дистрибутивы
 
Версия СТ с функцией выпрямления искривленных строк (dewarp от Rob)
 
Патч от anagnost96 Вариант ScanTailor с этим патчем (STA)  Зеркало
 
ScanTailor для Mac
 
Последние изменения в дереве исходников - для сильно любопытных и владеющих английским.
Там же можно подписаться на rss/atom - для нетерпеливых.
 

Дополнительно
 
ST GreyText v1.0 Программа для генерации вывода как бы "Только текст (в режиме серого)" - для Scan Tailor от anagnost96.
 
LayerTailor Программа для разделения сканов (после "Смешанный режим) на foreground и background слои с целью последующего раздельного кодирования в djvu. Принцип работы: Все черные пиксели (яркость==0) переносятся в foreground, остальное - в background. Функция layer принимает на входе 3 параметра: исходное имя файла TIFF, имя файла для foreground и имя файла background. Автор: U235.
 
Предложения к anagnost96 по поводу улучшения его модификации СТ
Сравнение выпрямления искривленных строк в СТ и в BR

Статья О возможности альтернативы СканКромсатору     Полезные ссылки по теме топика
ArtScan - ещё одна программа для сканобработки.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 21:37 15-06-2008 | Исправлено: ndch, 22:37 12-02-2010
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare

Цитата:
2. ST_default_gauss.png - это djvu, получаемый программой DjVu Small после фильтрации изображений фильтром Гаусса,

В принципе, я мог бы встроить в DjVu Imager фильтр Гауссово размытие (из Гимпа) - для картинок. Но надо ли? Ведь в самом DjVu (насколько я знаю) есть аналогичное размытие - делается параметрами "ДЗФ" и "Качество задн. фона" в DjVu Imager.
 
Вот что ИМХО действительно надо - так это сделать регулирование яркости для картинок в DjVu Imager. А то они слишком тёмные в итоге получаются, как правило.
 
Добавлено:
Tulon

Цитата:
Тут  

Спасибо, посмотрю как-нибудь.

Цитата:
найдете, киньте ссылку в шапку, если вам не сложно.

Закинул.
 
Добавлено:
Tulon
Не могли бы Вы сделать экспорт мета-информации о зонах в текстовый файлик (XML предпочтительней)? (причём не просто авто-определённые зоны как сейчас, а авто-определённые зоны, подправленные пользователем - с удалёнными-добавленными частями). (Кстати, такая фича, по-видимому, устранит нужду в патченном СТ от anagnost96).
 
Это чтобы я мог подать вывод СТ на вход DjVu Imager.
 
Добавлено:
Сделал зеркало:  http://djvu-soft0001.nxt.ru/scantailor_0_9_7_1_anagnost96.rar (6,30 МБ)

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 09:36 27-11-2009 | Исправлено: monday2000, 10:36 27-11-2009
anagnost96

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000
 
Я так понимаю, информацию об автоопределенной зоне нельзя скинуть в текстовый файл, ибо она растровая. Именно поэтому и нужны картинки automask. А что касается пользовательских зон, то они и так записываются в файл проекта. Что тут еще выводить?

Всего записей: 132 | Зарегистр. 01-05-2009 | Отправлено: 10:45 27-11-2009
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
anagnost96

Цитата:
Я так понимаю, информацию об автоопределенной зоне нельзя скинуть в текстовый файл, ибо она растровая.

Ах, вон оно что. А я как-то сразу и не сообразил. Значит, Ваша патченная версия имеет смысл только в том случае, если пользователь делал свои пользовательские зоны, верно?
 
Тогда моя просьба к Tulon снимается (насчёт вывода координат зон в текстовый файлик).

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 11:30 27-11-2009
anagnost96

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Значит, Ваша патченная версия имеет смысл только в том случае, если пользователь делал свои пользовательские зоны, верно?

 
Нет, вывод неверен. Патч ведь не имеет дела ни с какими файлами, а просто вступает в действие в тот момент, когда внутри СТ текст отделен от картинок.

Всего записей: 132 | Зарегистр. 01-05-2009 | Отправлено: 11:48 27-11-2009
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
Могут ли авто-определённые формы быть произвольной формы? Или всегда прямоугольные? А круглые?
 
Добавлено:
anagnost96
Ну я имел в виду, что, если довольствоваться лишь авто-определёнными зонами, то Ваш патч не нужен - т.к. у нас есть чёрно-белые шаблоны - т.е. информация о зонах.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 12:01 27-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000
Я наблюдал автоопределенные зоны произвольной формы - например серое слово LINUX гиганскими буквами в заголовке книги.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 12:22 27-11-2009
anagnost96

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000
 

Цитата:
Могут ли авто-определённые формы быть произвольной формы? Или всегда прямоугольные? А круглые?  

 
Я ж говорю, они растровые. Т. е. такая зона представляет собой просто набор связанных пикселей, зачастую абсолютно неправильной формы.
 

Цитата:
Ну я имел в виду, что, если довольствоваться лишь авто-определёнными зонами, то Ваш патч не нужен - т.к. у нас есть чёрно-белые шаблоны - т.е. информация о зонах.

 
А, в этом смысле... Ну, если на то пошло, пользовательские зоны у нас тоже есть -- в виде набора вершин, указанных в файле проекта. Однако патч как-никак избавляет от необходимости писать постобработчик, который бы всё это задействовал, а также полностью исключает необходимость вывода картинок в разрешении 600 dpi (даже в качестве промежуточного этапа), за счет чего экономится место на диске.
 
К тому же патч удобен и в других отношениях. При выводе смешанных страниц в режиме "только текст" сразу же бросаются в глаза все косяки определения зон, причем их легко заметить даже на ленте предпросмотра. Кроме того, я теперь иногда использую зоны вместо отсутствующего ластика. Например, заключаю библиотечный штамп в зону, а потом выбираю режим вывода "только текст".

Всего записей: 132 | Зарегистр. 01-05-2009 | Отправлено: 12:30 27-11-2009 | Исправлено: anagnost96, 12:34 27-11-2009
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
anagnost96

Цитата:
Однако патч как-никак избавляет от необходимости писать постобработчик, который бы всё это задействовал

Да я, собственно, этим интересуюсь лишь для того, чтобы суметь загрузить СТ-авто-распознанные зоны в СК - с автоматическим преобразованием их в Piсture-зоны (при загрузке в СК).

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 13:56 27-11-2009 | Исправлено: monday2000, 13:58 27-11-2009
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
anagnost96

Цитата:
Т. е. такая зона представляет собой просто набор связанных пикселей, зачастую абсолютно неправильной формы.  

Да, так и есть. То есть я сейчас одну книжку попробовал СканТейлором обработать - и возникли авто-зоны самой прихотливой формы.
 
Добавлено:

Цитата:
суметь загрузить СТ-авто-распознанные зоны в СК

Это вынужденная мера, т.к. в СТ нет возможности вывода после произвольной стадии (ИМХО на сегодня это единственный принциальный порок СТ, из-за чего, скажем, мне просто ничего не остаётся, кроме как рекомендовать всем новичкам к использованию именно СК, а не СТ, несмотря на явно бОльшую эргономичность интерфейса СТ).

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 11:16 28-11-2009
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
anagnost96

Цитата:
К тому же патч удобен и в других отношениях.

Я, разумеется, нисколько не возражаю против Вашего патча, просто, если можно обойтись основной версией - зачем мучаться и делать патчи.
 
Добавлено:
А не могли бы Вы сделать другой патч СТ - "пропуск любой стадии обработки (по выбору)"? Вот это ИМХО было бы чрезвычайно полезно. Например, напротив каждой стадии (сразу после номера) сделать чекбокс (делать-не делать) и чтобы по-умолчанию все флажки стояли.
 
Добавлено:
Например, меня интересует возможность загрузить в СТ (уже порезанные постранично в СК) сырые сканы, сделать Deskew, и авто-распознать зоны - и перегрузить всё это дело в СК (чтобы авто-распознанные зоны при перегрузке "превратились" в Picture-зоны СК) и докромсать сканы финишно уже в СК.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 13:17 28-11-2009 | Исправлено: monday2000, 13:18 28-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
Хочу на главной странице wiki сделать топик "Советы по созданию DjVu на бесплатном софте из обработанных ST сканов".
Как вы считаете, не будет ли такой топик избыточным - ведь в сети уже есть масса документации на эту тему (с другой стороны, 99% ее заточена под SK). Особенно смущает тот факт, что ради объективности придется описывать преимущества подхода раздельного вывода текст-изображения через патч anagnost96, что на офстранице непропатченной программы будет выглядеть достаточно щекотливо.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 12:26 29-11-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare
Не возражаю.  Страницу предлагаю назвать "Создание DjVu без использования коммерческого софта".

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 13:01 29-11-2009
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare
Раздельный вывод текста и изображений можно делать и с помощью непатченой версии + простого bat-скрипта и Graphick/ImageMagick'а. Минус в том, полигональные зоны не будут обрабатываться (конечно возможно извлекать координаты вершин из файла проекта и генерировать растровые полигональные зоны с помощью IM, но это уже сложнее).  Думаю, что с помощью IM возможно сделать автоматическое определение наличия заднего слоя, для того, чтобы не удалять "белые"  файлы вручную.

Всего записей: 921 | Зарегистр. 14-12-2005 | Отправлено: 13:02 29-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235
Да, я уже прочитал про батник на инфанате. Без ручных зон - не вариант.  
А вот необходимость в нескольких прогонах патченного ST людей там тоже напрягает.. Но без значительных изменений интерфейса этого уже не сделать (я имею в виду под разными dpi)..
 
Добавлено:
Tulon
Начал свой проектик на SF по автоматизации создания bookmark-оглавления. Не найду как вставить скриншот и как начать wiki-документацию..

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 13:36 29-11-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare
Скриншоты:
Develop (не самый верхний) -> Develop (он же) -> Screenshots
 
Активация wiki:
Develop -> Project Admin -> Feature Settings -> Available Features -> [x] MediaWiki
 
Адрес wiki будет такой: http://sourceforge.net/apps/mediawiki/djvubookmarker/

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 14:11 29-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
Благодарю. Все получилось.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 18:28 29-11-2009
ukpyr



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А не могли бы Вы сделать другой патч СТ - "пропуск любой стадии обработки (по выбору)"?
имхо жесткое ограничение обработки - плохая идея, нужно как минимум дать пользователю возможность выбрать последовательность действий, индивидуальные настройки фильтров, и возможность выбрать слои/зоны для обработки (на основе редактируемых атрибутов/свойств и т.д).
 

Цитата:
Не могли бы Вы сделать экспорт мета-информации о зонах в текстовый файлик (XML предпочтительней)?
пора сделать свой открытый формат хранения сканов (на основе XML или JSON), главное чтобы легко можно было манипулировать объектами страниц/слоев, там же хранить зоны, распознанный текст и т.д. если для граф.слоев использовать стандартное сжатие (png/jpeg), такой файл может отображаться прямо в бровсере без дополнительных программ (тем более если начнут массово внедрять поддержку Jpeg2000).

Всего записей: 35 | Зарегистр. 13-01-2009 | Отправлено: 19:41 29-11-2009 | Исправлено: ukpyr, 19:45 29-11-2009
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare

Цитата:
Начал свой проектик на SF по автоматизации создания bookmark-оглавления.

А как пользоваться Вашей программой? Или её нужно предварительно скомпилировать? Я не нашёл там, какой экзешник запускать.

Цитата:
Раздельный вывод текста и изображений можно делать и с помощью непатченой версии + простого bat-скрипта и Graphick/ImageMagick'а.

ИХМО Tulon имело бы смысл сделать такую возможность в официальной версии СТ. В СК же есть такое, так почему бы и в СТ это не сделать. Естественно, на выходе авто-распознанные зоны должны соответствующим образом комбинироваться с ручными зонами.
 
Если такая функциональность появится в СТ, то я быстренько подправлю DjVu Imager и DjVu Small, чтобы они могли напрямую воспринимать имена файлов разделённого вывода из СТ (в какой бы нотации имён они ни были).
ukpyr

Цитата:
пора сделать свой открытый формат хранения сканов

Жаль, что bolega наверняка не поддержит это - у него вон всё в ini-файлах хранится, т.е. все эти его task-файлы - не разберёшь, что там за данные внутри. XML для хранения мета-данных используют СТ и WinDjView. Ну, и я мог бы - если возникнет нужда.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 23:58 29-11-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Выпустил версию 0.9.7.2
Брать на офстайте.  Эта версия ничем не отличается от 0.9.7.2rc, которую я тут выкладывал некоторое время назад.
 
monday2000

Цитата:
Раздельный вывод текста и изображений можно делать и с помощью непатченой версии + простого bat-скрипта и Graphick/ImageMagick'а.
 
ИХМО Tulon имело бы смысл сделать такую возможность в официальной версии СТ. В СК же есть такое, так почему бы и в СТ это не сделать. Естественно, на выходе авто-распознанные зоны должны соответствующим образом комбинироваться с ручными зонами.  

Меня бы устроил вариант с дополнительными слоями в ST'шных TIFF файлах.  По моему FineReader делает что-то похожее.  Размер TIFF'ов возрастет не сильно - посмотрите хотя бы на размер automask файлов.  Скорость тоже не должна особо пострадать - думаю на пару процентов не больше.  С аргументом о желательности вывода картинок в более низком разрешении - не соглашусь.  Понижение разрешения для кодирования картинок - это задача программы кодирования но никак не пост-обработки.  Ну а если предпочитаете не трогать сам кодировщик, можно и в оболочке (DjVu Small) реализовать масштабирование.  Костыль в этом случае будет поменьше, и не у меня
Что касается опасений о потере качества при масштабировании, предлагаю провести такой эксперимент:
В ST расчет маски делается всегда в 300 DPI не зависимо от разрешения вывода - это для производительности.  Так вот сравните вывод в 300 и в 600 DPI одной и той же страницы.  В одном случае маска будет отмасштабирована, в другом - нет.  И потом попытайтесь найти разницу на границах областей картинок, и аргументированно, со скриншотами, показать что вариант с 600 DPI хуже.
 
Добавлено:
Вариант-то устроил бы, но я в любом случае занят сейчас другими вещами.  Так что либо кто-то другой реализует это, либо ждать придется неопределенно долгое время.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 01:53 30-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000

Цитата:
Я не нашёл там, какой экзешник запускать

Все описано здесь:

Цитата:
Адрес wiki будет такой: http://sourceforge.net/apps/mediawiki/djvubookmarker/

 
Tulon
 
Возможно потенциальная проблема со слоями TIF будет в том, что формат не даст сохранить ч/б слой в G4FAX, что может значительно увеличить размер результирующих файлов.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 06:43 30-11-2009 | Исправлено: StanFreeWare, 07:09 30-11-2009
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor
Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru