Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor

Модерирует : gyra, Maz

Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

   

Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Scan Tailor

 
Скриншот:

В разработке находится новая альтернатива СканКромсатору. Разработчик - ваш покорный слуга.
Задача программы - пост-обработка сырых сканов с целью их последующей сборки в PDF или DJVU.
 
Уже есть на что посмотреть, и возможно присоединиться к проекту. Проект с открытыми исходниками и кросс-платформенный (Windows + Linux).
 
По сравнению со СканКромсатором планируется большее удобство использования, большая интерактивность, но при этом не меньшая автоматизация процесса.
 
Сайт проекта: http://scantailor.sf.net     Скриншоты
 
Топик программы на форуме Натахаус       Англоязычный топик по ScanTailor

Документация
 
Документация (Wiki)              Зоны картинок в ScanTailor
 
Статья: Scan Tailor. Программа для обработки отсканированных книг
 
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
 
Методика использования STA совместно с Djvu Imager

Дистрибутивы
 
Версия СТ с функцией выпрямления искривленных строк (dewarp от Rob)
 
Патч от anagnost96 Вариант ScanTailor с этим патчем (STA)  Зеркало
 
ScanTailor для Mac
 
Последние изменения в дереве исходников - для сильно любопытных и владеющих английским.
Там же можно подписаться на rss/atom - для нетерпеливых.
 

Дополнительно
 
ST GreyText v1.0 Программа для генерации вывода как бы "Только текст (в режиме серого)" - для Scan Tailor от anagnost96.
 
LayerTailor Программа для разделения сканов (после "Смешанный режим) на foreground и background слои с целью последующего раздельного кодирования в djvu. Принцип работы: Все черные пиксели (яркость==0) переносятся в foreground, остальное - в background. Функция layer принимает на входе 3 параметра: исходное имя файла TIFF, имя файла для foreground и имя файла background. Автор: U235.
 
Предложения к anagnost96 по поводу улучшения его модификации СТ
Сравнение выпрямления искривленных строк в СТ и в BR

Статья О возможности альтернативы СканКромсатору     Полезные ссылки по теме топика
ArtScan - ещё одна программа для сканобработки.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 21:37 15-06-2008 | Исправлено: ndch, 22:37 12-02-2010
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Вот примеры сканов (точнее декодированный материал), где вычищается львиная доля точек.

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 09:48 03-03-2009
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Трудно представить как ЭТО можно облагородить даже вручную, без распознавания символов.  
Распознавание символов, из исходного рисунка, высотой 9 пикселей тоже сложно представить. УЖОС!!!
 
Добавлено:
Ещё очень хочется удаление растра оффсетной печати на автомате (при неухудшении черного текста)
Интересно услышать мнение автора, модет ли это являться  частью программы или нет.
Я к тому что бинаризация - по сути тоже граф. обработка.

Всего записей: 7016 | Зарегистр. 31-08-2008 | Отправлено: 18:06 03-03-2009 | Исправлено: ndch, 18:10 03-03-2009
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
Просто интересно, работа над появлением зон началась? В ближайшей перспективе стоит ждать? А то книг накопилось, где только с такими зонами есть смысл работать. Вот и интересны перспективы...

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 10:05 04-03-2009 | Исправлено: denver 22, 11:42 04-03-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ndch

Цитата:
Ещё очень хочется удаление растра оффсетной печати на автомате (при неухудшении черного текста)

А зачем его удалять?  Это ведь полезный контент.
 
denver 22

Цитата:
Просто интересно, работа над появлением зон началась? В ближайшей перспективе стоит ждать? А то книг накопилось, где только с такими зонами есть смысл работать. Вот и интересны перспективы...

Не начинал еще.  По рабочим дням времени совсем мало - только до работы больше часа в один конец добираюсь.  А на работе все то же самое - C++, Qt, графика, многопоточность.  Это как геймера посадить играть в любимые игры на весь рабочий день - врядли он еще и дома будет в них играть.
Пока занимаюсь всякими мелочами - сделал ассоциацию с файлами .ScanTailor, добавил иконку в исполнительный файл, запоминаю размер главного окна при выходе.
Жалко, что так никто из прграммистов не присоединилcя к проекту.  Оно конечно понятно - хороших программистов вообще мало.  Из них тех, кто готов работать за бесплатно и у кого есть на это время - еще меньше, а из них интересуются книгосканированием - единицы.  И мало кто из них знает про ST - например англоязычных  связыавалось со мной всего три человека.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 00:52 05-03-2009 | Исправлено: Tulon, 00:56 05-03-2009
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ещё очень хочется удаление растра оффсетной печати на автомате (при неухудшении черного текста)
В смысле descreening!!!

Всего записей: 7016 | Зарегистр. 31-08-2008 | Отправлено: 07:08 05-03-2009
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
сделал ассоциацию с файлами .ScanTailor, добавил иконку в исполнительный файл

Ассоциацию я уже оценил. Наконец-то! . Никаких иконок не разглядел. Может что-то не так понял.

Цитата:
Жалко, что так никто из программистов не присоединилcя к проекту.

Может со временем и присоединятся. Сейчас проект в значительной степени готовый к применению. Авось и заинтересуются его расширением...

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 09:25 05-03-2009
Arcand

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
Цитата:
Цитата:Ещё очень хочется удаление растра оффсетной печати на автомате (при неухудшении черного текста)  
 
А зачем его удалять?  Это ведь полезный контент.
Кажется я понял о чем речь. Во как замутили, что сразу и не поймешь о чем речь .
Как я понял, имеется ввиду удаление растра (в смысле размытия) на картинках. Я обычно удаляю растр медианой.

Всего записей: 2496 | Зарегистр. 28-05-2004 | Отправлено: 12:22 05-03-2009
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
Можете реализовать Drag-and-drop для внесения файлов в окно "Файлы в проекте" на этапе формирования Нового проекта?
 
Добавлено:
Tulon
Вот ТАКОЕ получилось у меня в режиме Смешанный.

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 15:06 05-03-2009
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Arcand, извиняюсь за трудную формулировку, есть у меня с этим сложности.
 
Хочется удаления полиграфического растра из сканированных печатных изображений!
http://www.sattva.ru/soft/descreen/descreen.htm
 
Хотя об этом уже писали.

Всего записей: 7016 | Зарегистр. 31-08-2008 | Отправлено: 19:18 05-03-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Ассоциацию я уже оценил. Наконец-то! . Никаких иконок не разглядел. Может что-то не так понял.  

Я вслепую делал, винды до сих пор нету.  Может кто из программеров разберется, в чем там дело.
 

Цитата:
Как я понял, имеется ввиду удаление растра (в смысле размытия) на картинках. Я обычно удаляю растр медианой.  

А надо ли его вообще удалять?  В просмоторщиках есть антиалиазинг, который маскирует растр, да и кодирование в DJVU должно по идее уменьшать этот самый растр.
 

Цитата:
Вот ТАКОЕ получилось у меня в режиме Смешанный.

Пока нет ручного выделения картинок, такие случаи надо выводить в режиме Серый / Цветной.  Кстати светло-голубой фон картинки стал черным, потому что ничего темнее за пределами определившейся зоны картинки - не было.  А почему фон картинки не определился как ее часть - потому что это сложный случай.  Не надо ждать чудес от алгоритмов компьютерного зрения, к тому же реализованных не экспертами в этой области.
 
Добавлено:

Цитата:
Можете реализовать Drag-and-drop для внесения файлов в окно "Файлы в проекте" на этапе формирования Нового проекта?  

С точки зрения реализации это должно быть несложно.  Такие задачи хорошо подходят для желающих присоединиться к проекту - это намек.  От меня в ближайшее время этого ждать не стоит.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 00:55 06-03-2009
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
вслепую делал, винды до сих пор нету.  Может кто из программеров разберется, в чем там дело.  

Если речь идет о какой-то "оригинальной" иконке, то её точно нет. А иконкой сейчас служит прямоугольник с белой заливкой. Он вроде и раньше был... только у программы. А теперь и у файлов проектов.
Иконка программы, конечно, вещь приятная, но ИМХО не горит.

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 06:17 06-03-2009
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
denver 22

Цитата:
Вот ТАКОЕ получилось у меня в режиме Смешанный.

Это произошло, из-за того, что ST в большей степени рассчитан на исходные сканы, а не на пережатые djvu.  
Если бы использовались исходные сканы, то думаю , такое не случилось бы из-за наличия растра на фоне.

Всего записей: 983 | Зарегистр. 14-12-2005 | Отправлено: 12:57 06-03-2009
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235
Об исходных сканах не спорю. Надеюсь фраза "ST в большей степени рассчитан" работает дополнительно с "пока".  
Потому как облагораживание существующих djvu-книг - явление не редкое. Мне даже не по профессии попадаются часто книги, которые и отсканированы как попало, и так же закодированы. И что мне? Мириться с этим?
Собственно, приоритетные планы развития ST во многом дадут в этом плане дополнительную гибкость.

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 14:42 06-03-2009
dma200899

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
В последней сборке
когда иду на самую высокую/широкую страницу лента на нее не переходит,
вне зависмости от того в каком положении кнопка сверху ленты.

Всего записей: 126 | Зарегистр. 29-06-2008 | Отправлено: 23:01 06-03-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Изначально я вообще не думал, что ST будут использовать для облагораживания плохо сделанных книг.  С ними как раз больше всего проблем.  Хотя в данном конкретном случае исходный растр мог и не помочь - слишком светлый там фон у картинки.
 
Насчет иконки - предполагалась именно особая иконка.  Гляну еще раз, и если в глаза проблема не броситься, то придется ждать, пока либо я новый ноут не куплю, либо кто другой найдет проблему.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 23:12 06-03-2009
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Еще вишес! для режима смешаный
В этом режиме по сути формируется 2 изображения
1. 1bit bw
2. gray/color
 
ООООчень хочется получить два файла:
1. 1bit bw
2. gray/color
 
Для чего ?  
ООООчень хочется попробывать сделать двухслойный pdf
1слой. 1bit bw-jbig2
2слой. gray/color-jpeg2000
 
Может и ошибаюсь, но искал-читал и сделал вывод что Акробат просто не умеет делить на  два таких слоя. Если подсунуть вручную - вероятно получится.
 
Очень надеюсь...

Всего записей: 7016 | Зарегистр. 31-08-2008 | Отправлено: 01:05 07-03-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ndch

Цитата:
ООООчень хочется попробывать сделать двухслойный pdf
1слой. 1bit bw-jbig2
2слой. gray/color-jpeg2000  

Это можно было бы сделать для экспериментов, но не более того.  Даже если эксперименты покажут хорошие результаты, сборку pdf я реализовывать не собираюсь (сложно), а добавлять опцию вывода двух файлов вместо одного - тут нужны веские причины.  Вообще для каждой новой опции нужны веские причины, и чем менее очевидно предназначение опции, тем более веские причины нужны для ее введения.
 
А для экспериментов можете сами внести изменения в код ST (вы же вроде немного программист?):
В файле filters/output/OutputGenerator.cpp находите интересующие вас объекты, и добавляете их сохранение:
image.save("filename.png"); // Это для объектов QImage
или
image.toQImage().save("filename.png"); // Это для объектов BinaryImage
 
А еще SK по моему умеет выводить по две картинки.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 17:58 07-03-2009
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Если интересно и есть  время:
jpeg 2 pdf  11.0 KB
http://surfnet.dl.sourceforge.net/sourceforge/jpgtopdf/j2p.c
 
http://sourceforge.net/projects/jpgtopdf/
http://sourceforge.net/project/showfiles.php?group_id=221784&package_id=268403
 
license.txt
---
This program and source code are absolutely free.
Author is not responsible for nothing.
---

Всего записей: 7016 | Зарегистр. 31-08-2008 | Отправлено: 20:11 07-03-2009 | Исправлено: ndch, 08:51 08-03-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Если бы все было так просто ... (это по поводу вывода в PDF).  Основная сложность - как в уже собранном PDF заменить одну страницу на другую.  СТ ведь позволяет в любое время подправить и перегенерировать любую из страниц.  В общем вопрос с выводом PDF, DJVU, многостраничных TIFF - закрыт.  Не будет этого.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 23:54 09-03-2009
cuneiform

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Когда речь о сканах не одной, а сотен и тысяч книг, то только опыт указывает путь. Мой опыт сканирования - чуть больше 100 000 стр. - Немного.  
 
ПДФ и дежавю - вовсе не идеальны для сканирования и издания книг.
ПДФ создавался как формат документов, а не книг. Не задумывались?
 
ПДФ  требует преобразования сканов, а дежавю - формат  закрытый и патентованный. ВСЕ БИБЛИОТЕКИ МИРА ОТ НЕГО ОТКАЗАЛИСь. И вовсе не из-за качества или технических проблем, а из-за недоступности прав на этот формат. - Нет в библиотеках файлов этого формата. - Хотя дигитализация идет на миллионы томов в Европе и США.  
 
А наши энтузиасты  используют  давно устаревший стандарт дежавю. Не уверен, что даже устаревший, он -  Public Domain. То, что его (устаревший стандарт) юзают разработчики Линукса - смешной аргумент, если зайти на сайт Lizard.  
 
Кроме того, разделение слоев и негативно: Ваше лого можно удалить и присвоить ваши труды. Вы  с в о и  собственные труды издавали? - А то бы задумались!
 
ИМХО, я для себя остановился на формате tiff compressed group4 (факсовый). - Кста, это к тому же - внутренний формат FineReader'a.
 
При просмотре во вьюере (ч./б.) цвет легко восстанавливается через 8-12-бит серое  (XnView),  стабильное лого, малый размер файлов - почти как дежавю. Легкая пакетная обработка. Public domain.  
 
Мнение свое не навязываю. - Во время массового психоза разум слабо работает, факт.  
========================
Some of the first cuneiform tablets were financial reports.

Всего записей: 2101 | Зарегистр. 27-04-2006 | Отправлено: 02:28 10-03-2009 | Исправлено: cuneiform, 11:45 10-03-2009
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor
Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru