Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor

Модерирует : gyra, Maz

Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

   

Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Scan Tailor

 
Скриншот:

В разработке находится новая альтернатива СканКромсатору. Разработчик - ваш покорный слуга.
Задача программы - пост-обработка сырых сканов с целью их последующей сборки в PDF или DJVU.
 
Уже есть на что посмотреть, и возможно присоединиться к проекту. Проект с открытыми исходниками и кросс-платформенный (Windows + Linux).
 
По сравнению со СканКромсатором планируется большее удобство использования, большая интерактивность, но при этом не меньшая автоматизация процесса.
 
Сайт проекта: http://scantailor.sf.net     Скриншоты
 
Топик программы на форуме Натахаус       Англоязычный топик по ScanTailor

Документация
 
Документация (Wiki)              Зоны картинок в ScanTailor
 
Статья: Scan Tailor. Программа для обработки отсканированных книг
 
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
 
Методика использования STA совместно с Djvu Imager

Дистрибутивы
 
Версия СТ с функцией выпрямления искривленных строк (dewarp от Rob)
 
Патч от anagnost96 Вариант ScanTailor с этим патчем (STA)  Зеркало
 
ScanTailor для Mac
 
Последние изменения в дереве исходников - для сильно любопытных и владеющих английским.
Там же можно подписаться на rss/atom - для нетерпеливых.
 

Дополнительно
 
ST GreyText v1.0 Программа для генерации вывода как бы "Только текст (в режиме серого)" - для Scan Tailor от anagnost96.
 
LayerTailor Программа для разделения сканов (после "Смешанный режим) на foreground и background слои с целью последующего раздельного кодирования в djvu. Принцип работы: Все черные пиксели (яркость==0) переносятся в foreground, остальное - в background. Функция layer принимает на входе 3 параметра: исходное имя файла TIFF, имя файла для foreground и имя файла background. Автор: U235.
 
Предложения к anagnost96 по поводу улучшения его модификации СТ
Сравнение выпрямления искривленных строк в СТ и в BR

Статья О возможности альтернативы СканКромсатору     Полезные ссылки по теме топика
ArtScan - ещё одна программа для сканобработки.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 21:37 15-06-2008 | Исправлено: ndch, 22:37 12-02-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Можно мне тоже полный комплект с уже правильно вложенным svn

Для этого denver 22 пришлось бы выложить не только свою директорию c:\build, а еще и c:\Qt - а она после сборки распухает до неприличных размеров.  Думаю проще будет вам с нуля по инструкции все собрать, а потом уже до SVN обновляться будет легко.  Ссылку на инструкцию я давал в этом треде.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 16:41 01-01-2009
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Новая сборка Scan Tailor 0.9.1 от 20090101 - http://narod.ru/disk/4723804000/scantailor20090101.zip.html
Вот теперь я вроде действительно понял твою идею по версиям . Хотя ИМХО изменения, которые ты вносишь вполне имели бы право менять 3-ю цифру в версиях. Но хозяин - барин. Когда номер поменяется, дай знать заранее, чтобы я и архивчик правильно назвал.
 
Добавлено:
Может новые версии все же будете в шапку добавлять? Или планируется частое обновление?

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 17:15 01-01-2009 | Исправлено: denver 22, 17:20 01-01-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Может новые версии все же будете в шапку добавлять? Или планируется частое обновление?

Как фич наберется на релиз - так и выпущу.  А изменять номер версии для промежуточных релизов не надо потому, что это ведь релизы неоффициальные - на сайте проекта их нет.  Беты так сказать.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 18:01 01-01-2009
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon, интересная тема всплыла чуть выше. Так я могу какие-то папки кроме c:\build архивнуть на будущее, чтобы не переустанавливать? Как я понял это c:\Qt (ужас, 1,61 Гб весит). Может ещё что-то?
А потом уж будем разбираться какие пункты делать на чистой системе, а какие пропускать .
Скоро буду Винду переустанавливать.

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 23:58 02-01-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
C:\build, C:\Qt, mingw я не помню куда Qt ставит - если отдельно, то еще и его.  Вроде все.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 00:14 03-01-2009
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Да, есть и c:\MinGW (57 Мб). Блин, сколько же места всё это занимает

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 01:01 03-01-2009
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
Большая проблема. Тестирую последнюю сборку.
  На входе tiff, серые, 300 dpi (это не сканы, а импорт страниц из "плохой" книги). В книге есть фото, поэтому использовал "Смешанный" режим. На выход выставил 600 dpi. Получаю 96 dpi и ТОЛЬКО. Оставлял на выход 300 dpi - всё равно получаю 96 dpi. Не знаю связано ли это со Смешанным режимом (остальные варианты не тестировал), но проверь пожалуйста. У меня проект обработки весь готов, а результаты получить не могу. Если сможешь исправить в ближайшее время, может мне удастся воспользоваться этим проектом.
 
Ну и попутно:
1. Ну сделай пожалуйста горячие клавиши для перехода по сканам на Q-A или Q-W. Ну неудобно же правой рукой держать мышь, а левой через всю клаву тянуться к Page Up/Down.
2. Ты планируешь добавить настройки для "выходного" формата? Такие как: выбор формата, (разрешение есть), сжатые или нет tiff, ну и ещё может какие-то.
 
monday2000
Нужен твой совет (может и кто другой поможет).  
После обработки в режиме "Смешанный" (как и после использования "Picture zone" с SK), какой режим для кодирования выбрать в DjVu Small? Я определил опытным путем наиболее подходящие: Scanned и Drawn. Причем Drawn показал более четкую картинку на выходе. Дополнительно на вкладке настроек DjVu(2) я выставил "без потерь". Можешь что-то добавить?

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 00:37 12-01-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Оставлял на выход 300 dpi - всё равно получаю 96 dpi.

Это был баг в коде, который пишет TIFFы.  Исправил в SVN.
 

Цитата:
1. Ну сделай пожалуйста горячие клавиши для перехода по сканам на Q-A или Q-W. Ну неудобно же правой рукой держать мышь, а левой через всю клаву тянуться к Page Up/Down.  

Да, действительно неудобно.  Наверное сделаю W и S и за одно статус бар с подсказками сделаю - а то кто же догадается что страницы можно и так перелистывать.
 

Цитата:
2. Ты планируешь добавить настройки для "выходного" формата? Такие как: выбор формата, (разрешение есть), сжатые или нет tiff, ну и ещё может какие-то.  

Не вижу смысла.  Сейчас сделано: TIFF, если черно-белый, то сжатие CCITT G4, в остальных случаях LZW.  На практике это означает: сжатие без потерь и читается везде.  По уровню сжатия LZW уступает только Deflate, но Deflate не понимают LizardTech'овские проги.  Кроме того, LZW побыстрее будет чем Deflate.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 02:49 12-01-2009 | Исправлено: Tulon, 02:50 12-01-2009
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Поправь, если ошибаюсь. Сжатые файлы tiff плохо открываются в Photoshop. Именно поэтому я был сторонником несжатого вида tiff. Т.к. постобработка нужна практически всегда.
 
Добавлено:
SVN скачал. Постараюсь вечером сделать.
Есть шансы отговорить тебя в сторону Q-W? По-моему, эргономически, с учетом долгой работы в программе, это более оптимальный выбор (ладонь на клаву опирается). Или ты его игнорируешь только из-за подобия с SK?
 
Добавлено:
Блин, у меня браузеры глючат. Сообщений не видно

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 06:06 12-01-2009 | Исправлено: denver 22, 21:16 12-01-2009
vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
denver 22
Это не браузеры, это проблема с кешированием постов на форуме. Некоторые видно не сразу после отправки.

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 06:28 12-01-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Поправь, если ошибаюсь. Вроде все сжатые методы tiff в PhotoShop-е открываются криво. А постОчистка необходима. поэтому я все это время был сторонником несжатого tiff  

Впервые такое слышу, хотя фотошоп не юзаю, поэтому не знаю.  Кто-то еще может это подтвердить или опровергнуть?
 

Цитата:
Есть шансы отговорить тебя в сторону Q-W? По-моему, эргономически, с учетом долгой работы в программе, это более оптимальный выбор (ладонь на клаву опирается). Или ты его игнорируешь только из-за подобия с SK?  

Я вообще не знал, что в кромсаторе эта комбинация используется.  А кроме СК эта комбинация где-нибудь используется?  W-S хотя бы геймерам будет понятна.  А эргономически - да, Q-W конечно лучше.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 13:12 12-01-2009
Olive77

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
категорично заявлять не буду, но я у себя такой проблемы не замечал.
Сжатые тиффы создавались в IrfanView.
Обрабатывал их в PS CS2.
 
denver 22

Цитата:
 После обработки в режиме "Смешанный" (как и после использования "Picture zone" с SK), какой режим для кодирования выбрать в DjVu Small? Я определил опытным путем наиболее подходящие: Scanned и Drawn.

я некоторое время тоже пользовался DjVu Small, но потом как-то надо было перегнать в djvu кнужку со многими картинками и я от нее отказался в пользу DEE.
 
Размер книгу созданный с помощью DjVu Small был 9 МБ, а DEE сжал до 5 МБ, при этом с заметно лучшим качеством картинок.
 
P.S.: ghosty выкладывал профиль для DDE в топике по сканирoванию.

Всего записей: 1271 | Зарегистр. 26-12-2002 | Отправлено: 13:50 12-01-2009 | Исправлено: Olive77, 19:04 12-01-2009
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Olive77
Про tiff ты меня заинтриговал. Как же так? Столько лет мучаюсь после декодирования ДеЖаВюшек прогами DjVu Small и DjvuOCR. Поэтому и шум тут поднял. Мне приходилось из сжатого в несжатое переводить, чтобы в PhotoShop-е их чистить.
Вот бы monday2000 здесь появился. Мне кажется он поддержал бы меня. А скорее всего разъяснил бы ситуацию.
 
Блин, немного оффтоп, хотя он как следствие использования ST, так что сойдет:
Tulon, ты чем тогда чистишь сканы на постобработке? Если Gimp-ом, то он с tiff плохо дружит. Хотя вроде можно приноровиться.
 
Olive77
DEE - это Document Express Enterprise? Я от него уходил из-за огромного размера при инсталляции.
В последнее время кодирую в DjVu Small и Document Express Editor. И смотрю где лучше. Тот и оставляю.
Для Document Express Enterprise я в свое время (года 3 назад) делал профили, когда учился у monday2000 книгопроизводству.
Топик по сканированию - ссылочку дашь?

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 21:15 12-01-2009
vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
denver 22

Цитата:
DEE - это Document Express Enterprise? Я от него уходил из-за огромного размера при инсталляции.  

Есть урезанная версия, весом 17 Мб (выброшено все лишнее, функционал не пострадал).

Цитата:
Топик по сканированию - ссылочку дашь?

Электронные книги: сканирование, обработка, сборка - III

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 22:15 12-01-2009
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
Глянь личку. На п.9 компиляции - облом.
 
Добавлено:
Tulon
Ситуация: хочу перенести все программы для компиляции на другой комп. Копирую папки:
c:\build\
c:\MinGW\
c:\Qt\
на другой комп. Устанавливаю CMake. А вот дальше... Скорее всего начинать с п.6?

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 22:38 12-01-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Tulon, ты чем тогда чистишь сканы на постобработке? Если Gimp-ом, то он с tiff плохо дружит. Хотя вроде можно приноровиться.

Реально я всего две книги сделал.  Там был хороший исходный материал, и чистить сверх того, что делает СТ не пришлось.  А кстати, что именно вы собираетесь делать со сканами в Gimp'е?  Мои TIFF'ы Gimp берет без проблем.  Вообще TIFF - это контейнерный формат с огромным количеством методов сжатия и всяких других опций.  Думаю можно для каждой программы найти такой TIFF файл, который она не возьмет.  Это теоретически.  На практике в области книгосканирования с такими экзотическими TIFFами вы не встрететись.
 

Цитата:
Глянь личку. На п.9 компиляции - облом.  

Выходит что при смене директории исходников без смены директории сборки одним Delete Cache не отделаешся.  Придется вручную очищать директорию сборки.
 

Цитата:
Ситуация: хочу перенести все программы для компиляции на другой комп. Копирую папки:
c:\build\
c:\MinGW\
c:\Qt\
на другой комп. Устанавливаю CMake. А вот дальше... Скорее всего начинать с п.6?

Видимо так.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 02:07 13-01-2009
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Директория сборки - это c:\build\scantailor-build\? Если да, то в прошлый раз её-то я и очищал
 
Вот про TIFF я этого не знал. Значит работа со сжатым TIFF не подразумевает ещё бОльших потерь на выходе? Это хорошо. Буду пробовать.
 
Добавлено:
Olive77
По-быстрому не удалось найти профиль для DEE от ghosty. Можешь слить на файлообменник и дать ссылку? (лучше на iFolder или Narod)

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 06:15 13-01-2009
Arcand

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
denver 22

Цитата:
Значит работа со сжатым TIFF не подразумевает ещё бОльших потерь на выходе? Это хорошо. Буду пробовать.
tif LZW вообще без потерь. Лучший вариант для хранения серых и цветных сканов. Для bw - G4Fax. Если возникают проблемы чтения tif LZW с прогами, их нужно перекодировать. Например в Ирфане - он все тифы открывает, а его тифы все проги понимают. Для перекодирования создать и запустить батник
Код:
@echo off
 
REM             Перекодирование в tif LZW в IrfanView
REM    
REM             Обычное расположение IrfanView
REM             C:\Program Files\IrfanView\i_view32.exe
REM             Если у вас Ирфан расположен по другому адресу, то
REM             следует указать этот адрес в команде ниже.
 
@echo on
 
@for %%a in (*.tif) do "C:\Program Files\IrfanView\i_view32.exe" %%a /tifc=1 /convert=%%a  
 
@echo.
@echo.
 
@pause
 
 
 
 
Добавлено:
Мои основные профили (цитата из CorelScan):

Цитата:
Создаете два профиля my_bitonal600 и my_scan600. Проше добавить в конец файла профилей documenttodjvu.conf  следующие строки:
 
 
#@displayName:my_bitonal600
my_bitonal600: bitonal600
pages-per-dict=1000
 
#@displayName:my_scan600
my_scan600: scan600
pages-per-dict=1000
pix-filter-level=0
shape-filter-level=100
resolution-multiplier=1
bg-subsample=3
threshold-level=100
aggressive=true
 
 
При кодировании книг без рисунков использовать профиль my_bitonal600, при кодировании книг с рисунками - my_scan600.

Всего записей: 2493 | Зарегистр. 28-05-2004 | Отправлено: 07:15 13-01-2009
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
denver 22

Цитата:
какой режим для кодирования выбрать в DjVu Small?

Я не знаю. DjVu Small ничем не отличается от DEE - за исключением отсутствия редактора профилей. И DjVu Small, и DEE - это просто надстройка-GUI над documenttodjvu.
С опциями кодирования documenttodjvu ИМХО ещё нужно экспериментировать долго и нудно. Причём сначала надо наклепать побольше алгоритмов сканобработки - а уже обработанные ими сканы использовать для экспериментов.
 
Обратитесь ещё сюда: http://natahaus.info/forums/showthread.php?t=5520
 
Добавлено:
Tulon

Цитата:
А эргономически - да, Q-W конечно лучше.

В СканКромсаторе помимо Q-W есть ещё [-] - которые делают то же самое - листают страницы.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 10:02 13-01-2009
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Новая сборка Scan Tailor 0.9.1 - 20090112 - http://narod.ru/disk/4948479000/scantailor-20090112.7z.html + Зеркало.
Вывод в заданном dpi исправлен.
Но сразу появился новый баг: выводит tiff в красно-белом. Причем в Смешанном режиме - с оттенками, т.е. как надо .
Так что снова жду исправлений. Книгу по-прежнему не могу доделать .
 
P.S.: выкладываю сборку с этим багом только, ориентируясь на других бета-тестеров. Авось и ещё что всплывёт.
Кстати, долго мучался с переносом программ для компиляции программы на другой комп. Но, набив шишки, теперь вроде почти во всем разобрался. Так что и на работе смогу новые сборки собирать
 
Добавлено:
А теперь по всему остальному:
1. Начал впервые обработывать серые сканы с проге. Стадия "Полезная область" действительно ещё требует доработок. Довольно часто область больше области текста. Причем визуально почти на одинаковых по ситуации сканах получаются идеальный и негодный результаты. Может только на этой книге, но в 100%-х случаев ошибка выявлялась на левой стороне разворота.
Достаточно редко точно на таких же сканах обратная ситуация: срезался текст всё в том же месте (ближе к сгибу).
В обоих случаях при этой ошибке большая область добавлялась также сверху и снизу.
Примеры скидывать не буду. На момент обработки я их не отбирал.
 
2. Пока выяснял в чем у меня проблемы со сжатыми tiff, мне тут уже полезную инфу скинули . Arcand, спасибо большое. И всё же отрапортую.
Проблема в Photoshop появляется только при сжатии в CCITT Group4 (G4Fax). При открытии пишет такое сообщение:
"Коррекция попиксельной пропорции включена только для просмотра. Чтобы добиться максимального качества изображения, отключите её".
Кто-нибудь подскажет как её отключить? Не нашел. С CCITT RLE и LZW - проблема не наблюдается. Но программы DjvuOCR, DjVu Small и SK (в последней это сжатие выводится даже если выбрать другое в настройках) декодируют именно в CCITT Group4. А теперь и Scan Tailor дает его на выходе.
Отсюда вопрос: перекодирование tiff из G4Fax в несжатый или другие типы сжатия ведет к потере качества?

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 19:28 13-01-2009 | Исправлено: denver 22, 20:30 13-01-2009
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor
Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru