Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Закладки » Scan Tailor (часть 2)

Модерирует : gyra, Maz

Maz (10-01-2024 10:45): Scan Tailor (часть 3)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

Widok



Moderator-Следопыт
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие части: Часть 1
Scan Tailor


Задача программы - пост-обработка сырых сканов книг для последующей сборки в PDF/DJVU,CBR/CBZ и т.д.
Программа обеспечивает большое удобство для использования, большую интерактивность и не меньшую автоматизацию процесса (по сравнению со СканКромсатором).
Кросс-платформенный (Windows,Mac OS, Linux) проект с открытыми исходниками.


Англоязычный топик по ScanTailor
 
Ветки:
Scan Tailor (ncraun) >>>  последняя версия
Scan Tailor Experimental (Tulon) >>>  последняя версия (обсуждение на DIY Book Scanner)
Scan Tailor Plus (Vadim "DikBSD" Kuznetsov) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Еnhanced (Petr "pejuko" Kovar) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Featured (monday2000) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Universal (trufanov-nok) >>>  последняя версия (обсуждение на publ.lib.ru)
Scan Tailor Advanced (4lex4) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Advanced (актуальный форк) >>>  история версий
 
Документация:
Документация (Wiki) | Зоны картинок в ScanTailor | ScanTailor. Быстрое начало | Видеоуроки и скринкасты новых функций СТ от Tulona
Статья: Scan Tailor. Программа для обработки отсканированных книг
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
Использование Scan Tailor совместно с Djvu Imager (сборка djvu методом разделенных сканов)
Как собрать Scan Tailor из исходных кодов под Windows
Почему нельзя сделать сплошную нумерацию вывода


Автор проекта - Tulon. Почему его здесь не видно? .
DikBSD автор ветки ScanTailor Plus история повторяется.
Юзеры! Будьте скромнее!


Прочие дистрибутивы, форки, дополнения

Всего записей: 24190 | Зарегистр. 07-04-2002 | Отправлено: 12:17 17-02-2010 | Исправлено: Maz, 10:43 10-01-2024
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
C0USIN

Цитата:
А как же OCR? Распознавание текста никто не сможет сделать лучше FineReader. Из него же потом собирается PDF или Djvu. Зачем приделывать ST лишнюю функцию, которую он все равно не сможет делать качественно?

ОCR для сборки в DjVu не является необходимым, и прикручивать его к ST никто не собирается.

----------
Вопрос: как насчет вот такой фичи для ST?
Ответ: не сейчас, когда - не знаю, и стоит ли вообще?

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 19:48 05-04-2010
maslm17

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А между тем, мне кажется, его можно было бы прикрутить довольно просто, а качество подготовки djvu от этого заметно выросло бы.
 
1) Некоторые свободные OCR-программы в качестве стандарта, де-факто, позволяют для вывода результата использовать формат hOCR в котором имеется информация о расположении символов в файле.
 
и ocropus и версия cuneiform для Linux (есть mingw порт для Win32) умеют выводить в hocr.
 
2) Есть программа hocr2djvused - которая как раз и занимается добавлением текстового слоя. (С помощью ещё и djvused)
 

Цитата:
 
HOCR2DJVUSED(1)                                    hocr2djvused manual                                    HOCR2DJVUSED(1)
 
NAME
       hocr2djvused - hOCR to djvused script converter
 
SYNOPSIS
       hocr2djvused [option...]
 
DESCRIPTION
       hocr2djvused reads a hOCR[1] file (as produced by OCRopus[2] or Cuneiform[3]) from the standard input and converts
       it to a djvused script.
 
....
 
 

 
djvused  
 

Цитата:
 
DJVUSED(1)                                            DjVuLibre-3.5                                            DJVUSED(1)
 
NAME
       djvused - Multi-purpose DjVu document editor.
 
SYNOPSIS
       djvused [options] djvufile
 
DESCRIPTION
       Program djvused is a powerful command line tool for manipulating multi-page documents, creating or editing annota‐
       tion chunks, creating or editing hidden text layers, pre-computing thumbnail images, and more.  The program  first
       reads the DjVu document djvufile and executes a number of djvused commands.
 
       Djvused  commands can be read from a specific file (when option -f is specified), read from the command line (when
       option -e is specified), or read from the standard input (the default).
 

 
В общем, можно обойтись и без этой функции в ST, потом отдельно обрабатывая djvu для добавления текстового слоя.  
 
Просто мне показалось, что если цель - дать не очень продвинутому в тонкостях обработки изображения и djvu-строения  человеку возможность в одном цикле их создавать в приемлем качестве, это было бы неплохой добавкой. Необязательной, разумеется.
 
И разумеется, для начала надо создавать хотя бы просто djvu-файлы без текстового слоя. Решать, конечно автору

Всего записей: 96 | Зарегистр. 03-03-2007 | Отправлено: 00:38 06-04-2010
Dashout



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Выход на DJVU - это логическое развитие программы. Попутно автору придется решить ряд задач, которые уже отмечались ранее. Это и выравнивание текстовой области, и приведение ее размера к публичным форматам. Безусловно, все это очень нужно.
Уверяю Вас, пока не стоит думать об OCR - тут дел автору хватит... Одно потянет другое...
С наилучшими пожеланиями..
Успехов

Всего записей: 1131 | Зарегистр. 15-01-2005 | Отправлено: 10:44 06-04-2010 | Исправлено: Dashout, 10:45 06-04-2010
VadimirTT



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Я понимаю, что автору в данный момент интересно сделать вывод в DJVU, но это, на мой взгляд, добавление сущностей, все таки это программа для сканобработки.  
(Я тут представил, что и кодирование будет в едином (осредненном для домохозяек) процессе, без права вмешиваться и отменять. Чем длиннее будет конвейр, тем больше неудовлетворенных пожеланий)

Всего записей: 2871 | Зарегистр. 22-03-2005 | Отправлено: 11:16 06-04-2010
Dashout



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
это программа для сканобработки

повторюсь, потребительская ценность этой программы много выше
 
Добавлено:
добавлю, термин
Цитата:
для домохозяек
лучше бы исключить!
Это неуважительно к потенциальным пользователям...

Всего записей: 1131 | Зарегистр. 15-01-2005 | Отправлено: 11:28 06-04-2010
VadimirTT



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dashout
ну да, еще твейн прикрутить и пр.
а термин про домохозяек это цитата
извиняюсь за оффтоп

Всего записей: 2871 | Зарегистр. 22-03-2005 | Отправлено: 12:18 06-04-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
VadimirTT
А насчет твейна, кстати, неплохая мысль.
Очень многие "гуманитарии" не слезут с технологии FR->PDF именно из-за пакетного сканирования..

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 12:39 06-04-2010
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare

Цитата:
А насчет твейна, кстати, неплохая мысль.  

А как тогда же кроссплатформенность?

Всего записей: 884 | Зарегистр. 14-12-2005 | Отправлено: 12:48 06-04-2010
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Если учесть, что автоочистка сканов не может быть идеальна на все 100%, то реализация кодирования в djvu приемлема только при наличии в программе элементарного ластика для "доведения до ума" сканов вручную.

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 17:09 06-04-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
denver 22
imho, проще (но не во всех случаях лучше) ввести белую зону. Правда, тогда режим Черно-белый придется расширять... Похоже, ластик в концепцию плохо вписывается..

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 17:17 06-04-2010 | Исправлено: StanFreeWare, 17:17 06-04-2010
ILHS

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ластик - отличная идея. Часто использую в СК.

Всего записей: 610 | Зарегистр. 06-12-2004 | Отправлено: 22:34 06-04-2010
maslm17

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Может тогда лучше, чтобы по клику по изображению просто вызывался внешний графический редактор? Любой, на усмотрение пользователя, какой пропишет в настройках.

Всего записей: 96 | Зарегистр. 03-03-2007 | Отправлено: 02:28 07-04-2010
are



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
 можно легко исправлять отдельные страницы в djvu-файле. Особенно если он сделан в cjb2, т.к. тогда джвю-файл просто является набором страниц без словарей. На стандартных утилитах djvulibre это выглядит так:
djvm -d file.djvu 142 # стереть страницу 142
djvm -i file.djvu newpage.djvu 142 # добавить новый файл как страницу 142
единственное, что будет нетривиально при выводе напрямую в джвю-файл, это отслеживать страницы, которые ещё не обработаны, а также правильно закодировать страницы, содержащие цвет.
 
но лучше наверно отделить джвю-вывод от самого СТ.

Всего записей: 552 | Зарегистр. 06-03-2005 | Отправлено: 03:47 07-04-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
are
Надо полагать при вставке страницы в DJVU файл у этой страницы будет отдельный словарь.  Соответственно нельзя строить концепцию сборки DJVU файла на итеративном добавлении страниц.
Да и других причин хватает для того, чтобы не пихать эту функциональность в ST.

----------
Вопрос: как насчет вот такой фичи для ST?
Ответ: не сейчас, когда - не знаю, и стоит ли вообще?

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 12:00 07-04-2010
woodyfon

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Ластик - отличная идея. Часто использую в СК.

Про ластик тут кричит каждый второй. Именно кричит, потому что Tulon, к сожалению, уверен, что не хочет, а не может, его прикрутить. Программа сейчас лучшая в своем сегменте по пакетной обработки сырых сканов. Если делать все в одном, будет ну очень много кипеша. Понятным развитием программы есть внедрение работающего алгоритма dewarp. И ластика

Всего записей: 417 | Зарегистр. 03-08-2007 | Отправлено: 12:09 08-04-2010 | Исправлено: woodyfon, 12:10 08-04-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Растровый ластик я делать не хочу, так как это не вписывается в концепцию ST.  Если конкретнее, то это противоречит тезису о том, что все манипуляции с изображениями должны быть отражены в файле проекта.
Ластик, базирующийся на зонах, сделать несложно, учитывая что зоны были спроектированы с прицелом на повторное использование.  Почему до сих пор не сделал?  Потому что были и остаются задачи важнее.
 
Кстати мое отношение к фич реквестам не изменилось - снятие игнора было временным в связи с надвигавшимся релизом.

----------
Вопрос: как насчет вот такой фичи для ST?
Ответ: не сейчас, когда - не знаю, и стоит ли вообще?

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 23:28 08-04-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
Считаете ли Вы целесообразным введение дополнительной галки "Не выравнивать освещение в зонах" и для смешанного режима?  
Я считаю, что такая галка поможет охватить "сложные для СТ случаи", частично засвечивающие иллюстрацию, например, при касании зоной края изображения.
Или у Вас есть свои идеи по поводу данной проблемы?  

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 00:25 09-04-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare

Цитата:
Считаете ли Вы целесообразным введение дополнительной галки "Не выравнивать освещение в зонах" и для смешанного режима?  

В крайнем случае так и сделаю, если ничего лучше не придумаю.  Когда - не обещаю.

----------
Вопрос: как насчет вот такой фичи для ST?
Ответ: не сейчас, когда - не знаю, и стоит ли вообще?

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 01:06 09-04-2010
are



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
are
Надо полагать при вставке страницы в DJVU файл у этой страницы будет отдельный словарь.  Соответственно нельзя строить концепцию сборки DJVU файла на итеративном добавлении страниц.
Да и других причин хватает для того, чтобы не пихать эту функциональность в ST.

 
здесь как раз словарь не важен: т.к. вы будете использовать djvulibre, другого варианта нет для работы с джвю, то там нельзя создавать многостраничные словари и всё равно каждая страница будет с отдельным словарём.  
 
преимущество такое: на выходе программы будет не директория с большим количеством тиффов, а один готовый к просмотру джвю файл. Размеры этого файла будут примерно вдвое меньше, чем суммарный размер тиффов (если они чёрно-белые и сжаты с tiff/G4)
 
далее этот джвю файл конечно придётся пережимать более оптимально, что может сократить его размер ещё примерно втрое.
 
можно создавать многостраничный тифф на выходе, но такое почти никто не умеет просматривать.
 
можно создавать многостраничный пдф на выходе, это будет по объёму равно общему объёму тиффов. Но джвю проще.
 
далее, по поводу ластика. Насколько я понял, ластик совершенно не вписывается в вашу архитектуру.
 
архитектуру я понимаю так:  
- на входе - пачка тиффов
- во время обработки на всех этапах, кроме последнего, с этими тиффами ничего не делается, т.е. не производится никаких промежуточных тиффов,  а происходит только предварительная обработка (детектирование зон и т.д.) и запоминание всех операций, которые надо будет потом с этими тиффами проделывать. Генерируются на диске только временные thumbnails для показа в правой полосе.  В центральном окне каждый раз генерируется некая временная картинка, которая никуда не идёт и забывается при переходе на следующую страницу. (поэтому и некоторая задержка при листании - каждый раз считывается тифф файл, декодируется и т.д.)
- и только на последнем шаге наконец проделываются с каждым тиффом все запомненные операции (все шаги с первого до последнего) и пишется выходной файл в out/
 
конечно при такой архитектуре необходимо все операции запомнить в xml-файл проекта. Это хорошая идея - чтобы никаких промежуточных файлов не надо было иметь. Тогда операции с ластиком придётся тоже запоминать там же и выполнять на последнем этапе, а также на каждом этапе просмотра. Логичнее всего было бы разместить ластик на последнем этапе, там же, где и деспекл. Тогда не надо будет отслеживать операции с ластиком на предыдущих этапах. Операция с ластиком - это выбор размера ластика и последовательность отрезков прямых линий, которые пробежал ластик.
 
да, в принципе в ластике нет особой нужды - если ластик всё равно на последнем этапе, то почему бы просто не открыть гимп и не отредактировать все выходные тиффы в гимпе. Уж в гимпе-то ластиков очень много. Я бы на самом деле редактировал бы исходные сканы,  а не выходные. Но если какой-нибудь примитивный ластик несложно добавить, то почему бы и нет.

Всего записей: 552 | Зарегистр. 06-03-2005 | Отправлено: 15:20 09-04-2010 | Исправлено: are, 17:18 09-04-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
are

Цитата:
будете использовать djvulibre, другого варианта нет для работы с джвю

Можно можно взять за bw-основу minidjvu (соответственно доработав его в плане быстродействия). Он нормально работает с многостраничными словарями, да и в плане качества не так уж плох (аккуратнее либровского jb2-кодера). Тогда можно сразу делать конкурентоспособные djvu.
 

Цитата:
Операция с ластиком - это выбор размера ластика и последовательность отрезков прямых линий, которые пробежал ластик.

Ластик, сохраняемый в векторном виде - это практически то же самое, что белая зона.
Чистить ластиком до обработки в СТ может быть чревато - получившиеся на месте мусора белые области будут вводить в заблуждение алгоритмы выравнивания освещения вплоть до некачественной бинаризации.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 17:15 09-04-2010
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » Закладки » Scan Tailor (часть 2)
Maz (10-01-2024 10:45): Scan Tailor (часть 3)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru