Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor

Модерирует : gyra, Maz

Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

   

Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Scan Tailor

 
Скриншот:

В разработке находится новая альтернатива СканКромсатору. Разработчик - ваш покорный слуга.
Задача программы - пост-обработка сырых сканов с целью их последующей сборки в PDF или DJVU.
 
Уже есть на что посмотреть, и возможно присоединиться к проекту. Проект с открытыми исходниками и кросс-платформенный (Windows + Linux).
 
По сравнению со СканКромсатором планируется большее удобство использования, большая интерактивность, но при этом не меньшая автоматизация процесса.
 
Сайт проекта: http://scantailor.sf.net     Скриншоты
 
Топик программы на форуме Натахаус       Англоязычный топик по ScanTailor

Документация
 
Документация (Wiki)              Зоны картинок в ScanTailor
 
Статья: Scan Tailor. Программа для обработки отсканированных книг
 
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
 
Методика использования STA совместно с Djvu Imager

Дистрибутивы
 
Версия СТ с функцией выпрямления искривленных строк (dewarp от Rob)
 
Патч от anagnost96 Вариант ScanTailor с этим патчем (STA)  Зеркало
 
ScanTailor для Mac
 
Последние изменения в дереве исходников - для сильно любопытных и владеющих английским.
Там же можно подписаться на rss/atom - для нетерпеливых.
 

Дополнительно
 
ST GreyText v1.0 Программа для генерации вывода как бы "Только текст (в режиме серого)" - для Scan Tailor от anagnost96.
 
LayerTailor Программа для разделения сканов (после "Смешанный режим) на foreground и background слои с целью последующего раздельного кодирования в djvu. Принцип работы: Все черные пиксели (яркость==0) переносятся в foreground, остальное - в background. Функция layer принимает на входе 3 параметра: исходное имя файла TIFF, имя файла для foreground и имя файла background. Автор: U235.
 
Предложения к anagnost96 по поводу улучшения его модификации СТ
Сравнение выпрямления искривленных строк в СТ и в BR

Статья О возможности альтернативы СканКромсатору     Полезные ссылки по теме топика
ArtScan - ещё одна программа для сканобработки.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 21:37 15-06-2008 | Исправлено: ndch, 22:37 12-02-2010
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Arcand

Цитата:
для получения приемлемого качества при кодировании на рисунках надо удалить растр, а то могут вылезать дефекты и искажения из-за растра.

Зашибись, а я уже несколько книг сделал. Но, считая себя среднестатистическим пользователем электронных книг, могу сказать, что результат в книге аналогичен скану. Так что Я как минимум доволен.

Цитата:
Если результат по качеству не устраивает поиграйтесь Quality и BackGround Subsample. Если не устраивает разделение рисунка на маску и фон соответственно поиграйтесь Threshold Level, Pixel-Filter Level и Shape-Filter Level. Но надо набить руку...  

Откровенно говоря, вот этих самых "поиграйтесь" я делать не буду. Причина - "считаю себя среднестатистическим пользователем электронных книг".
А вот спорами о том, какой программой пользоваться для метода разделенных сканов окончательно меня запутали. Точнее, не нравится мне ситуация, когда двое разработчиков тянут одеяло на себя, критикуя второго. И что мне? опять сравнивать оба метода? Я, блин, уже не книгу буду делать, а лабораторную работу...
Но за ссылку о параметрах кодирования спасибо. Почитаю.
Tulon
Мда, из-за меня в этой ветке такие споры пошли, которые должны быть совсем в другой.
monday2000 и Arcand: в попытке исправить ситуацию с оффтопом в этой теме прошу вас продолжить обсуждение "метода разделенных сканов" в ветку "Электронные книги". И я её читаю, и другим её читателям это обсуждение будет полезно.
 
Добавлено:
Arcand
Раз ты разрабатывал одну из программ для кодирования методом разделенных сканов, то можно узнать твоё мнение-сравнение разделенных сканов и кодирования в DEE уже смешанных сканов? И Tulon заодно послушает.

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 21:38 20-01-2009
are



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
чтобы без оффтопа: взял SCANTAYLOR-0.9.1  и запустил через wine под линуксом.
(компилировать QT4 ниасилил, у меня линукс намеренно староват, машина дохловатая тоже)
 
взял 3 скана в 300дпи сером, на пробу.
 
первое впечатление хорошее: и без хелпа можно понять, чего от меня хочет программа - пройти по шагам настройки и потом запустить Process.
 
настроил на выходное разрешение 600х600, ч-б, в общем всё выглядит нормально. Автоматическое разрезание разворотов пополам, автоматическое deskew.
 
 
запустил Process, жду результатов, вот уже 10 минут результатов нет, cpu загружен полностью.
 
[через 20минут получил первый png в директории out... а почему png? я заказывал ч-б, по старой привычке ожидаю TIFF/G4. Ну ладно. png на самом деле 1-битовый, так что наверно это фича такая, что png на выходе.]
 
вопросы:  
1) что такое Otsu и другие методы бинаризации?
2) как настраивать порог чёрно-белого? я потыкал в кнопки с надписью "black" , "white", никакой реакции.
3) есть ли какой-либо progress indicator, или это глючит wine?
[вижу, что после окончания обработки 1-й страницы нечто появилось в главном окне. Но ждать пришлось 20 минут однако. Процессор 1.8Ггц centrino.]
 
4) на каждой странице был выбран прямоугольник, в котором якобы заключается текст. Что будет дальше сделано с этим прямоугольником? (он будет вырезан из страницы, к нему будут добавлены поля, какие именно, как  будет выравнен прямоугольник...? Программа не говорит.
 
ну, через пару часов, когда всё закончится, увижу результаты...)
 
5) надо ли на самом деле проходить мышкой по всем страницам, чтобы отметить правильные рамки и т.д., или достаточно пробежаться по thumbnails взглядом?
 
в остальном всё выглядит замечательно. Скачиваю один exe файл и навсегда забываю о проблемах со сканированием.
 
чего бы ещё хотелось:
1) help tooltips, чтобы видно было, что означают кнопки - тогда и хелп особо не нужен
 
2) чтобы можно было стирать библиотечные печати на странице, какой-нибудь примитивный ластик.
 
большое спасибо за труды!
 

добавлено  

 
появился второй файл png. Оба файла, к сожалению, содержат чисто белые страницы. Это, наверно, глюк от wine. Обработку не прерываю, но скорее всего ничего не выйдет.
 

добавлено 2

посмотрел вкладки, очевидно соответствующие стадиям обработки.
после "mask" получается чисто чёрное поле.
может надо было light/dark  выставить правильно? Но эти кнопки ничего не давали, когда я их нажимал.

Всего записей: 552 | Зарегистр. 06-03-2005 | Отправлено: 22:44 20-01-2009 | Исправлено: are, 23:32 20-01-2009
VidelSamogO



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
О-о-о-чень нестабильно работает! Постоянные runtime error'ы!

Всего записей: 765 | Зарегистр. 16-08-2008 | Отправлено: 00:00 21-01-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
запустил Process, жду результатов, вот уже 10 минут результатов нет, cpu загружен полностью.  

Ну 10 минут это ни в какие ворота не лезет, даже не старой машине, даже из под Wine.  Есть гипотеза, что сканы у вас более высокого разрешения, чем 300 DPI, хотя указано там именно 300.  Тогда СТ сделает увеличение еще в два раза, а 1200 DPI - это будет очень и очень медленно (если вообще памяти хватит).
Проверить можно так: посмотрите пиксельные размеры своих исходных  файлов.  Для 300 DPI размеры ни по горизонтали ни по вертикали не должны превышать скажем 3300 пикселей.
 

Цитата:
[через 20минут получил первый png в директории out... а почему png? я заказывал ч-б, по старой привычке ожидаю TIFF/G4. Ну ладно. png на самом деле 1-битовый, так что наверно это фича такая, что png на выходе.]  

В последних бетах вывод делается в TIFF.  Для Ч/Б как раз TIFF/G4.  Ссылки на беты публиковались в этой ветке.
 

Цитата:
1) что такое Otsu и другие методы бинаризации?  

Вот, этот вопрос еще больше подвинул меня к тому, чтобы совсем убрать этот выбор.  Это разные алгоритмы автоматического определения черно-белого порога.  В условиях выровненного освещения (это реализовано в 0.9.1), Otsu похоже оптимальный вариант.  По крайней мере я еще не видел случая, где какой-другой алгоритм дал бы лучший результат.  Ручного выбора порога нет, поскольку мне еще никто не показал такого скана, где Otsu выдал бы непреемлемый результат.  То, что было до 0.9.1 - не в счет.  Тогда еще не было выравнивания освещения.
 

Цитата:
2) как настраивать порог чёрно-белого? я потыкал в кнопки с надписью "black" , "white", никакой реакции.  

Они активны в режиме Bitonal.  Пожалуй его я тоже уберу.
 

Цитата:
3) есть ли какой-либо progress indicator, или это глючит wine?  

Страница обработана - справа в ленте миниатюр выбирается следующая.  Это как бы и есть индикатор прогресса.  Конечно никто не предполагал 10 минут обработки на страницу.
 

Цитата:
4) на каждой странице был выбран прямоугольник, в котором якобы заключается текст. Что будет дальше сделано с этим прямоугольником? (он будет вырезан из страницы, к нему будут добавлены поля, какие именно, как  будет выравнен прямоугольник...? Программа не говорит.  

Хороший вопрос.  Этот тот редкий случай, когда пригодился бы мануал.  Зона за пределами этого прямоугольника - поля.  Размеры полей определяются на стадии Page Layout.  В режимах Black and White и Mixed поля заливаются белым.  В режиме Color / Grayscale остаются как есть (как на визуальзации Page Layout).  Кстати, а почему сказано "якобы заключается текст"?  Что, рамка определилась неправильно, или же самого текста не было видно?
 

Цитата:
5) надо ли на самом деле проходить мышкой по всем страницам, чтобы отметить правильные рамки и т.д., или достаточно пробежаться по thumbnails взглядом?  

Там где на миниатюре все выглядит как надо - туда можно не заходить.  Я сейчас кстати как раз работаю над улучшением автоопределения рамки, так что надеюсь скоро править вручную почти ничего не придется.
 

Цитата:
1) help tooltips, чтобы видно было, что означают кнопки - тогда и хелп особо не нужен  

Какие именно кнопки вызывают вопросы?
 

Цитата:
2) чтобы можно было стирать библиотечные печати на странице, какой-нибудь примитивный ластик.  

На сайте в разделе "Предложенные улучшения" есть такой пункт.  Задача не слишком приоритетная, так что пока проще будет Gimp'ом вырезать на выводе.
Цитата:
после "mask" получается чисто чёрное поле.  

Это нормально.  Это означает что при расчете фоновой поверхности будет использоваться вся картинка.   Что у вас на вкладках background и normalized_illumination?  А вообще лучше выложите куда-нибудь пару файлов из проекта и ссылку сюда или мне в личку.
 
Добавлено:

Цитата:
О-о-о-чень нестабильно работает! Постоянные runtime error'ы!

У меня ни одного.  Впрочем один товарищ сообщил о таком единичном случае, но воспроизвести до сих пор не может.  Если у вас это воспроизводится - то есть вы знаете, как вызвать этот самый runtime error, то выкладывайте файлы и шаги для воспроизведения.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 00:21 21-01-2009
VidelSamogO



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
Выкладываю пару картинок, на которых вылетает НА ЭТАПЕ ВЫВОД. Воспроизводится на другой винде XP32-SP3. Когда перезагрузился в неё.  
http://ifolder.ru/10133505

Всего записей: 765 | Зарегистр. 16-08-2008 | Отправлено: 00:41 21-01-2009
are



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
всё зависло после 2х страниц - но это перегрелся компьютер, с ним такое бывает.  
 
всё, что после mask, было чисто чёрным или чисто белым. Наверно, это (и медленная обработка) всё глюки от wine. Но я действительно не могу сейчас сам компилировать qt4 или инсталлировать его development version. Если можно было бы собрать статически с qt4, я бы попробовал нормальную версию. (libc6-2.3.6 у меня в системе стоит)
 
в моих сканах разрешение 300дпи, серое, это точно. Размеры  изображения 3246 на 2358. http://rapidshare.com/files/186791958/p003.tif.html
 
такого рода сканы в принципе должны обрабатываться без проблем. Не думаю, что надо убирать другие алгоритмы бинаризации, - путь будет несколько, лишь бы работало.
 
что касается bitonal, то я просто не стал пробовать - может bitonal это значит два цвета (скажем белый и синий), но в любом случае было непонятно, чем отличается bitonal от black/white, и не было видно, что вне режима bitonal кнопки light/dark неактивны (они не серые). Вот для этого и пригодились бы tooltips. Ещё они пригодились бы для того, чтобы понимать, что означают mask, downward fill и прочее, что там ещё было на вкладках.  
 
ещё: первая операция - adjust orientation. Но лишь позже я понял, что это не то же самое, что deskew. А deskew надо делать только после разрезания. Поэтому я какое-то время колебался, надо ли это orientation делать и что это значит. Я бы это назвал "page orientation" и опять-таки tooltip не помешал бы.
 
выше я написал, что в рамках "якобы" заключается текст - потому, что эти рамки можно двигать вручную, значит можно самому решать, где текст, а где не текст; остаётся понять, что с этой рамкой будет сделано дальше.
 
в моём тесте все рамки были автоматически определены совершенно верно (впрочем сканы очень простые). В одном случае надо было убрать библиотечную печать, хотелось просто чуть подвинуть для этого рамку, но тогда надо знать наверняка, что всё кроме содержимого рамки будет стёрто. Видимо, это так и предполагается, но юзеру (мне) было неочевидно.
 
ещё раз спасибо!
в принципе уже сделано почти всё, что нужно для счастья. Обычные сканы - развороты 2 страницы на лист, без цветных иллюстраций, без сносок или цифр на полях, без рисунков, вылезающих за края текста - скорее всего уже без какой-либо ручной работы будут сделаны на СТ без ошибок.  Ценная вещь!

Всего записей: 552 | Зарегистр. 06-03-2005 | Отправлено: 00:42 21-01-2009 | Исправлено: are, 00:49 21-01-2009
VidelSamogO



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
У меня двухъядерник интел. Может, поэтому...

Всего записей: 765 | Зарегистр. 16-08-2008 | Отправлено: 00:43 21-01-2009
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Ссылки на беты публиковались в этой ветке.  

Tulon, ещё один повод все таки дублировать эти ссылки и в шапку (не на сайт же предлагаю). Видишь сколько людей пользуются 0.9.0/0.9.1 и критикуют то, что уже давно исправлено/реализовано.

Цитата:
Я сейчас кстати как раз работаю над улучшением автоопределения рамки, так что надеюсь скоро править вручную почти ничего не придется.

Серьезное заявление. Речь ведь идет о "Полезной области"? Желаю удачи!
А Gimp с tif LZW и G4Fax корректно работает? (спрашиваю на всякий случай)

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 01:15 21-01-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
VidelSamogO

Цитата:
Выкладываю пару картинок, на которых вылетает НА ЭТАПЕ ВЫВОД

Не воспроизводится
Вы пробовали создавать проект только из этих двух файлов?  Если даже так воспроизводится, то пришлите свой проектный файл и точные инструкции для воспроизведения, в частности DPI вывода и режим вывода.
Если так не воспроизводится, шлите проектный файл от полного проекта.
 

Цитата:
У меня двухъядерник интел. Может, поэтому...

Не должно такого быть.  А если падения воспроизводятся, то точно не из-за этого.
 
Добавлено:
are
А вот на вашем примере падение воспроизвелось.  Походу падает на страницах без контента в режиме вывода Смешанный.  Это я исправлю, но остальным не расслабляться, поскольку это похоже не то падение, о котором сообщал мне другой товарищ.
 

Цитата:
такого рода сканы в принципе должны обрабатываться без проблем. Не думаю, что надо убирать другие алгоритмы бинаризации, - путь будет несколько, лишь бы работало.  

А смысл, если один уделывает всех остальных?
 

Цитата:
что касается bitonal, то я просто не стал пробовать - может bitonal это значит два цвета (скажем белый и синий), но в любом случае было непонятно, чем отличается bitonal от black/white, и не было видно, что вне режима bitonal кнопки light/dark неактивны (они не серые). Вот для этого и пригодились бы tooltips. Ещё они пригодились бы для того, чтобы понимать, что означают mask, downward fill и прочее, что там ещё было на вкладках.

Вы правильно поняли что такое Bitonal - это фактически черно-белый с возможностью подменить эти два цвета на другие.  Я его собираюсь убрать, потому что вряд-ли кто им будет пользоваться, а с толку сбить он может.
А по поводу всяких там mask, fill и прочих - это вы включили режим отладки - он для разработчиков, для отыскивания проблем под руководством разработчика, и может для тех, кому сильно интересно, как работает тот или иной алгоритм (кстати на разных стадиях набор вкладок разный).  На этих вкладках отображаются промежуточные результаты работы алгоритмов.  Даже если описать что есть что, это поймут только разработчики.
 

Цитата:
ещё: первая операция - adjust orientation. Но лишь позже я понял, что это не то же самое, что deskew. А deskew надо делать только после разрезания. Поэтому я какое-то время колебался, надо ли это orientation делать и что это значит. Я бы это назвал "page orientation" и опять-таки tooltip не помешал бы.  

Согласен - тултип там нужен.  Ну а Fix Orientation vs Page Orientation - по моему не принципиально.  Кстати в последней бете есть русский перевод, и в русском варианте это "Исправление ориентации" - по моему достаточно понятно.
 

Цитата:
в моём тесте все рамки были автоматически определены совершенно верно (впрочем сканы очень простые). В одном случае надо было убрать библиотечную печать, хотелось просто чуть подвинуть для этого рамку, но тогда надо знать наверняка, что всё кроме содержимого рамки будет стёрто. Видимо, это так и предполагается, но юзеру (мне) было неочевидно.  

Да, это неочевидно, да и в двух словах не объяснить - поведение зависит от режима вывода.  Тут как раз пригодился бы хэлп, желательно встроенный в саму программу.
 

Цитата:
ещё раз спасибо!
в принципе уже сделано почти всё, что нужно для счастья. Обычные сканы - развороты 2 страницы на лист, без цветных иллюстраций, без сносок или цифр на полях, без рисунков, вылезающих за края текста - скорее всего уже без какой-либо ручной работы будут сделаны на СТ без ошибок.  Ценная вещь!

Вы еще не пробовали режим вывода Mixed (Смешанный) - он автоматом выделяет картинки, нормализует в них освещение (борется с тенью от разворота) - а остальное преобразует в черно-белое.  Такой фичи даже в СК нет.  Алгоритм автовыделения картинок от U235 оказался весьма удачным.
 
Добавлено:

Цитата:
Tulon, ещё один повод все таки дублировать эти ссылки и в шапку (не на сайт же предлагаю). Видишь сколько людей пользуются 0.9.0/0.9.1 и критикуют то, что уже давно исправлено/реализовано.  

Так, а у вас нет прав на редактирование шапки?  Там видимо Silver Member нужен или типа того.  Ладно - проставлю туда ссылку сам.
 
Добавлено:
Кстати, denver 22, мы с вами до сих пор не разобрались с белыми тифами на выводе (возможно та же проблема, что и у are, и с тифами, которых не переваривает FineReader.  Я жду от вас дополнительный материал (писал в личку что именно нужно).
 
 
Добавлено:
Поправил падение на страницах без контента в режиме Mixed.  Собирать или не собирать новую бету - на усмотрение denver 22.  Я бы сначала с остальными двумя проблемами разобрался.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 01:21 21-01-2009
VidelSamogO



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
Половина файлов из этой книги не выводятся, в конце, вызывая ошибку. эти я прислал для примера. Ошибка появляется вдля версии ИМЕННО на этой парочке эффект стойкий. Завтра попробую на работе.
Высылаю файлы и проект.
http://ifolder.ru/10135486

Всего записей: 765 | Зарегистр. 16-08-2008 | Отправлено: 04:05 21-01-2009 | Исправлено: VidelSamogO, 04:35 21-01-2009
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
VidelSamogO
Ошибка возникает из-за того, что на 3 странице (2 разворот) неправильно определилась полезная область. Если ее поправить вручную, то все работает. (см. 146 стр. проекта, отрицательное значение y="-3.552713678800501e-15" из-за этого видимо и возникает runtime error).
Tulon
При выводе в TIFF надо явно прописывать тег 262 - Photometric Interpretation (в данном случае надо в Photometric Interpretation записывать 0.0), иначе просмоторщик XnView показывает негатив. (Также разрешение в тегах желательно прописывать в привычных pixels/inch, а не в pixels/cm и расширение файлов привычнее .tif, а не .tiff).  

Всего записей: 884 | Зарегистр. 14-12-2005 | Отправлено: 06:37 21-01-2009 | Исправлено: U235, 06:56 21-01-2009
Arcand

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
denver 22
Цитата:
Зашибись, а я уже несколько книг сделал.
Не огорчайтесь . У меня больше книг, которые сейчас я бы намного лучше сделал.
Цитата:
Точнее, не нравится мне ситуация, когда двое разработчиков тянут одеяло на себя, критикуя второго. И что мне? опять сравнивать оба метода?
Вы не так поняли ситуацию. manfred подкинул идею с разделенными сканами, я разобрался с msepdjvu и сделал батники для кодирования книг. Потом manfred сделал GUI - FSD.
В пылу полемики я забыл сказать, что в FSD есть выбор кодировщика: msepdjvu или сsepdjvu. Так что слова monday2000
Цитата:
DjVu Sep - абсолютно легальная программа, а FSD - варез
смехотворны.
В FSD кодирование осуществляется за один проход - сразу создается одно дежавю. Я не против DjVu Sep, я против извращения метода разделенных сканов - спрашивается зачем лепить отдельные дежавю для текста и картинок и потом все это склеивать?

Цитата:
И что мне? опять сравнивать оба метода?  
А так не понятно, что есть что? DjVu Sep возник благодаря своеобразному пониманию ее автором метода разделенных сканов.

Цитата:
monday2000 и Arcand: в попытке исправить ситуацию с оффтопом в этой теме прошу вас продолжить обсуждение "метода разделенных сканов" в ветку "Электронные книги"
Не получится - у monday2000 запрет на пост в том топике.

Цитата:
твоё мнение-сравнение разделенных сканов и кодирования в DEE уже смешанных сканов? И Tulon заодно послушает.
Как-то в топике по СК выкладывались сканы закодированные в одном случае в DEE, в другом в msepdjvu (методом разделенных сканов). Мнения, что лучше разделились. Так что это дело вкуса. О своем я уже говорил.
 
Добавлено:
U235
Раз Вы здесь посмотрите плагин http://abab.front.ru/BgClear.ZIP . Если по Вашему мнению все нормально, буду выкладывать.

Всего записей: 2493 | Зарегистр. 28-05-2004 | Отправлено: 06:45 21-01-2009
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Кстати, denver 22, мы с вами до сих пор не разобрались с белыми тифами на выводе (возможно та же проблема, что и у are, и с тифами, которых не переваривает FineReader.

Я читал Личку. У меня были технические проблемы с флешкой и Инетом. Я обязательно сделаю тесты, описанные тобой и результаты вышлю.

Цитата:
Собирать или не собирать новую бету - на усмотрение denver 22.  Я бы сначала с остальными двумя проблемами разобрался.

Раз проблемы решаются активно, собирать пока не буду. Да и запарка у меня малость. Но если тот, у кого ошибка была исправлена захочет побыстрее проверить исправление, завтра соберу.
Я шапки ещё даже не пытался править . Ты же разработчик, тебе решать насколько серьезные новшества в бета-сборках. Я-то только собираю.
 
Добавлено:
Arcand, спасибо за разъяснения. Раз ST оптимален для работы с полутоновыми картинками, и DEE ты хвалишь для кодирования таких сканов, тогда пока не буду заморачиваться с другими методами. А то вчера посмотрел, оказывается мне ещё 81 книгу исправлять. На тестирование неочевидных технологий времени нет .

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 07:28 21-01-2009
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Arcand
Потестировал немного в фотошопе. Глюков в нем пока не заметил, работает весьма быстро!
Пожелания: Возможно имеет смысл разделить плагин на два плагина: с сохранением контента по краям и без. В фотошопе, при файл/автоматизация/пакет каждый раз всплывает окно плагина с галкой. (Возможно я не понял как сделать в фотошопе, чтобы оно не всплывало).
Потестировал в XnView - замечен баг, видимо связаный или с самим xnview(не последней версии), баг проявляется как черная косая однопиксельная линия, начинающаяся с нижнего 1024-го пикселя.

Всего записей: 884 | Зарегистр. 14-12-2005 | Отправлено: 07:57 21-01-2009
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Arcand

Цитата:
в FSD есть выбор кодировщика: msepdjvu или сsepdjvu

Да, есть. Но это не избавляет FSD от титула "варез". Вот если бы msepdjvu там вообще не было - то тогда FSD варезом не являлся бы.

Цитата:
я против извращения метода разделенных сканов - спрашивается зачем лепить отдельные дежавю для текста и картинок и потом все это склеивать?

Элементарно, Ватсон. Чтобы на чисто текстовых сканах (коих, кстати, подавляющее большинство) создавался словарь разделённых символов.

Цитата:
В FSD кодирование осуществляется за один проход - сразу создается одно дежавю.

А что в этом хорошего? Я тоже мог бы сделать "за один проход" (с точки зрения юзера) - если объединить в один флакон DjVu Sep и DjVu Small. За один проход в данном случае делать не стоит - потому что надо в общем случае поиграться с настройками DjVu Sep - если хотите получить книгу вменяемого размера. И только получив готовую МРС-продукцию (множество 1-страничных 2-слойных DjVu), вставлять их в книгу-назначение.
 
DjVu Sep и DjVu Small - каждый из них кодирует в DjVu слишком разнородную информацию, чтобы их можно было объединить в единую программу (как это сделано в msepdjvu).
 
Добавлено:
Tulon

Цитата:
Так вы вообще никаких усилий не хотите прилагать. С таким отношением я не уверен, что вы и хэлп прочитали бы. Или скажем начали бы читать, и на первом же непонятном месте забросили бы.

Да, именно таков среднестатистический юзер, который будет пробовать воспользоваться Вашей программой. И с этим ничего нельзя поделать. Юзера не переделаешь - под него можно только попытаться подстроиться.
 
Добавлено:
denver 22

Цитата:
А вот спорами о том, какой программой пользоваться для метода разделенных сканов окончательно меня запутали. Точнее, не нравится мне ситуация, когда двое разработчиков тянут одеяло на себя, критикуя второго. И что мне? опять сравнивать оба метода? Я, блин, уже не книгу буду делать, а лабораторную работу...

Различие между FSD и DjVu Sep есть. FSD будет давать меньший размер (что есть хорошо) в случае, когда в книге много полутоновых иллюстраций. И это исключительно за счёт того, что msepdjvu делает словарь разделённых символов на передних субсканах - а сsepdjvu, разумеется, нет (т.к. вообще это не умеет).
Но FSD менее удобен для "поиграться с настройками" - нежели чем DjVu Sep. Это может оказаться гораздо более значимым фактором (т.е. подбор "размер/качество" картинок).
 
Если Леон Боту исправит вот этот глюк со сборкой-разборкой DjVu (он мне обещал), то тогда станет возможной подклейка цветных фонов в готовый многостраничный ЧБ DjVu. И тогда хоть какая-нибудь принципиальная разница между FSD и DjVu Sep исчезнет начисто - останется лишь различие в интерфейсе/удобстве использования.
 
Добавлено:

Цитата:
Не получится - у monday2000 запрет на пост в том топике.  

Да, и это ИМХО дел рук albel. Этот факт ИМХО любопытен тем, что он наглядно демонстрирует, что Руборд уже не лучшее место, где следует заниматься развитием скан-обработки. То есть Руборд показал, что ему глубоко начхать на эту проблему. Здесь ещё до моего появления успела сложиться и закостенеть своеобразная "сканкромсаторно-колхозная мафия" - которая стала тормозить развитие всякими своими нелепыми закидонами. Вот один из образчиков их логики: "Давайте всячески скрывать технологии книгосканирования - потому что иначе враги догадаются, что ими делаются е-книги, догадаются, что где-то должен быть их обменник, и догадаются, что этот обменник - колхоз." Кстати, и СК этой же логикой пронизан.
Вполне вероятно, что тот же форум Натахаус гораздо более заинтересован в развитии технологий книгосканирования - это и понятно - они существуют за счёт них.
 
Добавлено:
are

Цитата:
1) что такое Otsu и другие методы бинаризации?

http://www.djvu-soft.narod.ru/bookscanlib/023.htm
http://www.djvu-soft.narod.ru/bookscanlib/024.htm
http://www.djvu-soft.narod.ru/bookscanlib/025.htm

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 10:57 21-01-2009 | Исправлено: monday2000, 13:00 21-01-2009
VidelSamogO



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235

Цитата:
Ошибка возникает из-за того, что на 3 странице (2 разворот) неправильно определилась полезная область.

Понятно. Но в том то и дело, что меня интересует корректная работа программы в автоматическом режиме. В книге более 1000 страниц. И на паре десятков из них прога вылетает, что не радует. Нельзя ли это как-то исправить в проге?

Всего записей: 765 | Зарегистр. 16-08-2008 | Отправлено: 12:08 21-01-2009 | Исправлено: VidelSamogO, 12:12 21-01-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Понятно. Но в том то и дело, что меня интересует корректная работа программы в автоматическом режиме. В книге более 1000 страниц. И на паре десятков из них прога вылетает, что не радует. Нельзя ли это как-то исправить в проге?

Воспроизвел.  Значит скоро исправлю.
 
Добавлено:
Исправил.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 13:11 21-01-2009
Arcand

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235
Цитата:
В фотошопе, при файл/автоматизация/пакет каждый раз всплывает окно плагина с галкой.
Я автоматизацию делал только для Корела, там окошко при пакетной обработке не выскакивает, нужно только сначала обработать плагином какой-либо скан, после этого настройки в плагине сохраняются и используются в дальнейшем.
Что касается Фотошопа, то там для автоматизации используется специальный ресурс. Корел его игнорирует, поэтому я с ним не заморачивался. Похоже, если нет этого ресурса то Фотошоп при пакетной обработке вызывает плагин с селектором = filterSelectorParameters, т.е. вызывается диалог настроек. Корел этот вызов при пакетной обработке пропускает и сразу вызывает плагин с селектором = filterSelectorPrepare.
Если Вам автоматизация в Фотошопе нужна, то могу разобраться и добавить ее для Фотошопа. Тогда надобность в двух плагинах отпадет. К тому же я планирую делать другие плагины, где с настройками будет побогаче. Поэтому, если делать автоматизацию для Фотошопа, то всяко надо вводить в плагин соответствующий ресурс.
Цитата:
замечен баг, видимо связаный или с самим xnview(не последней версии), баг проявляется как черная косая однопиксельная линия, начинающаяся с нижнего 1024-го пикселя.
В Корел и Фотошоп у меня нормально. Наверное, xnview выдает/считывает плагину изображение не должным образом. Проверить не могу, у меня нет xnview.

Всего записей: 2493 | Зарегистр. 28-05-2004 | Отправлено: 13:36 21-01-2009
are



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
по поводу алгоритмов бинаризации. В теории всё хорошо, а как на практике - вот например такой скан
 
http://rapidshare.com/files/187052179/p006.tif.html
 
там в нескольких местах "смазался" текст при сканировании (книга старая, бумага неплотно прилегает к стеклу, а бороться с этим нелегко)
 
хотелось бы знать, как с этим работают различные алгоритмы бинаризации и какой лучше?

Всего записей: 552 | Зарегистр. 06-03-2005 | Отправлено: 14:35 21-01-2009
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
там в нескольких местах "смазался" текст при сканировании (книга старая, бумага неплотно прилегает к стеклу, а бороться с этим нелегко)
 
хотелось бы знать, как с этим работают различные алгоритмы бинаризации и какой лучше?

А вы сами попробуйте.  Я попробовал, и Otsu на мой взгляд был лучшим.
 
Кстати я воспроизвел тормоза на ваших сканах на версии 0.9.1.  В текущих бетах уже не тормозит.  А пустые страницы так и не воспроизвел.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 14:51 21-01-2009
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor
Widok (17-02-2010 12:17): Лимит страниц. Продолжаем здесь.


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru