Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)

Модерирует : gyra, Maz

Maz (10-01-2024 10:45): Scan Tailor (часть 3)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

Widok



Moderator-Следопыт
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие части: Часть 1
Scan Tailor


Задача программы - пост-обработка сырых сканов книг для последующей сборки в PDF/DJVU,CBR/CBZ и т.д.
Программа обеспечивает большое удобство для использования, большую интерактивность и не меньшую автоматизацию процесса (по сравнению со СканКромсатором).
Кросс-платформенный (Windows,Mac OS, Linux) проект с открытыми исходниками.


Англоязычный топик по ScanTailor
 
Ветки:
Scan Tailor (ncraun) >>>  последняя версия
Scan Tailor Experimental (Tulon) >>>  последняя версия (обсуждение на DIY Book Scanner)
Scan Tailor Plus (Vadim "DikBSD" Kuznetsov) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Еnhanced (Petr "pejuko" Kovar) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Featured (monday2000) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Universal (trufanov-nok) >>>  последняя версия (обсуждение на publ.lib.ru)
Scan Tailor Advanced (4lex4) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Advanced (актуальный форк) >>>  история версий
 
Документация:
Документация (Wiki) | Зоны картинок в ScanTailor | ScanTailor. Быстрое начало | Видеоуроки и скринкасты новых функций СТ от Tulona
Статья: Scan Tailor. Программа для обработки отсканированных книг
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
Использование Scan Tailor совместно с Djvu Imager (сборка djvu методом разделенных сканов)
Как собрать Scan Tailor из исходных кодов под Windows
Почему нельзя сделать сплошную нумерацию вывода


Автор проекта - Tulon. Почему его здесь не видно? .
DikBSD автор ветки ScanTailor Plus история повторяется.
Юзеры! Будьте скромнее!


Прочие дистрибутивы, форки, дополнения

Всего записей: 24190 | Зарегистр. 07-04-2002 | Отправлено: 12:17 17-02-2010 | Исправлено: Maz, 10:43 10-01-2024
anagnost96

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Еще вот такой вопрос: раз уж в скрипте предусмотрено распознавание текста, то нельзя ли предусмотреть выбор OCR-движка (cuneiform или tesseract)?

Всего записей: 132 | Зарегистр. 01-05-2009 | Отправлено: 12:51 06-10-2010
iit512

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Я уже думал о том, чтобы включить tesseract, но меня остановило низкое (пока еще, я надеюсь) качество распознавания, отсутствие поддержки смешанных языков (для меня это критично) и в особенности странный способ производства hOCR -- через конфигурационный файл, который придется распространять вместе с моим скриптом, если я включу tesseract в движки.
Кстати говоря, если я правильно понимаю -- это Вам большое спасибо за hOCR в tesseract. Но чтобы догадаться, как его сделать, пришлось лезть в исходники (!).
===
Все впечатления -- от вчерашней свежескомпилированной версии.

Всего записей: 177 | Зарегистр. 18-05-2005 | Отправлено: 21:37 06-10-2010 | Исправлено: iit512, 21:39 06-10-2010
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
iit512

Цитата:
Не умеет одного -- непрерывного словаря в том случае, если черно-белые страницы перемежаются с картиночными.  

Это уже древний подход - к примеру, DjVu Sep (морально устаревшая программа) этим только и отличается от DjVu Imager, что DjVu Sep также не умела делать непрерывный словарь в подобных случаях - а DjVu Imager всегда делает такой словарь (точнее, он просто приклеивает картинки, не нарушая исходной чёрно-белой структуры DjVu).

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 09:27 07-10-2010
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
anagnost96

Цитата:
то нельзя ли предусмотреть выбор OCR-движка (cuneiform или tesseract)?

CuneiForm OCR невозможно вставить в DjVu под Windows - можно только под Linux.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 12:21 07-10-2010 | Исправлено: monday2000, 12:22 07-10-2010
terminat0r



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000

Цитата:
CuneiForm OCR невозможно вставить в DjVu под Windows - можно только под Linux.

а можно поподробнее?

Всего записей: 2084 | Зарегистр. 31-03-2002 | Отправлено: 21:43 07-10-2010
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
terminat0r

Цитата:
а можно поподробнее?

Вот почитайте: http://openocr.org/forum/viewtopic.php?f=2&t=46

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 12:55 08-10-2010
terminat0r



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000
так ocrodjvu полностью на питоне написана. В чем проблема под виндовсом?

Всего записей: 2084 | Зарегистр. 31-03-2002 | Отправлено: 16:22 08-10-2010
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
terminat0r
По идее проблем нет. CuneiForm нормально под Win32 (проверял под VC++) собирается, с выводом в hocr. Непонятно, что хотел сказать  monday2000

Всего записей: 884 | Зарегистр. 14-12-2005 | Отправлено: 16:48 08-10-2010
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
terminat0r
U235
Я имел в виду, что те дистрибутивы CuneiForm под Windows, которые доступны на оф. сайте, не поддерживают вывод hOCR. Вообще их 2 штуки, вот они:
 
1. http://www.cuneiform.ru/downloads/cuneiform.zip (версия на момент открытия кода программы - т.е. "старая").
 
http://www.cuneiform.ru/downloads/setup_openocr_cuneiform_rus.exe (более новая версия - т.е. "новая").
 
Правда, "новая" версия поддерживает вывод в свой фирменный формат FED - который является аналогом hOCR. Вот документация к FED: http://www.djvu-soft.narod.ru/openocr.htm (я даже перевёл её на английский). По идее, можно сделать конвертер FED -> hOCR (или что-то в этом роде).
 
Вывод hOCR прикрутили уже линуксоиды - к своему Linux-клону CuneiForm. Но Windows-то версиям CuneiForm от этого ни холодно, ни жарко - они как не умели выводить hOCR - так и не умеют по-прежнему.
 
"Старая" версия не умеет распознавать более 1-страницы текста за один присест. И ещё она даже и FED не умеет выводить.
"Новая" версия фактически содержит  2 программы в одном дистрибутиве - "старую" версию плюс новую программу, умеющую делать пакетное распознавание. Именно вот эта пакетная распознавалка (фактически, это просто нечто вроде GUI к ядру распознавания) и умеет выводить FED.
 
Но есть одна важная проблема: по неизвестным причинам, "новая" версия почему-то распознаёт гораздо хуже "старой" (эту мысль мне сообщил модератор ZYV с форума OpenOCR). В смысле качества распознавания. (кстати, ZYV - не сотрудник Cognitive, так что он ничего толком не знает). Видно, пакетная распознавалка получилась у них кривая. Так что по идее, плясать нужно всё-таки от "старой" версии - начисто игнорируя "новую".
U235

Цитата:
CuneiForm нормально под Win32 (проверял под VC++) собирается, с выводом в hocr.

Так это здорово и замечательно! Я лично об этом мог только мечтать - поскольку совершенно не имел и не имею времени пытаться перекомпилировать CuneiForm.
 
Расскажите, пожалуйста, подробнее - как Вы это компилировали, по шагам (например, на форуме openocr.org), ну или хотя бы - выложите готовую к применению CuneiForm под Windows, умеющую выводить hOCR (надеюсь, она с визуальным интерфейсом и поддержкой пакетного распознавания?). Это будет просто здорово.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 14:20 09-10-2010 | Исправлено: monday2000, 09:26 12-10-2010
VidelSamogO



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
iit512
img2djvu? Сделайте, плиз портабельный экзешник со всеми включенными компонентами, чтобы сразу натравить на папку с картинками и получить результат. А то этот текстовичок не внушил мне никакого почтения. Хотя я всё закаяал и установил, как требовалось. Ни интерфейса, ни опций, ни возможности что то контролировать... А пока что я считаю это концептуальной возможностью, но не полноценным решением.

Всего записей: 765 | Зарегистр. 16-08-2008 | Отправлено: 08:33 10-10-2010
iit512

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Правильно ли я понял, что Вы запустили скрипт (он запускается именно на папку с картинками) и не получили DjVu? Какие конкретно ошибки возникли? Или Вы все-таки получили DjVu?

Цитата:
ни опций, ни возможности что то контролировать

Есть множество опций. Прочитайте, пожалуйста README -- это очень короткий текст, и с примерами.

Всего записей: 177 | Зарегистр. 18-05-2005 | Отправлено: 10:22 11-10-2010
anagnost96

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
iit512
 
Небольшое замечание к скрипту: наверное, нет смысла писать -compress Group4, а потом делать вывод в pbm?

Всего записей: 132 | Зарегистр. 01-05-2009 | Отправлено: 13:24 12-10-2010
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235

Цитата:
CuneiForm нормально под Win32 (проверял под VC++) собирается, с выводом в hocr.  

Может быть, речь идёт о сборке под Windows Linux-порта CuneiForm? Тогда расскажите, пожалуйста, как это делается (конкретно).

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 14:32 12-10-2010
iit512

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Небольшое замечание к скрипту: наверное, нет смысла писать -compress Group4, а потом делать вывод в pbm?  

Спасибо, убрал это.
===
Все же: есть ли возможность заставить tesseract сделать hOCR без специального конфигурационного файла?

Всего записей: 177 | Зарегистр. 18-05-2005 | Отправлено: 23:43 12-10-2010
anagnost96

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Все же: есть ли возможность заставить tesseract сделать hOCR без специального конфигурационного файла?

 
В принципе, ничто не мешает создать файлик в текущем каталоге в процессе работы скрипта, а потом его за собой подчистить.

Всего записей: 132 | Зарегистр. 01-05-2009 | Отправлено: 01:11 13-10-2010
iit512

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Да,я тоже подумал, что так можно сделать. Но жаль, что это не предусмотрено как опция.

Всего записей: 177 | Зарегистр. 18-05-2005 | Отправлено: 20:50 13-10-2010
iit512

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
На случай если сюда заглянет Tulon: Scan Tailor падает, если включить сортировку контента.  
http://sourceforge.net/tracker/?func=detail&aid=3087706&group_id=227253&atid=1070628
Наверное, можно сделать какой-нибудь crash report или debug, но как -- я, к сожалению, не знаю.

Всего записей: 177 | Зарегистр. 18-05-2005 | Отправлено: 02:31 15-10-2010
Salvatorul



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
iit512
Бага известная. В git кажется уже поправили. По крайней мере, неделю назад собирал, проблем не заметил. Если собирать с опцией  -DCMAKE_BUILD_TYPE=Debug то будет работать в любом случае.

Всего записей: 38 | Зарегистр. 30-04-2007 | Отправлено: 04:32 15-10-2010
LazyKent

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
iit512
При распознавании текста, на мой взгляд, нет необходимости конвертировать картинку в BMP. Cuneiform справляется с PNM.

Всего записей: 174 | Зарегистр. 17-08-2006 | Отправлено: 08:01 15-10-2010
iit512

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
При распознавании текста, на мой взгляд, нет необходимости конвертировать картинку в BMP. Cuneiform справляется с PNM.  

К сожалению, это не так:

Код:
> cuneiform -l ruseng s-008.pnm  
Cuneiform for Linux 0.7.0 (multilang)  
s-008.pnm is not a BMP file.


Всего записей: 177 | Зарегистр. 18-05-2005 | Отправлено: 22:10 15-10-2010 | Исправлено: iit512, 22:10 15-10-2010
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)
Maz (10-01-2024 10:45): Scan Tailor (часть 3)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru