Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ABBYY FineReader (Часть 1)

Модерирует : gyra, Maz

Maz (20-12-2023 09:13): ABBYY FineReader (Часть 2)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

JediMaster_Dragon



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
ABBYY FineReader
7, 8, 9, 10 (Pro, Corp, Home), 11 (Pro, Corp), 12 (Pro, Corp) и 14 (Pro, Corp, Ent)

 

 
Полный список языков распознавания для FR15
 

Русский интерфейс
 
Ответ на вопрос о сохранении проекта смотрим тут


Если  хотите, чтобы ваша проблема была рассмотрена, (решение не гарантируется), необходимо представить такие сведения:
1. Версия FineReader.
2. Версия Windows, версию пакета обновлений (SP), разрядность (для Vista и выше).
3. Если проблемы со сканированием, то называем ещё и модель сканера. Обновите драйвера своего сканера, до последней версии имеющейся на сайте поддержки вашего сканера.


Как можно получить церковнославянские тексты при помощи сканирования FineReader'ом
Как отключить "искусственный интеллект" FineReader
Как выбрать опции, чтобы FR10 распознавал простейшие формулы
FineReader не распознает сложные формулы и рукописный текст, не задавайте вопросов на эту тему.  
Версии FR для Linux пока не существует, только Engine, который вам явно не нужен.

Для понимания формата XPS программой FineReader нужен Framework 3.0. Только для XP и 2000.
Совет по распознаванию файлов DjVu Читать
Электронные текстовые книги - OCR, вычитка, оформление

Всего записей: 354 | Зарегистр. 18-01-2002 | Отправлено: 09:07 26-01-2003 | Исправлено: Maz, 19:24 26-01-2020
VitRom

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Frantishek, если речь в основном о дежавю, то наилучшие результаты (полноценно использующие все преимущества формата, а не ламерские поделки) будут при использовании ФР как только "распознавалки", в связке с другим дежавю-специфичным софтом. Начни отсюда или на Флибусте поищи, там были хауту.

Всего записей: 3098 | Зарегистр. 18-06-2006 | Отправлено: 12:13 04-02-2013
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
VitRom

Цитата:
то наилучшие результаты (полноценно использующие все преимущества формата, а не ламерские поделки) будут при использовании ФР как только "распознавалки"

Было верно для 9-й и 10-й версий, когда для работы с DjVu разработчики использовали самостийный софт.  
Но начиная с 11-й версии, для создания DjVu'шек начали использовать родной софт (лицензия от Caminova), так что результаты должны получаться плюс-минус сходные (в пределах умения пользоваться купленными API).

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 13:51 04-02-2013 | Исправлено: Shangry, 14:21 04-02-2013
Frantishek



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Shangry
Спасибо за понятные ориентиры. А то я уже грешным делом чуть расстроился, что мои задачки можно будет разрешить при помощи лишь ABBYY Recognition Server 3.5, а он ценой порядка 600 000р. если на процессор ставить без ограничения на вход. Остается лишь дилемма как срастить возможности FR11 и Hot Folder.. видимо зарезали функционал чтобы почетче позиционировать под сервер автоматизацию (сценарии и пр.).

Всего записей: 1222 | Зарегистр. 02-05-2006 | Отправлено: 14:11 04-02-2013
VitRom

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Shangry,
Это радует. Хотя ЕМНИП в тех решениях, что видел я, юзались вообще какие-то "3-пати" тулзы, вроде даже что-то открытое. Впрочем, эти упомянутые решения были нацелены на "вытягивание" максимальных результатов с помощью различных хитростей. Тогда получается, что для 9/10 задач хватит "чистого" ФР-11...
Что ж, это действительно очень радует.
 
ЗЫ. Хотя не факт, что это именно случай Frantishek, у которого кучи сырья самого разного качества. Или в обрезке/кадрировании/чистке ФР-11 тоже переплюнул уже спецтулзы вроде БукРесторер-а или СканКромсатор-а?

Всего записей: 3098 | Зарегистр. 18-06-2006 | Отправлено: 14:14 04-02-2013 | Исправлено: VitRom, 14:15 04-02-2013
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Frantishek

Цитата:
... мои задачки можно будет разрешить при помощи лишь ABBYY Recognition Server 3.5

Как-то полистал немного его Help и вспомнилась фраза из русской классики "Чудовище обло, огромно, озорно и лаяй".
Других слов, чтобы описать это чудо программистики просто в голову не приходит.
 
Но до 10-й версии ничего другого для пакетизации заданий, увы, не водилось
 

Цитата:
Остается лишь дилемма как срастить возможности FR11 и Hot Folder.. видимо зарезали функционал чтобы почетче позиционировать под сервер автоматизацию (сценарии и пр.)

Здесь такое впечатление, что сначала сделали толковый инструмент, а потом сами испугались сделанного. И начали его всеми силами до мизера доводить.
 
Что же до HotFolder в 11-версии, то мои знакомые нашли вполне работающий способ обходить процессорный ограничитель (с остальными в варезной ветке уже справились).  
Берется какой-нибудь "антиквариат" времен Pentium 4, на него ставится Corporate-вариант 11-й версии и запускается в режиме 24*7. Техники этих времен по чуланам все еще немало валяется, а производительность получается примерно 1 к 5-6 (за один час работы сегодняшнего четырехпроцессорника надо отдать 5-6 часов работы на Р4). Если найдется несколько штук таких "старичков", то в сумме можно получить вполне приемлемые темпы.
 
VitRom

Цитата:
 Хотя ЕМНИП в тех решениях, что видел я, юзались вообще какие-то "3-пати" тулзы, вроде даже что-то открытое.

Если это были времена прошлых версий, то примерно так и должно было быть. Собрали с бору по сосенке, где что нашлось и попытались соорудить из найденного нечто дееспособное.
 

Цитата:
Тогда получается, что для 9/10 задач хватит "чистого" ФР-11...

У разработчиков сейчас надо думать период освоения нового инструментария, так что к результатам работы FineReader с DjVu некоторое время надо относиться по правилу "Доверяй, но присматривайся".
Наткнулся как-то на оф. форуме на интересное обсуждение. Оказывается где-то год назад тамошний народ еще и не подозревал, что деление на слои - это только для цветных сканов, а в ч/б оно изначально без надобности. В результате первый релиз генерил жутко перетяжеленные ч/б DjVu. К счастью эту ошибку уже давно убрали.
 

Цитата:
Или в обрезке/кадрировании/чистке ФР-11 тоже переплюнул уже спецтулзы вроде БукРесторер-а или СканКромсатор-а?

В том, что касается разрезания разворотов на две страницы, IMHO очень и очень неплох. Я ему скармливал совершеннейшие безнадеги вроде хреново отсканированных газет довоенных времен, на которых не всегда сам мог понять - где одна страница, а где другая. Так он резал их с процентом выхода около 95.
Выравнивание делает плюс-минус прилично, но оставляет после себя клинья серого цвета. Если в конечном итоге требуется PDF, то приходится отключать.
Обрезкой IMHO не занимается вообще. Точнее может обрезать по фиксированному размеру (столько-то пикселей на столько-то пикселей), но так чтобы самому определить участок с фоном и отрезать только его - этого пока нет.
 
Так что на ближайшие годы BookRestorer скорее всего так и останется инструментом №1. ScanKromsator тоже хорош, спору нет, но отсутствие документации, но необходимость за ним постоянно присматривать и подкручивать...

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 14:58 04-02-2013 | Исправлено: Shangry, 15:04 04-02-2013
Frantishek



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Что же до HotFolder в 11-версии, то мои знакомые нашли вполне работающий способ обходить процессорный ограничитель

у меня старый ноут с мкой есть, только я не понял, они что ли только многоядерные привязки видят?

Всего записей: 1222 | Зарегистр. 02-05-2006 | Отправлено: 15:21 04-02-2013
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Frantishek

Цитата:
у меня старый ноут с мкой есть, только я не понял, они что ли только многоядерные привязки видят?

Еще смешнее. На какой бы машине не запускался HotFolder (в 11-й версии), он будет работать ровно в мощность одного ядра стоящего там процессора.  
 
Поэтому запускать его на чем-нибудь современном - так просто технику жалко. Крутится, крутится, а выход - всего ничего (сравнительно с полной мощностью компа). А вот на "старичке" - почему бы и нет, все одно скоро в утиль.

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 15:32 04-02-2013 | Исправлено: Shangry, 11:36 05-02-2013
unreal666



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Shangry

Цитата:
Но начиная с 11-й версии, для создания DjVu'шек начали использовать родной софт (лицензия от Caminova)

в Caminova только одна полезная штука - сегментер. Для всего остального ничего особенного в Caminova нет.
 
И в FR разбивка на слова/строки при экспорте в DJVU хуже, чем в DjvuOCR:
- в FR:

Цитата:
(page  
 (word "1-ое слово 1-ой строки")
 (char " ")
 (word "2-ое слово 1-ой строки\n")
 (word "1-ое слово 2-ой строки")
 (char " ")
 (word "2-ое слово 2-ой строки")
)

- в DjvuOCR:

Цитата:
(page
 (line  
 (word "1-ое слово 1-ой строки")
 (word "2-ое слово 1-ой строки")
 )
 (line  
 (word "1-ое слово 2-ой строки")
 (word "2-ое слово 2-ой строки")
)
)

2-ой вариант лучше, т.к. нет лишних данных о пробелах + из-за разбивки на строки (тег  (line ...) ) позволяет делать полуавтоматическое исправление ошибок после экспорта данных в DJVU.

Всего записей: 6637 | Зарегистр. 14-02-2005 | Отправлено: 16:44 04-02-2013 | Исправлено: unreal666, 16:44 04-02-2013
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
unreal666

Цитата:
в Caminova только одна полезная штука - сегментер.  

С этой точки зрения можно сказать, что во всем DjVu только одна по настоящему полезная вещь - толково работающий сегментатор.
Все прочие его компоненты ведь вполне ординарны - wavelet-сжатие (IW44), ч/б сжатие через словарь шаблонов (JBIG2, усовершенствованный до JB2), арифметический компрессор, снижение пиксельности.
 

Цитата:
И в FR разбивка на слова/строки при экспорте в DJVU хуже, чем в DjvuOCR

В принципе это можно отнести на глюки освоительного периода. Вот если и через релиз-другой не уберут...

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 11:44 05-02-2013
unreal666



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Shangry

Цитата:
С этой точки зрения можно сказать, что во всем DjVu только одна по настоящему полезная вещь - толково работающий сегментатор.

сегментатор - это фактически прога. Поэтому нельзя сказать, что в формате (DJVU) только одна по настоящему полезная вещь - толково работающая прога.
А в Caminova и вправду только сегментатор и лучше других открытых прог создания DJVU.
Лучше бы полностью запихали в FR алгоритм и возможности (по части настройки) проги documenttodjvu.

Всего записей: 6637 | Зарегистр. 14-02-2005 | Отправлено: 12:06 05-02-2013
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
unreal666

Цитата:
сегментатор - это фактически прога.

Точнее говоря, это часть технологического процесса по имени "DjVu". Или в более общем виде основная часть любого MRC-ориентированного формата. Которые именно тем и отличаются от форматов общего вида, вроде JPEG, что перед собственно сжатием запускают процесс деления на слои и сжимают послойно.
Именно в этом смысле я и высказался.
 

Цитата:
А в Caminova и вправду только сегментатор и лучше других открытых прог создания DJVU.  

Ну так почти 15 лет доводки и совершенствования алгоритмов - это вам не хухры-мухры . Здесь как у коллекционных вин - чем старше, тем лучше.
 
А все, что идет по линии DjVuLibre уже с самого начала имело ограничитель по качеству сегментирования (чтобы не перебегать дорогу коммерческим версиям). Да и после отделения похоже в этом смысле не особо совершенствовалось.

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 14:16 05-02-2013
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Shangry
Adobe сейчас пытается сделать некую альтернативу сегментатору Каминовы. Они его пока реализовали в своем ClearScan. В чем-то он даже лучше.
Все-таки эта связка лизардтековская уже устарела морально.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 14:37 05-02-2013
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty
Adobe под названием ClearScan сделал вполне приличный MRC-компрессор. Но на полноценное и универсальное решение а-ля DjVu он пока еще не тянет.
 
Во-первых, там заряжено не столько сжатие изображений, как таковых, сколько сжатие текстовой части этих изображений. Сначала OCR-движок отлавливает все текстовые включения, которые есть в картинке, а затем подставляет вместо них обычный шрифтовой вывод. Шрифт то ли берется откуда-то, то ли генерится на ходу - пока не очень понятно.
Вся остальная часть картинки, судя по виду получаемых PDF, обычно сжимается как единое целое, а-ля JPEG и его коллеги, на слои не делится. Результат вполне предсказуемый - там, где текста много, сжимается хорошо, там, где не очень - сжимается так себе.
Во-вторых, в Adobe похоже наступили на грабли, которые в DjVu сумели обойти. Для сжатия графики используется не wavelet-алгоритм, а какая-то разновидность JPEG. А значит и кратность сжатия поменьше и качество получаемых изображений похуже.
Ну, и в третьих, практически полное отсутствие регулировок. Что Акробат захочет, то и выдаст, повлиять никак нельзя.
 
А вот в LuraTech похоже сумели сделать что-то поинтереснее. Их PDF Compressor я бы назвал самым на данный момент удачным решением в области MRC-технологий.  
Качество сегментирования - выше всяких похвал, получаемое сжатие - тоже вполне приличное (хотя и несколько пониже, чем у DjVu), внешний вид получаемых изображений мало чем отличается от оригиналов. Плюс простая удобная система настроек, плюс очень приличный бинаризатор.
Опять же PDF формат куда более распостраненный, чем DjVu, софта больше, работать проще.

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 16:58 05-02-2013 | Исправлено: Shangry, 16:59 05-02-2013
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Shangry
Все не совсем так.  
В 2010 г. я делал краткий обзор ( часть I, часть II) нового сегментера Adobe для CS (у них есть еще старый хреновый - для связки jbig2+jpeg2000) в сравнении с лизардовским.  
Вообще, MRC-технологии традиционно обсуждаем здесь. Добро пожаловать
 
Добавлено:

Цитата:
Шрифт то ли берется откуда-то, то ли генерится на ходу - пока не очень понятно.  

Да, генерится свой собственный на ходу.
 

Цитата:
Для сжатия графики используется не wavelet-алгоритм, а какая-то разновидность JPEG.

JPEG2000 - это именно wavelet-алгоритм, в отличие от JPEG.
 
В остальном можно продолжить в указанной ветке.

----------
пропадет-растает

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 18:13 05-02-2013 | Исправлено: ghosty, 18:19 05-02-2013
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty

Цитата:
Вообще, MRC-технологии традиционно обсуждаем здесь. Добро пожаловать  

Спасибо. Я про эту ветку давно знаю, но заглядываю не очень часто - там основной поток от сканирования и последующей обработки, а это не совсем мой хлеб.
Вот если бы существовала целевая ветка по технологиям сжатия и компрессионному софту, то было бы интересно в ней пообщаться - я этой линией уже давно занимаюсь.
 

Цитата:
JPEG2000 - это именно wavelet-алгоритм, в отличие от JPEG.  

Сначала я и сам думал на JPEG2000 - на сжатых картинках ловятся артефакты, характерные именно для него. Но потом посмотрел какие кодеки прописаны в теле PDF - а там сплошь от JPEG.
Надо думать, в Adobe доработали стандартный JPEG и засунули его в свой компрессор.
 

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 11:49 06-02-2013
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
unreal666

Цитата:
2-ой вариант лучше,  

Shangry

Цитата:
Вот если и через релиз-другой не уберут...

а пока не убрали, на этот случай я сделал костыль - FR11 DjVu Text Layer Crutch
требует наличия 2го фреймворка..

Всего записей: 1436 | Зарегистр. 26-07-2007 | Отправлено: 11:34 10-02-2013
33oleg

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Здравствуйте!!! Подскажите что надо сделать в настройках у меня не передаёт в Word корректно в смысле ни сохраняет, ни для редактирования  
как pdf сохраняет  нормально! Версия ABBYY FineReader 10  
Спасибо

Всего записей: 472 | Зарегистр. 06-02-2010 | Отправлено: 12:45 22-02-2013
anynamer



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Сегодня 23 февраля FineReader Touch, FineScanner и ABBYY CardHolder для iOS бесплатны.

Всего записей: 2241 | Зарегистр. 17-05-2010 | Отправлено: 16:20 23-02-2013 | Исправлено: anynamer, 18:54 23-02-2013
D1D1D1D

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Программа некоторые названия глав оформляет как колонтитулы и в основной сохраняемый текст такие строки не попадают. Возможно ли отключить проверку верхних колонтитулов?

Всего записей: 1367 | Зарегистр. 05-04-2010 | Отправлено: 08:09 14-03-2013
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
33oleg

Цитата:
Подскажите что надо сделать...  

Как минимум, подробно описать, что именно у вас не в порядке.  
Пока что информации здесь на уровне: "У меня болит голова, что мне делать?".
 

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 12:49 14-03-2013 | Исправлено: Shangry, 12:50 14-03-2013
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ABBYY FineReader (Часть 1)
Maz (20-12-2023 09:13): ABBYY FineReader (Часть 2)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru