Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ABBYY FineReader (Часть 1)

Модерирует : gyra, Maz

Maz (20-12-2023 09:13): ABBYY FineReader (Часть 2)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

JediMaster_Dragon



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
ABBYY FineReader
7, 8, 9, 10 (Pro, Corp, Home), 11 (Pro, Corp), 12 (Pro, Corp) и 14 (Pro, Corp, Ent)

 

 
Полный список языков распознавания для FR15
 

Русский интерфейс
 
Ответ на вопрос о сохранении проекта смотрим тут


Если  хотите, чтобы ваша проблема была рассмотрена, (решение не гарантируется), необходимо представить такие сведения:
1. Версия FineReader.
2. Версия Windows, версию пакета обновлений (SP), разрядность (для Vista и выше).
3. Если проблемы со сканированием, то называем ещё и модель сканера. Обновите драйвера своего сканера, до последней версии имеющейся на сайте поддержки вашего сканера.


Как можно получить церковнославянские тексты при помощи сканирования FineReader'ом
Как отключить "искусственный интеллект" FineReader
Как выбрать опции, чтобы FR10 распознавал простейшие формулы
FineReader не распознает сложные формулы и рукописный текст, не задавайте вопросов на эту тему.  
Версии FR для Linux пока не существует, только Engine, который вам явно не нужен.

Для понимания формата XPS программой FineReader нужен Framework 3.0. Только для XP и 2000.
Совет по распознаванию файлов DjVu Читать
Электронные текстовые книги - OCR, вычитка, оформление

Всего записей: 354 | Зарегистр. 18-01-2002 | Отправлено: 09:07 26-01-2003 | Исправлено: Maz, 19:24 26-01-2020
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
В продолжение по 16
 
PDF редактор
Поиска и замены нет. Интересный подход к редактированию.
 
OCR редактор
После отключения всей СТАНДАРТНО АКТИВИРОВАННОЙ автоматики, установки ограничений на количество используемых ядер, предварительную настройку языка распознавания и способа распознавания PDF - удалось засунуть Дорланд в OCR-редактор.... Хоть мастера настройки обычно и надоедливы, но с таким подходом их всё же лучше иметь, как и иметь где-то флажок - спрашивать языки перед распознаванием....Очевидно, что нынешний FR заточен не под индивидуальных пользователей (хоть версия и индивидуальная), а под поточное распознавание максимально однотипных документов.
 
Блоки текста как стали синие, так и остались. Изменение безусловно «важное»....
Редактировать текст на распознанных страницах, пока распознаётся остальное, нельзя. А ведь это без труда делалось в FR8.
И ведь именно это часто позволяет заметить неоптимальные настройки распознавания и исправить их в процессе, чтобы потом не перераспознавать ВСЁ.
Любые манипуляции в процессе распознавания выполняются с огромными лагами, даже несмотря на невысокую загрузку процессора и половину свободной памяти. Т.е. - оптимизации никакой.... (см. еще дальше)
 
Временный пакет теперь не просто в папке temp а в temp\ABBYY\FineReader\16\FineReaderShell\   - Зачем?
 
Распознавание идёт неравномерно - такое чувство, что программа по максимуму забивает память и распознаёт, что влезло, потом сохраняет на диск, освобождает память и цикл повторяется..... Полагаю, что на несильно прокаченных ПК даже с SSD такой подход будет медленнее чем у FR8 на HDD. Кроме того, на таких же непрокаченных ПК такой подход часто будет приводить к вылетам из-за нехватки памяти....
 
Удобства пользования, такого как в SK, где резаки и зоны можно легко копировать на чётные/нечётные/все страницы в любую сторону, нет даже близко. Встроенный редактор изображений такое же г., как и в более ранних версиях....
 
В режиме автоматического распознавания нельзя просто изменить настройки, чтобы дальше распознавалось с изменёнными настройками. Что мешает переключиться на такой подход, непонятно.
 
В структурных элементах страницы для распознавания/нераспознавания не хватает «номера страниц», т.к. колонтитулы определяются не всегда верно. А еще более верный подход - ИМХО - задание зон нераспознавания снизу/сверху, которые можно настроить по краям текста....
 
Из приятного - в отличие от 8 и 15, 16-й версии удалось на дефолтных настройках правильно распознать буллеты, делящие заголовки на слоги. В Поиске/Замене появилась базовая поддержка регвыров, хотя традиционного отражения в интерфейсе «Поиска замены» в виде флажка, это не нашло.  
Ну и как было отмечено ранее - сохранение блоков на странице при простейших манипуляциях с изображением страницы в редакторе. Это кажется всё...
 
Греческие символы из шрифта с хитрым маппингом не распознала, а просто извлекла теми символами, на которые они отмаплены.... (что опять таки характеризует неверность подхода Абби к распознаванию PDF - ИМХО верным выглядит подход сравнения распознанного с извлечённым, выявление систематических отклонений и уведомление пользователя с запросом о том, что делать, где в качестве опций д.б. - использовать распознанное/использовать извлеченное/найти и заменить везде/заремаппить шрифт(ы) и перераспознать страницы, где данные шрифты встречаются)
Выпадающие списки в свойствах блока как были, так и остались, хотя многие из них гораздо удобнее было бы заменить кнопками или флажками, например Направление текста - НОРМ/СНВВ/СВВН - нажать одну из трёх кнопок/поставить флажок проще и быстрее, чем выбрать вариант в выпадающем списке..... Но эргономика не сильная сторона Аббии...
Кругового поиска/замены тоже не появилось.
 
При попытке закрытия меню поиска-замены в процессе распознавания FR16 традиционно упал.... После перезапуска начал распознавать пакет сначала (вероятно это минус подхода с одним файлом результатов распознавания) ....
 
Короче, пока достаточного количества плюсов для отказа от 8 версии не вижу.
 
Чуть позже проверю его на картинках.....

Всего записей: 3677 | Зарегистр. 17-09-2001 | Отправлено: 16:43 08-08-2023 | Исправлено: niccolo, 16:46 08-08-2023
LonerD



Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору

Цитата:
На том злополучном скане из Кобо Абэ ФР16 повторила те же ошибки распознавания что и в 15-й версии

На каком языке скан? Если русский, то неудивительно. Учитывая политику компании, его скоро могут вообще выпилить из программы.

Всего записей: 838 | Зарегистр. 27-06-2006 | Отправлено: 17:01 08-08-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LonerD
Я уже писал, что "Я не специалист в FineReader и им почти не пользуюсь". Но.

Цитата:
Это с 15 версии появилось?

Не знаю с какой. Для своих тестов я использую ABBYY FineReader PDF 15.0.114.4683 Ml(ru) Portable (by conservator), а также чисто для сравнения у меня стоят портабельные 7, 8, 9.

Цитата:
Что-то не получается найти такую возможность.

ИМХО, у Файнридера запутанный и неочевидный интерфейс.
Распознать pdf я могу как минимум 3 путями - через сохранение, кнопкой распознать, и через OCR-редактор.

Цитата:
Можно пошаговую инструкцию или скриншотики, какие кнопочки нажимать, какие галочки в настройках ставить или снимать для этого?

Чтобы не быть голословным вот 2 файла - до и после
Пишу, как это делал я
Распознавание OCR в FineReader без перекодирования растровых изображений страниц
1) распаковываем портабельную версию в отдельный каталог
2) запускаем FineReader.exe (621 МБ) от администратора
3) появляется окно приветствия - Новая задача -> Открыть -> Просмотр и редактирование PDF-документов -> Открыть PDF-документ
4) окно "Выберите файлы для открытия" -> выбираем -> Open
4а) для начального эксперимента надо выбрать pdf-файл, где на одну страницу одно изображение в формате JPEG
4б) можно сначала провести настройку п.22, 23
5) файл загружен в рабочее окно
6) нажимаем на кнопку "Распознать" -> "Распознать документ ..."
7) в появившемся окне выбираем языки распознавания, и при необходимости - исправить ориентацию, исправить перекос  
8) жмём "Распознать"
9) появляется прогресс-бар "Распознавание документа" со счетчиком страниц
10) ждём (у меня на 240 страниц ушло 11 минут, хотя если через сохранение, то 4 минуты)
11) распознавание завершено -> ОК
12) меню Файл -> Сохранить -> окно "Сохранить документ как" -> имя_файла_распознан.pdf -> Save
13) ждём
14) после окончания записи файла проверяем результат
15) получившийся файл должен быть на несколько мегабайт больше
16) для точного сравнения запускам консольную утилиту pdfimages из комплекта xpdf
17) pdfimages.exe -raw %file_name%.pdf out
18) получаем на выходе файлы изображений страниц
19) проделываем аналогично с другим файлом
20) сравниваем количество и размер получившихся файлов
21) если не получилось, лезем в настройки
22) меню Инструменты -> Настройки -> Настройки форматов -> PDF -> Качество изображений -> Пользовательское -> Разрешение - снять галку, Цветность - не менять, Качество - потеря качества разрешена. Серые и цветные должны быть с jpeg, качество по умолчанию 70
23) проверяем Инструменты -> Настройки -> Распознавание -> Автоопределять, Тщательное, Структурные все галки вкл, использовать только встроенные эталоны
24) также в настройках PDF - убираем MRC, текст под изображением страницы
 
Добавлено:
niccolo
Шломан? Опять издеваетесь? 6-язычный словарь с текстом в столбцах? Для того, чтобы узнать перекодирует Файнридер изображения страниц или нет?
Ну ОК. Вот 2 страницы из Шломана Том 2 1928 - без OCR и с OCR FineReader 15
Кстати: Этот Шломан имеет внутри JBIG2 600 dpi как видно из этой страницы размером примерно 150 килобайт. Т.е. аналогичного качества Дорланд должен весить 2100х0,15=315 МБ после СканКромсатора. Такие дела.
КстаКстати: попробовал отрастеризованную страницу из Дорланда распознать.
be«ta (ba'tə) [B, β] the second letter of the Greek alphabet. See also β-.
Узнаёте ваши греческую бету и знаки английской транскрипции?
А вот с буллетом проблема. Если выбрать язык "Простые математические формулы", где он находится, то становится неправильным распознавание языка "Английская транскрипция"

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 19:24 08-08-2023 | Исправлено: jourmager, 08:14 09-08-2023
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager
 
Описание красивое НО
 
1) п. 22) - уже потеря качества.
2) Если автомат Абби не может правильно сегментировать и распознать файл в автоматическом режиме, что будете делать? Зачем вам ещё 2-3 МБ мусора в файле.....
 
распознавание, сделанное по вашему методу, часто можно встретить в файлах в Архиве. Для работы оно не годится от слова совсем.
 
 
Продолжу по FR16 - никаких настроек по поводу замены табуляций при сохранении на пробелы (что часто бывает нужно при сохранении в DOCX) нет. FR8, которая тупо заменяет их на три пробела часто оказывается в более выигрышном положении....
 
За исключением распознавания буллетов никаких других улучшений в качестве распознавания Дорланда не заметил.... Но надо честно отметить, что 16 версия быстрее 15, но и менее стабильная или более требовательная к объёму памяти в ПК.
 
Распознавания формул в формат Mathtype/vim не появилось, а это как бы намекает на то, что людей, понимающих, как работает распознавание там нет - есть кодеры свистоперделок....
 
Убогий плоский интерфейс, как дань моде, тоже не особо радует. В настройке таблиц объединения столбцов, в отличие от объединения строк так и не появилось.
 
Для эксперимента исправил блоки на одной странице и нажал перераспознать - перераспознало быстро (появился текст в соотв. окне), но для редактирования текст был недоступен еще несколько минут (пока видимо перезаписывалась страница в общем файле результатов перераспознавания из-за большого размера пакета). Если это не п-ц., то я не знаю, как это назвать...
О чём думают в Абби? Проблема эта и в 15 версии есть....
 
Проверил еще одну вещь - попробовал переоткрыть последнюю страницу (по идее программа должна считать её повторно из ПДФ, который она включила в пакет). Кукиш......
 
Информации по блокам в окне пакета тоже нет.... На книгах со стабильным макетом страницы с отличающимся количеством блоков часто являются либо нестандартными - вклейки, либо неверно размеченными. С такой информацией их выявление и исправление было бы гораздо быстрее.....
 
Короче, использовать можно разве что как портативку для специфических задач вместо 15... При этом, учитывая тормоза при перераспознавании отдельных страниц, всю первичную работу с пакетом лучше делать в 8-ке.
 
Открыл старый пакет, на котором тестировал 16 сразу после выхода -- иииииииииииииииииииииииии
в нескольких режимах у простого текста фон текстовых блоков в окне текста - чёрный и текста не видно.....П-ц......
https://www.upload.ee/files/15551299/fr2.wmv.html
Распознавание набранного курсивом слова ход в англо-русском тексте выдало xod - в опупе....В каком словаре английского есть такое слово.

Стандартные звёздочки распознаёт ромбами-«бубнами». Обучение не сильно помогает....
 
??????????????????????????
 
 
Добавлено:
jourmager
 

Цитата:
Шломан? Опять издеваетесь?  

Зачем мне над вами издеваться. Это материалы, с которыми я работаю. Я вам показываю еще лучшие образцы. А ведь есть еще и такие образцы, как 16 том шломана в 72DPI.
 

Цитата:
Узнаёте ваши греческую бету и знаки английской транскрипции?

Узнал, но что рядом с ней делает латинская B а не большая греческая Бэта?
 
Я пробовал добавлять греческий и распознавать как картинку - получалось хуже. FR15 часть английского текста начинал распознавать греческим - особенно похожие по написанию литеры.... Возможно, помогло бы обучение, но судя по тому, что они не сильно помогало даже на простом буллете, я не стал заморачиваться.
 
А нолики - supescript - видели?
 
С FR проблема кривого маппинга отдельных фонтов не имеет решения. Я не знаю редактора, способного заменять литеры в PDF по фонту, характеристикам текста (цвет, кегль) и регвырам одновременно.

Всего записей: 3677 | Зарегистр. 17-09-2001 | Отправлено: 21:28 08-08-2023 | Исправлено: niccolo, 21:42 08-08-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
niccolo

Цитата:
1) п. 22) - уже потеря качества.

В данном случае нет там никакой потери качества, потому что нет перекодирования. Ни на jpg, ни на jbig2.
А почему дизайнеры интерфейса из ABBYY всё назвали и организовали именно так, а не иначе - это не ко мне, это к ним.

Цитата:
Я пробовал добавлять греческий и распознавать как картинку - получалось хуже. FR15 часть английского текста начинал распознавать греческим - особенно похожие по написанию литеры

Я при распознавании страницы Дорланда выставил языки: английский, греческий, латинский, английскую транскрипцию. Сейчас проверил на английскую орфографию - ошибок нет. Но это на одной странице. Как бы не показатель. Я сильно удивился, т.к. текст очень специальный.
Вообще-то распознавание английского текста как греческого очень странно, т.к. и для английского и для греческого в Файнридере есть словарная поддержка, т.е. неправильные слова должны или отметаться или исправляться.

Цитата:
но что рядом с ней делает латинская B а не большая греческая Бэта?

Вопрос очень правильный. Но ставить это в вину Файнридеру нечестно. Начертания большой греческой Беты и большой английской Би совпадают. Кстати, я сходу и не придумаю, как определить какая в оригинальном пдф-е буква - Бета или Би. И ещё кстати - маленькая бета в оригинале копируется как маленькая би. Упс. А вот это как бы ляп верстальщиков. Не должна греческая буква копироваться как английская.

Цитата:
С FR проблема кривого маппинга отдельных фонтов не имеет решения.

У меня FR если видит true pdf то вообще отказывается распознавать файл.
В автоматическом режиме она нигде не имеет решения. Увы. Инфикс-СофтМейкер как бы теоретически могут автоматом, но на практике лажают. PDF-XChange как бы заявил об OCR специально для исправления кривого маппинга, но как это делается я таки не нашел.

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 22:50 08-08-2023 | Исправлено: jourmager, 22:53 08-08-2023
cuneiform

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
niccolo
 

Цитата:
использовать можно разве что как портативку для специфических задач вместо 15... При этом, учитывая тормоза при перераспознавании отдельных страниц, всю первичную работу с пакетом лучше делать в 8-ке.

 
Впечатление такое, что Вам возражающие оппоненты здесь - внештатные Петров и Баширов с абишки!
 
A помните переводчик ПРОМТ =PROMT?! - эти говноделы столько решили оставить следов проги, что мне лично пришлось софтом, не в ручную,  >63,000 leftovers   находить и удалять с 1 инсталляции! Это финиш! - Так что абишка не одинока в своем диалектическом  маразме!  
 
Т.е. такой комп нужно просто выбросить на помойку. Но и у ПРОМТа здесь найдутся любители и заступники!

Всего записей: 2062 | Зарегистр. 27-04-2006 | Отправлено: 00:00 09-08-2023 | Исправлено: cuneiform, 00:05 09-08-2023
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager
 

Цитата:
В данном случае нет там никакой потери качества, потому что нет перекодирования. Ни на jpg, ни на jbig2.

Не буду спорить насчёт качества картинок - проблема в добавлении текстового слоя/блоков, оставленных/проверенных в OCR редакторе. Просто мусор добавить - это не разве не потеря качества?
 

Цитата:
А почему дизайнеры интерфейса из ABBYY всё назвали и организовали именно так, а не иначе - это не ко мне, это к ним.

 
Я уже писал это когда-то. Погуглите  сотрудников Абби на должностях GUI-дизайнер, системный аналитик.... Я пару раз так делал - смотрел их профили в соцсетях. Мало того, что им годков порой меньше, чем тут у некоторых опыта пользования FR, так это часто еще и альтернативно одарённые люди - готты/эмо, синие/забитые и часто дамы. Не совсем понятно, по какому критерию Abbyy их подбирает, но явно не по опыту пользования программой или для организации нормальной обратной связи с пользователями...  
 

Цитата:
И ещё кстати - маленькая бета в оригинале копируется как маленькая би.

 
Маленькая альфа - как латинская малая a, гамма - латинская с и т.п. У греческого шрифта маппинг так сделан....
 

Цитата:
У меня FR если видит true pdf то вообще отказывается распознавать файл.

Импортируйте в FR OCR и в настройках рапознавания выбирайте - распознавать как картинку или извлекать текст. В 15 есть ещё авто опция - комбинация этих двух.
 
Теперь понятно различие в наших подходах - я работаю в OCR-редакторе. Вы с PDF работаете в PDF-редакторе.
 
Попробовал по вашей схеме с 12 томом Шломана (опять больше 2000 страниц) — FR15 не хватило 32 GB памяти... (Not enough memory). Трындец.....

Всего записей: 3677 | Зарегистр. 17-09-2001 | Отправлено: 00:10 09-08-2023
useretail



Silver Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
niccolo

Цитата:
Стандартные звёздочки распознаёт ромбами-«бубнами»

вы в поддержку обращались?

----------
Зло приносят не великие люди, а ничтожества, которые пытаются быть великими.
Джон Фаулз

Всего записей: 4640 | Зарегистр. 14-09-2007 | Отправлено: 00:27 09-08-2023
LonerD



Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
jourmager

Цитата:
Пишу, как это делал я

Спасибо огромное. Повторил по пунктам - наконец получилось.
До этого как будто заклинило. Сколько пробовал, в том числе и прошлыми версиями, настройки менял, - не получалось. Наверное, пытался всё время нажимать "Сохранить как..." или распознавал через OCR-редактор, в котором нет просто опции "Сохранить".
Полтора года назад опытные релизёры книжной тематики посоветовали Abby PDF Transformer+ без пережатия, им и пользовался. Хотя по сути разница в качестве распознавания не сильно заметная, и не всегда в пользу новых версий файнридера.
 
А DjVu сабж не умеет без пережатия? Оно-то можно вытащить текстовый слой и засунуть его в DjVu-файл или стареньким CuneiDjVu распознать. Но может можно напрямую?

Всего записей: 838 | Зарегистр. 27-06-2006 | Отправлено: 05:44 09-08-2023
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
useretail
 

Цитата:
вы в поддержку обращались?

 
ContentAI - открестился от ФР16 и вежливо послал.  
У них вообще один ответ - передадим разработчикам.... Мне вот интересно, владельцы последней версии Лингво получили копии системных словарей с исправлениями ошибок, о которых я писал в соотв. топике? Уже 3 месяца минимум прошло....
А в форме отправки багов у Абби Роcсии нет, серийника к 16 у меня нет, да и по опыту общения с Аббии по поводу недостатков их продуктов еще с почившего в бозе форума на finereader.ru, мнение обычных пользователей им глубоко до лампочки...
Их надо убеждать только с позиций крупных корпоративных заказчиков, и желательно не наших. Для этих, в силу развитого еще в далеком прошлом преклонения перед западным, которое не смог искоренить даже Иосиф Виссарионович, они может быть и постараются.
 
Еще по поводу FR16 — традиционно импортирует из пакетов старых версий только изображения и макет зон и перераспознает...Вниз по версиям это невозможно. Как между версиями переносить материалы, в которых проведена работа в тексте - Х.З,
 
cuneiform

Цитата:
Впечатление такое, что Вам возражающие оппоненты здесь - внештатные Петров и Баширов с абишки!

 
Поскольку сегодня софт уже особо никто не тестирует как раньше, а просто переписывают пресс-релизы издателей, при этом часто сидя у них на подсосе (как Хабр, например) реальной информации о продуктах и найти негде. Вот я и делюсь тем, с чем столкнулся сам... Возможно кому-то это сбережёт деньги, нервы и время.
 

Цитата:
Полтора года назад опытные релизёры книжной тематики посоветовали Abby PDF Transformer+ без пережатия, им и пользовался. Хотя по сути разница в качестве распознавания не сильно заметная, и не всегда в пользу новых версий файнридера.

 
Движок распознавания один.... Но если речь не идёт о простой художке, то сразу возникает проблема правильного наложения блоков на текст, исправление которого в автоматических сценариях Аббии не предусмотрено.....
 
Поэтому я не рассматриваю автоматические сценарии, а через OCR Аббии по сути заново создаёт PDF из имеющихся материалов, но делает это крайне не оптимально. В каком то билде FR15 они даже исправили баг раздувания PDF, созданных таким способом. Но с подходом ререндеринга страниц в максимальном разрешении/цвете имеющихся на них картинок, а не создания бутерброда из картиночных и текстовых зон на подложке, ждать хорошего результата особо не приходится...  
 
Из-за отличий в макете областей распознавания даже при сравнении двух одинаковых PDF файлов с небольшими различиями в вёрстке в компараторе FR15 возникают проблемы....

Всего записей: 3677 | Зарегистр. 17-09-2001 | Отправлено: 08:02 09-08-2023
galina2000

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Подскажите, пожалуйста, как в FR задать распознавание текста, написанный блоками под разным углом, скруглённый и т.п. Пример. Спасибо.

Всего записей: 475 | Зарегистр. 21-08-2006 | Отправлено: 09:20 09-08-2023
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Подскажите, пожалуйста, как в FR задать распознавание текста, написанный блоками под разным углом, скруглённый и т.п.  

 
Никак. Небольшие отклонения от вертикали и горизонтали для FR не критичны, а в остальном либо ручками, либо делаете несколько копий вашей диаграммы с поворотом нужных сегментов в горизонтальное положение и распознаёте.
 
Если речь о truePDF - можете попытаться извлечь текст копи-пастом, либо сразу перевести вашу диаграмму в программах, которые умеют непосредственно работать с текстом в PDF - типа Корела, Иллюстратора, Инфикса и т.п.

Всего записей: 3677 | Зарегистр. 17-09-2001 | Отправлено: 09:43 09-08-2023
Set2007

Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
TelecomUral

Цитата:
ну попробуйте прилагаемую версию, 8ю. Наделал сейчас 23 снимка, сложил в txt, никаких проблем.

 
Решено добавления exe файла ABBYY Screenshot Reader в исключения QTranslate. Может кому-то еще пригодится - QTranslate полностью перекрывает ABBYY Screenshot Reader работу с буфером обмена

Всего записей: 323 | Зарегистр. 05-05-2007 | Отправлено: 18:38 10-08-2023 | Исправлено: Set2007, 19:28 10-08-2023
cuneiform

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
FR16 Manual English 513 pages download:
 
https://help.abbyy.com/assets/en-us/finereader/16/Users_Guide.pdf
 
Others:
 
https://help.abbyy.com/assets/en-us/finereader/15/Users_Guide.pdf
 
http://help.abbyy.com/assets/en-us/finereader/14/Users_Guide.pdf
 
http://help.abbyy.com/assets/en-us/finereader/12/Users_Guide.pdf

Всего записей: 2062 | Зарегистр. 27-04-2006 | Отправлено: 23:34 11-08-2023 | Исправлено: cuneiform, 23:45 11-08-2023
cuneiform

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Меня интересовал вопрос: Можно ли юзать ФР16/15/14 как файлконвертер / Win10.
Использовались порт. сборки от conservator (4), punsh, try room (2)  = FR14.0.107.232; 15.0.112.2130;16.0.14.6564.
Конкретно: PDF --> DJVU, DJVU --> PDF.
Файл 124 Мб -djvu, pdf  
Intel N6000, Acer Aspire 3, RAM 16 Gb.
 
Ответ: Нельзя.
Надо искать, юзать другой конвертер и не тратить свое время на пляски с бубном вокруг дико сырого приложения FineReader.
.  
Все сборки в режиме без   ф о н о в о г о   распознавания вешаются сразу или вешают весь комп - далее требуется ребут. Идет мессидж системная ошибка самого приложения FR14/15/16.  
 
В режиме с   ф о н о в ы м распознаванием из pdf конвертация идет почти по конeц, но в конце прекращается - затык. - ФР16 сразу пожирает всю память РАМ 16 Гб и вешает комп.  
 

Всего записей: 2062 | Зарегистр. 27-04-2006 | Отправлено: 22:34 14-08-2023 | Исправлено: cuneiform, 10:46 15-08-2023
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Добрый вечер.
Стандартный поиск в FineReader, к сожалению, очень «примитивен». Нет ли каких-нибудь макросов, утилит для расширенного поиска в распознанном тексте в FineReader?
Если конкретнее, то такая ситуация. Основной текст идет 11-м кеглем.
А нужно поискать текст, у которого кегль 9.
А если еще при необходимости будет искать курсивы, то совсем хорошо.

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 23:08 14-08-2023
maxim23rus



Junior Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
нового в Finereader PDF 16.
- Пользовательский интерфейс с вкладками
Tabbed user interface
это же вкладки как в браузере? что-то я не понял как его включить. открываю один документ в редакторе, затем нажимаю на новую задачу и открывается новое окно (как и было раньше, например в FR 15), а не вкладка

Всего записей: 47 | Зарегистр. 11-04-2009 | Отправлено: 11:57 17-08-2023
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku
 
Нет. Как вариант - экспорт в ворд и поиск там, а замена в FR.

Всего записей: 3677 | Зарегистр. 17-09-2001 | Отправлено: 12:14 17-08-2023
useretail



Silver Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
cuneiform

Цитата:
ФР был номер 1 грубо до 2010 года и поныне, но как версия 8.0


Цитата:
Сужу по монстрам-гигантам типа Google Books

вот сижу, хочу понять вашу логику: гуглы имели лицензию для 8-ки, в то время как тесеракт был недостаточно хорош, а 10 лет спустя решили просто перейти на 5-й, так как вроде его качество стало норм
вопрос: при чем тут качество сканирования 8й версии? можете доказать что 8-ка реально лучше 12й?
 
Добавлено:
niccolo

Цитата:
ontentAI - открестился от ФР16 и вежливо послал

может так и есть: лицензированием и дистрибуцией занимаются только дистрибьюторы

----------
Зло приносят не великие люди, а ничтожества, которые пытаются быть великими.
Джон Фаулз

Всего записей: 4640 | Зарегистр. 14-09-2007 | Отправлено: 22:20 17-08-2023 | Исправлено: useretail, 22:20 17-08-2023
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
useretail

Цитата:
при чем тут качество сканирования 8-й версии? можете доказать что 8-ка реально лучше 12й?

 
Неверная формулировка. Качество сканирования зависит от сканера и состояния оригинала.
 
Доказать с таким вопросом можно всё, что угодно - нужно просто подобрать материалы/задачи, где одна из версий лажает......
 
8-ка лучше хотя бы в том, что, запустив фоновое распознавание, можно спокойно работать с распознанными страницами и при необходимости тормознуть распознавание и исправить настройки....
Из-за структуры пакета она быстрее, особенно когда при проверке пакета нужно перераспознавать отдельные страницы/фрагменты.
В 8-ке идеально реализован ластик.
8-ка легковесна....
 
В более новых версиях - нативная поддержка DJVU, восточных языков, возможность объединения строк в таблицах, похоже, что несколько пополненные словари.
Еще одним плюсом является поддержка последних версий СканКромсатором. Сюда также можно дописать зоопарк утилит из 15-16 версий.
 
Что кому важнее -- каждый выбирает сам.
 

Всего записей: 3677 | Зарегистр. 17-09-2001 | Отправлено: 22:36 17-08-2023
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ABBYY FineReader (Часть 1)
Maz (20-12-2023 09:13): ABBYY FineReader (Часть 2)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru