ABBYY FineReader (Часть 1) - [196] :: Программы :: Компьютерный форум Ru.Board

jourmager

Цитата:

1) Проблемы с распознаванием true pdf в 2000 страниц - это доказательство чего?

Массы проблем - и первая - хреновый менеджмент памяти.

Несколько лет назад у меня была длительная переписка с саппортом по куче проблем, выявленных при распознавании 18 томов Шломана....

Так что тут — это можно сказать - абсолютное доказательство ...... тестирования в Аббии. (тут можете выбрать, что подставить вместо «.....» - «говно», «отсутствие» и т.п.)

И кстати, за отсутствие обратной совместимости пакетов по ручной работе (т.е. из 15 нельзя передать пакет с расставленными блоками в 8), и прямой — в полном виде (т.е. из 8 нельзя в более новые передать пакет с распознанным и исправленным текстом) корпоратам давно бы стоило прищемить Аббийцам кое-что в дверях...

Цитата:

2) Кстати, методики распознавания, при котором были проблемы - нет.

Очищаем TEMP (кстати зачем такой длинный путь в темпе в 16 версии???), убиваем все лишние процессы, загружаем OCR и выставляем настройки, загружаем дорланд и распознаём. Всё время распознавания комп не трогаем и ничего не запускаем, особенно браузер.

Цитата:

3) Хотел бы я посмотреть на тестировщика ПО, который к своему тим-лиду или проект-менеджеру придет и скажет - "А давайте я OCR на true pdf проверю?" Куда его пошлют?

Никуда - последнее название программы видели? Работа с PDF —
это тестирование программы с основным форматом для неё, который даже в названии указан.

Цитата:

4) Допустим, есть проблемы с нехваткой памяти при распознавании книг с сверхбольшим количеством страниц. Что мешает файл разбить на несколько частей и распознать каждую часть отдельно?

Комп отвечает требованиям программы? Да. Если у программы есть заморочки - их должны были предусмотреть, и продумать соответствующую обработку разработчики. Логично, или как?
И что значит «со сверхбольшим»? Я же не заливаю все 18 томов Шломана примерно с 15000-16000 тыс страниц в общем в один пакет... А тысяч до 10, ИМХО, много, но не сверхмного...

Цитата:

5) А теперь про память. Лист формата А4 при 600 dpi и 24 битах цвета в несжатом виде занимает 105 мегабайт. Т.е. 2000 страниц - это 210 гигабайт. Ну ОК.

То, что вы криворукие - и рендерите двухцветные страницы в 24 бита, я и так знаю. Ума разобрать истинный PDF по зонам - картинки, текст и т.п. не хватило? Идите на поклон к bolega.

Я уже который раз говорю про предельное тестирование - тестирование с предельной нагрузкой. Почему в жизни это нормально, и тестируют даже со 125%, 200% и 300% номинальной нагрузки, а с софтом должно быть иначе? Потому что так думают девочки-системные архитекторы? Или это особенность метода разработки «х..кс-х..кс и в продакш»?
Объясните мне, зачем вы структуру пакета испохабили? В моё время учили - чем проще решение, тем оно лучше. Чем тут оправдывается такое усложнение структуры пакета, да еще и присвоение проприетарных чреззадничных расширений файлам?

Цитата:

6) Ну и самое главное - если спор идёт про качество и точность распознавания, то всё элементарно просто:
- выбирается страница из реальной книги с учётом языка, фона, наклона, кривизны строк и пр.
- запускаются портабельные сборки FR7, FR8, FR9, FR12, FR15, FR16
- выбираем тип OCR (текст под изображением или текст + изображение) и методику
- сравниваем

Проценты улучшений раньше всегда заявляла Аббии... Вопрос о датасете, на котором они были получены, несколько раз поднимался, т.к. пользователи не видели улучшений. Но Аббии его так и не представила... Про то, что у Абби нет персонала, способного охватить в датасете даже языки, имеющие словарную поддержку, я даже спрашивать не буду. Я как-то недавно под руководством AAW из топика по СканКромсатору занимался обработкой одного тома Шломана, доводя его до идеала в надежде, что FR будет распознавать его без ошибок. Хрена с два...
И меня удивило то, что визуально почти идентичные сканы с идеальными для OCR литерами FR часто распознаёт по разному. Почему - ХЗ. В Abbyy Aligner 2 был баг — из-за приоритета неких встроенных алгоритмов АББИ, было абсолютно невозможно свести в ТМХ уже сопоставленные тексты в 2 ТХТ. Вместо сопоставления по предложениям, AA самостоятельно объединял предложения с обеих сторон по собственному усмотрению... ТИПА РАЗРАБОТЧИКИ ЛУЧШЕ ЗНАЮТ.... (Так, полагаю, и тут - по каким то встроенным алгоритмам он тупо начинает чудить — разработчики за меня решили, что мне делать, и не объедешь). Да в принципе чего далеко ходить.... FR8 по отзывам людей из топика по Кромсатору и утилитам для DJVU искажает картинки, визуально незаметно, но в итоге координаты распознанных букв не совпадают с положением букв на исходном изображении....
Из той же оперы - распознавание и сохранение табов. FR8 при сохранении в текст заменяет табы на 3 пробела. В 15 табы в тексте, распознанные непонятно с какого х...., сохраняются неизменными, часто создавая проблемы при последующей обработке текста, и вернуть поведение а-ля FR8 никак нельзя.

Если вы из Абби - я пару месяцев назад прислал вам кучи ошибок в разных словарях для Лингво. Интересно — вы разослали пользователям исправленные версии? Что-то мне подсказывает, что нет.

cuneiform

Цитата:

ну, знаете, ли - лучшие книги Человечеством уже написаны!

Согласен. Но нельзя объять необъятное....
А какая была жизнь до христианства и в Торе/Ветхом завете почитать можно.... А при желании и посмотреть можно, съездив к диким племенам в дебри амазонии.

Модерирует : gyra, Maz
Maz (20-12-2023 09:13): ABBYY FineReader (Часть 2)	Версия для печати • Подписаться • Добавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200