niccolo
Silver Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору jourmager Цитата: 1) Проблемы с распознаванием true pdf в 2000 страниц - это доказательство чего? | Массы проблем - и первая - хреновый менеджмент памяти. Несколько лет назад у меня была длительная переписка с саппортом по куче проблем, выявленных при распознавании 18 томов Шломана.... Так что тут — это можно сказать - абсолютное доказательство ...... тестирования в Аббии. (тут можете выбрать, что подставить вместо «.....» - «говно», «отсутствие» и т.п.) И кстати, за отсутствие обратной совместимости пакетов по ручной работе (т.е. из 15 нельзя передать пакет с расставленными блоками в 8), и прямой — в полном виде (т.е. из 8 нельзя в более новые передать пакет с распознанным и исправленным текстом) корпоратам давно бы стоило прищемить Аббийцам кое-что в дверях... Цитата: 2) Кстати, методики распознавания, при котором были проблемы - нет. | Очищаем TEMP (кстати зачем такой длинный путь в темпе в 16 версии???), убиваем все лишние процессы, загружаем OCR и выставляем настройки, загружаем дорланд и распознаём. Всё время распознавания комп не трогаем и ничего не запускаем, особенно браузер. Цитата: 3) Хотел бы я посмотреть на тестировщика ПО, который к своему тим-лиду или проект-менеджеру придет и скажет - "А давайте я OCR на true pdf проверю?" Куда его пошлют? | Никуда - последнее название программы видели? Работа с PDF — это тестирование программы с основным форматом для неё, который даже в названии указан. Цитата: 4) Допустим, есть проблемы с нехваткой памяти при распознавании книг с сверхбольшим количеством страниц. Что мешает файл разбить на несколько частей и распознать каждую часть отдельно? | Комп отвечает требованиям программы? Да. Если у программы есть заморочки - их должны были предусмотреть, и продумать соответствующую обработку разработчики. Логично, или как? И что значит «со сверхбольшим»? Я же не заливаю все 18 томов Шломана примерно с 15000-16000 тыс страниц в общем в один пакет... А тысяч до 10, ИМХО, много, но не сверхмного... Цитата: 5) А теперь про память. Лист формата А4 при 600 dpi и 24 битах цвета в несжатом виде занимает 105 мегабайт. Т.е. 2000 страниц - это 210 гигабайт. Ну ОК. | То, что вы криворукие - и рендерите двухцветные страницы в 24 бита, я и так знаю. Ума разобрать истинный PDF по зонам - картинки, текст и т.п. не хватило? Идите на поклон к bolega. Я уже который раз говорю про предельное тестирование - тестирование с предельной нагрузкой. Почему в жизни это нормально, и тестируют даже со 125%, 200% и 300% номинальной нагрузки, а с софтом должно быть иначе? Потому что так думают девочки-системные архитекторы? Или это особенность метода разработки «х..кс-х..кс и в продакш»? Объясните мне, зачем вы структуру пакета испохабили? В моё время учили - чем проще решение, тем оно лучше. Чем тут оправдывается такое усложнение структуры пакета, да еще и присвоение проприетарных чреззадничных расширений файлам? Цитата: 6) Ну и самое главное - если спор идёт про качество и точность распознавания, то всё элементарно просто: - выбирается страница из реальной книги с учётом языка, фона, наклона, кривизны строк и пр. - запускаются портабельные сборки FR7, FR8, FR9, FR12, FR15, FR16 - выбираем тип OCR (текст под изображением или текст + изображение) и методику - сравниваем | Проценты улучшений раньше всегда заявляла Аббии... Вопрос о датасете, на котором они были получены, несколько раз поднимался, т.к. пользователи не видели улучшений. Но Аббии его так и не представила... Про то, что у Абби нет персонала, способного охватить в датасете даже языки, имеющие словарную поддержку, я даже спрашивать не буду. Я как-то недавно под руководством AAW из топика по СканКромсатору занимался обработкой одного тома Шломана, доводя его до идеала в надежде, что FR будет распознавать его без ошибок. Хрена с два... И меня удивило то, что визуально почти идентичные сканы с идеальными для OCR литерами FR часто распознаёт по разному. Почему - ХЗ. В Abbyy Aligner 2 был баг — из-за приоритета неких встроенных алгоритмов АББИ, было абсолютно невозможно свести в ТМХ уже сопоставленные тексты в 2 ТХТ. Вместо сопоставления по предложениям, AA самостоятельно объединял предложения с обеих сторон по собственному усмотрению... ТИПА РАЗРАБОТЧИКИ ЛУЧШЕ ЗНАЮТ.... (Так, полагаю, и тут - по каким то встроенным алгоритмам он тупо начинает чудить — разработчики за меня решили, что мне делать, и не объедешь). Да в принципе чего далеко ходить.... FR8 по отзывам людей из топика по Кромсатору и утилитам для DJVU искажает картинки, визуально незаметно, но в итоге координаты распознанных букв не совпадают с положением букв на исходном изображении.... Из той же оперы - распознавание и сохранение табов. FR8 при сохранении в текст заменяет табы на 3 пробела. В 15 табы в тексте, распознанные непонятно с какого х...., сохраняются неизменными, часто создавая проблемы при последующей обработке текста, и вернуть поведение а-ля FR8 никак нельзя. Если вы из Абби - я пару месяцев назад прислал вам кучи ошибок в разных словарях для Лингво. Интересно — вы разослали пользователям исправленные версии? Что-то мне подсказывает, что нет. cuneiform Цитата: ну, знаете, ли - лучшие книги Человечеством уже написаны! | Согласен. Но нельзя объять необъятное.... А какая была жизнь до христианства и в Торе/Ветхом завете почитать можно.... А при желании и посмотреть можно, съездив к диким племенам в дебри амазонии. |