jourmager
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору TelecomUral Цитата:| можно чуть подтянуть по жирности бледные полосы, и ФР8 прекрасно тогда их распознает (проверил утром) | Подтянуть-то можно, но в прекрасное распознавание ФР8 очень слабо верится. Хотелось бы взглянуть на образец "подтягивания" и распознанный текст после ФР8. Чтобы сравнить ваш результат в СканКромсаторе и тутошние СканТейлоры. Для научного интереса. Цитата:| Но с формулами-то что делать - ?? | Как один вариант - оставить картинками. Видел и такое. В СканТейлоре это автоматом не выйдет, придется вручную. Как другой вариант - бинаризовать, но не распознавать. Цитата:| хоть бинаризация хоть распознавание должны давать гарантию 100% попадания в исходный знак | 100% гарантию даёт только страховой полис. Вернее давал, 100 лет назад. Откуда такая категоричность, что кто-то кому-то должен? Автор, переводчик, редактор, корректор, наборщик тоже должны выполнять свою работу без ошибок, однако нет. Ошибки сплошь и рядом. Так что мозги надо применять в любом случае при чтении как обычного текста, так и формул, как отсканенных книг, так и печатных оригиналов. СканТейлор даёт вполне нормальное качество на большинстве сканов книг. Книга - это источник знаний, а не объект для фетишизма. Цитата:| Отсюда и граница "оставить серым". Давно стало понятным и единственно приемлемым решением. | А я вот не понял, где эта граница. Простой текст. "Казнить нельзя помиловать". Граница тогда, когда пропадает запятая? А если её и в оригинале не видно? В данном тексте были места, которые не только СканТейлор не вытягивал, но и человеческий глаз и мозг могли распознать только по контексту. Цитата:| Я потому и ocr чаще всего и не делаю, и не приветствую, что если уж делать, то вычитывать, а это неприемлемые затраты. Необоснованные, точнее, если бинаризация проделана тщательно. | Смешались звери, кони. Причём тут у вас бинаризация к OCR? OCR делается для поиска текста и возможности цитирования и запоминания текста, а также для перевода текста в векторные шрифты. Бинаризация делается для уменьшения размера изображений в байтах, для облегчения OCR, для лучшей читабельности. Т.е. OCR нужен в любом случае, если с книгой будут работать: искать что-либо в тексте, запоминать интересные и нужные места из текста. А сейчас так вообще улёт. Я сам не пробовал, но надо бы. Дать на обработку в какой-либо ChatGPT, чтобы он сделал резюме (саммари). С одной только бинаризацией не выйдет, только с OCR. А СканТейлор очень хорош для быстрой подготовки сканов к OCR. Ещё раз - после загрузки данных сканов в STA я кликнул мышкой 4 раза (Margins -Play, Method, Wolf, Output - Play) и получил результат, пригодный для OCR. Цитата:| неприемлемые затраты. Необоснованные, точнее | Угу. Обрезка сканов, выравнивание освещённости, подбор уровня бинаризации, устранение дырок в символах, удаление спеклов, марашек и прочей фигни и куча всякой другой неинтересной работы ничего не дающей ни уму ни сердцу - это приемлемые и обоснованные затраты. А хорошую книжку почитать (и вычитать) - фу, это неприемлемо и необосновано. Есть операции, которые лучше и проще делать в СканТейлоре, чем в редакторе OCR - изменение ориентации, разделение разворотов, исправление наклона, устранение геометрических искажений. И такой мало-мальски подготовленный материал отправлять на OCR. Кстати, у СканТейлора, ИМХО, очень неплохой баланс между "неприемлемыми и необоснованными затратами" и качеством результата. Другое дело, что нормального редактора для вычитки нет, но это уже тут обсуждалось, безрезультатно. Цитата:| Конечно, от обработки хочется идеального оригинал-макета, но это тупая работа по набору всего текста с нуля | Не помню где, или на dwg или на publ или ещё где, видел книгу по математике или физике распознанную и перенабранную в Latex. Где-то её сберёг, как образчик. Не надо набирать весь текст с нуля. Есть OCR с заменой шрифтов на векторные. Т.е., как вариант, в ST (Advanced) можно сделать раздельный вывод и отправить на OCR только текстовую часть, чтобы снизить ошибки распознавания. И работа не тупая. Если человеку нужно и интересно то, что написано в книге. В моё время (не знаю, как сейчас) студенты совсем не зря писали конспекты (особенно первоисточников). А если электронная книга делается просто потому, что под рукой была какая-то бумажная, ну ОК, ещё куча человеко-часов сожжены почем зря. ИМХО, быстрая обработка сканов в СканТейлоре, для последующего OCR, высвобождает время для последующей вычитки. |