Scan Tailor (часть 3) - [33] :: Программы :: Компьютерный форум Ru.Board

TelecomUral

Цитата:

можно чуть подтянуть по жирности бледные полосы, и ФР8 прекрасно тогда их распознает (проверил утром)

Подтянуть-то можно, но в прекрасное распознавание ФР8 очень слабо верится.
Хотелось бы взглянуть на образец "подтягивания" и распознанный текст после ФР8.
Чтобы сравнить ваш результат в СканКромсаторе и тутошние СканТейлоры. Для научного интереса.

Цитата:

Но с формулами-то что делать - ??

Как один вариант - оставить картинками. Видел и такое. В СканТейлоре это автоматом не выйдет, придется вручную.
Как другой вариант - бинаризовать, но не распознавать.

Цитата:

хоть бинаризация хоть распознавание должны давать гарантию 100% попадания в исходный знак

100% гарантию даёт только страховой полис. Вернее давал, 100 лет назад.
Откуда такая категоричность, что кто-то кому-то должен? Автор, переводчик, редактор, корректор, наборщик тоже должны выполнять свою работу без ошибок, однако нет. Ошибки сплошь и рядом. Так что мозги надо применять в любом случае при чтении как обычного текста, так и формул, как отсканенных книг, так и печатных оригиналов.

СканТейлор даёт вполне нормальное качество на большинстве сканов книг. Книга - это источник знаний, а не объект для фетишизма.

Цитата:

Отсюда и граница "оставить серым". Давно стало понятным и единственно приемлемым решением.

А я вот не понял, где эта граница.
Простой текст. "Казнить нельзя помиловать". Граница тогда, когда пропадает запятая? А если её и в оригинале не видно? В данном тексте были места, которые не только СканТейлор не вытягивал, но и человеческий глаз и мозг могли распознать только по контексту.

Цитата:

Я потому и ocr чаще всего и не делаю, и не приветствую, что если уж делать, то вычитывать, а это неприемлемые затраты. Необоснованные, точнее, если бинаризация проделана тщательно.

Смешались звери, кони. Причём тут у вас бинаризация к OCR? OCR делается для поиска текста и возможности цитирования и запоминания текста, а также для перевода текста в векторные шрифты. Бинаризация делается для уменьшения размера изображений в байтах, для облегчения OCR, для лучшей читабельности.

Т.е. OCR нужен в любом случае, если с книгой будут работать: искать что-либо в тексте, запоминать интересные и нужные места из текста. А сейчас так вообще улёт. Я сам не пробовал, но надо бы. Дать на обработку в какой-либо ChatGPT, чтобы он сделал резюме (саммари). С одной только бинаризацией не выйдет, только с OCR.

А СканТейлор очень хорош для быстрой подготовки сканов к OCR. Ещё раз - после загрузки данных сканов в STA я кликнул мышкой 4 раза (Margins -Play, Method, Wolf, Output - Play) и получил результат, пригодный для OCR.

Цитата:

неприемлемые затраты. Необоснованные, точнее

Угу. Обрезка сканов, выравнивание освещённости, подбор уровня бинаризации, устранение дырок в символах, удаление спеклов, марашек и прочей фигни и куча всякой другой неинтересной работы ничего не дающей ни уму ни сердцу - это приемлемые и обоснованные затраты. А хорошую книжку почитать (и вычитать) - фу, это неприемлемо и необосновано.

Есть операции, которые лучше и проще делать в СканТейлоре, чем в редакторе OCR - изменение ориентации, разделение разворотов, исправление наклона, устранение геометрических искажений. И такой мало-мальски подготовленный материал отправлять на OCR.
Кстати, у СканТейлора, ИМХО, очень неплохой баланс между "неприемлемыми и необоснованными затратами" и качеством результата.

Другое дело, что нормального редактора для вычитки нет, но это уже тут обсуждалось, безрезультатно.

Цитата:

Конечно, от обработки хочется идеального оригинал-макета, но это тупая работа по набору всего текста с нуля

Не помню где, или на dwg или на publ или ещё где, видел книгу по математике или физике распознанную и перенабранную в Latex. Где-то её сберёг, как образчик.

Не надо набирать весь текст с нуля. Есть OCR с заменой шрифтов на векторные. Т.е., как вариант, в ST (Advanced) можно сделать раздельный вывод и отправить на OCR только текстовую часть, чтобы снизить ошибки распознавания.

И работа не тупая. Если человеку нужно и интересно то, что написано в книге. В моё время (не знаю, как сейчас) студенты совсем не зря писали конспекты (особенно первоисточников).
А если электронная книга делается просто потому, что под рукой была какая-то бумажная, ну ОК, ещё куча человеко-часов сожжены почем зря.

ИМХО, быстрая обработка сканов в СканТейлоре, для последующего OCR, высвобождает время для последующей вычитки.

Модерирует : gyra, Maz
Версия для печати • Подписаться • Добавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55