jourmager
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Цитата: Чтобы узнать шрифт, лучше распознать страничку в FR и у него узнать, FR довольно точно подбирает | 1) Создаём новый pdf-документ в pdf-редакторе и там набиваем строки с (русским) алфавитом и/или с панграммами во всех шрифтах, которые есть в Windows. 2) Сохраняем этот pdf и экспортируем его в png или tiff 3) Полученные png (tiff) открываем в FineReader и распознаём в режиме Text and pictures only 4) Смотрим, какие шрифты подставил FineReader Вот архив, где 2 исходных pdf-файла - с алфавитом и с панграммами, 2 tiff-а и 4 pdf файла, распознанных в FineReader. Даже невооруженным взглядом видно, что FineReader 15 и 16 не смогли подставить правильные шрифты. Причём иногда до смешного. Ошибки почти на всех шрифтах, кроме Garamond и Verdana. И это на шрифтах, которые уже инсталлированы в ОС. А что тогда говорить о шрифтах, которых нет на компьютере? Проверять правильность определения и подстановки шрифтов в Adobe Acrobat Pro и прочих OCR-программах у меня сейчас возможности нет. Цитата: Есть еще наверно какие-нибудь онлайн-сервисы для этой задачи | Да, есть онлайн-сервисы - они работают с одной короткой строкой текста. Заснуть в них целые страницы - нельзя. И все эти сервисы работают только с латиницей. Определить кириллический шрифт автоматически - таких онлайн-сервисов нет. Есть соответствующая тема на ру-борде, где специалисты по шрифтам могут визуально попробовать опознать шрифт. Только и для онлайн-сервисов и для специалистов-людей надо сначала отобрать 66 символов букв, цифры и знаки препинания, потому что если делать определение шрифта по нескольким буквам или по одному-двум словам, то вероятность ошибки возрастает очень сильно. Тогда уж проще, действительно, в Word экспортировать. СканКромсатор имеет уникальные возможности работы с глифами, которых не имеет ни одна другая программа. А также поддержку Tesseract для вспомогательных целей. И, вероятно, при правильном использовании, с его помощью можно было бы облегчить и автоматизировать подбор идеальных глифов. Т.е. теоретически можно сделать djvu, где словарь будет состоять из сотни глифов. P.S. Это, наверное, совсем не оптимальный алгоритм, но пока что так: 1) имеем полу-обработанные сканы, из этих сканов собираем pdf/djvu и делаем OCR с текстовым слоем 2) открываем полученный pdf/djvu в просмотрщике и поочередно ищем весь алфавит, цифры, знаки препинания (хотя бы кавычки) 3) когда на какой-то странице находим очередной символ, то вырезаем его из изображения в графическом редакторе и сохраняем 4) всю полученную сотню изображений с отдельными символами комбинируем в один графический файл 5) этот файл со всеми символами сравниваем с имеющимися шрифтами, с ГОСТ 3489, на онлайн-сервисах или просим помощи на ру-борде 6) всё повторяем для следующего шрифта в книге | Всего записей: 993 | Зарегистр. 04-11-2019 | Отправлено: 17:52 02-04-2025 | Исправлено: jourmager, 18:14 02-04-2025 |
|