bolega
Silver Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Подготовил несколько роликов, касающихся создания линков и букмарков. Готовые книги (djvu) для примеров взяты с сайта http://publ.lib.ru. 1. Самый простой случай. Берется готовый djvu, в котором уже есть текстовый слой. СК импортирует djvu вместе с его текстом, на лету генерируя focr-файлы для всех страниц. С помощью Ocr создаются линки и букмарки. Для примера также показано, как создавать букмарки для pdf, используя шрифтовое форматирование. К сожалению, формат djvu такое не поддерживает, хотя форматирование безусловно облегчает восприятие сложных оглавлений. https://workupload.com/file/Tb5HKYff4YG 2. Более сложный случай. Помимо оглавления (содержания) генерируются линки в предметном указателе. https://workupload.com/file/hBFsNKPW7kE 3. По всему тексту книги имеются ссылки на библиографический раздел. Ссылка представляет собой не номер страницы, а порядковый номер книги в списке. В связи с этим сначала подготавливается описатель замен (substitution), который сопоставляет между собой номер книги (т.е. номер ссылки) и физический номер страницы. Т.к. список номеров один на всю книгу, описатель один. Каждая замена описывается физическим номером страницы и диапазоном номеров, которые на ней располагаются. Для составления групп замен используются как правило только горячие клавиши. Показано также, как автоматизировать поиск библиографических ссылок, которые имеют вид [номер.... Для поиска используется регулярные выражения. Из-за ошибок распознавания в результат поиска попадают ложные ссылки, поэтому сформированный поиском список сначала просматривается, из него удаляется ненужное. Затем командой все найденные ссылки генерируются. https://workupload.com/file/4LpWLuqFtNn 4. Самый сложный случай. Каждая глава имеет свой начинающийся с 1 список ссылок. Поэтому сначала создается несколько групп описателей замен. Затем как и в предыдущем примере используется регулярный поиск, но включается опция искать возрастающую последовательность чисел. Поиск выполняется не пакетно, а по одному числу, чтобы сразу отсеивать ложные линки. Для поиска используются две кнопки: первая увеличивает счетчик номера ссылка на 1 и ищет это число, вторая - удаляет из результата последнюю найденную позицию и продолжает искать текущий номер счетчика не меняя его. В плохих сканах из-за ошибок распознавания какого-то номера может не найтись, в этом случае его можно создать потом вручную, а счетчик нужно увеличить вручную, чтобы пропустить его. Поиск всегда начинается с текущей активной страницы. https://workupload.com/file/Pyp8MrREyxg 5. Короткий ролик, показано как в новой версии можно перераспознавать отдельные слова (имеющие специфический язык), а также распознавать дополнительные куски текста, которые по каким-либо причинам не распознались ранее (например, в FR). Для этих операций СК использует tesseract. https://workupload.com/file/cWUzLmsSct6 | Всего записей: 4736 | Зарегистр. 09-09-2002 | Отправлено: 11:23 18-05-2025 | Исправлено: bolega, 12:18 19-05-2025 |
|