StanFreeWare
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Львиную долю времени заняло придумывание последовательности замен в Worde. С опытом и количеством оглавлений думаю может дойти до минут пяти. Главное тут - не удалить полезную информацию, и не потерять нужные пробелы. Получилось что-то типа ' удалил все переносы строк Replace "^p", "" ' заменил длинный дефис переносом строк Replace "^+", "^p" ' добавил перенос строк после закрывающихся скобок Replace ")", ")^p" ' удалил сокращения страница, страницы Replace "(pp.", "" Replace " p. ", " " ' удалил лишние пробелы For i = 1 To 4 Replace " ", " " Next ' удалил запятые перед нумерацией For i = 1 To 9 Replace ", " & i, " " & i Next ' выделил главы в отдельную строку Replace "Chapter", "^pChapter" ' удалил вторую часть диапазонов страниц в конце строки Replace "-^#^#^#)^p", "^p" Replace "-^#^#)^p", "^p" Replace "-^#^#^#^p", "^p" Replace "-^#^#^p", "^p" Кроме того перед запуском последовательности (после они уже не так выделялись) ручками прошелся по оглавлению, удалил остатки колонтитулов, объединил главы с текстом глав, а для третьей главы задал номер страницы, чтобы она могла иметь подглавы. Замечу, что в более простых случаях поиск колонтитулов можно было бы доверить Djvu Bookmarker, но не в вашем случае, потому что мы по сути заново создали разметку строк. После запуска еще выделил все ссылки на страницы 3xx и сделал замену " 8" => " 3", для пятисотых сделал замену " 6" => " 5" - против ошибок распознавания. Затем текст выгрузил в Djvu Bookmarker, который по нарушению монотонности возрастания номеров страниц нашел остальные ошибки распознавания в номерах. Кроме того, пришлось разлепить слипшиеся строки оглавления, в которых OCR не распознал длинный дефис - это вручную, задание на внимательность. Потом закинул текст в иерархию, шаблоном CHAPTER автоматически создал структуру дерева. Вручную задвинул содержимое в подглавы третьей главы. И выдвинул индекс, попавший в последнюю главу. Далее задал сдвиг нумерации по верхней строчке оглавления, проверил на последней - все сошлось, удаленных страниц не было. Экспорт. Все. Работа в Djvu Bookmarker заняла минут пять-семь. |