Редактирование PDF файлов - [76] :: Программы

corrector

Не запускал, так-как при распознавание все равно этот анализ автоматом происходит.
Но вариант сохранить только текст интересный, надо проверить что на этот счет есть в последних версиях.
Дело в том что иногда распознанный текст получается в отличном качестве и по объему даже меньше чем оригинал, подклеиваю я его на оригинал только когда речь идет о размерах 50+МБ. Или когда качество после обработки ухудшается.
Если FR сделал из 5Мб - 10Мб, я не буду заморачиватся его наложением.

Я так понял по вашим словам, автоматической чистки блоков в FR нет? Тогда этот способ не подходит.

PDF-Tools 4 я как-то ставил, все что там было было и в PDF-XChange Editor. У меня версия Editor Plus 8.0 333.0
Потому я его удалил. Могу поставить для теста, но не вижу смысла, ваш способ в данном случае не сработал.

Вы взяли мой файл Ocr.Pdf полученный после распознавания в FR 15, почистили картинки, я их специально не удалил что бы показать размер файла. У вас получился orig+ocrFR15.pdf.
Потом как я понял вы выдернули шрифт с помощью Callas PDF Toolbox и залили в оригинал через PDF-Tools 4.
Получился у вас такой же нечитабельный файл как у меня. Может он немного различается по качеству, но сути это не меняет. Значит ваш способ в данном случае не помогает.
Я в принципе скачал Callas PDF Toolbox, но там качество еще хуже получилось.

TelecomUral

Цитата:

Вы зачем-то тащите растровое изображение букв в финальный файл. И пока что неясно, вы хотите векторный шрифт видеть, или растровые буквы.

Я не знаю что такое растровые или векторный шрифт, я действую согласно инструкции от ComboFZ-а, найденной на другом сайте.
С 95% книг это сработало, на сотни книг у меня наверное всего 3 файла где эта метода не сработала.

http://publ.lib.ru/cgi/forum/YaBB.pl?num=1517991006

Открываем в PDF-XChange Editor 7.0 распознанный в FineReader (как текст под изображением) документ PDF.

В окне программы внизу, слева, жмём на иконку шестерёнки Параметры > Контент.
Слева откроется панель Содержание.

Жмём в панели Содержание, вверху, на иконку шестерёнки Параметры > Выбранные > Изображения (выделятся все растровые изображения в PDF).
Стучим по клавише Delete для удаления картинок.
Сохраняем документ с OCR-текстом через Сохранить как.

Быстрое наложение картинок (сканов) на OCR-текст в документах PDF.
Открываем в PDF-XChange Editor 7.0 два документа PDF:
один - с подготовленными картинками/сканами
другой - с OCR-текстом

Окно (вкладку) с картинками делаем активным.
В панели Содержание (см. выше как открыть) > Параметры > Выбранные > Изображения
(выделятся все растровые изображения в PDF)
клавишами Ctrl+С копируем картинки в буфер обмена.

Вставляем картинки из буфера обмена (Shift+Insert) в окно с OCR-текстом.
При вставке должна быть активна та страничка в окне, с которой будут начинаться картинки в документе.
Сохраняем документ через Сохранить как.

Из того что написал ComboFZ, не знаю правильно ли, сделал первый вариант, залил белый фон в оригинал. Не помогло.
Как попробовать второй способ - "в финальном файле отключить заливку шрифтов в OCR-тексте", пока не нашел.

https://images.vfl.ru/ii/1586030507/d25ec1ff/30104046.jpg

Модерирует : gyra, Maz
Версия для печати • Подписаться • Добавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183