Редактирование PDF файлов - [169] :: Программы

MBK2

Цитата:

Это просто шедеврально!

Т.к. вы юродствуете только с этого, значит с остальным вы согласны. Ну ОК.
Но вы опять ничего не поняли. Как всегда.
Например, на одной из итераций, я решил сделать OCR на файле pdf, который вообще не содержал текста. Я очень сильно сомневаюсь, что о таком методе применения OCR подозревали создатели программы. Это чистой воды извращение, но создатели программы не оставили мне другого выбора. Почему и зачем мне пришлось это сделать - ответ очень простой, но т.к. вы ничего не знаете и не умеете (в данном контексте), то и правильного ответа никогда не дадите.
Dracula

Цитата:

вижу это

Мне лень рисовать стрелки и кружки на вашем скриншоте, поэтому словами.
Вы видите в самом верху название окна - "Перекодировать изображение"
Под ним слева вверху заголовок "Детали изображения"
Под ним таблицу с тремя колонками, две из которых называются "Текущее изображение" и "Сжатое изображение".
"Текущее изображение" - это то, которое присутствует в pdf-файле в текущий (настоящий) момент. В данном случае оно имеет сжатие jpeg и размер в 3 раза больше, чем будет в "Сжатом".
"Сжатое изображение" - это то, которое появится на месте "Текущего", если вы примените настройки - те самые, которые вы обвели красным прямоугольником и ткнули стрелкой.
Это я к тому, что в данном случае в своём файле я применил jpg с сжатием high. У сжатия medium на определённых изображениях появлялись бы заметные артефакты, сжатие Maximum не имеет смысла из-за большого размера и наличия артефактов.

Цитата:

Ой ё - это вообще заморочки пошли - Это вообще мне не нужно.

Вы не знаете, что вам нужно, пока вы с этим не столкнулись. Я вообще только приблизительно догадывался, что вы хотите.
Я просто показал, что сравнительно быстро и просто можно сделать настоящий true pdf из растровой картинки. И какие проблемы при этом будут.

Цитата:

Мне же нужно только распознавание картинки и вытаскивание оттуда текста и обрамления картинок и всё.

Немного ранее вы писали:

Цитата:

Ужас - это просто будет выглядеть как напечатанный в Word текст с белым чистым фоном - но это предполагает же, что будет только распознанный OCR наверху стоять - а теперь я понял, когда Вы говорили про, кто будет исправлять OCR на правильность - аха-ха - не, такое не нужно - 100% будет OCR под картинкой.

Цитата:

мне сейчас и этого достаточно - взять изображения и сохранить (с OCR слоем) в PDF и всё.

т.е. сейчас вам нужен совершенно другой метод создания pdf. Как я и написал ранее, Вы не знаете, что вам нужно, пока вы с этим не столкнулись.
И напомню, что я написал ранее:

Цитата:

Ну да. Отличный вариант. А кто будет вычитывать на ошибки получившийся pdf после OCR? Я не буду. Автор треда, наверное, тоже нет, у него другие задачи. А вы будете? Всего-то 250 страниц медицинского специального текста. Это в одной книге. А книг десятки, а может сотни. Ну как, берётесь?
P.S. Я ещё забыл про подбор десятка шрифтов по размеру, начертанию, цвету, толщине для режима "Текст + изображение". Иначе к чему вот это вот всё?

Вам придется вычитывать распознанный текст, и не один раз, потому что если в предложении из книги "Депонирование обезболивающего раствора в области бугра верхней челюсти в количестве 2–3 мл" OCR вместо 3 вставит 8, то отвечать за смерть пациента от передоза артикаином будете вы.
Вы же сами писали ранее:

Цитата:

Мне достаточно установить нужные языки и всё - даже если не 100% распознает - этого достаточно будет - кто возьмёт скопирует текст к себе - уже сможет подправить глядя на оригинал книги. Это меня меньше всего волнует.

Модерирует : gyra, Maz
Версия для печати • Подписаться • Добавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183