ScanKromsator | СканКромсатор (Часть 4) - [73] :: Программы

SVN75

Цитата:

Мне попалось несколько djvu-файлов, отсканированных мало того, что в маленьком разрешении, но ещё и большим процентом букв «и», «в» и «н» напрочь перепутанными. Вы меня понимаете, классика маразматического жанра, словосочетание «в немногих» превратилось в «н иемиогнх» и т. д..

Это давно известная проблема djvu-конвертирования. Такие явления происходят тогда, когда сканы очень низкого качества, а главное, разрешения. Исправить этот дефект в готовом djvu, думается, практически невозможно, разве что, "прогнав соответствующие страницы" в СК, затем их редактировать, чтобы буквы «и», «в» и «н» поставить на свои места. На плохих сканах с низким разрешением алгоритм сжатия в djvu не справляется с правильным определением этих букв. Любая программа OCR (а движок этой технологии запатентован компанией AABBYY, и иные компании должны брать лицензию у них на использование) прежде всего рассчитана на отличный скан, где каждая буква достаточно хорошо прорисована и выделена на общем фоне. Иначе, результатом OCR будет большое количество ошибок, которые надо будет исправлять вручную, но, опять таки, это имеет смысл для текстового слоя, картинка (изображение) текста, так и останется с дефектом.

Мне думается, самым правильным будет для вас дефектные по тексту страницы файла djvu "прогнать" через СК, тщательно каждую букву дефектную отредактировать, после чего все снова завернуть либо в djvu, либо PDF.

Либо запустите этот djvu-файл в FineReader и сделайте распознавание, затем опцией проверки все тщательно проверьте. Полученный текстовый слой наложите сверху изображения и тогда все огрехи изображения исчезнут сами по себе.
Аллахьу Ахад Аллахьу асСамад Аллахьу Экбэр!

Добавлено:
SVN75

Цитата:

Если даже нет, то помогите, пожалуйста, понять для чего Tesseract вообще можно использовать в СК и как именно это делается (ссылок будет достаточно).

Tesseract нужен для создания текстового слоя, чтобы затем его подставлять в djvu, либо PDF, чтобы обеспечить возможность поиска по тексту в таких документах. Лично я не пользовался пока еще Tesseract (но, попробую ради интереса ин шэ Аллаh), потому что самый лучший OCR это у AABBYY, а значит в программе их же - FineReader (советую брать версию 12, но не 15, она стала хуже), потому что у них разработаны прекрасные словари на очень многие языки, особенно на русский, аглицкий и иные европейские и неевропейские языки. Все специалисты считают, что более точного распознавания (OCR) не дает ни одна программа, как это делает FineReader!

Аллахьу Ахад Аллахьу асСамад Аллахьу Экбэр!

Добавлено:
А в целом, уважаемый bolega, я прихожу к вводу о том, что версия 6.71 проще в пользовании, чем 5.96.2. Вы просто запутали многих тем, что в VR переменяли местами кнопки, и пришлось снова обучаться их расположению, не могу понять, почему Вы это сделали...

Модерирует : gyra, Maz
Maz (14-09-2023 21:57): ScanKromsator \| СканКромсатор (Часть 5)	Версия для печати • Подписаться • Добавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200