jourmager
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору MBK2 Цитата: Т.к. вы юродствуете только с этого, значит с остальным вы согласны. Ну ОК. Но вы опять ничего не поняли. Как всегда. Например, на одной из итераций, я решил сделать OCR на файле pdf, который вообще не содержал текста. Я очень сильно сомневаюсь, что о таком методе применения OCR подозревали создатели программы. Это чистой воды извращение, но создатели программы не оставили мне другого выбора. Почему и зачем мне пришлось это сделать - ответ очень простой, но т.к. вы ничего не знаете и не умеете (в данном контексте), то и правильного ответа никогда не дадите. Dracula Цитата: Мне лень рисовать стрелки и кружки на вашем скриншоте, поэтому словами. Вы видите в самом верху название окна - "Перекодировать изображение" Под ним слева вверху заголовок "Детали изображения" Под ним таблицу с тремя колонками, две из которых называются "Текущее изображение" и "Сжатое изображение". "Текущее изображение" - это то, которое присутствует в pdf-файле в текущий (настоящий) момент. В данном случае оно имеет сжатие jpeg и размер в 3 раза больше, чем будет в "Сжатом". "Сжатое изображение" - это то, которое появится на месте "Текущего", если вы примените настройки - те самые, которые вы обвели красным прямоугольником и ткнули стрелкой. Это я к тому, что в данном случае в своём файле я применил jpg с сжатием high. У сжатия medium на определённых изображениях появлялись бы заметные артефакты, сжатие Maximum не имеет смысла из-за большого размера и наличия артефактов. Цитата: Ой ё - это вообще заморочки пошли - Это вообще мне не нужно. | Вы не знаете, что вам нужно, пока вы с этим не столкнулись. Я вообще только приблизительно догадывался, что вы хотите. Я просто показал, что сравнительно быстро и просто можно сделать настоящий true pdf из растровой картинки. И какие проблемы при этом будут. Цитата: Мне же нужно только распознавание картинки и вытаскивание оттуда текста и обрамления картинок и всё. | Немного ранее вы писали: Цитата: Ужас - это просто будет выглядеть как напечатанный в Word текст с белым чистым фоном - но это предполагает же, что будет только распознанный OCR наверху стоять - а теперь я понял, когда Вы говорили про, кто будет исправлять OCR на правильность - аха-ха - не, такое не нужно - 100% будет OCR под картинкой. | Цитата: мне сейчас и этого достаточно - взять изображения и сохранить (с OCR слоем) в PDF и всё. | т.е. сейчас вам нужен совершенно другой метод создания pdf. Как я и написал ранее, Вы не знаете, что вам нужно, пока вы с этим не столкнулись. И напомню, что я написал ранее: Цитата: Ну да. Отличный вариант. А кто будет вычитывать на ошибки получившийся pdf после OCR? Я не буду. Автор треда, наверное, тоже нет, у него другие задачи. А вы будете? Всего-то 250 страниц медицинского специального текста. Это в одной книге. А книг десятки, а может сотни. Ну как, берётесь? P.S. Я ещё забыл про подбор десятка шрифтов по размеру, начертанию, цвету, толщине для режима "Текст + изображение". Иначе к чему вот это вот всё? | Вам придется вычитывать распознанный текст, и не один раз, потому что если в предложении из книги "Депонирование обезболивающего раствора в области бугра верхней челюсти в количестве 2–3 мл" OCR вместо 3 вставит 8, то отвечать за смерть пациента от передоза артикаином будете вы. Вы же сами писали ранее: Цитата: Мне достаточно установить нужные языки и всё - даже если не 100% распознает - этого достаточно будет - кто возьмёт скопирует текст к себе - уже сможет подправить глядя на оригинал книги. Это меня меньше всего волнует. |
| Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 00:30 17-11-2023 | Исправлено: jourmager, 00:33 17-11-2023 |
|