jourmager
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору hooddy Цитата: я не понял магию литреса как они из 160 мегов сделали 9 и при этом не потеряли визуально в качестве. | Не могу утверждать на 100%, но предположу: 9 МБ Литреса - это так называемый true pdf, т.е. pdf где изображения существуют полностью отдельно от текста и изображения сравнительно высокого качества (150-300 dpi). Сам текст представлен в виде типографских векторных шрифтов, а дополнительные графические элементы, такие как птички, горизонтальные и вертикальные линии, такие как в вашем файле - представлены виде специальных векторных графических изображений типа path (shapes). Этот true pdf зашифрован какой-то самописной программой в некий внутренний формат Литреса, который понимает (расшифровывает) только их собственный просмотрщик. Экономия размера на векторных шрифтах и векторных графических элементах уменьшает размер такого true pdf до 8-10-20 МБ. И ещё: true pdf - это не "типографский макет". Это вариант для распространения по интернету. Ваши 160 МБ - это скорее всего просто скриншоты с качеством 300 dpi. Страницы с цветными изображениями сохранены как jpg. Страницы с текстом и с изображениями в градациях серого сохранены как gif. Цитата: я не понимаю, зачем мне менять дипиай из скачанной в магазине книги (ну ок ок, из сета страниц) и в какое значение | dpi определяет физический размер печатной книги. Для электронной книги он вообще не нужен. Но есть нюансы. При отображении в программе-просмотрщике и при обработке в программе редакторе, программы ориентируются на значение dpi или на физические размеры печатной страницы. Программы могут выдавать неправильные результаты из-за неправильного dpi при различных преобразованиях и масштабированиях pdf. Ваши изображения "из сета" имеют разрешение 2648х1900, при этом в jpg внутри прописан dpi 876, что соответствует размеру страницы 7,68х5,51 см. Естественно, данная печатная книга такого физического размера не может быть. Т.е. dpi в ваших jpg установлен программой (скриншотером), основываясь на непонятно чём. В gif-файлах вообще нет понятия dpi, поэтому ваши 78 - это вообще фикция. Кстати, я сомневаюсь, что 78, скорее всего всё-таки 72. Реальное значение dpi подбираем логикой и здравым смыслом. В данном конкретном случае dpi=300 при физических размерах страницы 161х224 мм (здравствуй 70х100/16). Создать pdf (djvu) файл одновременно хорошего качества и малого размера такой книги как ваша не так просто. Проблема в том, что на страницах одновременно с текстом присутствует и цветная графика и "серая" и чёрно-белая. Для радикального уменьшения размера текст надо полностью отделить от графики. что для данной конкретной книги на данный момент невозможно в полностью автоматическом режиме. Автоматика будет ошибаться на птичках, линиях и схематичной графике. Только вручную - СканКромсатор или СканТейлор или ФайнРидер. Текст, который уже отделён, можно или бинаризировать как изображения, или провести OCR с заменой изображений на векторные шрифты (режим текст+изображение). Если просто бинаризировать gif-файлы. т.е. из "серых" 8-битных перевести в чёрно-белые 1-битные, то будет потеряна вся "серая" графика, что мы и наблюдали на некоторых присланных образцах (например, стр.53(59), 57(63), 67(73), 91(98) и т.д.). Можно несколько упростить задачу, пренебрегая элементами оформления (птичками, линиями). И ещё - бинаризированный текст в 300 dpi читается ужасно. Не ужас-ужас, но. Я в таких случаях увеличиваю разрешение до 600 dpi в XnView и уже после этого бинаризирую. Хотя и тут оптимальный алгоритм апскейлинга ещё не нашёл. И ещё - у меня оптимизированный pdf вышел 97 МБ - только изображения. Это много, но такова расплата за качество и простоту изготовления - полностью автоматом за несколько кликов мышкой. После OCR - 20 МБ. DjVu - 15-20 МБ, но цветная (и "серая" тоже) графика теряет качество при перекодировке (даже при 100% качестве, а не 75 по умолчанию) - теряются мелкие детали, изображение "замыливается" и изменяются цвета, а также ухудшается качество текста. | Всего записей: 746 | Зарегистр. 04-11-2019 | Отправлено: 11:13 16-10-2023 | Исправлено: jourmager, 11:48 16-10-2023 |
|