jourmager
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору sharlatanat Цитата: Спасибо за совет, теперь страницы в jpg делаю, а не png. | Не понял. Что значит "делаю"? Сканировать в jpg крайне нежелательно. Особенно с источников плохого качества. Потому что возможна потеря информации при возможной последующей обработке типа разрезка разворотов, исправление угла наклона, выпрямление строк, обрезка полей, бинаризация, OCR. Сканировать желательно в форматы без потерь типа tiff или png. А вот на последнем этапе возможно сжатие в jpg с качеством не менее 65% (medium) и не менее 300 dpi. Цитата: При сборке PDF-XChange этих страниц в один документ получается огромный размер, до нескольких гигабайт. | Как я и говорил, внутри вашего файла (размером 2 ГБ) каждая страница - это изображение в формате ZIP размером в среднем по 10-12 МБ каждое. Сжатие их в jpg medium 300 dpi даст, допустим, 600 кб на страницу. При ограничении в 120 МБ на файл это не вариант. Цитата: При сжатии Orpalis PDF Reducer (особенно при включении опции MRC) | Ваш файл с MRC имеет размер 96 МБ. Я сделал MRC размером 36 МБ. С помощью Orpalis PDF Reducer я сжимал отдельные jpg в отдельные pdf. Опции: General - снять галку Only process PDF files, Compression вкл MRC, background 100 dpi, Images - medium, выкл JPEG2000 (у вас эта опция включена, поэтому тормоза при просмотре), 300 dpi. остальное вроде бы по вкусу. Потом сборка отдельных pdf в один с помощью PDF-XChange Editor. Наверное, это самый быстрый способ. Цитата: особенно при включении опции MRC) иногда на некоторых страницах появляются не читаемые места, как будто смазанные | MRC - это автоматическое разделение текста и картинок. Алгоритмы этой автоматики кривоватые, из-за этого могут появляться искажения как текста, так и картинок. Цитата: Придумал вот что, теперь перевожу страницы в 2-битные png, трамбую на максимум PNGOut, и формируются вполне компактные документы, которые потом можно вообще не ужимать. | Такое работает только на идеально черно-белых сканах. На цветных (книга черно-белая, а скан - цветной) типа того, что вы предоставили, результат при простом уменьшении битности изображения будет непредсказуемый. Лучше обработать файлы в программах типа ScanTailor или ScanCromsator и на выходе получить более-менее нормальное 1-битные бинаризированные изображения, которые потом собрать в PDF-XChange Editor и там сжать в CCCIT G4/ZIP - на выходе будет 26 МБ (текст 600 dpi). Можно и в JBIG2, но что-то он лично мне не очень нравится - тормоза, если малое сжатие (малый словарь) то малый выигрыш по объему, если сильное сжатие, то возможны искажения текста. Смысл экономить 5-10 МБ? Затраты по времени конечно же выше, чем при MRC-сжатии. Цитата: Задача — читаемые текст...при как можно меньшем размере файла | Наилучшее качество текста, естественно, будет при OCR с заменой текста на векторные шрифты. Размер файла также минимальный - 2,5 МБ. Но, естественно, надо делать вычитку текста на ошибки. Поэтому затраты по времени равны скорости чтения 2 книг. Зато можно книгу прочитать, а не просто сделать. Вообще-то говоря, вычитка должна быть и при простом OCR (текст под изображением), но это обычно никто не делает - сканировщики и обработчики, а не читатели. P.S. Update. Сделать OCR можно ещё в Adobe Acrobat Pro с использованием технологии проприетарной ClearScan, когда буквы заменяются на векторные кривые в виде какого-то стандартного шрифта. Ну, такое себе. | Всего записей: 912 | Зарегистр. 04-11-2019 | Отправлено: 21:16 23-02-2025 | Исправлено: jourmager, 00:19 24-02-2025 |
|