| | jourmager 
 Advanced Member
 | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору sharlatanat
 
 Цитата:
 | Спасибо за совет, теперь страницы в jpg делаю, а не png. | 
 Не понял. Что значит "делаю"?
 Сканировать в jpg крайне нежелательно. Особенно с источников плохого качества.
 Потому что возможна потеря информации при возможной последующей обработке типа разрезка разворотов, исправление угла наклона, выпрямление строк, обрезка полей, бинаризация, OCR.
 Сканировать желательно в форматы без потерь типа tiff или png.
 А вот на последнем этапе возможно сжатие в jpg с качеством не менее 65% (medium) и не менее 300 dpi.
 
 Цитата:
 | При сборке PDF-XChange этих страниц в один документ получается огромный размер, до нескольких гигабайт. | 
 Как я и говорил, внутри вашего файла (размером 2 ГБ) каждая страница - это изображение в формате ZIP размером в среднем по 10-12 МБ каждое.
 Сжатие их в jpg medium 300 dpi даст, допустим, 600 кб на страницу. При ограничении в 120 МБ на файл это не вариант.
 
 Цитата:
 | При сжатии Orpalis PDF Reducer (особенно при включении опции MRC) | 
 Ваш файл с MRC имеет размер 96 МБ. Я сделал MRC размером 36 МБ.
 С помощью Orpalis PDF Reducer я сжимал отдельные jpg в отдельные pdf.
 Опции: General - снять галку Only process PDF files, Compression вкл MRC, background 100 dpi, Images - medium, выкл JPEG2000 (у вас эта опция включена, поэтому тормоза при просмотре), 300 dpi. остальное вроде бы по вкусу.
 Потом сборка отдельных pdf в один с помощью PDF-XChange Editor.
 Наверное, это самый быстрый способ.
 
 Цитата:
 | особенно при включении опции MRC) иногда на некоторых страницах появляются не читаемые места, как будто смазанные | 
 MRC - это автоматическое разделение текста и картинок. Алгоритмы этой автоматики кривоватые, из-за этого могут появляться искажения как текста, так и картинок.
 
 Цитата:
 | Придумал вот что, теперь перевожу страницы в 2-битные png, трамбую на максимум PNGOut, и формируются вполне компактные документы, которые потом можно вообще не ужимать. | 
 Такое работает только на идеально черно-белых сканах. На цветных (книга черно-белая, а скан - цветной) типа того, что вы предоставили, результат при простом уменьшении битности изображения будет непредсказуемый.
 
 Лучше обработать файлы в программах типа ScanTailor или ScanCromsator и на выходе получить более-менее нормальное 1-битные бинаризированные изображения, которые потом собрать в PDF-XChange Editor и там сжать в CCCIT G4/ZIP - на выходе будет 26 МБ (текст 600 dpi).
 Можно и в JBIG2, но что-то он лично мне не очень нравится - тормоза, если малое сжатие (малый словарь) то малый выигрыш по объему, если сильное сжатие, то возможны искажения текста. Смысл экономить 5-10 МБ?
 Затраты по времени конечно же выше, чем при MRC-сжатии.
 
 Цитата:
 | Задача — читаемые текст...при как можно меньшем размере файла | 
 Наилучшее качество текста, естественно, будет при OCR с заменой текста на векторные шрифты. Размер файла также минимальный - 2,5 МБ. Но, естественно, надо делать вычитку текста на ошибки. Поэтому затраты по времени равны скорости чтения 2 книг. Зато можно книгу прочитать, а не просто сделать.
 Вообще-то говоря, вычитка должна быть и при простом OCR (текст под изображением), но это обычно никто не делает - сканировщики и обработчики, а не читатели.
 
 P.S. Update.
 Сделать OCR можно ещё в Adobe Acrobat Pro с использованием технологии проприетарной ClearScan, когда буквы заменяются на векторные кривые в виде какого-то стандартного шрифта. Ну, такое себе.
 
 |  | Всего записей: 1028 | Зарегистр. 04-11-2019 | Отправлено:  21:16 23-02-2025  | Исправлено: jourmager,   00:19 24-02-2025
 | 
 |