Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Модерирует : gyra, Maz

articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

   

ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Хотелось бы составить нечто вроде алгоритма действий для тех, кто оцифровывает в разные форматы (а таковых здесь много).
Например, что делать, если у человека есть книга без картинок и формул, если с картинками и формулами, если оригинал плохого качества, если он хочет, чтобы было удобно читать, чтобы файл был наименьшего объема и т.д. и т.п.
Давайте разберемся, какие форматы для каких целей подходят. Проблема отнюдь не надуманная.  


Софт:
1. LizardTech DocumentExpress и DjVu Solo  
2. ScanKromsator: Знаменитый кромсатор для обрезки получаемых при сканировании изображений, а также для разделения страниц, очистки от мусора и т.п. (есть FAQ). Автор: bolega. http://bolega.hotmail.ru/
3. DjVuReader: Альтернативный шустрый ридер для *.djvu. Автор: Dickobraz. http://www.opendjvu.nm.ru/
Обсуждение здесь.
4. AutoScan: Плагин для беспрерывного сканирования под IrfanView. Обновляется при выходе новой версии IrfanView. Автор: EL. autoscan.zip (4 KB)


Полезные ссылки по *.djvu:
http://www.cqham.ru/m2_scan.htm  
http://www.cqham.ru/djvu_print.htm    
http://www.cqham.ru/likbez_djvu.htm    
http://www.cqham.ru/djvu_ocr.htm    
 
Наш маленький FAQ по *.djvu:
1. Q: Что делать, если при конвертации происходит замена одних букв на другие, напр. "и" на "н" (проблема "инь" (с) Astra55)
    A: Возможные варианты рассмотрены здесь.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 18:51 02-03-2004 | Исправлено: ghosty, 03:53 18-12-2004
ging



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dickobraz
 
Wow!! Vash proekt - imenno to, chto ya iskal. Esche nemnogo dovesti programmku i ya
pervyj otkagusj ot PDF. Bylo by zdorovo, esli by Vy vylogili format dlya TOC.
Khotya nado samomu povozitjsya s DJUSED i Vashim primerom...
No vedj eto Vasha nadstrojka nad formatom, t.k. v plug-in'e TOC ne vidno, ne tak li?

Всего записей: 565 | Зарегистр. 18-09-2003 | Отправлено: 14:55 19-05-2004
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
2 Dickobraz
 
Скачал, но еще не пробовал, критику наведу потом. А вообще, очень здорово, что разработалась такая софтина, можно только похвалить автора.  
Недостатки уже вышедших софтов знают все, вот только шансов на исправление их мало.  
А какой версии кодек применен? 25-я или старее?  
Появилась возможность скачать русский DjVu Editor 4.1 PRO, желающие могут обращаться на соседний форум, например сюда:
http://forum.ru-board.com/topic.cgi?forum=35&topic=1478&start=620#13
 
WBR,
Astra
 


----------
Per warez ad scientiam

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 16:26 19-05-2004
EL

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Привет Dickobraz!
Отличная программа! Скорость открытия и независимость от броузера/плагина очень радуют
 
Навскидку, чего не хватает (или замечания) в DjVuReader:
 
- открытие файлов методом Drug-and-Drop
- shortcut'ы на все операции
- опция выбора стандартных иконок (мне, например, с ними легче работать, т.к. они более контрастные)
- возможность настройки, как быстро происходит прокрутка при вращении колеса мыши
- не понятно, почему при правом щелчке мыши происходит переключение на предыдущую страницу
- ОЧЕНЬ не хватает увеличенного просмотра при нажатии клавиши Ctrl (как это реализовано в плагине от Lizardtech - я его за эту функцию очень люблю! Честно сказать, мне теперь во всех просмотрщиках очень не хватает этой удобнейшей возможности!)
- не хватает просмотра свойств страницы/документа (только некоторые пока отображаются в строке статуса)
- маленькие кнопочки со стрелочками вверх-вниз можно убрать (т.к. они дублируют функции боьших кнопок "+" / "-")
- "Fit width", "Fit page" хотелось бы также иметь в виде кнопок на панели...
- кнопки "Single Page" и "Broadside page", насколько я понял, просто переключают режим просмотра одна страница/две страницы. Может тогда для понятности переименовать вторую кнопку в "Two pages" и заменить иконку на изображение двух рядом стоящих страниц?
- также мне несколько непонятен смысл режимов Book и Poster (может, это просто сдвиг страниц, так что текущая страница отображается в режиме двух страниц не справа, а слева?)
- как-то непонятно, зачем галочки в пунктах меню... (можно и убрать)
- числовое значение масштаба не соответствует такому же значению в плагине/DjVuEditor/Solo. (Напр. если в тех программах поставить 100%, то страничка отображается в размерах, примерно соответствующих исходным; а здесь, в DjVuReader она получается слишком большой)
 
 
До DjVuUsed пока руки не дошли.
 
 
Кстати, если не секрет, в какой среде написан DjVuReader? (Складывается впечатление, что это какой-то симбиоз MS C++ 7 и Delphi)

Всего записей: 48 | Зарегистр. 02-04-2004 | Отправлено: 16:52 19-05-2004
kvk



Moderator
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Dickobraz
Благодарствуйте! Насчет ocr проблемка имеется Ваш ридер не знает про возможность искать в ocr-енных djvu и копировать из них текст, а у нас скопилось очень много таких djvu (как английский, так в большей степени и русский ocr).
Спасибо!  
Удачи

Всего записей: 9240 | Зарегистр. 23-12-2001 | Отправлено: 17:54 19-05-2004
Dickobraz

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Спасибо всем за замечания и отклики. Теперь по порядку:
- левый батон мыши - скролл страницы;
- колесо - вертикальный скролл;
- правый батон мыши + жест влево -> следующая страница;
- правый батон мыши + жест вправо -> предыдущая страница;
 
- Dran-n-Drop - уже делаю;
 
- скорость скролла колесом и коэф. увеличения будет в настройках;
- режим BOOK - первая и последняя страница - отдельно, все остальные в разворот, POSTER - все страницы в разворот;
- с масштабом поработаем, там надо пересчитывать с учетом dpi.
- все остальные замечания занесены в TODO.
 
Прога писалась так - исходники djvulibre-3.5.12 под Linux. Из них построена dll с интерфейсами под VC-7. Вся GUI-евая часть написана под BCB6. Поэтому и SDK можно выложить.
Ну и работаем, работаем, работаем )
 
 
 
 
 
 
 
Добавлено
Для жаждущих Формат TOC в виде файла для djvused:
 
select; remove-ant;
# -------------------------------------
select 1
set-ant
(metadata  
(title1 "Название \"книги\" для TabSheet-а")
(pageindex1  
"Обложка
a
b
c
d
1
2
3")
 (content1  
"Обложка #Обложка
Глава1 #a
 111 #b
 222 #c
Глава2 #d
 333 #1
  444 #2
 555 #3")
)
.
Единица в конце тегов - типа версия
Строки подчиняются правилам языка C++, т.е. \n - перенос строки \" - кавычки и т.д.
Содержание: вложенные разделы отделяются пробелом. Пока загрузка TOC делается через TreeView->LoadFromStream(...). Думаю сделать через XML.
Страницы в TOC привязываются к индексам. Если индексов нет или их меньше чем страниц - дополняются числовым рядом от 1 до PageCount.  
Если индекс не найден - ничего не происходит.
Все это подробнее будет в документации.

Всего записей: 32 | Зарегистр. 19-05-2004 | Отправлено: 05:15 20-05-2004 | Исправлено: Dickobraz, 05:16 20-05-2004
kvk



Moderator
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Dickobraz
Поскольку ваш продукт захватил ассоциацию с файлами я его поневоле тестирую мелочь но таки в плагине листание страниц (стрелочки) посередине и мышь обычно там же оказывается у Вас в углу, что неудобно, а вот реже используемые кномки постер там и тп можно и в угол. Далее может и не нужная возможность но в акробате и в плагине часто пользуюсь если в окошке где указан номер стр набить другой и нажать энтер так на него и перейдет (возможно если набить и нажать стрелочку тоже перейдет посмотрите в плагине)  
Мне кажется, что Вы добавили несомненные удобства, но и имеющимися возможностями принебрегать не стоит (поиск там в осрных документах и тп).
 
Ну и еще достоинство Вашей программы если в имени файла есть апостроф (страшно любимый в некоторых кругах ) ваш просмотровщик открывает файл а плагин не на всех конфигурациях так что только за это многие Вам благодарны в топике по физмат книжкам.
Спасибо!
Удачи

Всего записей: 9240 | Зарегистр. 23-12-2001 | Отправлено: 13:25 20-05-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dickobraz
Поставил. Это, действительно, то, что многие из нас ждали.  
"Шустрость" впечатляет. Возможность открытия сразу двух страниц радует.
 
Вижу баг: у меня в одном файле некоторые страницы отображаются "вверх тормашками", в то время как в "родном" вьюере все нормально.
 
Спасибо.
 
Добавлено
Очень не хватает Full Screen.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 01:25 21-05-2004
Dickobraz

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty
нельзя ли получить эту страницу? Есть в формате такой флаг, но  все djvu у меня в одной ориентации, поэтому протестировать не могу

Всего записей: 32 | Зарегистр. 19-05-2004 | Отправлено: 09:55 21-05-2004
max67

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dickobraz
Присоединяюсь к благодарностям. Всяческих успехов в вашем благородном начинании.
 
Как я заметил, недостатка в пожеланиях потенциальных пользователей не наблюдается. Уже и добавить практически нечего, на мою долю остались мелкие придирки:
- хорошо бы сделать запоминание размера и положения окна;
- ассоциация расширения на себя происходит слишком уж авторитарно, а как же демократические ценности о которых я столько читал в последнии 15 лет ;
- жесты листания мышом. Я таки боюсь быть заподозренным в антисемитзме, но у меня, например, направление "вперёд" ассоциируется с движением с лева на право, а листание назад соответсвенно наоборот. Нельзя ли это дело поменять или оставить на выбор пользователя?

Всего записей: 835 | Зарегистр. 10-06-2002 | Отправлено: 13:15 21-05-2004
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Поскольку в соседней ветки это оффтопик, поэтому прошу прощения за публикацию ответа здесь:
 
2 Meaningless
 
> Лично для меня цель дискуссии почерпнуть побольше инфы
> как о DJVU так и о PDF.
 
Согласен.
 
> ну... есть много способов. Конечно PDF это не Word, т.е.
> редактирование там построчное, а не по параграфам или всему
> тексту, но вообще готовый PDF редактируется например через Adobe
> Illustrator, Macromedia Studio, кажется даже Corel Draw...
 
AI  пока еще не поставил, нужно рыться в "закромах Родины", то есть, в
своих  сидюках,  вроде  должен быть. Насчет блокнота - это вряд ли, не
видно  в  файле никакого текста в разумной кодировке, только служебная
инфа.  Поэтому  сильно  сомневаюсь  в  такой  возможности,  если можно
поглядеть практический пример, тогда буду менять "кочку" зрения .
 
> DJVU  изначально это формат сжатия графики, такой же как JPG или
> TIFF  только  более  продвинутый.
 
Отличие  не  столько  в  продвинутости как таковой, а в назначении. На
мой  взгляд  -  DJVU  служит для архивного хранения инфы и ни для чего
более.  Все  остальные способы уступают либо по трудозатратам, либо по
размеру.  Применительно  к  серому  и  цветному  изображению  DJVU  не
lossless, поэтому для серьезных дел вряд ли пригоден.
 
> PDF изначально это контейнер, который может содержать что угодно
> -  текст,  графику,  хоть  кинофильм.
 
Я  не  спорю,  но  получается PDF PDF-у рознь. К сожалению, не все это
понимают,  похожая ситуация с jpg. Когда скачиваешь сканированную доку
в  этих  форматах,  появляется  большое  желание оторвать руки автору.
Чудовищные  размеры  у  pdf  или  катастрофическое  и  невосстановимое
падение  качества. То же самое с цветным GIF, нельзя в нем черно-белое
изображение  хранить,  далеко  не  все  софты поддерживают однобитовый
цвет.  Доки  в PDF - это стандарт, но если нужна какая-либо обработка,
кроме  печати,  то  тут  возникают  сложности, может и преодолимые, но
именно  сложности.  Даже текст просто так не удается извлечь, теряется
форматирование.
 
> хотя  и  размер  по  сравнению  с DJVU огромный (боясь испортить
> впечатление авторы сканов оставляли компрессию изображений очень
> низкой).
 
Так  мы разговор про объем ведем в первую очередь, если бы он не играл
роли, то можно хоть в BMP хранить.
Для  проверки  была  взята  текстовая  страница  А4  на русском языке,
результаты такие:
Чистый текст   -   4 390
Tiff 300dpi G4 - 102 532 получено при помощи FinePrint5
Tiff 600dpi G4 - 203 460 получено при помощи FinePrint5
Text to PDF    -  20 054 получено при помощи pdfFactory2
PDF FR OCR     -  27 272 получено распознаванием tiff 600dpi(есть ошибки)
PDF            -  18 491 получено при помощи PDF Writer(русский в транслите)
DJVU 300       -   6 988 получено из tiff 300dpi DjVuEditor 4.1PRO
DJVU 600       -   8 555 получено из tiff 600dpi DjVuEditor 4.1PRO
DJVU 300       -   6 944 получено из tiff 300dpi Solo 3.1
DJVU 600       -   8 511 получено из tiff 600dpi Solo 3.1
 
Как  видно,  pdf уступает в объеме и очень существенно, особенно после
ФайнРидера.  Если  учесть,  что  исходный  файл был только текстовым и
фонты, кроме одного не грузились, то при любом изменении содержащейся
текстовой инфы будет только увеличение объема, но никак не сокращение.
На графике с текстом другая картина.
 
> Тогда сделай следующее: сосканируй в FineReader'e страницу твоего
> "супер-сложного" текста с формулами, картинками и проч.,
> распознай текст, а теперь сохрани его как PDF, только в опциях
> сохранения укажи, что распознанный текст надо сохранить ПОД
> изображением.
 
Я  проверил  указанную  методу с ФР и сохранением результата в pdf. На
отдельных  файлах  pdf  даже выиграл у djvu! Но когда была взята книга
полностью,  400 страниц с графикой, латынью и таблицами, то увы! Самое
неприятное  то,  что при сохранении pdf в ФР падает качество графики и
очень заметно. Сравнение размера файлов:
DJVU OCR -  8 861 355
PDF OCR  - 12 500 772
 
Дело  еще  в  том, что несмотря на наличие ресурсов с настройками всех
параметров  сжатия  в  DjVu  Editor  4.1PRO  реально  я до них не могу
добраться,  где они их зарыли, непонятно. Может быть поэтому небольшой
проигрыш Соло, а может другие причины, разница в 44 байта и там, и там.
 
WBR,
Astra

----------
Per warez ad scientiam

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 16:09 21-05-2004
Meaningless

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
в продолжение оффтопика в варезнике я высказался по поводу DJVU выше 300 dpi.
если особо не возражаешь, я бы предпочёл исключить их из сравнения.
По остальному отвечу позже.
 

Цитата:
При lossy компрессии даунсэмплинг естественно делается (и в djvu и в pdf), иначе зачем огород городить. Но качество на выходе получается значительно выше, чем при 300dpi исходнике.  
 
- JBIG2 это ISO и IEC стандарт. JB2 это его проприетарная реализация в djvu. Вряд ли они принципиально отличаются по качеству и компресси. Фишка в другом. djvu построен по принципу mixed raster content (MRC тоже ISO стандарт) - картинка разделяется на 3 слоя: передний, задний и маска. JB2 используется только для компрессии битональной маски с даунсэмплингом по умолчанию до 300 dpi. Полутоновые слои опускаются до 100 и даже 25 dpi.  
- Асробат, как я понял, на слои не делит, а жмет JBIG'ом всю картинку. Отсюда и проигрыш в размере/качестве.  
- На поле MRC уже засветилась даже Microsoft со своим SLIm форматом. Но до настоящего времени алгоритмы выделения маски и декомпресси в djvu остаются наиболее оптимальными.  
 

 
max67
погоди, не запутай меня... (и кого нибудь ишо)
мы говорим о ч/б картинках или серых/цветных?
 
если только о ч/б (тут буча разразилась по хранению факсов а потом вообще ч/б сканов) то откуда взялись полутоновые слои? Потом, ты сам начал с битональных 600 dpi картинок, верно?
 
Т.е. если следовать твоему техническому описанию, DJVU ВСЕГДА делает downsample битонального изображения до 300 dpi, только при этом возможно немного убирает мусор, а при печати или выводе на экран возможно делает интерполяцию РЕАЛЬНЫХ 300 dpi до 600 dpi слегка улучшая таким образом вид изображения (но не восстанавливая естественно утерянную информацию).
 
В этом случае сравнивать компрессию любого DJVU с разрешением выше 300 против любого другого формата будет заведомо бесполезно, т.к. мы имеем дело реально с 300 dpi.
 
Т.к. вопрос далее будет вовлекать в себя слишком субъективные впечатления типа "300 dpi у DJVU лучше чем 600 у PDF" :) предлагаю это дело прикрыть навеки. Если грубо: тип и качество компрессии чёрно-белых 300 dpi в DJVU и PDF оказывается абсолютно одинаковы. Небольшая разница списывается на проприетарность реализации, при которой сжатие в DJVU попросту более "lossy" чем в PDF.
 
Не будем ещё забывать, что преобразовывать изображения в JBIG2 внутри PDF может делать не только сам Acrobat, но и некоторые плагины к нему. Таким образом, при использовании плагинов сжатие может получиться даже больше, чем у DJVU (например плагин QABOT сжимает JPEGи внутри PDF сильнее, чем это может сделать сам Acrobat).
 
Упрёмся ещё раз в очевидный факт - PDF это КОНТЕЙНЕР, внутри которого может находится что угодно - лишний мусор или его отсутствие, хорошо или плохо сжатые имиджи и т.п. Всё сравнение размеров базируется на том, насколько качественно он сделан.
 
По ЦВЕТНЫМ изображениям - понятно, отдельный разговор.
 

Всего записей: 1042 | Зарегистр. 17-01-2003 | Отправлено: 16:26 21-05-2004 | Исправлено: Meaningless, 16:34 21-05-2004
ging



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Meaningless
 
Naschet redaktirovaniya PDF Notepad'om Vy, konechno, pogoryachilisj. Prosmotr - da,
no toljko nichego putnogo Vy tam ne uvidite - toljko slugebnye PDF metki i operatory-
tot samyj LZW, naprimer. A vot esli Vy chto-to tam Netepado'om ispravite - PDF-file
umiraet, eto vse ge binarnyj format.
 
A vot naschet
 

Цитата:
преобразовывать изображения в JBIG2 внутри PDF может делать не только сам Acrobat, но и некоторые плагины к нему

 
uge interesno. Esli mogno - popodrobnee. V chastnosti: mogno-li smotretj potom takoj PDF
na drugikh mashinakh (gde plug-in, samo soboj, ne ustanovlen).
I gde mogno takie plug-in vzyatj (topic rvetsya nazad, v Wareznik?)

Всего записей: 565 | Зарегистр. 18-09-2003 | Отправлено: 16:53 21-05-2004
Meaningless

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Naschet redaktirovaniya PDF Notepad'om Vy, konechno, pogoryachilisj

 
Ну, малёхо :)
 
Хотя....
 
Objects in PDF files can use ASCII or binary representation. ASCII PDFs are larger than binary PDFs files -- depending on the content and number of items, difference in size may be in the range of 10-20%, or higher.  
 
Просто насколько я помню изначально PDF был создан на чистом ASCII (для передачи по мылу, чтобы почтовые сервера его не портили), но в общем есть PDF файлы которые можно и ноутпадом похачить.
 
Что касается плагинов, которые жмут в JBIG2 - насколько я помню это был PDFCompressor (я дико извиняюсь если ошибусь). Где то его обсуждали в варезнике но по моему дело так ничем и не закончилось, а потом и я махнул на это рукой, мне пока хватает и встроенных средств акробата + DJVU если что цветное, а если бесконечно быть в поисках "самого оптимального" то жить некогда :)
 
Есть ещё PDF Enhancer но по моему туфта, хотя глянь сам.
 
Просмотр такого файла возможен на любой машине, т.к. никаких проприетарных форматов не используется.
 
Для сравнения ещё раз сошлюсь на QABOT - он жмёт джипеги сильнее чем Distiller (опция Extra) но всё же это тот же JPG, потому файл открывается любой читалкой PDF

Всего записей: 1042 | Зарегистр. 17-01-2003 | Отправлено: 19:52 21-05-2004
Meaningless

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Насчет блокнота - это вряд ли, не видно  в  файле никакого текста в разумной кодировке

Признаю своё предыдущее высказывание неполиткорректным, поправлюсь:
 
"если ломает, то любой PDF можно преобразовать в PDF базирующийся на чистом ASCII и затем редактировать Notepad'ом если понимать структуру"
 
С ужасом надеюсь что так всех наконец устраивает и с этим приколом можно закончить.
 

Цитата:
но  получается PDF PDF-у рознь

да ещё какая рознь!
как иногда не хватает в акробате кнопки "Выкинуть Весь Мусор Нахрен"
 

Цитата:
Так  мы разговор про объем ведем в первую очередь, если бы он не играл  
роли, то можно хоть в BMP хранить.  
Для  проверки  была  взята  текстовая  страница  А4  на русском языке,  
результаты такие:  

Тпр-р-ууу :)
Погодь, погодь, судя по перечню результатов тебя опять понесло в сравнение например PostScript текста полученного при помощи txt2pdf с РАСТРОВОЙ графикой полученной при помощи DJVU. Это совсем, совсем разные вещи. Я понимаю к чему ты клонишь, т.к. ЛЮБЫЕ документы надо хранить в каком то формате, но так мы совсем запутаемся, пусть текст будет текстом, есть СУПЕР форматы для хранения чистого или форматированного ТЕКСТА, которые по размеру уроют любой DJVU, но я бы предпочёл говорить только о сравнении ОТСКАНИРОВАННОГО изображения.
Т.е. исходником для всех сравнений и преобразований пусть является BMP или TIFF Group4.
 

Цитата:
Я  проверил  указанную  методу с ФР и сохранением результата в pdf. На  
отдельных  файлах  pdf  даже выиграл у djvu! Но когда была взята книга  
полностью,  400 страниц с графикой, латынью и таблицами, то увы! Самое  
неприятное  то,  что при сохранении pdf в ФР падает качество графики и  
очень заметно.  

 
К сожалению совсем не понятно с какими параметрами, что и во что преобразовывалось.
По ЦВЕТНЫМ изображениям я даже не собираюсь спорить, тут DJVU впереди, адаптивная компрессия в Акробате помогает но только при очень низких требованиях к изображению (я например использую её для хранения всякой "побочной" документации типа квитанций, отсканированных конвертов от писем и посылок и т.п.)
 
Если ты говоришь о чёрно-белом изображении (а дискутируя с тобой я именно на это упираю) то:
- ни о каком "выиграл" речи быть не может, способ компрессии ч/б как мы выяснили у DJVU и PDF одинаковый но файл PDF больше из-за "служебки"
- ни о каком "падении качества" тоже речи нет по той же самой причине (способ сжатия то одинаковый)
 
И ещё, у меня создалось впечатление что ты оцениваешь размер PDF который создал FineReader. Но его ведь ещё сжать надо!!!! (FineReader создаёт PDF 1.2, там нет JBIG2 компрессии)
После того, как ты получил PDF в FineReader открой его Акробатом, выбери в меню Advanced | PDF Optimizer и сожми ч/б изображение при помощи JBIG2 Lossy - тогда и получишь сжатие чёрно белых изображений такое же как в DJVU.

Всего записей: 1042 | Зарегистр. 17-01-2003 | Отправлено: 11:12 22-05-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
есть СУПЕР форматы для хранения чистого или форматированного ТЕКСТА

Огласите весь список пжалста. Я уже замучался искать такой формат, размер которого можно было бы хоть как-то предсказать в случае форматированного текста, наличия таблиц и проч. Ну и, естественно, чтобы этот размер был намного меньше.

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 12:50 22-05-2004
Meaningless

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Огласите весь список пжалста

 
пжалста :)
Редактор PolyEdit имеет собственный формат etf (aka Enhanced Text Format)
Бинарник, жуткая ;) степень сжатия по сравнению с другими форматами, даже простой текстовой файл сжатый best RAR'ом будет больше по размеру.
Кстати сам etf сжимать RAR'ом (или чем угодно) бесполезно.
 
Как и DJVU является иллюстрацией поговорки секс-терапевтов "размер не главное" т.к. тоже поддерживается единственным редактором на единственной платформе. Как результат - спорю ты от меня первого о нём слышишь :) (я имею в виду сам формат а не редактор PolyEdit, который довольно популярен в рунете)

Всего записей: 1042 | Зарегистр. 17-01-2003 | Отправлено: 23:36 22-05-2004 | Исправлено: Meaningless, 23:36 22-05-2004
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Meaningless
Интересно.
А еще какие (ты назвал один)?
 

Цитата:
я имею в виду сам формат а не редактор PolyEdit, который довольно популярен в рунете

А насколько он совместим с *.doc? Туда-обратно может без потерь (существенных) конвертироваться?
Я стою перед проблемой выбора формата для хранения текста с большим кол-вом таблиц и иногда картинок. До сих пор по разным причинам меня не устраивали ни *.doc, ни *.pdf, ни *.djvu. Мне нужен наименьший объем, скорость при просмотре, возможность быстрого копирования и (изредка) внесения изменений. А смогут ли другие люди без дополнительных усилий открыть такой файл - не столь важно. Поэтому рассмотрю любые предложения

Всего записей: 6808 | Зарегистр. 21-09-2002 | Отправлено: 01:41 23-05-2004
Meaningless

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty
Поковыряйся сам, лана, потом расскажешь.
От тебя будет больше толку, т.к. меня эта тема не очень интересует: сижу себе на Word'e и спокоен. Если чё, пакую RAR'ом. На CD влазит :)

Всего записей: 1042 | Зарегистр. 17-01-2003 | Отправлено: 02:02 23-05-2004
gmarik



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Фине Ридер ис зэ бест...

Всего записей: 328 | Зарегистр. 31-10-2002 | Отправлено: 04:31 23-05-2004
cornborer



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty

Цитата:
А насколько он совместим с *.doc

Формально, да. А на деле не слишком. Сложное форматирование, особенно с непростым размещением рисунков оказывается PolyEdit'у не по зубам. Впрочем, если быть справедливым, то НИ ОДНОМУ редактору, даже WordPerfect'у это тоже не под силу (если иметь в виду абсолютно точное воспроизведение, "как в Ворде").

Всего записей: 5122 | Зарегистр. 09-12-2001 | Отправлено: 08:47 23-05-2004
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Компьютерный форум Ru.Board » Компьютеры » Программы » Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu
articlebot (18-01-2005 10:47): Перемещено в форум "eBookz"


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru