Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Закладки » PDF с нестандартными шрифтами

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2

Открыть новую тему     Написать ответ в эту тему

estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
перед созданием темы искал подходящий топик в Графике, Программах и Варезнике, но не нашел
 
Есть книжка на русском языке в PDF. Хочу пользоваться там поиском по тексту, а он не работает по следующей причине:  
 
буквы в тексте хоть и выглядят так, как будто бы принадлежат одному и тому же шрифту, но на самом деле это разные шрифты с урезанными наборами символов (всего по нескольку букв в каждом шрифте) и со странными кодами символов.  
 
Все это выглядит примерно так:
 
- шрифт 0001: содержит напр. только буквы "А, Б, В, Г, Д" с кодами напр. 1, 2, 3, 4, 5
 
- шрифт 0002: содержит только буквы "ёпрст" с кодами напр. 5, 4, 3, 2, 1
 
и т.д.
 
Есть ли методы (наверняка есть, вот только как?) привести этот PDF в нормальный вид?
С помощью скриптов каких-нибудь? (я слышал, что Acrobat поддерживает скриптовый язык, но никогда не вникал в это дело).
 
Прошу здесь обсудить методы кроме распознавания в FineReader.

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 20:19 08-07-2003 | Исправлено: estimated, 12:17 11-07-2003
x_Stalker_x



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
И у меня таже проблема.
Приходится часто читать статьи в формате пдф.
И желательно чтоб поиск работал и можно было выдирать текст.
Но иногда имеет место вышеописанная проблема со шрифтами.
 
estimated, возможно ты уже нашел способ исправлять шрифты?
 
напиши здесь, плз.
 
З.Ы. у меня впринципе есть способ борьбы с этим, но он трудоемкий. И подходит если мало страниц в тексте. Могу описать его здесь если интересно.

Всего записей: 363 | Зарегистр. 12-10-2005 | Отправлено: 16:57 09-05-2006
divebox



BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
2  estimated
Отзовись??? ты решил проблему?? как??

Всего записей: 24 | Зарегистр. 09-05-2006 | Отправлено: 21:18 09-05-2006
x_Stalker_x



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
эту проблему я решаю следующим способом:
 
1 этап: весь pdf закидываю в finereader. Не важно как (это я к тому, что иногда простое открытие pdf-а в finereader-е приводит к ошибке), главное чтоб качество распознания не пострадало и размеры страницы и поля остались те же что и в исходном пдф (потом поймете почему это важно).
 
2 этап: распознаем и сохраняем в пдф так чтобы текст был за картинкой (см. в опциях сохранения в пдф). Тут мне было удобно сохранять каждую страницу в отдельный файл (потом будет ясно зачем).
 
3 этап: открываем исходный пдф акробатом (не ридером, а полной версией). открываем вкладку "page" и правой кнопкой мыши нажимаем на первой странице -> "insert pages. Выбираем первых страниц 15 из тех что распознаны и вставляем. Далее добиваемся того, чтоб каждая распознанная страница следовала за соответствующей страницы оригинала (все это можно сделать простым перетаскиванием во вкладке "page"). Далее вставить таким же образом и остальные страницы.
 
4 этап: инструмент TouchUp Reading Order Tool (Tools->Advanced Editing) -> Show Order Panel -> Content. Далее открываете 1 и 2 страницы во вкладке "Content" и находите на второй странице "Text". Выделяете и перетаскиваете мышкой на первую станицу. Таким образом, вы получите на первой странице весь распознанный текст вместе с оригиналом, а на второй только картинку. И такие же манипуляции со 3-4, 5-6, 7-8 и т.д. (Если бы вы сохранили распознанный текст в один файл, то было бы трудней манипулировать страницами) пока рука не отсохнет.
 
5 этап: если рука не отсохла, то удаляете 2,4,6,8 и т.д. страницы с рисунком.
 
6 этап: File->Save as и все
 
в новом пдф будет работать поиск и его размер увеличится всего в двое-трое в зависимости от процентного соотношения текста к рисункам.
можно даже выделять и копировать куски (но тут нужно присобачиться)
Если в finereader вы загоните картинку страницы с другими полями, то в конечном счете у вас распознанный текст и текст оригинал не будут совпадать, из-за различного расположения на странице.
 

Всего записей: 363 | Зарегистр. 12-10-2005 | Отправлено: 22:50 09-05-2006
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
divebox
К сожалению, никак не решил, просто читал книгу как есть - без использования поиска.
(Это кстати, была книга по Delphi 5.)
 
Но честно говоря, я и не пытался глубоко вникнуть в суть дела (типа, как хранятся шрифты и ссылки на них внутри PDF) - времени было жалко.  
 
x_Stalker_x
Спасибо за подробное описание. У меня самого уже актуальность спала (а если появися вновь - загляну сюда), в общем - наверняка кому-то пригодится.
 

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 03:39 10-05-2006 | Исправлено: estimated, 03:39 10-05-2006
WhiteKnight

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
В свое время была проблема - надо было перевести в редактируемый вид электронную книгу из Амазона. Так я все 500 страниц графики копировал в Finereader через copy/paste (единственное, что было разрешено в Акробате). В итоге книжка вышла - агляденье.

Всего записей: 42 | Зарегистр. 13-03-2003 | Отправлено: 19:45 24-05-2006
VovaMozg



Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Ребята, у меня проблемма чем-то похожая, только мне надо распечатать такой пдф, а вот принтер говорит что таких шрифтов он незнает и поэтому печатает кракозябликами.... чего делать? мож кто подскажет? спасибо

Всего записей: 761 | Зарегистр. 02-06-2005 | Отправлено: 07:48 25-07-2006
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
VovaMozg: у тебя, скорее, проблема в другом: шрифты не внедрены в документ, а Acrobat не может найти им подходящую замену.
 
Мне известны два выхода:
 
1) в свойствах принтера выставить, чтобы он загружал шрифты
у меня это спрятано здесь: General -> Printing Preferences... -> Advanced... -> Graphic -> TrueType Font -> Download as Softfont
(не всегда помогает)
 
или просто
 
2) в опциях печати Adobe Acrobat / Reader выставить "Print As Image" (под Advanced)
(если документ на экране отображался правильно, то помогает всегда)

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 14:40 25-07-2006
VovaMozg



Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
ага, спасибо, разобрался... действительно помогает ...

Всего записей: 761 | Зарегистр. 02-06-2005 | Отправлено: 19:21 25-07-2006
marrow1

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
У меня такая же проблема. Короче скачал книгу в PDF формате. А мне из неё надостраниц 50 скинуть во Word. Файл заделан текстом а не картинками. Мотому скопировать казалось бы его легко, но при копировании в Word или в любой текстовый редактор вместо букв отображаються знаки вопроса. Помогите. Как решить проблему со шрифтами, желательно без распознания его FineReader`ом.

Всего записей: 801 | Зарегистр. 21-12-2006 | Отправлено: 17:51 14-04-2007
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
marrow1
выкладывай пример, хотя бы одну страницу. А так ничего сказать нельзя. Помочь не обещаю, но хоть посмотрю какого именно рода проблема.

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 22:54 14-04-2007
grayfog



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Hello, All.
 
Скачал журнал Хакер Спец отсюда: http://www.xakep.ru/magazine/xs/074/xs_074.pdf
 
Вместо русского текста бурда и в Adobe Reader 8 и в Foxit Reader 2 и не только у меня. В других номерах всё нормально. Посоветуйте, пожалуйста, как лечить?

Всего записей: 908 | Зарегистр. 14-03-2004 | Отправлено: 00:15 24-05-2007
feuerloescher



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
grayfog
Там шрифт не встроен, напиши им письмо, имея исходный файл это гораздо проще исправить.

Всего записей: 7360 | Зарегистр. 29-06-2004 | Отправлено: 00:53 24-05-2007
grayfog



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А нельзя как-то самому в pdf-файле сменить шрифт? Скажем на имеющийся в любой системе Arial Cyr. Тогда бы всё должно отобразиться нормально.

Всего записей: 908 | Зарегистр. 14-03-2004 | Отправлено: 02:16 24-05-2007
feuerloescher



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А нельзя как-то самому в pdf-файле сменить шрифт?

Довольно сложно, придеться делать шрифты с теми же именами как в документе и с неправильной кодировкой
http://webfile.ru/1418033
 

Цитата:
Скажем на имеющийся в любой системе Arial Cyr

Такого шрифта как файла в системе нет, это только запись в реестре

Всего записей: 7360 | Зарегистр. 29-06-2004 | Отправлено: 11:06 24-05-2007
grayfog



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Довольно сложно, придеться делать шрифты с теми же именами как в документе и с неправильной кодировкой

А я просто думал может название шрифта в самом документе прописано, и эту запись можно модифицировать.
 
Кроме того - текст ведь отображается, хоть и неправильно. А отображается он каким-то шрифтом. Если даже это - шрифт по-умолчанию, то он тоже должен быть где-то прописан - в самом акробате ли в реестре или где ещё.
 
Мне уже, как ты наверно понял, не столько сам журнал интересен, сколько решение такой задачи.
 

Цитата:
Такого шрифта как файла в системе нет, это только запись в реестре

Знаю.
 

Цитата:
http://webfile.ru/1418033

 
О! Как ты это сделал?

Всего записей: 908 | Зарегистр. 14-03-2004 | Отправлено: 02:18 25-05-2007 | Исправлено: grayfog, 02:23 25-05-2007
feuerloescher



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
эту запись можно модифицировать

Теоретически да, но сложно, для этого нужно понимать внутреннююю структуру файла и уметь это исправить в текстовом редакторе или чем-то типа Enfocus Browser. Мне гораздо проще в этом случае сделать такой же шрифт как прописан в документе и скормить его Акробату.

Цитата:
отображается он каким-то шрифтом.

Это один из двух стандарных шрифтов подставляющихся вместо отсутствующих
Adobe Sans (второй Adobe Serif)

Цитата:
где-то прописан - в самом акробате ли

Да, прописано в самом Акробате, шрифты Adobe Sans и Serif этот тоже лежат в папке Акробата

Цитата:
Как ты это сделал?

1) Добавил обычному Helios префикс "GL" и изменил кодировку (в программе FontLab)
2) Шрифт поместил в папку "Program Files\Adobe\Acrobat 8.0\Resource\Font\"
3) Открыл файл и перепечатал на принтер AdobePDF (в настройках принтера указал ничего не менять и внедрять все шрифты)
 
Пункт 3) необязателен, это нужно для то чтобы файл был читаемым на любой машине где нет таких шрифтов
 
В файле несколько таких шрифтов, чтобы читалось все придется проделать с ними тоже самое.

Всего записей: 7360 | Зарегистр. 29-06-2004 | Отправлено: 10:58 25-05-2007 | Исправлено: feuerloescher, 11:04 25-05-2007
grayfog



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Да, прописано в самом Акробате, шрифты Adobe Sans и Serif этот тоже лежат в папке Акробата  

А почему бы не заменить в них латинский charset кириллическим?
 
А вот какие у меня каталоги шрифтов в акробате:
 
\Program Files\Adobe\Reader 8.0\Resource\Font\  
 
PFM\
AdobePiStd.otf
CourierStd-Bold.otf
CourierStd-BoldOblique.otf
CourierStd-Oblique.otf
CourierStd.otf
MinionPro-Bold.otf
MinionPro-BoldIt.otf
MinionPro-It.otf
MinionPro-Regular.otf
MyriadPro-Bold.otf
MyriadPro-BoldIt.otf
MyriadPro-It.otf
MyriadPro-Regular.otf
SY______.PFB
ZX______.PFB
ZY______.PFB
 
\Program Files\Adobe\Reader 8.0\Resource\Font\PFM\
 
SY______.PFM
zx______.pfm
zy______.pfm
 
И где здесь Adobe Sans и Serif?

Всего записей: 908 | Зарегистр. 14-03-2004 | Отправлено: 13:07 25-05-2007 | Исправлено: grayfog, 13:14 25-05-2007
feuerloescher



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
два последних по алфавиту в обеих папках

Цитата:
почему бы не заменить в них латинский charset кириллическим?

успехов

Всего записей: 7360 | Зарегистр. 29-06-2004 | Отправлено: 13:48 25-05-2007
grayfog



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Я имею ввиду засунуть русские буквы на соответствующие им места в charset-е Western European или как его там. В TrueType шрифтах я такое делал (вроде FontLab-ом). А вот с atm-шрифтами я на практике вообще никогда дела не имел. Это слильно сложнее?

Всего записей: 908 | Зарегистр. 14-03-2004 | Отправлено: 20:48 25-05-2007
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2

Компьютерный форум Ru.Board » Компьютеры » Программы » Закладки » PDF с нестандартными шрифтами


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru