Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Интернет » Графика » Общие вопросы шрифтов и PS- и PDF-файлов

Модерирует : Ausw

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9

Открыть новую тему     Написать ответ в эту тему

estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Есть неплохая pdf-книга по Delphi. Но там используются какие-то специальным образом изменные шрифты с кодами символов меньше 20. Соответственно поиск по файлу не работает, при копировании и вставке получается набор управляющих символов вместо текста. Все это делает использование книги очень неудобным.
 
Но раз нашелся способ довести книгу до такого состояния, то может быть найдется и способ привести ее в нормальный вид? Кто-нибудь сможет помочь?
 
Вот ссылки на саму книгу:  
__podgoretsky.com/ftp/Docs/Delphi/D5/Delphi5vol1.pdf
__podgoretsky.com/ftp/Docs/Delphi/D5/Delphi5vol2.pdf
(Для снятия restrictions - APDFPR)

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 12:24 02-09-2005
feuerloescher



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
estimated

Довести до такого особых усилий не требуется, а привести в нормальный вид разве, что с помощью Finereader-а. Но из-за большого обьема это будет трудно.
 
Желающим посмотреть в чем дело сэкономив траффик:
Page1_from_Delphi5vol1.pdf (59773 bytes)
_http://s1.ultrashare.net/hosting/fs/4fd96962353855bf/
 
Pages16-19_Delphi5vol2.pdf (192137 bytes)
_http://s2.ultrashare.net/hosting/fs/22259e913ae65385/

Всего записей: 7395 | Зарегистр. 29-06-2004 | Отправлено: 13:33 02-09-2005 | Исправлено: feuerloescher, 15:35 02-09-2005
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
feuerloescher
FineReader использовать не хочу. Он ведь вообще не исследует структуру pdf, а просто печатает его как черно-белую графику в файлы и потом распознает как картинки.
 

Цитата:
Довести до такого особых усилий не требуется

 
А каким образом это делается? Я так понимаю, берется обыкновенный шрифт и разбивается на фрагменты по 20-30 знаков. Получается десяток новых шрифтов с соответствующими малыми кодами символов. Потом производится замена исходного шрифта в документе этими новыми шрифтами с соответствующим преобразованием кодов символов. Но каким инструментарием это осуществляется?
 
Может, можно провести обратный процесс?
Т.е. каждому используемому в исходном PDF шрифту поставить в соответствие новый шрифт, указав каким образом делается преобразование кодов сиволов (такую таблицу несложно сделать вручную).
 
Получается, необходимо выяснить, какие шрифты с таким же начертанием (но нормальные, с полной таблицей символов) используются и каким инструментарием можно провести такое преобразование. Но здесь ни на первый, ни на второй вопрос я ответа пока не знаю.

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 14:15 02-09-2005
feuerloescher



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А каким образом это делается?

Думаю спецы по извлечению шрифтов объяснят лучше меня. Я имел ввиду, что человек делавший эти pdf специально никаких усилий для этого не прилагал, просто делал как умел, не задумываясь и/или не зная о последствиях.  
 

Цитата:
Может, можно провести обратный процесс?

Как это сделать внутри pdf, да еще автоматически я не представляю себе.
К тому же у разных шрифтов там разные кодировки, да еще и непонятные.
 
Есть конвертер Iceni Gemini, в нем есть Character remapper (http://www.iceni.com/content/Gemini/#charmap) - в нем можно наглядно увидеть кодировку шрифта в pdf. На практике я ничего особо хорошего не с его помощью не добился, а возня с перекодировкой вручную занимает кучу времени.
 
У Finereader (или PDF Transformer) результат будет лучше, и к тому же автоматической.
 
Если помечтать, то идеальная программа должна была бы наподобии Finereader распознавать каждый символ (при этом не обращая внимания (по желанию пользователя) на векторную и растровую графику) и исправлять ему на основании этих данных кодировку прямо в pdf-е
 
*****
Проблема со шрифтами при переводе pdf в doc, pdf в Ворд
http://www.prodtp.ru/index.php?showtopic=1856

Всего записей: 7395 | Зарегистр. 29-06-2004 | Отправлено: 15:05 02-09-2005 | Исправлено: feuerloescher, 19:14 02-09-2005
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Да, весьма сексуальный файл про Дельфи . Поковырял я его, кроме GlennAlcott никто ничего не смог, да и Гленн тоже вытащил кусочек. Джемини действительно может показать таблицу фонта, а PDF Граббер их вытащить, в каком виде - другой вопрос. Имхается мне, что ФайнРидер действительно единственное приемлемое решение. Если не считать особо мазохистского метода вытаскивания и выправления фонтов. Но если глянуть на страницы в IntelliPDF Curves, то такое желание очень быстро отпадет.

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 20:00 03-09-2005
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
feuerloescher, Astra55: спасибо вам, что потратили время и посмотрели файлы.
 
feuerloescher

Цитата:
что человек делавший эти pdf специально никаких усилий для этого не прилагал, просто делал как умел

а я-то подумал, что это намеренно, в качестве защиты сделано
(и, как бы то ни было, неплохая защита получилась!)

Цитата:
http://www.prodtp.ru/index.php?showtopic=1856

похоже, точно такая же ситуация была, причем непохоже, что это была "защита" pdf (какие-то инструкции для счетчика)
Astra55

Цитата:
весьма сексуальный файл



Цитата:
 Имхается мне

слушай, твои посты - просто кладезь крылатых выражений!
В общем, что-то отпала у меня охота до сексу... Я и софта-то такого до сих пор в глаза не видел... Короче, зарядил исходники в PDF Transformer (кстати, о нем тоже раньше не знал, думал это просто блок от FineReader в виде отдельной программы, хотя смотрю - кажется нет, что-то посолиднее вроде должно быть), до утра должен выдать результат, посмотрим.

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 04:59 04-09-2005
feuerloescher



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
неплохая защита получилась!

да, идея неплохая, но алгоритм не возмусь объяснить, чтобы это повторить.
(набор примерно такой: ttf шрифт с (очень) неправильной кодировкой + Acrobat 4 + неюникодный текстовый редактор + w98).
Надо поэкпериментировать.

Всего записей: 7395 | Зарегистр. 29-06-2004 | Отправлено: 10:12 04-09-2005
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Я сильно сомневаюсь, чтобы эта вся лабуда получилась сама собой. Еще раз советую глянуть на текст в InteilliPDF, это лучший инструмент для определения фонтов на странице, просто чудо. Такой прикол с фонтами можно сделать только умышленно - пробелы между словами одним фонтом, слова другим и т.д.

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 19:00 04-09-2005
feuerloescher



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Такой прикол с фонтами

Прикол сделал постскрипт принтер из шрифтов TrueType

Всего записей: 7395 | Зарегистр. 29-06-2004 | Отправлено: 23:56 04-09-2005
DeadVillage



Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору

Цитата:
Такой прикол с фонтами можно сделать только умышленно - пробелы между словами одним фонтом, слова другим и т.д.

... видел веселее прикол.  
... Все знаки препераний в тексте нехилой длинны были заменены картинками.
... Или, знаки препинания ниже положенного прописаны, как индексы. И при увеличенном рассмотрении выглядят они квадратно-угловато... А по количеству включенных шрифтов впечатление такое, что по шрифту на абзац вляпали

Всего записей: 652 | Зарегистр. 05-12-2003 | Отправлено: 00:58 05-09-2005 | Исправлено: DeadVillage, 00:59 05-09-2005
estimated



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Сделал в PDF Transformer - текст на первый взгляд ничего, но форматирование посбивалось и шрифты надо еще как-то подбирать. Картинки смазались (надо было в куцых опциях выставить dpi побольше, чтобы не даунсемплировались).
 
Кстати, этот PDF Transformer на поверку оказался именно куском от FineReader (во временной папке создается типичный FR-проект), не более того. Даже менее - возможности влиять на процесс крайне ограничены.
 
Astra55

Цитата:
советую глянуть на текст в InteilliPDF

OK, посмотрю
 
DeadVillage

Цитата:
наки препераний в тексте нехилой длинны были заменены картинками

ну и извращенцы. Или это тоже от непостижимой криворукости могло произойти?

Всего записей: 1088 | Зарегистр. 15-02-2002 | Отправлено: 03:01 05-09-2005 | Исправлено: estimated, 03:02 05-09-2005
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Для такой криворукости я даже не знаю места, откуда именно должны расти руки. Самое популярное место не подходит, там прямее получается
 
Насчет Трансформера - он изначально был типичным фейком, только чтобы выставить народ на бабки. Из PDF конвертеров наиболее серьезный, по моим испытаниям, немецкий PDF Grabber. Делает файлы примененных фонтов, минимальный размер выходных доко-ртфных файлов по сравнению с конкурентами. И минимальный размер самого софта. Но есть одна оффтопичная беда, пока никем не преодоленная .
 
Добавлено:
Недавно скачал одну книгу в pdf формате, так ее точно в АBBYY-вском софте обрабатывали. Масса слов на страницах в виде графики. Это тоже вилы, хрен что исправишь, хотя текстовый слой есть. Причем, сдается мне, что сначала сканили в JPG, не знаю как другими способами добиться артефактов вокруг каждого изображения. Судя по таким "шедеврам" у народа популярен мозговой аппарат облегченного образца - одна извилина, и та пониже спины. Этот деятель хоть бы одним глазом глянул на свое ублюдочное творение прежде чем выкладывать его для публики.

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 18:51 05-09-2005
feuerloescher



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Для такой криворукости

Да ни виноватые они, книжка же старая, тогда шрифтов мало было хороших, интернет тоже не у всех был, чтоб почитать, что к чему.

Всего записей: 7395 | Зарегистр. 29-06-2004 | Отправлено: 19:16 05-09-2005
geen

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Выложите, плз, getPDFnt куда-нибудь еще раз.

Всего записей: 441 | Зарегистр. 14-03-2004 | Отправлено: 19:51 05-09-2005
DeadVillage



Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
estimated

Цитата:
ну и извращенцы. Или это тоже от непостижимой криворукости могло произойти?  

... не могу сказать чего ими там двигало при создании такого рода файлов.
... а вот про файл со знаками препинания еще вспомнилось, что скопировав кусок такого текста в буфер и вставив его в Ворд практически все знаки препинаний заменялись другими, т.е. запятые знаками восклицательными, и прочее... Короче говоря, ад для "копировщиков". А двигали мною вполне мирные цели - уменьшить вес файлов.
... ко всему прочему, знаки препинания помещенные так низко не давали OCR-у качественно распознать текст
... страничка из одного такого файла:  http://shur.strana.de/page_chn.pdf

Всего записей: 652 | Зарегистр. 05-12-2003 | Отправлено: 07:24 06-09-2005 | Исправлено: DeadVillage, 09:23 07-09-2005
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
2 estimated
 
Сегодня, во время чистки компа попался пресловутый файл, загнал его в ФайнРидер, весьма бодро распознается, ошибок немного, если судить по тем страницам. Только ненужные рисунки удалить и все.  За день-два можно спокойно книгу обработать и закрыть этот вопрос с кривыми фонтами .
 
 
 

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 18:38 06-09-2005
aar



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Подскажите, пожалуйста, есть ли такая программа, которя показывает кодировку Type1 шрифта, внедренного в PDF? Имеется ввиду, чтобы были сведения об имени символа и его номере.

----------
* * *

Всего записей: 7080 | Зарегистр. 20-11-2003 | Отправлено: 11:40 14-09-2005
feuerloescher



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
программа, которя показывает кодировку Type1 шрифта

^Выше упомянутая Iceni Gemini (Standalone)
 

 
Подходит?

Всего записей: 7395 | Зарегистр. 29-06-2004 | Отправлено: 00:31 16-09-2005 | Исправлено: feuerloescher, 00:36 16-09-2005
aar



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
feuerloescher
Подходит-то подходит, только вот вываливается она у меня при попытке глянуть на кодировку, а во всем остальном работает.
 
А другие есть? Желательно с возможностью экспорта кодировки.
 


----------
* * *

Всего записей: 7080 | Зарегистр. 20-11-2003 | Отправлено: 15:31 17-09-2005
feuerloescher



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
вываливается она

не замечал такого за ней, правда у меня 5.0.7

Цитата:
А другие

больше не знаю

Всего записей: 7395 | Зарегистр. 29-06-2004 | Отправлено: 18:05 17-09-2005
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9

Компьютерный форум Ru.Board » Интернет » Графика » Общие вопросы шрифтов и PS- и PDF-файлов


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru