Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Прикладное программирование » обработка pdf

Модерирует : ShIvADeSt

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2

Открыть новую тему     Написать ответ в эту тему

rimas



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Всем привет!
Люди, может кому приходилось обрабатывать данные, содержащиеся в pdf-файлах?
Под обрабатывать я понимаю извлечение текстовой части, несущей смысловую нагрузку.
Я нашел несколько библиотек, но все они абсолютно некорректо обрабатывают текст, содержащий слова на русском языке.
Если у кого есть какие соображения на этот счет, поделитесь, плс...
 
Сергей

Всего записей: 4 | Зарегистр. 23-11-2002 | Отправлено: 21:33 23-11-2002
jetage



Кодокопатель
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
rimas
Дык PDF вроде бы хранит русский текст как картинку? Разве нет?

----------
Замки.Ru - каталог замков производства России и стран СНГ

Всего записей: 550 | Зарегистр. 03-03-2002 | Отправлено: 07:40 24-11-2002
IgGass



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jetage
PDF даже иврит хранит как текст, а русский тем более.
 
rimas
А тебе для какого языка программрования, вообще?


----------
"Тот, кто щадит врага, не щадит самого себя."
Фрэнсис Бэкон

Всего записей: 1043 | Зарегистр. 01-03-2002 | Отправлено: 07:47 24-11-2002 | Исправлено: IgGass, 07:48 24-11-2002
rimas



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Да мне подойдет любой язык программирования(даже asm), главное, что бы это работало под Unix-ом

Всего записей: 4 | Зарегистр. 23-11-2002 | Отправлено: 15:00 24-11-2002
f_serg



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
rimas

Цитата:
но все они абсолютно некорректо обрабатывают текст, содержащий слова на русском языке

Это сильно зависит от документа. Пытался я из одного текст вытащить. В нем было штук двадцать встроенных фонтов, в каждом из которых по 5-10 русских букв, причем коды у них были 1,2,3 и т.д. Из такого документа текст не вытащить в принципе, его можно только отобразить. Ты бы проверил свой, может та же беда.

Всего записей: 1706 | Зарегистр. 11-09-2002 | Отправлено: 10:01 25-11-2002
vserd

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
rimas

Цитата:
работало под Unix-ом  

Если бы под Win то Finereader 6.0 :))
jetage

Цитата:
Дык PDF вроде бы хранит русский текст как картинку?  

Все зависит от того как (чем) сформировал PDF. Если PDFWriter то картинка, если Distiller, то текст. Можно вобще затащить  отсканированный текст как картинку в ПДФ.

Всего записей: 2065 | Зарегистр. 08-05-2002 | Отправлено: 10:44 25-11-2002
rimas



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ладно, все понятно. А на чем тогда работают спайдеры того же google? Они же иднексируют pdf-файлы?

Всего записей: 4 | Зарегистр. 23-11-2002 | Отправлено: 14:10 25-11-2002
NSentinel



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
rimas

Цитата:
А на чем тогда работают спайдеры того же google?

Понятия не имею...  
 
А что GhostScript не справляется?  
 
Ну и вот тебе еще ссылка на PDFZone
 
Может лучше сразу на http://www.pdfzone.com/toolbox/toolfilter.html
или http://www.pdfzone.com/toolbox/toolinfo_extract.asp
 

Всего записей: 138 | Зарегистр. 27-08-2002 | Отправлено: 17:50 25-11-2002
serge2345

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
> Они же иднексируют pdf-файлы?  
 
А они индексируют РУССКИЕ pdf-файлы? Мне как-то ни разу не попадались.
 
P.S. Пару раз видел PDF с русским текстом, причем там был нормальный фонт с нормальной кодировкой. Из такого файла текст вытаскивается. Но обычно вытащить не удается.

Всего записей: 108 | Зарегистр. 07-05-2002 | Отправлено: 00:47 26-11-2002
WOrlow

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ну. PDF могут быть и зашифрованными.. из них вряд ли чего вынешь. а под WIN помогает Finereade6.0  но это штучная работа..
сколько я возился с этой темой, то даже поиса средствами readera не всегда выходит организовать.. тут много тонкостей..
есть какая то Ищейка российская.., там есть поиск в содержимом PDF видимо чел нашел решение.. порой в нете.. она шароварная..

Всего записей: 14 | Зарегистр. 26-10-2002 | Отправлено: 15:55 28-11-2002
rimas



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Всем спасибо за советы, решение оказалось под носом - всего лишь надо было уазать, что xpdf парсит данные в UTF-8

Всего записей: 4 | Зарегистр. 23-11-2002 | Отправлено: 19:27 28-11-2002
Svarga

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
serge2345

Цитата:
> Они же иднексируют pdf-файлы?  
 
А они индексируют РУССКИЕ pdf-файлы? Мне как-то ни разу не попадались.  

Именно русские мне не попадались, но видел на сербском (та же кириллица, собссно)

----------
away.

Всего записей: 4161 | Зарегистр. 25-06-2002 | Отправлено: 05:45 28-01-2003
GreyGendalf

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
sorry за оффтопик, но по моему это сюда....
 
Delphi
FastReport
PsFRExportFilters
 
при экспорте отчета с кириллицей в pdf-формат в Acrobat Reader'е этот документ отображается некорректно.
Есть source's для PsFRExportFilters. Мож кто знаком с форматом PDF, мож где нить подкрутить, что бы кириллица грамотно экспортировалась?
 
То что кириллица может отображаться корректно без всяких там картинок и т.д это факт...
 
Тогда мож кто знает где есть описание формата pdf?

Всего записей: 272 | Зарегистр. 06-01-2003 | Отправлено: 10:13 28-01-2003
vserd

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
GreyGendalf

Цитата:
Тогда мож кто знает где есть описание формата pdf?

www.addobe.com

Всего записей: 2065 | Зарегистр. 08-05-2002 | Отправлено: 17:06 28-01-2003
ak75

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
GreyGendalf
 
Я работаю с PsQRExportFilters, вернее его новой версией GtQRExportFilters, но проблема с русским в pdf и тут не решена, кроме gtQrRichText там надо Charset поставить русский. А радикальный путь формировать отчет шрифтом  который при експорте в PDF не рушится.
Если нужен пиши, пришлю.

Всего записей: 2 | Зарегистр. 11-10-2002 | Отправлено: 21:22 31-01-2003
peps



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
возникла примерно такая же проблемма как и у rimas  
OS: Windows  
Language : English
Acrobat Reader (not writer)
 
требуется извлечь данные из pdf файла....
имеется форма в виде pdf.  на форме поля , типа "First Name" , "Last Name" , "DOB" ,"Address" и т.д.
нужно получить эти данные (программно)
подойдет что угодно... dll , activex , code examples... все идеи приветсвуются :)
 
спасибо

Всего записей: 1483 | Зарегистр. 03-02-2002 | Отправлено: 02:55 09-02-2003 | Исправлено: peps, 02:57 09-02-2003
GreyGendalf

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
до Римаса надо достучаться...
он вроде знает как парсить...
а так PDF specification - URL http://partners.adobe.com/asn/developer/acrosdk/docs/filefmtspecs/PDFReference.zip

Всего записей: 272 | Зарегистр. 06-01-2003 | Отправлено: 07:42 11-02-2003
catbegemot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Есть ли какие-то новости по этой теме? У меня такая же проблема - необходимо выкусить таблицы с данными на английском языке из PDF файла. Есть даже полная версия Acrobat. Кстати, если совершенно случайно кто-то знает как все то же самое сделать программно - будет вдвойне здорово!
 
Заранее спасибо

Всего записей: 654 | Зарегистр. 09-12-2001 | Отправлено: 22:48 17-04-2003
3D_Dragon

Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
GreyGendalf
ak75
 
Если у вас есть решение проблемы с русской кодировкой в pdf отчетах PsQRExportFilters, то помогите инфой, пож-та !!!


----------
wp-club.net

Всего записей: 559 | Зарегистр. 24-07-2001 | Отправлено: 16:30 26-05-2003
Zol



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Вопрос такой. Есть шаблон pdf с 10 полями (in1, in2 ....). Можно сказать стандартное письмо где только данные адресата надо менять. Нужно програмно открыть pdf, заполнить поля и сохранить как 1.pdf, потом опять изменить поля (записать второй record) и сохранить как 2.pdf. Можно ли это сделать из Vusual Basic? Буду признателен за любую помощь.

Всего записей: 450 | Зарегистр. 27-09-2002 | Отправлено: 20:54 19-07-2004
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2

Компьютерный форум Ru.Board » Компьютеры » Прикладное программирование » обработка pdf


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru