обработка pdf - [1] :: Прикладное программирование

Новости • Файловые архивы
Поиск • Активные темы • Топ лист
Правила • Кто в on-line?

Вход • Забыли пароль? • Первый раз на этом сайте? • Регистрация

Компьютерный форум Ru.Board » Компьютеры » Прикладное программирование » обработка pdf

обработка pdf

Модерирует : ShIvADeSt
Версия для печати • Подписаться • Добавить в закладки
Страницы: 1 2

rimas

Newbie

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Всем привет!
Люди, может кому приходилось обрабатывать данные, содержащиеся в pdf-файлах?
Под обрабатывать я понимаю извлечение текстовой части, несущей смысловую нагрузку.
Я нашел несколько библиотек, но все они абсолютно некорректо обрабатывают текст, содержащий слова на русском языке.
Если у кого есть какие соображения на этот счет, поделитесь, плс...

Сергей

Всего записей: 4 | Зарегистр. 23-11-2002 | Отправлено: 21:33 23-11-2002

jetage

Кодокопатель

rimas
Дык PDF вроде бы хранит русский текст как картинку? Разве нет?

----------
Замки.Ru - каталог замков производства России и стран СНГ

Всего записей: 550 | Зарегистр. 03-03-2002 | Отправлено: 07:40 24-11-2002

IgGass

Advanced Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

jetage
PDF даже иврит хранит как текст, а русский тем более.

rimas
А тебе для какого языка программрования, вообще?

----------
"Тот, кто щадит врага, не щадит самого себя."
Фрэнсис Бэкон

Всего записей: 1043 | Зарегистр. 01-03-2002 | Отправлено: 07:47 24-11-2002 | Исправлено: IgGass, 07:48 24-11-2002

rimas Newbie	Редактировать \| Профиль \| Сообщение \| Цитировать \| Сообщить модератору Да мне подойдет любой язык программирования(даже asm), главное, что бы это работало под Unix-ом
	Всего записей: 4 \| Зарегистр. 23-11-2002 \| Отправлено: 15:00 24-11-2002

f_serg

Advanced Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

rimas

Цитата:

но все они абсолютно некорректо обрабатывают текст, содержащий слова на русском языке

Это сильно зависит от документа. Пытался я из одного текст вытащить. В нем было штук двадцать встроенных фонтов, в каждом из которых по 5-10 русских букв, причем коды у них были 1,2,3 и т.д. Из такого документа текст не вытащить в принципе, его можно только отобразить. Ты бы проверил свой, может та же беда.

Всего записей: 1706 | Зарегистр. 11-09-2002 | Отправлено: 10:01 25-11-2002

vserd

Silver Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

rimas

Цитата:

работало под Unix-ом

Если бы под Win то Finereader 6.0 :))
jetage

Цитата:

Дык PDF вроде бы хранит русский текст как картинку?

Все зависит от того как (чем) сформировал PDF. Если PDFWriter то картинка, если Distiller, то текст. Можно вобще затащить отсканированный текст как картинку в ПДФ.

Всего записей: 2065 | Зарегистр. 08-05-2002 | Отправлено: 10:44 25-11-2002

rimas Newbie	Редактировать \| Профиль \| Сообщение \| Цитировать \| Сообщить модератору Ладно, все понятно. А на чем тогда работают спайдеры того же google? Они же иднексируют pdf-файлы?
	Всего записей: 4 \| Зарегистр. 23-11-2002 \| Отправлено: 14:10 25-11-2002

NSentinel

Junior Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

rimas

Цитата:

А на чем тогда работают спайдеры того же google?

Понятия не имею...

А что GhostScript не справляется?

Ну и вот тебе еще ссылка на PDFZone

Может лучше сразу на http://www.pdfzone.com/toolbox/toolfilter.html
или http://www.pdfzone.com/toolbox/toolinfo_extract.asp

Всего записей: 138 | Зарегистр. 27-08-2002 | Отправлено: 17:50 25-11-2002

serge2345

Junior Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

> Они же иднексируют pdf-файлы?

А они индексируют РУССКИЕ pdf-файлы? Мне как-то ни разу не попадались.

P.S. Пару раз видел PDF с русским текстом, причем там был нормальный фонт с нормальной кодировкой. Из такого файла текст вытаскивается. Но обычно вытащить не удается.

Всего записей: 108 | Зарегистр. 07-05-2002 | Отправлено: 00:47 26-11-2002

WOrlow

Newbie

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

ну. PDF могут быть и зашифрованными.. из них вряд ли чего вынешь. а под WIN помогает Finereade6.0 но это штучная работа..
сколько я возился с этой темой, то даже поиса средствами readera не всегда выходит организовать.. тут много тонкостей..
есть какая то Ищейка российская.., там есть поиск в содержимом PDF видимо чел нашел решение.. порой в нете.. она шароварная..

Всего записей: 14 | Зарегистр. 26-10-2002 | Отправлено: 15:55 28-11-2002

rimas Newbie	Редактировать \| Профиль \| Сообщение \| Цитировать \| Сообщить модератору Всем спасибо за советы, решение оказалось под носом - всего лишь надо было уазать, что xpdf парсит данные в UTF-8
	Всего записей: 4 \| Зарегистр. 23-11-2002 \| Отправлено: 19:27 28-11-2002

Svarga

Moderator

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

serge2345

Цитата:

> Они же иднексируют pdf-файлы?

А они индексируют РУССКИЕ pdf-файлы? Мне как-то ни разу не попадались.

Именно русские мне не попадались, но видел на сербском (та же кириллица, собссно)

----------
away.

Всего записей: 4161 | Зарегистр. 25-06-2002 | Отправлено: 05:45 28-01-2003

GreyGendalf

Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

sorry за оффтопик, но по моему это сюда....

Delphi
FastReport
PsFRExportFilters

при экспорте отчета с кириллицей в pdf-формат в Acrobat Reader'е этот документ отображается некорректно.
Есть source's для PsFRExportFilters. Мож кто знаком с форматом PDF, мож где нить подкрутить, что бы кириллица грамотно экспортировалась?

То что кириллица может отображаться корректно без всяких там картинок и т.д это факт...

Тогда мож кто знает где есть описание формата pdf?

Всего записей: 272 | Зарегистр. 06-01-2003 | Отправлено: 10:13 28-01-2003

vserd

Silver Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

GreyGendalf

Цитата:

Тогда мож кто знает где есть описание формата pdf?

www.addobe.com

Всего записей: 2065 | Зарегистр. 08-05-2002 | Отправлено: 17:06 28-01-2003

ak75

Newbie

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

GreyGendalf

Я работаю с PsQRExportFilters, вернее его новой версией GtQRExportFilters, но проблема с русским в pdf и тут не решена, кроме gtQrRichText там надо Charset поставить русский. А радикальный путь формировать отчет шрифтом который при експорте в PDF не рушится.
Если нужен пиши, пришлю.

Всего записей: 2 | Зарегистр. 11-10-2002 | Отправлено: 21:22 31-01-2003

peps

Advanced Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

возникла примерно такая же проблемма как и у rimas
OS: Windows
Language : English
Acrobat Reader (not writer)

требуется извлечь данные из pdf файла....
имеется форма в виде pdf. на форме поля , типа "First Name" , "Last Name" , "DOB" ,"Address" и т.д.
нужно получить эти данные (программно)
подойдет что угодно... dll , activex , code examples... все идеи приветсвуются :)

спасибо

Всего записей: 1483 | Зарегистр. 03-02-2002 | Отправлено: 02:55 09-02-2003 | Исправлено: peps, 02:57 09-02-2003

GreyGendalf Member	Редактировать \| Профиль \| Сообщение \| Цитировать \| Сообщить модератору до Римаса надо достучаться... он вроде знает как парсить... а так PDF specification - URL http://partners.adobe.com/asn/developer/acrosdk/docs/filefmtspecs/PDFReference.zip
	Всего записей: 272 \| Зарегистр. 06-01-2003 \| Отправлено: 07:42 11-02-2003

catbegemot

Advanced Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Есть ли какие-то новости по этой теме? У меня такая же проблема - необходимо выкусить таблицы с данными на английском языке из PDF файла. Есть даже полная версия Acrobat. Кстати, если совершенно случайно кто-то знает как все то же самое сделать программно - будет вдвойне здорово!

Заранее спасибо

Всего записей: 654 | Зарегистр. 09-12-2001 | Отправлено: 22:48 17-04-2003

3D_Dragon

Full Member

GreyGendalf
ak75

Если у вас есть решение проблемы с русской кодировкой в pdf отчетах PsQRExportFilters, то помогите инфой, пож-та !!!

----------
wp-club.net

Всего записей: 559 | Зарегистр. 24-07-2001 | Отправлено: 16:30 26-05-2003

Zol

Full Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Вопрос такой. Есть шаблон pdf с 10 полями (in1, in2 ....). Можно сказать стандартное письмо где только данные адресата надо менять. Нужно програмно открыть pdf, заполнить поля и сохранить как 1.pdf, потом опять изменить поля (записать второй record) и сохранить как 2.pdf. Можно ли это сделать из Vusual Basic? Буду признателен за любую помощь.

Всего записей: 450 | Зарегистр. 27-09-2002 | Отправлено: 20:54 19-07-2004

Страницы: 1 2

Компьютерный форум Ru.Board » Компьютеры » Прикладное программирование » обработка pdf

Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.Board
© Ru.B0ard 2000-2026

LiteCoin: LgY72v35StJhV2xbt8CpxbQ9gFY6jwZ67r