Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Из pdf в текст (doc, txt, html)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6

Открыть новую тему     Написать ответ в эту тему

Margel

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Братва срочно нужен конвертер с PDF на Текст (*.Doc,*.Txt ) !  
 
Кто знает откуда скачать полную версию?????




название темы изменил
/Widok/

Всего записей: 1 | Зарегистр. 30-05-2002 | Отправлено: 12:55 30-05-2002 | Исправлено: vitaly1, 12:16 10-10-2005
tswanea



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
ALL
ребята есть же такая функция в Acrobat Professional 7. Надо тока дать данный документ на Save As и выбираем *.Doc  и будет вам счастье


----------
... И развернутся врата ада, и силы тьмы обрушатся на землю ...

Всего записей: 436 | Зарегистр. 03-08-2004 | Отправлено: 11:47 10-10-2005
vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
tswanea
Если форматирование очень простое, то еще ладно. А если что-то хоть немного сложное - получается очень некачественно.  


----------
Топик по украинскому языку

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 11:50 10-10-2005 | Исправлено: vitaly1, 11:51 10-10-2005
Widok



Moderator-Следопыт
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
шапку поднял

----------
Тень превращается в фантазии, таящиеся в глубине вашей души.
Пока идёшь ты среди теней, да не будет зла с тобой.

Всего записей: 24190 | Зарегистр. 07-04-2002 | Отправлено: 12:01 10-10-2005
tswanea



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
vitaly1

Цитата:
Если форматирование очень простое, то еще ладно. А если что-то хоть немного сложное - получается очень некачественно.  

да не может быть
у меня все намана работает качество на все 100

----------
... И развернутся врата ада, и силы тьмы обрушатся на землю ...

Всего записей: 436 | Зарегистр. 03-08-2004 | Отправлено: 12:44 11-10-2005
vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
у меня все намана работает качество на все 100

Гм... Интересная логика. Попробуйте на этом файле - http://forum.ru-board.com/topic.cgi?forum=93&topic=0283&start=1800#19

----------
Топик по украинскому языку

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 13:25 11-10-2005
Lomster

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
vitaly1
 
http://rapidshare.de/files/6140429/_________.rar.html - лучше не сделает никто, ABBYY FineReader 8.0.0.684 но по моему неплохо.

----------
Сделайте себе анонимно: TOR - распределенная система анонимного серфинга.

Всего записей: 1529 | Зарегистр. 10-05-2002 | Отправлено: 13:56 11-10-2005
vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Lomster
Спасибо. Из того, что я перепробовал, ФР показал самые лучшие результаты. Но не кажется ли странным, что лучший способ вытащить текст - это распознавание?

----------
Топик по украинскому языку

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 15:24 11-10-2005
tswanea



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
да вот вроде бы как получилось и не намана?
http://www.konfa.ru/public/dload/filex/page_from_rus_paronym.rar   или   http://www.konfa.ru/cgi-bin/filex.cgi?dl=page_from_rus_paronym.rar&go

----------
... И развернутся врата ада, и силы тьмы обрушатся на землю ...

Всего записей: 436 | Зарегистр. 03-08-2004 | Отправлено: 21:47 12-10-2005
Lomster

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
vitaly1

Цитата:
Но не кажется ли странным, что лучший способ вытащить текст - это распознавание?

Во первых, pdf формат довольно "мутный", во вторых, создатель PDF - Adobe заинтересована в преобразованиях "all to pdf" и не очень в обратных, иначе, ПО осуществляющее 100% корректное преобразование, давно увидело бы свет.  
В третьих, ПО для создания pdf сейчас великое множество, из них, почти все работают по "эксклюзивным шаманским алгоритмам".
 
Ну и конечно новая мода сканить книги не распознавая(или частично распознавая) и конвертировать в электронные форматы, получается или набор сжатых картинок, или жуткое месиво из текста(отдельная песня про шрифты и их форматы) и картинок.
 
Finereader же, обладает отличными алгоритмами распознавания изображений, и сохранения оформления документа в конечном формате. И совершенно не важно в какой программе создан оригинал.
 
tswanea
 
Используй файнридер 8 И настрой как на скриншоте:
 

 
Кстати я никакой правки не вносил, и вроде бы только ударения не воспроизвелись.

----------
Сделайте себе анонимно: TOR - распределенная система анонимного серфинга.

Всего записей: 1529 | Зарегистр. 10-05-2002 | Отправлено: 22:27 12-10-2005
Goul

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Lomster

Цитата:
Используй файнридер 8  И настрой как на скриншоте:

По-моему, для словаря Вы указали как раз самую неподходящую конфигурацию. Она больше подходит для дальнейшей перегонки в PDF. Ну то есть несколько опций стоит оставить, как есть, а остальные переключить наоборот.

Всего записей: 704 | Зарегистр. 28-05-2004 | Отправлено: 06:38 13-10-2005
Lomster

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Goul
 
Критикуя - предлагай! Каким образом в таком случае, удастся сохранить оформление, выделение текста и пр.? Подходящую конфигурацию в студию

----------
Сделайте себе анонимно: TOR - распределенная система анонимного серфинга.

Всего записей: 1529 | Зарегистр. 10-05-2002 | Отправлено: 08:35 13-10-2005
Goul

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Lomster

Цитата:
Критикуя - предлагай!

Предлагаю. У меня, правда, нет FR8, только FR7. Насколько я понимаю, в выпадающем списке "Оформление" должна быть опция "Сохранять тип и размер шрифта". Нужно выбрать её. Далее. Убрать флажки "Сохранять деление на строки", "Сохранять деление на страницы", включить галку "Удалять мягкий перенос". Сохранять цвет текста может не потребоваться, это зависит от исходного материала. В том словаре, который мы обсуждаем, это вроде бы не нужно. Если имеются картинки, выбрать формат, например, JPEG с необходимым качеством. Вряд ли экранного разрешения хватит.
С такими настройками уже можно приниматься за конвертацию словаря в электронный формат.

Всего записей: 704 | Зарегистр. 28-05-2004 | Отправлено: 09:41 13-10-2005
Lomster

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Goul
 
То, что для разного исходного материала могут потребоваться различные настройки - в зависимости от того что желаем получить на выходе, это да, но, в нашем случае, требовалось как можно точнее передать оформление оригинала. Возьми pdf, тот что предлагал vitaly1 и попробуй распознать его с предлагаемыми тобой настройками.
 


----------
Сделайте себе анонимно: TOR - распределенная система анонимного серфинга.

Всего записей: 1529 | Зарегистр. 10-05-2002 | Отправлено: 10:50 13-10-2005 | Исправлено: Lomster, 10:54 13-10-2005
Goul

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Lomster
Это настройки экспорта, поэтому на распознавание они никак влиять не будут. А требовалось, как я понимаю, именно что не передать структуру документа, а вытащить из него данные для экспорта в электронный вид.
PS. "Оформление", соответственно, нужно выбрать "Таблицы, абзацы, шрифты".

Всего записей: 704 | Зарегистр. 28-05-2004 | Отправлено: 11:07 13-10-2005
Arbox



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
На мой взгляд, или стандартной функцие Save as... или через FineReader. Тем более, что 8 версия его очень неплоха. Пользуюсь и тем, и тем, в зависимости, до чего быстрее добираются руки

Всего записей: 43 | Зарегистр. 23-01-2005 | Отправлено: 03:14 11-03-2006
Raful

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А кто-нибудь сталкивался с конвертированием ивритского pdf файла. Все основные конверторы иврит не распознают.

Всего записей: 8 | Зарегистр. 10-03-2006 | Отправлено: 13:55 19-03-2006
pnkv

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А кто-нибудь сталкивался с конвертированием ивритского pdf файла. Все основные конверторы иврит не распознают.

и про китайский тоже было бы интересно. Какие проги не пробовал, не сохраняется.  

Всего записей: 435 | Зарегистр. 23-10-2002 | Отправлено: 21:15 28-04-2006
r99



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
кто-нить может выложить 1-2 страницы тестового PDF от Vitaly1?

Всего записей: 1224 | Зарегистр. 16-11-2002 | Отправлено: 23:21 29-04-2006
vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
r99
Этот словарь можно взять вот тут, весит 1 Мб. Если напряжно столько скачать, могу выложить 1-2 страницы.
 
А зачем они тебе?

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 00:50 30-04-2006
r99



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
vitaly1
ежели надергать страниц из всяких корявоконвертируемых PDF-ов
и сделать один на котором можно тестировать конверторы (pdf->doc,rtf..).
Вроде нашел один конвертор более-менее шустрый (< 15mb в размере).

Всего записей: 1224 | Зарегистр. 16-11-2002 | Отправлено: 15:56 30-04-2006
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6

Компьютерный форум Ru.Board » Компьютеры » Программы » Из pdf в текст (doc, txt, html)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru