Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Ищется лучший конвертер PDF в HTML

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2

Открыть новую тему     Написать ответ в эту тему

drakunov



Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору

Интересует  прога  для  упрощения/ автоматизации  преобразования PDf в  серию HTML файлов. При  этом  необимо  сохранить  простейшее  форматирование,  извлеч  картики  и  крафики  в  максмално  фозможном  качестве...
 
Кто  нибудь  производил  исслледование?
 
Я  тут  перебрал  массу,  к  половине  нет  кряков...  
PDF2HTML совсем слабая...
Advanced pdf2html convertor v1.5 от  infraPDF похоже  не неплох..  но  кряка  нету  и  похоже его  не  найти...
 
Остальные  либо совсем  кривые,  либо  для  Акробата,  который  я  пока  не  качнул...  может  кто  еще  чего  отобрал...
 
Есть  хороший  фриварный...  но  картинкий  плохо  извлекает,  векторную  графику  в  имаджи  не  преобразовывает..
http://sourceforge.net/projects/pdftohtml/
 
 
Буду  очень  благодарен  за  помощь.

Всего записей: 1138 | Зарегистр. 07-04-2002 | Отправлено: 19:33 22-07-2003
drakunov



Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Скажу  я  вам...  что  номально  конверить  векторную  графику,  похоже  никто  не  умеет =((((((((((((

Всего записей: 1138 | Зарегистр. 07-04-2002 | Отправлено: 15:54 31-07-2003
Kurt

 
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
А есть хоть один который кирилицу понимает? Графика мне не нужна. Мне только текст....

----------
http://uid.me/kurt

Всего записей: 3822 | Зарегистр. 30-06-2001 | Отправлено: 00:23 17-10-2003
Michl



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
drakunov

Цитата:
но  кряка  нету  и  похоже его  не  найти...  

Всё есть
 

Всего записей: 571 | Зарегистр. 25-02-2003 | Отправлено: 06:05 29-10-2003
drakunov



Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Знаю,  уже  есть  но  толку  от  проги  никакого...  всеранвно  пришлось  делать  вручную...

Всего записей: 1138 | Зарегистр. 07-04-2002 | Отправлено: 07:21 29-10-2003
ironwit

Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору

Цитата:
А есть хоть один который кирилицу понимает? Графика мне не нужна. Мне только текст....

 
поднимаю вопрос. Решил ли кто? Смогли ли переконвертировать pdf в текст и прочитать кириллицу?

----------
Don't drink, and drive. Smoke and fly.

Всего записей: 1892 | Зарегистр. 11-10-2002 | Отправлено: 13:55 29-10-2003
volovyan



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ironwit
http://sourceforge.net/projects/pdftohtml/+xpdf+ghostscript
(запуск pdftohtml с параметром -c)
У меня pdftohtml 0.36
Это единственный конвертор, правильно "понявший" кириллицу.
Правда, с подачи ghostscript он нагенерил кучу "белых" .png-шек, но я все png-шки без рисунков погрохал, контент же остался.
Все остальные программы (а перепробовал я изрядно) генерили вместо кириллических букв умляуты и иже с ними. Можно, конечно, написать программку-словарь и заменять эти умляуты на нормальные кириллические тексты. Все же IMHO  pdftohtml вне конкуренции (для меня).

Всего записей: 120 | Зарегистр. 25-10-2001 | Отправлено: 14:17 29-10-2003
ironwit

Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
volovyan
а де брать xpdf и ghostscript?  RКоторые  тебя ТОЧНО обрабатывают кирилицу?

----------
Don't drink, and drive. Smoke and fly.

Всего записей: 1892 | Зарегистр. 11-10-2002 | Отправлено: 14:31 29-10-2003
Alex_Nort



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Еще можно FineReader'ом конвертировать. Только, насколько я знаю, он текст не извлекает, а зачем-то распознает (возможны ошибки). Кириллицу обрабатывает, если установлено распознавание русского языка.

Всего записей: 118 | Зарегистр. 01-10-2002 | Отправлено: 14:57 29-10-2003
volovyan



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ironwit
Ghostscript я брал с URL ftp://mirror.cs.wisc.edu/pub/mirrors/ghost/AFPL/gs811/gs811w32.exe,
xpdf+pdftohtml - честно говоря, не помню. Они не очень большие. Если дашь e-mail, могу закинуть, попробуешь. Кроме того, можешь прислать мне какой-нибудь свой PDF, который ты не мог сконвертировать нормально, а я попробую его сконвертнуть, может, действительно на некоторых документах и эта связка не захочет работать нормально?
Мне вот по работе понадобилось сконвертировать 600 страниц в HTML, и описанная мной связка сработала (только в файлах нужно будет поменять "charset=ISO..." на "charset="Windows-1251"). Вообще, если появится время, я заставлю работать и Advanced ....convertor, там достаточно юникодовские #&число менять на кириллические символы. Этакая таблица перекодировки. По-моему, этот "Advanced..." тоже приличный HTML делает (правда, заточенный под MSIE и Netscape 7), если не считать нечитаемой кириллицы .
 
Добавлено
Alex_Nort
Последний FIneReader (7.0) содержит в себе PDF2BMP+PDF.DLL (по сути, PDF2TXT), который не распознает, а получает текст из PDF, а после этого уже начинаестя распознавание с учетом имеющегося текста.
 
Добавлено
ironwit
Да, кстати, Acrobat 6.0 (не ридер) тоже нормально работет с кириллицей при сохранении как HTML, нужно только указать ему кодировку ISO (потом ручками исправить, как я описывал выше), только форматирование текста он (Acrobat) при конвертации иногда теряет, чего не скажешь о pdftohtml.

Всего записей: 120 | Зарегистр. 25-10-2001 | Отправлено: 00:10 30-10-2003
ironwit

Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
volovyan

Цитата:
Кроме того, можешь прислать мне какой-нибудь свой PDF

тот который я пока проверил 80 метров Сейчас ищу еще что нить. Вообще нужна freeware программы для выковыривания любого текста из pdf (b всего отсального) - хочу наконец то сделать поисковик по всей своей e-library
 
 
 
Добавлено
http://www.xml.nsu.ru/pdf/database.pdf
 
попробуй этот pdf, у меня от вообще с ошибками работал...

----------
Don't drink, and drive. Smoke and fly.

Всего записей: 1892 | Зарегистр. 11-10-2002 | Отправлено: 08:20 30-10-2003
Kurt

 
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
На pdftohtml и его форматирование смотерть страшно(на код). Как сохраняет сам Акробат не знаю, врать не буду. Я в итоге прише к FineReader долго, но зато все распознает. И таблицы и картинки.
 
 
ironwit
А тебе могу скорее посоветовать скрипт для поиска взять, которыей понимает пдф. Вон, гугл понимает же...можно и его как поисковик юзать.


----------
http://uid.me/kurt

Всего записей: 3822 | Зарегистр. 30-06-2001 | Отправлено: 17:40 30-10-2003
volovyan



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ironwit
Попробовал твой файл, м-да, что сказать - ни один конвертер не справился, Акробат ругается на неправильный формат файла. Такой, наверное, только FineReader'ом и можно обработать
Kurt
А на код-то чего смотреть
Кстати, вполне можно в Dreamweaver править в режиме WYSIWYG, сам код, конечно, путаный. А ты хотя бы один PDF-HTML конвертер можешь привести в пример, в котором код был бы нормальный и форматирование сохранялось?

Всего записей: 120 | Зарегистр. 25-10-2001 | Отправлено: 23:53 30-10-2003
ironwit

Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Kurt

Цитата:
А тебе могу скорее посоветовать скрипт для поиска взять, которыей понимает пдф. Вон, гугл понимает же...можно и его как поисковик юзать.  

какой скрипт?
 
volovyan

Цитата:
Акробат ругается на неправильный формат файла.

отож. А мне нужно что нить прикручивать

----------
Don't drink, and drive. Smoke and fly.

Всего записей: 1892 | Зарегистр. 11-10-2002 | Отправлено: 08:03 31-10-2003
COMRAD



Gold COMRAD
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Kurt

Цитата:
На pdftohtml и его форматирование смотерть страшно(на код). Как сохраняет сам Акробат не знаю, врать не буду. Я в итоге прише к FineReader долго, но зато все распознает. И таблицы и картинки

FineReader сохраняет в HTML формате с нормальным кодом?

Всего записей: 6758 | Зарегистр. 22-02-2003 | Отправлено: 11:49 31-10-2003
Kurt

 
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
COMRAD
Да нет вроде, даже не пробовал. Кидал в ворд, а из ворда уже есть выбор нормальных конвекторов.

----------
http://uid.me/kurt

Всего записей: 3822 | Зарегистр. 30-06-2001 | Отправлено: 21:35 31-10-2003
COMRAD



Gold COMRAD
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Kurt

Цитата:
Кидал в ворд, а из ворда уже есть выбор нормальных конвекторов.

Спасибо за ответ. Помог. :ru-board:

Всего записей: 6758 | Зарегистр. 22-02-2003 | Отправлено: 23:35 31-10-2003
ALX2

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Конвертит Adobe Acrobat 6.0

Всего записей: 1 | Зарегистр. 23-11-2003 | Отправлено: 02:51 23-11-2003
Urist

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Попробовал было pdf файл с кириллицей (счёт от Билайн) конверитровать в txt.
Получил крякозяблики и читаемую муть.
 
Что посоветуете, кроме Acrobat CS СE?

Всего записей: 665 | Зарегистр. 11-01-2002 | Отправлено: 22:14 03-09-2004
kpripper



Junior Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Интересует этот же вопрос, но со времени последнего сообщения прошло уже почти 8 лет. Наверняка есть новые конвертеры pdf  в html , пока гуглю, но может кто-то изличного опыта подскажет хорошую прогу.

Всего записей: 130 | Зарегистр. 28-03-2009 | Отправлено: 01:36 11-02-2012
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2

Компьютерный форум Ru.Board » Компьютеры » Программы » Ищется лучший конвертер PDF в HTML


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru