Ищется лучший конвертер PDF в HTML - [1] :: Программы

ironwit
Ghostscript я брал с URL ftp://mirror.cs.wisc.edu/pub/mirrors/ghost/AFPL/gs811/gs811w32.exe,
xpdf+pdftohtml - честно говоря, не помню. Они не очень большие. Если дашь e-mail, могу закинуть, попробуешь. Кроме того, можешь прислать мне какой-нибудь свой PDF, который ты не мог сконвертировать нормально, а я попробую его сконвертнуть, может, действительно на некоторых документах и эта связка не захочет работать нормально?
Мне вот по работе понадобилось сконвертировать 600 страниц в HTML, и описанная мной связка сработала (только в файлах нужно будет поменять "charset=ISO..." на "charset="Windows-1251"). Вообще, если появится время, я заставлю работать и Advanced ....convertor, там достаточно юникодовские #&число менять на кириллические символы. Этакая таблица перекодировки. По-моему, этот "Advanced..." тоже приличный HTML делает (правда, заточенный под MSIE и Netscape 7), если не считать нечитаемой кириллицы

.

Добавлено
Alex_Nort
Последний FIneReader (7.0) содержит в себе PDF2BMP+PDF.DLL (по сути, PDF2TXT), который не распознает, а получает текст из PDF, а после этого уже начинаестя распознавание с учетом имеющегося текста.

Добавлено
ironwit
Да, кстати, Acrobat 6.0 (не ридер) тоже нормально работет с кириллицей при сохранении как HTML, нужно только указать ему кодировку ISO (потом ручками исправить, как я описывал выше), только форматирование текста он (Acrobat) при конвертации иногда теряет, чего не скажешь о pdftohtml.

Модерирует : gyra, Maz
Версия для печати • Подписаться • Добавить в закладки
Страницы: 1 2