volovyan
Junior Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору ironwit Ghostscript я брал с URL ftp://mirror.cs.wisc.edu/pub/mirrors/ghost/AFPL/gs811/gs811w32.exe, xpdf+pdftohtml - честно говоря, не помню. Они не очень большие. Если дашь e-mail, могу закинуть, попробуешь. Кроме того, можешь прислать мне какой-нибудь свой PDF, который ты не мог сконвертировать нормально, а я попробую его сконвертнуть, может, действительно на некоторых документах и эта связка не захочет работать нормально? Мне вот по работе понадобилось сконвертировать 600 страниц в HTML, и описанная мной связка сработала (только в файлах нужно будет поменять "charset=ISO..." на "charset="Windows-1251"). Вообще, если появится время, я заставлю работать и Advanced ....convertor, там достаточно юникодовские #&число менять на кириллические символы. Этакая таблица перекодировки. По-моему, этот "Advanced..." тоже приличный HTML делает (правда, заточенный под MSIE и Netscape 7), если не считать нечитаемой кириллицы . Добавлено Alex_Nort Последний FIneReader (7.0) содержит в себе PDF2BMP+PDF.DLL (по сути, PDF2TXT), который не распознает, а получает текст из PDF, а после этого уже начинаестя распознавание с учетом имеющегося текста. Добавлено ironwit Да, кстати, Acrobat 6.0 (не ридер) тоже нормально работет с кириллицей при сохранении как HTML, нужно только указать ему кодировку ISO (потом ручками исправить, как я описывал выше), только форматирование текста он (Acrobat) при конвертации иногда теряет, чего не скажешь о pdftohtml. |