Victor_VG
Tracker Mod | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору xdoc2txt - конвертор PDF, Word, Excel, RTF в текст из различных документов ВНИМАНИЕ! Использован машинный перевод с японского ибо в ином виде описание найти не удалось. Посему и стилистические огрехи, ну а в основном выполнено техническое редактирование текста. xdoc2txt Обзор xdoc2txt это универсальный конвертер для извлечения текстовых элементов,из различных форматов документов таких как PDF, Word, Excel, Ichitaroработающий из командной строки Windows. * xdoc2txt анализирует структуру различных документов самостоятельно не используя такие программы как WORD или Acrobat. * Он быстро работает что делает его идеальным для фильтров движков полнотекстового поиска. * Поддерживаются следующие форматы документов: .rtf Форматированный текст (Microsoft RTF) .docx Microsoft WORD 2007/2010/2013(OOXML) .xlsx Microsoft Excel 2007/2010/2013(OOXML) .pptx Microsoft PowerPoint 2007/2010/2013 (OOXML) .doc Microsoft WORD ver5.0/95/97/2000/XP/2003 .xls Microsoft Excel ver5.0 / 95/97/2000/XP/2003 .ppt Microsoft PowerPoint 97/2000 XP/2003 .sxw/.sxc/.sxi/.sxd OpenOffice.org .odt/.ods/.odp/.odg Open Document v1.2 .jaw/jtw Ichitaro v5 .jbw/juw Ichitaro v6 .jfw/jvw Ichitaro v7 .jtd/jtt Ichitaro ver8/9/10/11/12 .oas/oa2/oa3 OASYS/Win OASYS .bun/.bun New Pine / Pine 5 / Pine 6 .wj2/.wj3/.WK3/.WK4/.123 Lotus 123 .wri Windows3 .1 Write .pdf Adobe PDF Adobe PDF .mht Веб-архив .html W3C HTML .eml Формат экспорта OutlookExpress * Начиная с v2.0 поддерживаются Ifilter таке что если формат документа не поддерживается xdoc2txt, вы можете сделать извлечеь текста если есть соответствующий Ifilter. (функция доступна только в EXE версии) * Для EXE / DLL версии COM-компонента возможности по извлечению текста аналогичны. xdoc2txt работает в следующих ОС. ver1.x (MBCS) Windows 95/98/ME/NT4.0/2000/XP/Vista / Windows 7(32bit/64bit)/Windows 8(32bit/64bit)/ Server 2003/Windows Server 2008 R2(64bit) / Windows Server 2012(64bit) / Windows Server 2012 R2(64bit) ver2.x (Unicode) 2000/XP/Vista/Windows 7(32bit/64bit)/Windows 8(32bit/64bit)/ Server 2003/Windows Server 2008 R2(64bit) / Windows Server 2012(64bit) / Windows Server 2012 R2(64bit) * Для v2.0, требуется установка общих библиотек времени исполнения (для Vista и новее обычно не нужно) "Microsoft Visual C++ 2008 SP1 Redistributable Package (x86)" <http://www.microsoft.com/en-us/download/details.aspx%3Fid%3D5582&usg=ALkJrhi_lqzGwCWtZGte1h7WkMJMSJMUZw> Параметры командой строки xdoc2txt.exe [options..] <filename...> xdoc2txt.exe [опции ..] <имя файла ...> -h : вывести справку -s : выходная кодировка ShiftJIS (по умолчанию) -e : выходная кодировка EUC -j : выходная кодировка JIS -u : выходная кодировка UTF-16 LE) (рекомендуется использовать с Ifilter) -8 : выходная кодировка UTF-8 -f : выводить в файл -p : показать свойства документа -r=(0|1|2) : стиль скобок (0: как есть, 1: круглые скобки, 2: aozora bunko) -o=0 : прочие опции; -o=0 : не выводить в номера страниц PDF -o=1 : удалить разрывы строк PDF -g=# : диапазон масштаба PDF в процентах (по умолчанию 92%) -v : вывести номер версии -x : вывести только видимые ячейки (для EXCEL2007) -i : по возможности использовать IFilter (совместимо с UTF-8 , UTF-16 LE) Следующие опции были удалены в версии 2.0 как устаревшие: -n: иигнорировать ограничения доступа в документах PDF (необходима cryptlib.dll) -с кэш PDF (по умолчанию выключена) <имя файла ...> имя выходного файла (если содержит пробелы, то обязательно заключать в ""). Допустимо использовать шаблоны подстановки "*" и "?". Как использовать Следующий пример пишет текст включенный в sample.doc документа MS-Word на стандартный вывод. xdoc2txt sample.doc При перенаправлении потока вывода он может быть сохранён в файл. xdoc2txt sample.doc > sample.txt -f Если использовать опцию -f, то можно сохранить вывод в файл с автоматическим ррасширением .txt. xdoc2txt -f sample.doc sample.xls * ? Шаблоны *? можно использовать в пакетном задании для указании набора входных файлов. xdoc2txt -f *.xls -p Для документов Office и Ichitaro (ver8 и новее), можно отобразить свойства документа задав опцию. Будут отображены только установленные элементы. xdoc2txt -p руководство.doc <Title>KWIC Finder</Title> <Author>hishida</Author> <Template>Normal.dot</Template> <LastAuthor>hishida</LastAuthor> <RevisionNumber>1</RevisionNumber> <AppName>Microsoft Word 9.0</AppName> <Lastprinted>2004/03/23 19:39:00</Lastprinted> <Created>2004/03/23 19:35:00</Created> <LastSaved>2004/03/23 19:44:00</LastSaved> <PageCount>1</PageCount> <WordCount>21</WordCount> <CharCount>121</CharCount> WORD/EXCEL/PowerPoint Защищённые паролем документы Word/Excel/PowerPoint/Ichitaro не обрабатываются. Перетаскивание мышью Создайте ярлык на рабочем столе со следующими свойствами: 1. Правая кнопка мыши → отправить xdoc2txt.exe на Рабочий стол (создать ярлык)в Проводнике Windows 2. Правая кнопка мыши на иконке, которая была создана на рабочем столе → Свойства 3. В конце Target добавить -f. Пример: "C:\Program Files\kwic\xdoc2txt.exe" -f 4. Если вы перетащите файлы на этот значок, то выходные файлы с расширением .txt будут сохранены в той же директории что и входные. Ссылка на статью: Http://Www.Forest.Impress.Co.Jp/article/2003/11/19/xdoc2txt.Html О Ifilter * В Ver2.0 или новее поддерживает Ifilter. Если указать опцию -i, Ifilter могут быть использованы для преобразования. * Мы проверили следующие Ifilter. - Ichitaro для IFilter 32-битной ОС - DocuWorks Content Filter - MMicrosoft Office Filter - Adobe Reader 9.5 PDF Ifilter (Adobe Reader 10 Ifilter вышел после выхода Adobe PDF IFilter v6.0, Adobe PDF IFilter 9 для 64-битных ОС не доступен.) * Ifilter работает только с ЕХЕ сборкой и с другими (Dll/СОМ) не применим. * Скачать Ver2.x (Unicode) * New ! 2015/5/29* xdoc2txt 2.11 ( xd2tx211.zip ) <http://ebstudio.info/download/KWICFinder/xd2tx211.zip> * xdoc2txt 2.10 ( xd2tx210.zip ) <http://ebstudio.info/download/KWICFinder/xd2tx210.zip> * xdoc2txt 2.09 ( xd2tx209.zip ) <http://ebstudio.info/download/KWICFinder/xd2tx209.zip> * xdoc2txt 2.08 ( xd2tx208.zip ) <http://ebstudio.info/download/KWICFinder/xd2tx208.zip> Ver1.x(MBCS) * xdoc2txt 1.50 ( d2txt150.zip ) <http://ebstudio.info/download/KWICFinder/d2txt150.zip> История Ver2.x (Unicode) 2.11 2015/5/29 * Excel2007 улучшение производительности Формат извлечения текста из (.xlsx) --- ©2002-2012 hishida | Всего записей: 33240 | Зарегистр. 31-07-2002 | Отправлено: 17:15 07-06-2015 | Исправлено: Victor_VG, 17:56 07-06-2015 |
|