Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » xdoc2txt

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
На первую страницук этому сообщениюк последнему сообщению

Открыть новую тему     Написать ответ в эту тему

Victor_VG



Tracker Mod
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xdoc2txt - конвертор PDF, Word, Excel, RTF в текст из различных документов
 
ВНИМАНИЕ!
 
Использован машинный перевод с японского ибо в ином виде описание найти не
удалось. Посему и стилистические огрехи, ну а в основном выполнено техническое
редактирование текста.
 
xdoc2txt
 
Обзор
 
xdoc2txt это универсальный конвертер для извлечения текстовых
элементов,из различных форматов документов таких как PDF, Word, Excel,
Ichitaroработающий из командной строки Windows.
 
  * xdoc2txt анализирует структуру различных документов самостоятельно
    не используя такие программы как WORD или Acrobat.
  * Он быстро работает что делает его идеальным для фильтров движков
    полнотекстового поиска.
  * Поддерживаются следующие форматы документов:
 
    .rtf     Форматированный текст (Microsoft RTF)
    .docx     Microsoft WORD 2007/2010/2013(OOXML)
    .xlsx    Microsoft Excel 2007/2010/2013(OOXML)
    .pptx       Microsoft PowerPoint 2007/2010/2013 (OOXML)
    .doc    Microsoft WORD ver5.0/95/97/2000/XP/2003
    .xls     Microsoft Excel ver5.0 / 95/97/2000/XP/2003
    .ppt    Microsoft PowerPoint 97/2000 XP/2003
    .sxw/.sxc/.sxi/.sxd      OpenOffice.org
    .odt/.ods/.odp/.odg     Open Document v1.2
    .jaw/jtw    Ichitaro v5
    .jbw/juw    Ichitaro v6
    .jfw/jvw    Ichitaro v7
    .jtd/jtt     Ichitaro ver8/9/10/11/12
    .oas/oa2/oa3 OASYS/Win OASYS
    .bun/.bun     New Pine / Pine 5 / Pine 6
    .wj2/.wj3/.WK3/.WK4/.123     Lotus 123
    .wri     Windows3 .1 Write
    .pdf     Adobe PDF Adobe PDF
    .mht     Веб-архив
    .html     W3C HTML
    .eml    Формат экспорта OutlookExpress
 
  * Начиная с v2.0 поддерживаются Ifilter таке что если формат документа
    не поддерживается xdoc2txt, вы можете сделать извлечеь текста если
    есть соответствующий Ifilter. (функция доступна только в EXE версии)
  * Для EXE / DLL версии  COM-компонента возможности по извлечению
    текста аналогичны.
 
xdoc2txt работает в следующих ОС.
 
ver1.x (MBCS)
 
Windows 95/98/ME/NT4.0/2000/XP/Vista / Windows 7(32bit/64bit)/Windows
8(32bit/64bit)/ Server 2003/Windows Server 2008 R2(64bit) / Windows Server
2012(64bit) / Windows Server 2012 R2(64bit)
 
ver2.x (Unicode)
 
2000/XP/Vista/Windows 7(32bit/64bit)/Windows 8(32bit/64bit)/ Server
2003/Windows Server 2008 R2(64bit) / Windows Server 2012(64bit) / Windows
Server 2012 R2(64bit)
 
* Для v2.0, требуется установка общих библиотек времени исполнения
    (для Vista и новее обычно не нужно)
    "Microsoft Visual C++ 2008 SP1 Redistributable Package (x86)"
    <http://www.microsoft.com/en-us/download/details.aspx%3Fid%3D5582&usg=ALkJrhi_lqzGwCWtZGte1h7WkMJMSJMUZw>
 
Параметры командой строки
 
xdoc2txt.exe [options..] <filename...> xdoc2txt.exe [опции ..] <имя файла ...>
 
         -h : вывести справку
         -s : выходная кодировка ShiftJIS (по умолчанию)
     -e : выходная кодировка EUC
         -j : выходная кодировка JIS
         -u : выходная кодировка UTF-16 LE) (рекомендуется использовать с Ifilter)
         -8 : выходная кодировка UTF-8
         -f : выводить в файл
         -p : показать свойства документа
         -r=(0|1|2) : стиль скобок (0: как есть, 1: круглые скобки, 2: aozora bunko)
         -o=0 : прочие опции;
              -o=0 : не выводить в номера страниц PDF
              -o=1 : удалить разрывы строк PDF
         -g=# : диапазон масштаба PDF в процентах (по умолчанию 92%)
         -v : вывести номер версии
         -x : вывести только видимые ячейки (для EXCEL2007)
         -i : по возможности использовать IFilter (совместимо с UTF-8 , UTF-16 LE)
 
         Следующие опции были удалены в версии 2.0 как устаревшие:
 
         -n: иигнорировать ограничения доступа в документах PDF (необходима cryptlib.dll)
         -с кэш PDF (по умолчанию выключена)
 
         <имя файла ...> имя выходного файла (если содержит пробелы, то обязательно заключать в "").
         Допустимо использовать шаблоны подстановки "*" и "?".
 
Как использовать
 
  Следующий пример пишет текст включенный в sample.doc документа
  MS-Word на стандартный вывод.
 
     xdoc2txt sample.doc
 
   При перенаправлении потока вывода он может быть сохранён в файл.
 
        xdoc2txt sample.doc > sample.txt
 
    -f
 
    Если использовать опцию -f, то можно сохранить вывод в файл с
    автоматическим ррасширением .txt.
 
    xdoc2txt -f sample.doc sample.xls
 
    * ?
 
    Шаблоны  *? можно использовать в пакетном
    задании для указании набора входных файлов.
 
        xdoc2txt -f *.xls
 
    -p
 
    Для документов Office и Ichitaro (ver8 и
    новее), можно отобразить свойства документа задав опцию. Будут отображены
    только установленные элементы.
 
        xdoc2txt -p руководство.doc
 
        <Title>KWIC Finder</Title>
        <Author>hishida</Author>
        <Template>Normal.dot</Template>
        <LastAuthor>hishida</LastAuthor>
        <RevisionNumber>1</RevisionNumber>
        <AppName>Microsoft Word 9.0</AppName>
        <Lastprinted>2004/03/23 19:39:00</Lastprinted>
        <Created>2004/03/23 19:35:00</Created>
        <LastSaved>2004/03/23 19:44:00</LastSaved>
        <PageCount>1</PageCount>
        <WordCount>21</WordCount>
        <CharCount>121</CharCount>
 
WORD/EXCEL/PowerPoint
 
    Защищённые паролем документы Word/Excel/PowerPoint/Ichitaro не обрабатываются.
 
Перетаскивание мышью
 
Создайте ярлык на рабочем столе со следующими свойствами:
 
 1. Правая кнопка мыши &#8594; отправить xdoc2txt.exe на Рабочий стол
   (создать ярлык)в Проводнике Windows
 2.
    Правая кнопка мыши на иконке, которая была создана на рабочем
    столе &#8594; Свойства
 3. В конце Target добавить -f.
 
    Пример: "C:\Program Files\kwic\xdoc2txt.exe" -f
 
 4. Если вы перетащите файлы на этот значок, то выходные файлы с расширением .txt будут
    сохранены в той же директории что и входные.
 
Ссылка на статью: Http://Www.Forest.Impress.Co.Jp/article/2003/11/19/xdoc2txt.Html
 
О Ifilter
 
  * В Ver2.0 или новее поддерживает Ifilter. Если указать опцию -i, Ifilter могут быть
    использованы для преобразования.
  * Мы проверили следующие Ifilter.
      - Ichitaro для IFilter 32-битной ОС
      - DocuWorks Content Filter
      - MMicrosoft Office Filter
      - Adobe Reader 9.5 PDF Ifilter (Adobe Reader 10 Ifilter вышел
        после выхода Adobe PDF IFilter v6.0, Adobe PDF IFilter 9 для
        64-битных ОС не доступен.)
  * Ifilter работает только с ЕХЕ сборкой и с другими (Dll/СОМ) не применим.
 
 
* Скачать
 
Ver2.x  (Unicode)
 
  * New ! 2015/5/29* xdoc2txt 2.11 ( xd2tx211.zip )
    <http://ebstudio.info/download/KWICFinder/xd2tx211.zip>
  * xdoc2txt 2.10 ( xd2tx210.zip )
    <http://ebstudio.info/download/KWICFinder/xd2tx210.zip>
  * xdoc2txt 2.09 ( xd2tx209.zip )
    <http://ebstudio.info/download/KWICFinder/xd2tx209.zip>
  * xdoc2txt 2.08 ( xd2tx208.zip )
    <http://ebstudio.info/download/KWICFinder/xd2tx208.zip>
 
Ver1.x(MBCS)
 
  * xdoc2txt 1.50 ( d2txt150.zip )
    <http://ebstudio.info/download/KWICFinder/d2txt150.zip>
 
История
 
Ver2.x  (Unicode)
 
2.11 2015/5/29
 
  * Excel2007 улучшение производительности Формат извлечения текста из (.xlsx)
---
 
©2002-2012 hishida

Всего записей: 33240 | Зарегистр. 31-07-2002 | Отправлено: 17:15 07-06-2015 | Исправлено: Victor_VG, 17:56 07-06-2015
Открыть новую тему     Написать ответ в эту тему

На первую страницук этому сообщениюк последнему сообщению

Компьютерный форум Ru.Board » Компьютеры » Программы » xdoc2txt


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru