Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » TextPipe

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Открыть новую тему     Написать ответ в эту тему

superkatya



Катька - смутьянка
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Поиск лекарств ведётся исключительно в разделе «Варезник».
TextPipe Pro
Текущая версия: 12.0 (06.06.2022)

Официальный сайт

 
Поддерживаемые ОС: Windows 10, 8, 7, Vista, 2019/2016/2012/2008/2003, x86 и x64
 
Скачать пробную версию в ZIP / в виде EXE-setup (27.5 МБ) / Список изменений
 
TextPipe Pro - утилита для пакетной обработки текстовой информации. Программа служит для форматирования и конвертирования текстовых файлов, замены в них текста, выполнения сложных преобразований, конвертирования текста из одного формата в другой.
Некоторые возможности TextPipe Pro:
• Пepepaбoтaнный пoиcк и зaмeнa в cooтвeтcтвии с заданной cxeмой. Причём можно задать как абсолютно идентичные cooтвeтcтвия, так и c нeчёткoй лoгикoй coпocтaвлeния (для иcпpaвлeния oбщeизвecтныx oшибoк нaбopa).
• Сортировка текста по алфавиту, рандомизация строк, подсчёт и удаление дублирующихся строк.
• Добавление и(или) извлечение определённых слов, строк или частей текста, как введённых вручную, так и содержащихся в любом другом текстовом файле.
• VBScript или JScript (или PerlScript, PythonScript, REXXscript и т.д.) фильтpы мoгyт быть oпиcaны c нacтpoйкoй для oбpaбoтки кaждoгo пoля.
• Пpeoбpaзoвaниe cимвoлoв кoнцa cтpoки мeждy фopмaтaми Unix, Mainframe, DOS и Macintosh.
• Преобразование текста в список слов.
• Иcпpaвлeниe зaглaвнocти бyкв (нaпpимep, sImon -> Simon), несколько видов смены регистра текста.
• Удaлeниe пpoбeлoв в нaчaлe, в кoнцe cтpoк, и yдaлeниe мнoжественных пробелов.
• Удaлeниe тэгoв HTML и XML или только их атрибутов.
• Дoбaвлeниe нyмepaции cтpoк, лeвoгo и пpaвoгo пoлeй, зaгoлoвкoв и cнocoк.
• Дoбaвлeниe или yдaлeниe cтoлбцoв тeкcтa, дoпoлнитeльныx cтpoк.
• Дoпoлнeниe или yceчeниe дaнныx пoлeй дo определённой шиpины.
• Извлeчeниe aдpecoв элeктpoннoй пoчты и URL и мнoгoе мнoгoe дpyгoe...


Полезные обучающие статьи по программе:
  • тут

    Программы аналогичного назначения:
  • PowerGrep

  • Всего записей: 3232 | Зарегистр. 01-06-2001 | Отправлено: 12:58 23-06-2004 | Исправлено: vasevase, 04:43 06-04-2023
    Jonmey

    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    любая с атрибутивным описанием чего либо подойдет. например, сайт Кинопоиск и описание кино. представим мне нужно дернуть с локальных html строки, или текст описаний из карточки фильма и перекинуть его в БД (csv).

    типа найти
    <some tags1>(some field1)<some tags2>(some field2)<some tags3>(some field3)<some tags4>(some field4)<some tags5>(some field5)<some tags6>
    заменить на
    \1;\2;\3;\4;\5
     
    Дальше все зависит от конкретной страницы.

    Всего записей: 1316 | Зарегистр. 17-01-2011 | Отправлено: 23:51 07-12-2019
    sikemo

    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    извините, что вклиниваюсь.
     
    А может, для начала вязть какую off-качалку (давно не пользовался, тут отдалённый совет) aka Offline Explorer etc, показать там, какие поля нужно скачивать и уже получить «дамп» более-менее без мусора&#191;
    ---
    MetaProducts Offline Explorer / Offline Browser (Часть 3)

    Всего записей: 1326 | Зарегистр. 27-11-2008 | Отправлено: 00:09 08-12-2019
    Frantishek



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    evoroz
    для меня основная проблема понять, как обеспечить последовательность действий сбора данных в рамках одного прохода (одного документа-файла) и их четкой связанности. чтобы ничего не нарушилось (строки-столбцы). тут об этом что то рассказано. но не очень понятно для меня -  
    https://ablex.ru/2013/02/ruchnojj-parsing-sajjtov-textpipe-pro-teleport-pro-open-office/
    ограничение не смущает. тк полные тексты чаще не выгружаются, а вычищаются, как вы, видимо, и описали также - http://web-optimist.blogspot.com/2009/07/textpipe-pro-html.html
    может кто то показать пример такой настройки на любом фильме из Кинопоиска (пара-тройка атрибутов из описания) чтобы был виден полный цикл выполнения с экспортом в csv-файл? буду признателен.
     
    Добавлено:
    sikemo
    хм. тоже хороший совет. а как задать такой поисковый паттерн для загрузки, чтобы не качались все прочие страницы, внутри которых нет нужных нам описаний? (нужного формуляра-шаблона).

    Всего записей: 1221 | Зарегистр. 02-05-2006 | Отправлено: 01:01 08-12-2019
    Jonmey

    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Frantishek
    Есть программа Ant Movie Catalog. У нее есть скрипты для скачивания с сайтов описаний фильмов. В нее встроен отладчик для создания и тестирования этих скриптов. Скрипты пишутся на паскале (то есть, самая классика алгоритмов). Существуют пользовательские скрипты для кинопоиска (искать в топике программы).
    Воспользовавшись этим инструментом можно воочию увидеть, как извлекается инфа со страниц - шаг за шагом (то есть видеть результат после каждого программного шага скрипта). Соответственно, человек желающий использовать для парсинга обсуждаемую в топике программу легко поймет, какие именно шаги можно осуществить в пакетном редакторе (textpipe, powergrep и др). А эти шаги (использование - поска/замен/удаления) в сущности ничем не отличаются от шагов, которые нужно сделать в любом продвинутом текстовом редакторе со скачанной страницей, чтобы в итоге получить итоговую строку или строки с инфой, которую извлекают.
    Иначе говоря, если вы способны извлечь инфу в текстовом редакторе используя инструменты поска/замен/удаления, то эти же самые шаги можно перенести в пакетный редактор, который обработает тем же самым путем уже не одну, а сколько угодно страниц.
     
    Если же речь идет о самом кинопосиске (сайте), то проблема состоит не в обработке или извлечении инфы, а в массовом скачивании контента, поскольку на сайте стоит защита от этого, и сперва нужно решить эту проблему. Само же скачивание и парсинг страниц дело тривиальное.
     
    Поэтому нет никакого смысла тратить время на, фактически, ликбез для вас, используя сайты, контент которых вы не сможете скачать (не говоря о том, что конкретно в случае кинопоиска необходимо скачивать несколько страниц, по которым размазана инфа об одном фильме - что кратно увеличивает объем обработки при парсинге). Для обучающих примеров нужно выбирать наиболее простые сайты, типа RuTor (Rutracker - уже сложнее, поскольку страницы содержат больше балластного кода). Чтобы парсить странцы, нужно иметь представление об html - структура, теги и т.д. Без этого обсуждаемая в данном топике программа не поможет, поскольку она лишь инструмент облегчающий манипулировние с символами, как и любой пакетный редактор.

    Всего записей: 1316 | Зарегистр. 17-01-2011 | Отправлено: 01:19 08-12-2019 | Исправлено: Jonmey, 01:57 08-12-2019
    evoroz



    Silver Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Frantishek
    Спасибо за ссылки. Вот до кучи мой блог http://digitblog.ru/index.php/textpipe

    Всего записей: 3487 | Зарегистр. 30-03-2002 | Отправлено: 11:15 08-12-2019
    Frantishek



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    evoroz
    да, я тоже его находил, но там очень общо. блин, задал вроде оригинальные фразы для Offline Explorer на загрузку (поиск внутри разметки html) все равно качает полностью сайт.

    Всего записей: 1221 | Зарегистр. 02-05-2006 | Отправлено: 19:55 08-12-2019
    sikemo

    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    а как задать такой поисковый паттерн для загрузки, чтобы не качались все прочие страницы, внутри которых нет нужных нам описаний?  

     
    если я правильно понял, ответ будет звучать так:
     
    как, к примеру, в программах автокликинга, можно показать окошко (размеры, положение), еще раз повторяю, как пример. Т.е. либо визуаольные, либо контентные (размер), либо формальные (паттерн)

    Всего записей: 1326 | Зарегистр. 27-11-2008 | Отправлено: 23:24 08-12-2019
    LibVik

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    TextPipe работает не только с регулярками.
    В фильтрах Extract есть опция Easy Pattern. Правой кнопкой вызываются типовые шаблоны. Insert Easy Pattern - Common Pattern - HtmlTag.
     
    В Offline Explorer можно задать маску для скачивания страниц, адрес которых совпадает с шаблоном и задать глубину переходов по ссылкам. Для последующей оффлайн обработки информации предусмотрена интеграция с TextPipe и не более того.
     
    Детальная настройка компаний Offline Explorer и фильтров TextPipe без анализа сайта и целевых страниц невозможна. О прочем Jonmey написал более чем подробно.
     
     

    Всего записей: 58 | Зарегистр. 22-06-2019 | Отправлено: 06:56 09-12-2019
    Frantishek



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    В Offline Explorer можно задать маску для скачивания страниц

    точно, я и забыл, что все проще гораздо. не надо лезть в коды страницы, что явно медленней работать будет. спасибо!

    Всего записей: 1221 | Зарегистр. 02-05-2006 | Отправлено: 04:30 10-12-2019
    evoroz



    Silver Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Frantishek
    Отправил версию фильтра.
     
    Несколько слов о том, как я это делаю.
    Как вы помните, TextPipe работает изменяя входной поток. При этом если были изменения, то на вход фильтра будет подан измененный поток.
    Соответственно основная идея - за ОДИН проход извлечь всю нужную информацию. Нужны несколько реквизитов, значит так и надо. Можно извлечь даже с избытком. Потом можно убрать.
    В https://ablex.ru/2013/02/ruchnojj-parsing-sajjtov-textpipe-pro-teleport-pro-open-office/ предлагается действительно ручной метод.

    Всего записей: 3487 | Зарегистр. 30-03-2002 | Отправлено: 19:13 10-12-2019
    nikisakis

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Привет, подскажите можно с помощью textpipe разбить текст на рандомные части (1-10 частей), и при этом каждую часть положить в теги, например:
    <p>часть текста</p>

    Всего записей: 16 | Зарегистр. 26-12-2019 | Отправлено: 03:47 30-12-2019
    evoroz



    Silver Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    nikisakis
    Вариант 1. С помощью Add Left|Right Margin
    Вариант 2. При замене. Заменить (.*) на <p>$1</p>
    Конкретнее надо смотреть текст. Когда мне надо было такое - я сделал.

    Всего записей: 3487 | Зарегистр. 30-03-2002 | Отправлено: 09:52 30-12-2019
    nikisakis

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Подробнее...

    Всего записей: 16 | Зарегистр. 26-12-2019 | Отправлено: 23:56 30-12-2019
    evoroz



    Silver Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    nikisakis
    Я людей не понимаю. Приходят с проблемой, но в чем она состоит формулируют крайне общо. Явно в расчете на то, что здесь форум телепатов или эзотериков.
    Пишите проще. Есть то-то. Надо то-то.  
     
    Если в вашем тексте вам надо к каждой строке добавить тэги спереди и сзади, то используйте два фильтра. Add Left Margin в поле текст надо написать <p>.
    Add Right Margin в поле текст надо написать </p>.
    Это вариант 1.
    Вариант 2. Find Pattern (Perl Style).  
    Поиск (.*)¶  
    Замена <p>$1</p>¶

    Всего записей: 3487 | Зарегистр. 30-03-2002 | Отправлено: 00:57 31-12-2019
    nikisakis

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    evoroz

    С этим разобрался, спасибо.
     
    Есть строки (в конце может быть . или ! или ?)
    На случайное количество абзацев объединить строки можно?

    Всего записей: 16 | Зарегистр. 26-12-2019 | Отправлено: 01:52 31-12-2019
    Jonmey

    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    nikisakis

    Цитата:
    На случайное количество абзацев объединить строки можно?

    Вам стоит обратиться в топики, где обсуждают скрипты - bat, js, whs, vbs, ps (разные топики). В рамках данной программы вашу задачу без использования подобных скриптов, решить затруднительно. Тогда как с пом. скриптов она решается элементарно и данная программа (TP) для этого вовсе не нужна.

    Всего записей: 1316 | Зарегистр. 17-01-2011 | Отправлено: 02:47 31-12-2019
    nikisakis

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    Jonmey

    Понял, спасибо.




    Все благодарности посредством ПМ

    Всего записей: 16 | Зарегистр. 26-12-2019 | Отправлено: 03:20 31-12-2019 | Исправлено: Maz, 11:40 07-01-2020
    nikisakis

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Можно как-то удалить одинаковые строки с разным символом в конце?
    Duplicete lines не берет.
    на дерибасовской хорошая погода
    на дерибасовской хорошая погода.
    на дерибасовской хорошая погода,

    Всего записей: 16 | Зарегистр. 26-12-2019 | Отправлено: 10:35 07-01-2020
    evoroz



    Silver Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    nikisakis
    если ограничить 31 символом, то возьмет

    Всего записей: 3487 | Зарегистр. 30-03-2002 | Отправлено: 11:30 07-01-2020
    adgeuk



    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Можно ли с помощью TextPipe прочитать все названия файлов (вместе с расширениями) в определённой папке (включая вложенные папки), и прописать прочитанные имена в текстовой файл?
     
    Может можно с помощью другой программы?
    Помогите, кто в курсе!

    Всего записей: 92 | Зарегистр. 24-05-2010 | Отправлено: 14:59 11-01-2020
    Открыть новую тему     Написать ответ в эту тему

    Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

    Компьютерный форум Ru.Board » Компьютеры » Программы » TextPipe


    Реклама на форуме Ru.Board.

    Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
    Modified by Ru.B0ard
    © Ru.B0ard 2000-2024

    BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

    Рейтинг.ru