Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Sequentum Enterprise | Content Grabber

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6

Открыть новую тему     Написать ответ в эту тему

presentRU

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Обсуждение программы | Варезник

Sequentum Enterprise | Content Grabber



Content Grabber используется для веб-очистки и веб-автоматизации. Он может извлекать контент практически с любого веб-сайта и сохранять его в виде структурированных данных в выбранном вами формате, включая отчеты Excel, XML, CSV и большинство баз данных.
 
Особенностями приложения являются:
• высокая производительность и масштабируемость;
• возможность использования нескольких типов браузеров для запросов;
• удобный отладчик
• встроенный обработчик ошибок;
• восстановление работы после ошибки;
• ведение лога всех операций;
• удобный интуитивный интерфейс, подобный браузеру
• написание своих скриптов.
 
В версии Премиум дополнительно включены следующие возможности:
• интеграция с Visual Studio 2013;
• пользовательские шаблоны отображения;
• командная строка;
• API-интерфейс программирования.


Всего записей: 821 | Зарегистр. 16-10-2006 | Отправлено: 11:43 22-10-2019 | Исправлено: Komandor, 23:30 06-02-2024
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
obtim

Цитата:
 только один(там где захватил за значок </>), а не группу

группу не перетаскивает, но можно ее вырезать-вставить, вставляется в конец списка.
А нафига большую группу перетаскивать?

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 09:02 14-11-2022
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
docNemo
Сделал проект: там таблица парсится. В какой-то момент понял, что размерность таблицы может быть больше. Теперь надо нарастить лишние ячейки. Таблица парсится: вначале первый ряд, потом второй. Беру старые в качестве шаблона: копирую. Они попадают в конец списка. Теперь их оттуда надо переместить в нужные места.

----------
Дьявол коварен - он может явиться к нам просто в образе дьявола

Всего записей: 8944 | Зарегистр. 03-03-2002 | Отправлено: 10:09 14-11-2022
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
obtim
М.б. поможет прямое редактирование файла .xml в каталоге проекта

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 11:37 14-11-2022
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
docNemo
Я - тормоз СПАСИБО!!

Всего записей: 8944 | Зарегистр. 03-03-2002 | Отправлено: 15:14 14-11-2022
ancity

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
tkanpa


Цитата:
Ничего не помагает. Пробовал устанавливать на другой комп, с другим провайдером, проблема таже, wildberries не открывает нужную страницу, выдает "Что-то пошло не так". Хотя до этого всё хорошо работало. Может на wb какие-то изменения произошли, несовместимость браузера теперь...  

 
У меня такая же проблема с wildberries.
 
Решение. Запуск через командную строку без параметра --disable-reading-from-canvas
Текущие параметры запуска - в адресной строке ввести chrome://version/

Всего записей: 2 | Зарегистр. 27-10-2006 | Отправлено: 10:33 15-11-2022 | Исправлено: ancity, 10:34 15-11-2022
maximkarpyza2

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Подскажите как получить автономный скрипт.

Всего записей: 11 | Зарегистр. 17-07-2022 | Отправлено: 07:18 21-12-2022
maximkarpyza2

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Есть где нибудь видеообучение по программе?

Всего записей: 11 | Зарегистр. 17-07-2022 | Отправлено: 14:10 26-12-2022
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
docNemo
Приветствую! Если не сложно, подскажите как можно реализовать парсинг сайта. Есть ссылки
https://tt.sport-liga.pro/tours/21189
https://tt.sport-liga.pro/tours/21191
и т.п.
В одном проекте.
Надо из таблицы парсить только раздел "за  3-ем место"
Проблема в том, что в таблице(в которую он входит) информация до этого может меняться:
https://tt.sport-liga.pro/tours/21189 - тут 6 строчек в разделе Группа
https://tt.sport-liga.pro/tours/21191 - тут 10
И я не могу понять, как определить начало строчки "за 3-е место". По дереву(TreeView) по этим причинам не закрепиться.
А XPath не получается сгенерить правильный

Всего записей: 8944 | Зарегистр. 03-03-2002 | Отправлено: 14:33 18-01-2023
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
obtim

Цитата:
как можно реализовать парсинг сайта

Для выбора раздела "за  3-ем место" можно применить скрипт трансформации, как на картинке,
выбрав предварительно всю таблицу.

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 15:53 18-01-2023 | Исправлено: docNemo, 15:56 18-01-2023
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
docNemo
Спасибо! У вас всегда красиво получается. Я бился через несколько Selection в Xpath

Всего записей: 8944 | Зарегистр. 03-03-2002 | Отправлено: 21:09 18-01-2023
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
docNemo
Возможно сталкивались с ситуацией и сможете помочь:
Проект создан на машине, где нормально отрабатывает. Через Export Agent перенесен на другую машину(там нормально работают другие проекты, БД существует и подсоединяется). После открытия проекта нормально загружается стартовая страница и он нормально отрабатывает в Debug-режиме.
После старта проекта, согласно логам, он уходит в ошибку:
16:03:24    #2    Warning    Uncaught SyntaxError: Unexpected number - Script:  - Line: 3 - Column: 717 - StackTrace: [Not Available]
16:03:24    #2    Warning    Error loading page. Error code: 403. URL:  
 
Куда копать?

Всего записей: 8944 | Зарегистр. 03-03-2002 | Отправлено: 16:08 31-01-2023
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
obtim

Цитата:
Куда копать?

Версии программы на машинах одинаковые?
 
Открыть в Блокноте файл проекта и найти Line: 3 - Column: 717 - ч0 там?

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 17:12 31-01-2023
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
docNemo
Версия 2.78.1.0 и там и там
 
Ищу в файле tt.sport-liga.scg - у меня в 3-ей строке всего 108 столбцов.
Лог выглядит так

Цитата:
15:55:56    #0    Info    Deleting internal export data...
15:55:56    #0    Info    Internal export data deleted.
15:55:58    #0    Info    Entering agent monitor.
15:55:58    #1    Info    Agent tt.sport-liga started.
15:55:58    #1    Info    Setting user agent: Default
15:55:58    #1    Info    Loading data.
15:55:58    #1    Info    Setting first browser proxy. Proxy is None
15:55:58    #1    Info    Processing tt.sport-liga (1 of 17500)
15:55:58    #1    Info    Loading URL https://tt.sport-liga.pro/tours/4164
15:55:58    #1    Info    Proxies are rotating. New proxy is None
15:55:58    #1    Info    3443 milliseconds delay.
15:55:59    #2    Warning    Error: Script error.. Script: https://tt.sport-liga.pro/tours/4164. Line: 0. Column: 0. StackTrace:  
15:55:59    #2    Warning    Uncaught SyntaxError: Unexpected number - Script:  - Line: 3 - Column: 717 - StackTrace: [Not Available]
15:55:59    #2    Warning    Error loading page. Error code: 403. URL: https://tt.sport-liga.pro/tours/4164
15:56:02    #2    Info    New page loaded    https://tt.sport-liga.pro/tours/4164
15:56:02    #2    Error    Date cannot write extracted data. Empty value cannot be written to Date    https://tt.sport-liga.pro/tours/4164
15:56:02    #2    Warning    Date web element was not found
15:56:02    #2    Warning    WeekDate web element was not found
15:56:02    #2    Error    StartTime cannot write extracted data. Empty value cannot be written to StartTime    https://tt.sport-liga.pro/tours/4164
15:56:02    #2    Warning    StartTime web element was not found
15:56:02    #2    Warning    Hall web element was not found
15:56:02    #2    Warning    Address web element was not found
15:56:02    #2    Error    Game Data - Group web element was not found    https://tt.sport-liga.pro/tours/4164
15:56:02    #2    Error    Game Data - 3rd place web element was not found    https://tt.sport-liga.pro/tours/4164
15:56:02    #2    Error    Game Data - Final web element was not found    https://tt.sport-liga.pro/tours/4164
 

Думаю, что
Цитата:
15:55:59    #2    Warning    Uncaught SyntaxError: Unexpected number - Script:  - Line: 3 - Column: 717 - StackTrace: [Not Available]
относится все же к странице сайта?

Всего записей: 8944 | Зарегистр. 03-03-2002 | Отправлено: 15:47 01-02-2023 | Исправлено: obtim, 15:58 01-02-2023
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
obtim
код Error code: 403. URL: намекает о недоступности ресурса.
А вот по какой причине?
Прокси используете?
Рандомизацию агента браузера?
ВПН ?

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 16:57 01-02-2023
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
1. Скриншот именно с этой страницей из Sequentum

2. Прокси не используется

3. Рандомизации нет

4. ВПН на машине нет

Всего записей: 8944 | Зарегистр. 03-03-2002 | Отправлено: 17:50 01-02-2023
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
obtim
Как вариант, можно смириться с нерешаемостью проблемы и парсить в режиме дебага.

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 21:30 01-02-2023
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
docNemo
Спасибо.
Еще вопрос: можно как-то в логах увидеть процесс проверки прокси? - взял прокси(http+socks), которые 100%-ов рабочие(проверял сторонними утилитами). Но при добавлении их в ProxyPool и тесте - горят красным и через них не открывает сайты Sequentum

Всего записей: 8944 | Зарегистр. 03-03-2002 | Отправлено: 12:20 02-02-2023
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
obtim

Цитата:
не открывает сайты Sequentum

блокирующие записи в hosts  ?
 

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 16:54 02-02-2023
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
docNemo
127.0.0.1 contentgrabber.com
127.0.0.1 accounts.sequentum.com
Что бы рега не слетала.  
 
Я после того, как забиваю Proxy в Proxy List(Application Proxy Pools) делаю "Remove All Invalids" и программа удаляет эти прокси из списка. Если этого не делать и принудительно их использовать при открытии сайта через внутренний движок Sequentum, то он сайт не открывает, что вроде как логично.
Если прописать эти прокси в стороннем браузере и попробовать открыть в нем сайт, который не открывался в Sequentum, то сайт откроется.
P.S. Возможно как-то влияет, что когда обновлялся на 2.78.1.0 прога ругнулась на ключ, но обновилась и работает.

Всего записей: 8944 | Зарегистр. 03-03-2002 | Отправлено: 17:08 02-02-2023 | Исправлено: obtim, 17:09 02-02-2023
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
у Sequentum своя проверялка проксей, ее результаты почти никогда не совпадают с другими чекерами

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 17:31 02-02-2023
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6

Компьютерный форум Ru.Board » Компьютеры » Программы » Sequentum Enterprise | Content Grabber


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru