Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Активные темы » Sequentum Enterprise | Content Grabber

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6

Открыть новую тему     Написать ответ в эту тему

presentRU

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Обсуждение программы | Варезник

Sequentum Enterprise | Content Grabber



Content Grabber используется для веб-очистки и веб-автоматизации. Он может извлекать контент практически с любого веб-сайта и сохранять его в виде структурированных данных в выбранном вами формате, включая отчеты Excel, XML, CSV и большинство баз данных.
 
Особенностями приложения являются:
• высокая производительность и масштабируемость;
• возможность использования нескольких типов браузеров для запросов;
• удобный отладчик
• встроенный обработчик ошибок;
• восстановление работы после ошибки;
• ведение лога всех операций;
• удобный интуитивный интерфейс, подобный браузеру
• написание своих скриптов.
 
В версии Премиум дополнительно включены следующие возможности:
• интеграция с Visual Studio 2013;
• пользовательские шаблоны отображения;
• командная строка;
• API-интерфейс программирования.


Всего записей: 821 | Зарегистр. 16-10-2006 | Отправлено: 11:43 22-10-2019 | Исправлено: Komandor, 23:30 06-02-2024
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Помогите, как сграбить значение ИНН в такой ситуации:
Есть чеки
https://proverkacheka.com/check/2695628-af3b60ef
https://proverkacheka.com/check/9280440300788185-9476-82565131
https://proverkacheka.com/check/9280440300789987-42478-3432415988
Каждый раз перед полем ИНН есть разное кол-во строчек. Поэтому возникают проблемы с захватом поля ИНН(в Tree View нет уникальных полей и Xpath уникальный не создать) через Web Content.
Как сграбить?


----------
Дьявол коварен - он может явиться к нам просто в образе дьявола

Всего записей: 8945 | Зарегистр. 03-03-2002 | Отправлено: 13:19 03-02-2022
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
obtim

Цитата:
Помогите, как сграбить значение ИНН

 
- выделяем весь блок текста целиком сверху донизу
- запускаем дебаг
- идем в Transformation script
- выделяем цифровое значение ИНН
В результате слева в окне Regex script должно быть
 
ИНН\ (.*?)\  
return $1
 
Это всё.

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 14:21 03-02-2022
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
docNemo
Спасибо: действительно элементарно
Еще вопрос: когда перехожу на чек из proverkacheka.com/check то делаю это через "Click on Nearest Link Element", а как записать в отдельный столбец ссылку, на которую перехожу?

----------
Дьявол коварен - он может явиться к нам просто в образе дьявола

Всего записей: 8945 | Зарегистр. 03-03-2002 | Отправлено: 17:54 03-02-2022
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
obtim

Цитата:
как записать в отдельный столбец ссылку, на которую перехожу?

 
Два варианта.
 
Первый:
Находясь на странице https://proverkacheka.com/check  
нажимая на кнопку/ссылку сперва выбираем Capture Url,
 а уже второй командой при выборе ее же выбираем  
Click on Web Element
 
Второй:
Находясь на странице https://proverkacheka.com/check/2695628-af3b60ef
вручную добавляем команду : жмем + Page Attribute = Page URL
 
 

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 18:38 03-02-2022
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
docNemo
Еще вопросом озадачу
На страницах типа этой: https://tt.league-pro.com/games/2013
есть шахматка встречи по настольному теннису. Встерча может состоять минимум из 3-х сетов, максимум - из 5. Надо парсить данные по первой подаче(кто подавал) в сете. Эта информация находится в столбце Serve, в строке следующей за стройкой содержащей поле start of set(в столбце Event). По Tree Viewe - не зацепить. К чему привязать Transformation scrip - не придумал

----------
Дьявол коварен - он может явиться к нам просто в образе дьявола

Всего записей: 8945 | Зарегистр. 03-03-2002 | Отправлено: 13:20 17-02-2022
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Есть страницы с таблицами вида: https://en.volleyballworld.com/volleyball/competitions/vnl-2021/statistics/men/best-blockers/
Возможно ли из столбца Total парсить сумму всех значений, т.е. 161+147+...+82+76 в ячейку ?
Думал, что это делается через Calculated Value, но по описанию вроде не так.

----------
Дьявол коварен - он может явиться к нам просто в образе дьявола

Всего записей: 8945 | Зарегистр. 03-03-2002 | Отправлено: 11:35 22-02-2022
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Есть два сайта, на каждом из которых есть информация про Ivan Ivanov. Вопросы:
1. Можно как-либо в одном проекте парсить информацию из двух сайтов?
2. Если ключи не совпадают по написанию, например в одном источнике Ivan Ivanov а в другом Ivanov Ivan, то можно как-то сделать сопоставление для парсинга из разных источников?

----------
Дьявол коварен - он может явиться к нам просто в образе дьявола

Всего записей: 8945 | Зарегистр. 03-03-2002 | Отправлено: 08:37 25-02-2022
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Для начала парсинга авторизуюсь на ресурсе. Но судя по всему на ресурсе стоит ограничение на время сессии, за которое я не успеваю все спарсить. Т.е. нужна повторная авторизация. Как правильно настроить повторную авторизацию(по времени)?

----------
Дьявол коварен - он может явиться к нам просто в образе дьявола

Всего записей: 8945 | Зарегистр. 03-03-2002 | Отправлено: 10:33 04-03-2022
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
obtim

Цитата:
Как правильно настроить повторную авторизацию(по времени)?

Этап авторизации сделать опциональным, тогда он будет задействован только по необходимости?

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 11:26 04-03-2022
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
docNemo
А можно попдробней? - пока ничего не понял

Всего записей: 8945 | Зарегистр. 03-03-2002 | Отправлено: 14:08 04-03-2022
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А можно попдробней?

вот

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 00:06 05-03-2022 | Исправлено: docNemo, 00:07 05-03-2022
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
docNemo
Приветствую! Можно еще подсказку по такой ситуации:
есть страница https://oddslogs.com/match/44574/africa-malawi-women-mozambique-women на ней таблица In-Play odds
Как правильно спарсить эту таблицу, что бы информация из нее влезла на текущий лист excel. В столбцы(к примеру) с D по R ?
Если ее парсить, как Table Content, то вся инфомрация пишется в один столбец.

----------
Дьявол коварен - он может явиться к нам просто в образе дьявола

Всего записей: 8945 | Зарегистр. 03-03-2002 | Отправлено: 16:26 04-05-2022
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
obtim

Цитата:
таблица In-Play odds

 
так?
 
Тогда выбираем так :

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 17:29 04-05-2022
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
docNemo
Спасибо, оно!  
Еще вопрос по этому же ресурсу. Там есть подгружаемая информация, по клике в выделенную область.  
Подробнее...
Ее реально спарсить?

----------
Дьявол коварен - он может явиться к нам просто в образе дьявола

Всего записей: 8945 | Зарегистр. 03-03-2002 | Отправлено: 20:28 04-05-2022 | Исправлено: obtim, 20:28 04-05-2022
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
obtim

Цитата:
Ее реально спарсить?

Да реально, однако не все подобные области содержат всплывающие окна с данными.
Пустые области пропускаем как опциональную команду при дебаге.
Распределение по ячейкам таблицы на свой вкус.

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 21:31 04-05-2022
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
docNemo
А через какой функционал это можно сделать? Захват через Table ее не видит, т.к. для отображения необходимо подвести курсор к по области. Но это не ссылка и захватить как ссылку не получается

Всего записей: 8945 | Зарегистр. 03-03-2002 | Отправлено: 16:13 06-05-2022
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
obtim

Цитата:
через какой функционал это можно сделать?

обычный клик

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 17:38 06-05-2022
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
docNemo
Спасибо! Ваши советы и несколько заходов: проблема решена

Всего записей: 8945 | Зарегистр. 03-03-2002 | Отправлено: 11:13 07-05-2022 | Исправлено: obtim, 21:25 23-05-2022
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
docNemo
Приветствую! Подскажите, как можно ускорить парсинг в подобной ситуации
Есть сайт вида https://betsapi.com/le/22820/Ukraine-Win-Cup/ на котором для получения полных результатов требуется авторизация(реализована). С главной страницы настроено переключение по вкладкам, через Pagination
В настройках Агента включено Multiple sessions.  
Вроде как Performance Sessions должно ускорить парсинг проекта. Но стартовая страница одна..
Если вместо стартовой страницы прописать в проекте адреса всех страниц(их более 3000), то возникает проблема с необходимостью авторизации на сайте. Получается, что в рамках каждого из потоков происходит авторизация - это создает проблемы

Спасибо!!

----------
Дьявол коварен - он может явиться к нам просто в образе дьявола

Всего записей: 8945 | Зарегистр. 03-03-2002 | Отправлено: 20:35 25-05-2022 | Исправлено: obtim, 12:49 26-05-2022
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

 
obtim
 
Первым шагом сделать авторизацию.
Потом AddCommand -- Navigate URL
и задать список адресов для парсинга каждой страницы.
Далее собственно съем инфы.
 
Возможно, здесь можно найти подсказки ::
 
_ttps://support.sequentum.com/hc/en-us/categories/360001442013-Content-Grabber-Enterprise-Manual
 
_ttps://support.sequentum.com/hc/en-us
 
 

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 23:01 25-05-2022 | Исправлено: docNemo, 22:01 11-08-2022
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6

Компьютерный форум Ru.Board » Компьютеры » Программы » Активные темы » Sequentum Enterprise | Content Grabber


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru