Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Sequentum Enterprise | Content Grabber

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6

Открыть новую тему     Написать ответ в эту тему

presentRU

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Обсуждение программы | Варезник

Sequentum Enterprise | Content Grabber



Content Grabber используется для веб-очистки и веб-автоматизации. Он может извлекать контент практически с любого веб-сайта и сохранять его в виде структурированных данных в выбранном вами формате, включая отчеты Excel, XML, CSV и большинство баз данных.
 
Особенностями приложения являются:
• высокая производительность и масштабируемость;
• возможность использования нескольких типов браузеров для запросов;
• удобный отладчик
• встроенный обработчик ошибок;
• восстановление работы после ошибки;
• ведение лога всех операций;
• удобный интуитивный интерфейс, подобный браузеру
• написание своих скриптов.
 
В версии Премиум дополнительно включены следующие возможности:
• интеграция с Visual Studio 2013;
• пользовательские шаблоны отображения;
• командная строка;
• API-интерфейс программирования.


Всего записей: 821 | Зарегистр. 16-10-2006 | Отправлено: 11:43 22-10-2019 | Исправлено: Komandor, 23:30 06-02-2024
Frantishek



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
У кого то есть идеи, как можно парсить сайт, содержащий страницы не поддающиеся открытой индексации (когда нет понятного представления страниц - ни в виде каталога, ни в виде логики запроса к бд через поисковый фильтр, а есть только куцые дублирующиеся отборки выдаваемые через поиск по ключевым словам).
Использовал, как то, для таких целей Screaming Frog SEO Spider, чтобы изучить всю структуру сайта, но он это делает долго (несколько дней) и вижу, что пропускает страницы (если верить заявленному на сайте числу искомых нотаций).
В качестве примера озвученной проблемы - https://ru.wordpress.org/plugins/ (заявляется 59 312 ед. нужного материала, Screaming Frog нашел не более 40 000 оригинальных страниц описаний, поиском все возможные варианты не перебрать, думал дергать по тегам, но это тоже гемор).
Буду признателен за подсказки и помощь, как это сделать при помощи Sequentum.

Всего записей: 1222 | Зарегистр. 02-05-2006 | Отправлено: 03:00 30-05-2022
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Frantishek

Цитата:
как можно парсить сайт, содержащий страницы не поддающиеся открытой индексации

 
- sitemap.xml
- Inspyder Sitemap Creator
- сделать скрипт для wget для обхода всего сайта и вынесения выдачи в список
 
 
 
 

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 09:08 30-05-2022 | Исправлено: docNemo, 01:22 31-05-2022
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
docNemo
Спасибо.  
2All
Мне показалось, что для ускорения проекта через Performance sessions проще подключать MariaDB базу.

----------
Дьявол коварен - он может явиться к нам просто в образе дьявола

Всего записей: 8945 | Зарегистр. 03-03-2002 | Отправлено: 13:02 30-05-2022
Frantishek



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
docNemo
да, спасибо за четкое решение. пятерки доступной второй софтины пока нет?

Всего записей: 1222 | Зарегистр. 02-05-2006 | Отправлено: 22:40 30-05-2022 | Исправлено: Frantishek, 22:43 30-05-2022
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Frantishek

Цитата:
пятерки доступной второй софтины пока нет?

http://forum.ru-board.com/topic.cgi?forum=35&bm=1&topic=48338#1

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 23:21 30-05-2022
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Я имел в виду Sitemap Creator, чё то переклинило

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 01:37 31-05-2022
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
docNemo
Прошу подсказать, как решить ситуацию(если сталкивались). Машина Win7x64Rus в последней версии сабжа создан проект. Нормально парсится. Переносится на другую машину(у другого провайдера) с Win7x64(говносборка типа Ultimate). Проект запускаю: все русские названия при парсинге превращаются в крякозябы. При этом при инициилизации проекта все отображается нормально.  
Где шрифты/кодировки править?

----------
Дьявол коварен - он может явиться к нам просто в образе дьявола

Всего записей: 8945 | Зарегистр. 03-03-2002 | Отправлено: 08:09 31-05-2022
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
obtim

Цитата:
Где шрифты/кодировки править?

В винде.
В пакетах локализации системы.

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 08:38 31-05-2022
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Frantishek

Цитата:
В качестве примера озвученной проблемы - https://ru.wordpress.org/plugins/  

 
изучите файл  
https://wordpress.org/plugins/sitemap-index-1.xml

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 21:05 07-06-2022
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Может кому-то окажется полезным: в настройках "Export Targets Configurations" рекомендую снимать совместимость с форматом 2003 для Excel. Формат уже устарел и тормозит некоторые проекты

----------
Дьявол коварен - он может явиться к нам просто в образе дьявола

Всего записей: 8945 | Зарегистр. 03-03-2002 | Отправлено: 20:47 13-06-2022
evoroz



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Решил попробовать после Webharvy.
Есть вопросы. Авито, у продавца 200+ товаров.
1. Выделяются 16 товаров, парсится только один. Можно исправить?
2. Может есть готовые примеры?

Всего записей: 3487 | Зарегистр. 30-03-2002 | Отправлено: 21:14 18-06-2022
obtim



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
evoroz
Не правильно что-то выделяешь. Примеров по нему очень мало(я про ютуб), но вещь очень хорошая. Рекомендую побиться головой о стенку, почитать мануал и потратить время..
П.С. Включай режим логгирования - читай ошибки в нем. А так есть еще режим Debug - посмотри как в нем проходит. ТАм можно менять скорость парсинга..

Всего записей: 8945 | Зарегистр. 03-03-2002 | Отправлено: 21:33 18-06-2022 | Исправлено: obtim, 21:34 18-06-2022
vladles



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Подскажите, куда правильно копать, чтоб максимально увеличить скорость парсинга. Понимю что есть настройка мультисессий, но правильно настроить не получилось. Хочу максимально настроить агент, чтоб скачивал информацию из нескольких компаний одновременно, а не последовательно. Я так понимаю, что это в поле настройки агента? Подскажите какой критерий менять.  "Multi threading" не должен запускать парсер сразу нескольких страниц одновременно, если поменять условие на "False" и увеличивать значения? У меня более 25 страниц параллельно не скачивает в не зависимости от настроек.

Всего записей: 21 | Зарегистр. 22-03-2008 | Отправлено: 14:26 11-08-2022 | Исправлено: vladles, 14:45 11-08-2022
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
vladles

Цитата:
Хочу максимально настроить агент, чтоб скачивал информацию из нескольких компаний одновременно,

Создать агентов под каждую цель и запускать в планировщике?

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 22:29 11-08-2022
vladles



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Есть еще один вопрос, который не могу корректно победить. Когда доходит до 1000 страницы, то программа останавливается. В настройках компании есть: data/Number Range, ставлю там значения большие, но он всё равно тормозит на 1000 станице, а потом парсит по кругу. Как победить?

Всего записей: 21 | Зарегистр. 22-03-2008 | Отправлено: 11:26 12-08-2022
Frantishek



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Не могу найти в истории постов, где то была ссылка на changelog - описание версий, может помнит кто? Интересно посмотреть, чего там меняется, за последнее время.

Всего записей: 1222 | Зарегистр. 02-05-2006 | Отправлено: 18:18 23-08-2022
vladles



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Есть еще один вопрос, который не могу корректно победить. Когда доходит до 1000 страницы, то программа останавливается. В настройках компании есть: data/Number Range, ставлю там значения большие, но он всё равно тормозит на 1000 станице, а потом парсит по кругу. Как победить?

Вопрос актуальный. Может есть у кого-то опыт, чтоб объяснить как настроить чтоб парсило более 1000 страниц установленных в программе по умолчанию? "Max. Page Number Value" - в окне настройки пагинации не активно, там стоит фиксированное числовое значение (10). Ниже, стоит значение "False" у этого параметра, если его менять на "True", то количество страниц можно поставить самостоятельно, но программа всё равно останавлиается на 1000-ной странице. Это правильное направление, или надо в настройках компании на вкладке "Data" менять значение на "Number Range"?

Всего записей: 21 | Зарегистр. 22-03-2008 | Отправлено: 18:27 24-08-2022 | Исправлено: vladles, 18:28 24-08-2022
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
vladles

Цитата:
более 1000 страниц

смотрите логи выполнения

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 20:32 24-08-2022
vladles



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А что в логах можно увидеть? В программе, по умолчанию стоит ограничение в 1000 страниц пагинации. Доходит до 1000-ной страницы - заканчивает парсинг. Как это победить? Мне надо 9000 страниц, например.

Всего записей: 21 | Зарегистр. 22-03-2008 | Отправлено: 12:09 28-08-2022
docNemo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
vladles
Установите подробное логирование.
 
Попробуйте другой способ обхода страниц, например через sitemap.

Всего записей: 1181 | Зарегистр. 09-10-2016 | Отправлено: 16:02 28-08-2022
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6

Компьютерный форум Ru.Board » Компьютеры » Программы » Sequentum Enterprise | Content Grabber


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru