Celsus
Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору А как пропарсить эту кашу? Тут же не от чего отталкиваться. Это beatport вчера обновил свой дизайн, теперь он не парсится Octoparse, а ParseHub вообще показывает черный экран вместо страниц. Если сохранить страницу целиком, там привычная структура с DIV а если скопировать исходный код кстраницы то эта каша, но нужна именно эта каша, так как в ней почемуто есть номера каталогов, посмотреть которые можно только заходя на страницы релизов. Здесь зачемто даже описания релизов, которые также только на страницах релизов. Нужны имена артистов, названия релизов и номера каталогов, а вот ссылок тут нет, тут ссылка на api + id страницы (это цифры в конце страницы), но он бесмысленен, так как в адресе страниц релизов еще слова из названия релизов, ссылки ест ьтокль в сохраненной странице с div, в принципе они не нужны, хотя часто нужны. https://regex101.com/r/oqV5rB/1 Например, нужны: 1. "name":"Alexey Lukianov" "name":"Cozy Shores" "catalog_number":"NS1166" "new_release_date":"2023-07-10" 2. "name":"SinStar" "name":"Hope" "new_release_date":"2023-07-07" "catalog_number":"NS1165" На сайте regex какойто мусор, но в notepad все нормально. Единственное, вместо артиста иногда сборник и написано Various Astists, тогда берется любой артист из сборника, закономеррности не заметил, зачем список артистов на странице списка релихов - тоже не понятно, как и номер каталога и описание. Думаю, разрабы сами не поняли, что сделали. Не хватает ссылок на релизы, а получитьих можно только пропарсив сохраненную страницу html Результат: https://i.postimg.cc/qRGfS7sL/2023-07-12-163143.png | Всего записей: 384 | Зарегистр. 02-04-2011 | Отправлено: 13:54 12-07-2023 | Исправлено: Celsus, 09:00 13-07-2023 |
|