Jonmey
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Если же случится потребность одномоментного извлечения, напр., нескольких тысяч или более расписаний из надерганных сайта страниц (версии для печати), привожу пример скрипта для powergrep, извлекающего расписания в одноименные текстовые файлы (исходные html файлы сохраняются) по вашему шаблону (текстовые строки с делимитерами для полей): http://rgho.st/65HW8GjWn На скорость работы скрипт не оптимизировался, но 10 тыс файлов конвертировал с приемлемой скоростью (более 60 млн замен). Возможны баги, поскольку не имею в распоряжении достаточно большой выборки скачанных страниц с расписаниями (чтобы проверить однообразие html кода). Но все это коллекционирование расписаний - баловство, поскольку каждое подобное расписание привязано не только к номерам рейсов, но и к датам, то есть расписание одного и того же номера поезда может отличаться в разные дни и соответственно, расписание, например по вашей ссылке (там расписание на 14 января) теряет смысл 15 января, что делает всю эту затею (с коллекционированием расписаний) сомнительной по определению, поскольку даже частичное устаревание инфы этой коллекции снижает ее ценность ниже плинтуса и заставляет обращаться на сайт.за актуальной (а проверка актуальности информации никак не менее трудоемка, чем первоначальное ее получение). Получается хождение по кругу за морковкой или покупка стада слоников ради горшочка меда | Всего записей: 1319 | Зарегистр. 17-01-2011 | Отправлено: 13:58 14-01-2019 | Исправлено: Jonmey, 16:14 14-01-2019 |
|