Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Прикладное программирование » Регулярные выражения

Модерирует : ShIvADeSt

 Версия для печати • ПодписатьсяДобавить в закладки
На первую страницук этому сообщениюк последнему сообщению

Открыть новую тему     Написать ответ в эту тему

Jonmey

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Если же случится потребность одномоментного извлечения, напр., нескольких тысяч или более расписаний из надерганных сайта страниц (версии для печати), привожу пример скрипта для powergrep, извлекающего расписания в одноименные текстовые файлы (исходные html файлы сохраняются) по вашему шаблону (текстовые строки с делимитерами для полей):
http://rgho.st/65HW8GjWn
На скорость работы скрипт не оптимизировался, но 10 тыс файлов конвертировал с приемлемой скоростью (более 60 млн замен). Возможны баги, поскольку не имею в распоряжении достаточно большой выборки скачанных страниц с расписаниями (чтобы проверить однообразие html кода).
 
Но все это коллекционирование расписаний - баловство, поскольку каждое подобное расписание привязано не только к номерам рейсов, но и к датам, то есть расписание одного и того же номера поезда может отличаться в разные дни и соответственно, расписание, например по вашей ссылке (там расписание на 14 января) теряет смысл 15 января, что делает всю эту затею (с коллекционированием расписаний) сомнительной по определению, поскольку даже частичное устаревание инфы этой коллекции снижает ее ценность ниже плинтуса и заставляет обращаться на сайт.за актуальной (а проверка актуальности информации никак не менее трудоемка, чем первоначальное ее получение). Получается хождение по кругу за морковкой или покупка стада слоников ради горшочка меда

Всего записей: 1319 | Зарегистр. 17-01-2011 | Отправлено: 13:58 14-01-2019 | Исправлено: Jonmey, 16:14 14-01-2019
Открыть новую тему     Написать ответ в эту тему

На первую страницук этому сообщениюк последнему сообщению

Компьютерный форум Ru.Board » Компьютеры » Прикладное программирование » Регулярные выражения


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru