MetaProducts Offline Explorer | Offline Browser - [34] :: Программы

Цитата:

нельзя, разом, построить всю карту сайта (его просканировав) и нормально показать - тут будет 150 тыс страниц

Есть сайты статические и динамические.
Первых исчезающе мало нынче. При этом, самые-самые классические статические сайты (чаще всего WEB 1.0) имеют на главной странице меню, в котором содержаться прямые ссылки на все без исключения страницы. Только у таких сайтов подсчет страниц прост и быстр, как 3 копейки. Но к сожалению, этот подсчет имеет мало смысла для них, поскольку число страниц статических сайтов относительно невелико и их скачивание не представляет проблемы.
В динамических сайтах все страницы - виртуальные, поскольку они существуют только в браузерах юзеров, поскольку генерируются только в момент обращения браузера юзера к серверу. На самом сервере их нет. На нем , только пачка скриптов, движок этих скриптов, база данных (с голым текстом и др. данными) и медийный контент (картинки, архивы, видео, аудио...).
То есть, копия динамического сайта - это совокупность виртуальных страниц генерированных сервером по запросу браузера юзера, полученная путем последовательного перехода по всем имеющимся на сайте ссылкам (внутри сайта). Чтобы получить список этих ссылок нужно парсить все страницы такого сайта. А чтобы это сделать - нужно скачать все страницы сайта. Поэтому
скачать все страницы сайта = "построить всю карту сайта"
и быстро это сделать нельзя по определению.
Хотя есть некие фичи, когда имеется некая "карта сайта" на самом сайте, но она есть далеко не на каждом сайте. а во-вторых, она чаще всего охватывает только те страницы, которые посчитал нужным включить автор сайта. Фактически она эквивалента меню сайта или оглавлению сайта по сути.

На некоторых сайтах возможно определение числа целевых страниц косвенными методами. Например, желающие скачать все описания раздач с рутрекера легко обнаружат, что ссылки на темы раздач следуют в строгом последовательном номерном порядке и максимальное число таких страниц будет равно номеру страницы с самой последней раздачей (то есть больше 4 миллионов, но живых раздач конечно много меньше - 2 млн или даже меньше. Это и есть число страниц с описаниями; тогда как посчитать общее число страниц на этом сайте весьма затруднительно; но если бы в качестве нумерации использовался сложный алгоритм, то и число страниц с описаниями посчитать было бы невозможно, не скачивая их все). В общем это длинный разговор и ваши мечты в подавляющем большинстве случаев не будут реализованы от слова никогда и ни в какой программе. Наоборот, наблюдается стойкая тенденция сокращения числа сайтов, которые можно скачать хоть каким-нибудь способом, отличным от ручного постраничного. А если автор заведомо заинтересован, чтобы никто не скачивал его сайт автоматом, то даже вручную это может быть проблематично сделать.

Чтобы успешно автоматизировать работу по скачиванию сайта, нужно во-первых определить круг контента (страниц) которые нужны с конкретного сайта, определить закономерности генерации ссылок на них, возможность представления этих ссылок в виде ссылок с переменными и т.д.. затем выбрав инструмент (например данную программу) изучить ее возможности и используя эти знания и информацию о сайте создать проект, корректно его настроить...
Если же тупо вбивать адрес сайта, использую настройки по умолчанию, то не стоит удивляться что программа качает много лишнего, долго и т.д. Программа - лишь инструмент, как напильник или стамеска. Результаты работы зависят в первую очередь от того, кто их использует.

P.S. И да. задавать вопросы, сообщать о проблемах и т.п. в общем виде - "не работает", "не качает", "валятся ошибки", "качает не то и не так", "у меня проблемы", "памагите"... и тому подобное - занятие бессмысленное, поскольку предполагает гадательно-телепатический ответ. Поэтому, подобные сообщения скорее являются рекламой характеризующей вопрошающего как ленивого человека, априори не уважающего потенциальных помощников вплоть то его полного "ни буб-бум" в теме. Последнее легко угадывается по непониманию вопрошающего элементарной вещи, а именно - время WEB 1.0 прошло и потому все меньше и меньше сайтов (имеющих контент достойный скачивания), использующих один и тот же движок (скрипты). То есть, методы приемлемые для скачивания одного сайта с большой долей вероятности не могут быть тупо перенесены на другой. Скачивание каждого сайта (или его части) все больше становится уникальным. А потому ответы на общие вопросы оказываются все менее пригодны для конкретного случая, когда не известны точные условия скачивания, адрес сайта и т.д. То есть, уже сам общий вопрос, с большой долей вероятности, не имеет смысла, без конкретики.

Модерирует : gyra, Maz
Версия для печати • Подписаться • Добавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53