Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Рекурсивная загрузка веб-сайтов; оффлайн-браузеры (OfflineExplorer, TeleportPro, HTTrack)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

Открыть новую тему     Написать ответ в эту тему

Orlon



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Сравниваем возможности и недостатки оффлайн-браузеров:
OfflineExplorer - (Pro/Potable/Enterprise)
Teleport - (Pro-$50/Ultra-$200/VLX-$2000/Exec-$2500)
 
WebCopier, Webzip, SXBandMaster, WebTransporter, HTTrack, Wget, Wysigot...
Что лучше?
 
ТАБЛИЦЫ СРАВНЕНИЯ :
 
1. по версии разработчика OfflineExplorer цитата
2. по версии автора статьи на iXBT.com
 
Путеводитель по offline-браузерам подробная серия статей на iXBT.com
 
Родственные темы:
Web Organizer-ы (CyberArticle, NetCollector, etc.,)
Мониторинг обновления web-сайтов
RSS Feed Readers | News Aggregators
Сохранение составного flash
rutv.ru Скачиваем потоковое видео

Всего записей: 549 | Зарегистр. 08-01-2002 | Отправлено: 03:21 30-01-2002 | Исправлено: ASE_DAG, 02:41 08-09-2011
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ChernavinOleg
 
Видимо, нормальная ситуация когда при скачивании блога (с кучей меню и тэгов) уровни зацикливаются.
Может ли OE распознать одинаковый контент и остановиться?
 
Или единственный способ регулировки - через количество уровней?
 
Можно ли уже скачанный проект (без ограничения уровней, остановленный вручную) привести к вменяемому состоянию (удалить копии контента) без повторного скачивания?

Всего записей: 17126 | Зарегистр. 14-10-2001 | Отправлено: 00:55 24-01-2017
ChernavinOleg

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LevT
 
Если адреса хоть немного, но отличаются, то для программы это разные страницы и он будет скачивать дубликаты. Внутри если сравнивать содержимое, будет немного отличаться - счетчиками, рекламой, какими-то элементами. Поэтому очень сложно это интеллектуально отличить.
 
Если же адреса одинаковы, но есть какой-то хеш, идентификатор сессии, то я бы смог добавить код, отсекающий это и не скачивающий дубликаты. Мне только примеры нужны.

Всего записей: 240 | Зарегистр. 13-06-2016 | Отправлено: 05:30 29-01-2017
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Внутри если сравнивать содержимое, будет немного отличаться - счетчиками, рекламой, какими-то элементами.  

 
А какой резон учитывать счетчики и рекламу?
Почему бы наоборот не фильтровать их?

Всего записей: 17126 | Зарегистр. 14-10-2001 | Отправлено: 08:41 29-01-2017
ChernavinOleg

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LevT
 
Стараюсь фильтровать, но их бесконечное множество.

Всего записей: 240 | Зарегистр. 13-06-2016 | Отправлено: 18:47 29-01-2017
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ChernavinOleg
 
но есть же специально выучившиеся люди, поддерживают адблок и т.п.
Если непонятки с лицензией - может, покатят инструкции для юзера, как включить интеграцию.
 
 
Добавлено:
лично меня всегда от офлайн браузеров в конечном счете оптугивала именно бесконечность рекламы. Если можно радикально сократить заспамленность проекта - почему этого не сделать?
 
 
Добавлено:
http://forum.ru-board.com:9000/topic.cgi?forum=5&bm=1&topic=47694&start=3600#lt

Всего записей: 17126 | Зарегистр. 14-10-2001 | Отправлено: 20:11 29-01-2017
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ChernavinOleg
 
В общем, прога могучая, это видно - но у меня нет возможности её "настраивать под себя" (довольно крутая лёрнинг курва и нет априорной уверенности в успехе затеи)
А "из коробки" многое не устраивает.
 
 

Цитата:
Если адреса хоть немного, но отличаются, то для программы это разные страницы и он будет скачивать дубликаты.

 
Для меня это дефект дизайна.
Кому именно нужна такая фича?
 
Хочу также поставить под сомнение базовые вещи (которые имели смысл лишь в древнем статическом вебе):
1) URL как источник ключей к базе
2) понятие "уровня".
 
Проиллюстрирую примером блогодвижка:  _http://www.erwinvanlonden.net/

Всего записей: 17126 | Зарегистр. 14-10-2001 | Отправлено: 01:10 05-02-2017 | Исправлено: LevT, 09:13 05-02-2017
ChernavinOleg

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LevT
 
Да, я согласен, что концепция URL отходит в прошлое постепенно. Технология AJАX уже многое изменила, например.
 
А можно конкретные примеры дубликатов, чтобы не копаться долго? Спасибо!

Всего записей: 240 | Зарегистр. 13-06-2016 | Отправлено: 06:14 06-02-2017
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Урл не уходит, кто хочет тот продолжает его использовать.
Но кто не понял концепцию, или в угоду тупым начальникам и плебсу - те наворотили одностраничных сайтов и подобного.
 
 
ChernavinOleg
 
ну вот например блог внизу пред. сообщения
Если поставить неограниченное количество уровней в рамках сайта - то скачивание зацикливается
(качать можно не регистрируясь: тогда много статей будет только первый абзац, а можно зарегаться бесплатно - тогда первый абзац будет только у десятка статей платной секции).

Всего записей: 17126 | Зарегистр. 14-10-2001 | Отправлено: 07:57 06-02-2017
Wave_Blessed

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Для меня это дефект дизайна.
Кому именно нужна такая фича?  

 
Это не дефект дизайна, это дефект интернета. Огромное количество сайтовых, а тем более блоговых или там форумных движков отдаёт одно и то же содержимое по разным ссылкам. Просто на разных страницах показывает одинаковые ссылки, но с разными параметрами. Откуда программе узнать, важный вот этот параметр или нет. Будет ли одна и та же страница, если его убрать, или разные. Чтобы программа могла учитывать все возможные варианты одинаковых-разных параметров, ей нужен полноценный искуственный интеллект.

Всего записей: 1128 | Зарегистр. 16-04-2006 | Отправлено: 10:36 06-02-2017
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Wave_Blessed
 
получается нужно:
 
1) всё же парсить контент
2) делать не полный автомат, а полуавтомат
идемпотентный, извините за ругательство  )
 
запускать проект несколько раз, результат улучшается с уточнением настроек.
 
 
Добавлено:
 
иначе основанный на урлах оффлайн браузер стал уже нишевым инструментом - название "браузер" вводит в заблуждение.
Скорее это массовая качалка, сильно не для всех сайтов.

Всего записей: 17126 | Зарегистр. 14-10-2001 | Отправлено: 12:13 06-02-2017
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

 
Я даже придумал, кому и зачем может понадобиться сейчас офлайн-браузер - чтобы выкачать труднодоступный контент невзирая на издержки: зацикливание уровней и кучу спама вокруг.  
 
Проблема в том, что затруднения доступа, основанные на урлах и уровнях - уходят в прошлое.
 
 
Добавлено:
 
ЗЫ. По чистой случайности насерфил по-настоящему красивую штуку  
https://en.wikipedia.org/wiki/HATEOAS
 
Видимо урлы отмирают отттого, что большинству пипла не нужны: они на них не смотрят всё равно...

Всего записей: 17126 | Зарегистр. 14-10-2001 | Отправлено: 12:10 07-02-2017
ChernavinOleg

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LevT
 
Постепенно в эту сторону двигаюсь, но это непростая задача.

Всего записей: 240 | Зарегистр. 13-06-2016 | Отправлено: 04:19 08-02-2017
totnetot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ищу программу в которой:
1. Можно создать свой шаблон для скачивания. Например есть какая-то тема форума. Мне нужно скачать все ее страницы, но при этом со всех страниц удалить шапку и нижнюю часть. Желательно как в ScrapBook в графическом виде указать DOM элементы которые будут добавляться в исключения.
2. Можно подключать свои скрипты для обработки скачанных страниц. Например склеить несколько страниц в одну.
3. Есть средства экспорта.
4. Есть управление через командную строку.
5. Для сложных случаев желательно чтобы программа умела эмулировать действия пользователя.
 

Всего записей: 410 | Зарегистр. 16-03-2013 | Отправлено: 10:17 05-07-2018
SuperDee



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Скажите, какие настройки выставить в WinHTTrack Website Copier, чтобы скачать этот сайт? https://www.autostudio.ru/
Уже качается вторые сутки, а воз и ныне там...  
https://s8.hostingkartinok.com/uploads/images/2018/10/29e2144c6de5075e122c2dfbac9e8b60.png

Всего записей: 2911 | Зарегистр. 25-04-2004 | Отправлено: 19:41 31-10-2018
insulin11



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
del

Всего записей: 1989 | Зарегистр. 25-09-2008 | Отправлено: 05:29 17-02-2019 | Исправлено: insulin11, 22:23 18-02-2019
ZOD

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
подскажите чем и как можно сохранить страницы ?
через браузер все открывается
разница у страниц в одну цифру
заходишь на сайт - меняешь в ссылке и страница открывается
 
часть сайта на пароле и из-за этого когда пытаешься качать - ничего не выходит
 
как можно автоматизировать процесс сохранения таких страниц например на компьютер
и чем потом HTML код парсить, чтобы вытащить нужные данные ?
 
или можно сразу "на лету" считывать с страницы (по ссылке) данные в таблицу Excel, какую-то базу
 
может быть просто с экрана считывать информацию и сохранять без промежуточных манипуляций сохранения в HTML+обработка

Всего записей: 42 | Зарегистр. 03-07-2006 | Отправлено: 18:16 28-02-2019 | Исправлено: ZOD, 18:24 28-02-2019
Djual



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ув. знатоки чем можно сохранить сий сайтик  
 
https://utmagazine.ru/
 
Offline Explorer Enterprise 6.9 пробую - не берёт вообще
 
(желательно для WinXP)

Всего записей: 429 | Зарегистр. 05-01-2016 | Отправлено: 01:14 09-04-2019
andrejka_k

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Дoбpый дeнь.
Пocoвeтуйтe, пoжaлуйcтa, cпocoб cкaчaть peкуpcивнo caйт (в ocнoвнoм, html+java-cкpипты), дocтуп к кoтopoму вoзмoжeн чepeз пepcoнaльный cepтификaт и кopпopaтивный vpn.
Пpoбoвaл Offline Explorer c нacтpoйкaми пo умoлчaнию – ничeгo нe пoлучaeтcя. Вoзмoжнo, этoт инcтpумeнт кaк-тo мoжнo нacтpoить нa paбoту c пepcoнaльным cepтификaтoм, нo тaких нacтpoeк я нe увидeл. В пpoгpaммe иcпoльзуeтcя cвoй coбcтвeнный внутpeнний бpaузep, мoжeт в этoм пpичинa нeудaч (пpи paбoтe c caйтoм в бpaузepe, уcтaнoвлeннoм в cиcтeмe, дoлжeн быть импopтиpoвaн пepcoнaльный cepтификaт для caйтa).
Ecли cущecтвующиe инcтpумeнты нe пoзвoляют этo cдeлaть, ищeтcя cпocoб, кaк coхpaнять вce cтpaницы в кэшe c вoзмoжнocтью их пpocмoтpa oфлaнй c coхpaнeниeм гипepccылoк (мoжнo лoкaльными).
Кpaйний вapиaнт, кoтopый я вижу – coхpaнять кaждую cтpaницу в save page we или unmht, нo этo бoльшe пoхoжe нa извpaщeниe.
Зapaнee бoльшoe cпacибo.

Всего записей: 1215 | Зарегистр. 13-05-2003 | Отправлено: 10:33 20-07-2019
AnTul

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Подскажите, пожалуйста, чем и как можно скачать https://www.strategium.ru Пытался Winhttrack - он больше 10 гб скачал, никак не остановится. Неделю мусолил. Проверяю - многие страницы не скачаны. Сильно сомневаюсь, что сайт 10 Гб весит. В настройках отключил зипы, и прочее. Не понимаю тогда, откуда такой размер. Пытался скачать Cyotek WebCopy - тоже несколько дней скачивал, не скачал. Постоянно выдаёт ошибку, что памяти какой-то ему не хватает. Мне нужны темы только парадоксовых игр. Но с этим можно и не заморачиваться - пусть хоть весь сайт качает, вряд ли он 10 Гб на самом деле весит.
PS OfflineExplorer не пробовал, потому как там какие-то ограничения - 2 Гб что-ли, а купить - дорого. Может ещё какие бесплатные или недорогие появились? А то Winhttrack уже заброшен, а платить ого сколько за то, чтобы раз в два года сайт скачать - не могу.

----------
Василий Великий: «Кто смотрит на зло без отвращения, тот скоро будет смотреть на него с удовольствием».

Всего записей: 5477 | Зарегистр. 13-07-2004 | Отправлено: 19:50 03-02-2020
Mavrikii

Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
AnTul
Учитывая, что в гугле есть порядка 138,000 страниц с этого сайта (у Яндекса более 74 тысяч) - почему бы и нет?

Всего записей: 15040 | Зарегистр. 20-09-2014 | Отправлено: 19:56 03-02-2020 | Исправлено: Mavrikii, 19:57 03-02-2020
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

Компьютерный форум Ru.Board » Компьютеры » Программы » Рекурсивная загрузка веб-сайтов; оффлайн-браузеры (OfflineExplorer, TeleportPro, HTTrack)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru