Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » HTTrack Website Copier

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11

Открыть новую тему     Написать ответ в эту тему

ShigaLex



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Рекурсивная загрузка веб-сайтов; оффлайн-браузеры — общая тема по вопросу; если вы еще не определились с выбором инструмента, то вам туда.

HTTrack Website Copier

 
HTTrack — свободное приложение для рекурсивной загрузки веб-сайтов, т.е. для той задачи, которую решают Wget в режиме зеркалирования (--mirror) и проприетарные Teleport Pro и Offline Explorer.
Основной интерфейс — неинтерактивный командный, но доступно и по меньшей мере две графические оболочки: виндовый WinHTTrack и браузерный WebHTTrack.

 

| Офсайт | Википедия | Фрешмит | Ман |

 
Документация:
Httrack Users Guide by Fred Cohen — довольно длинный учебник
FAQ & Troubleshooting — официальный FAQ
HTTrack Website Copier by Leto Kauler — годная смесь FAQ'а и мануала
 
Зачатки FAQ'а:
Q: Я хочу загрузить сайт, который требует авторизации. Что делать?
A: Кинуть в текущую директорию файл cookies.txt с нужными (но лишние не помешают) куками в нетскэйповском формате, HTTrack его подхватит. У Файрфокса куки в требуемом виде можно получить, воспользовавшись расширением «Export Cookies»; у Хрома — «Cookie.txt export».
 

Смело правьте и дополняйте шапку, однако не забывайте отписываться об исправлениях и сохранять исходный вариант.

Всего записей: 18 | Зарегистр. 30-07-2007 | Отправлено: 21:34 30-07-2007 | Исправлено: Maz, 15:54 01-04-2019
shveicar



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Здравствуйте уважаемый ASE_DAG - У меня такой вопрос- Существует сайт где есть авторизованный вход(имя пользователя и пароль) соответственно информация для не авторизованного пользователя при скачивании сайта весьма скудна. Долго изучал настройки
HTTrack Website Copier  но так и не нашел возможности настройки имя пользователя и пароля (кроме работы через прокси сервер). для авторизованной (так сказать закачке) - вопрос- возможна ли такая функция в принципе или поможет только offline explorer. я бы конечно пользовался им, но в данном случае сайт сильно заскриптован - и качает он очень медленно. Заранее благодарен за ответ.

Всего записей: 333 | Зарегистр. 26-09-2010 | Отправлено: 01:26 03-05-2011
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shveicar
> ASE_DAG
А что вы лично ко мне обращаетесь? :) Здесь вроде бы форум.
 
Да, кочечно, можно. Для этого достаточно кинуть в текущую директорию (откуда запускаете httrack) файл cookies.txt с нужными куками в т.н. нетскейповском формате, сабж сам его подхватит.
Проще всего этот файл получить при помощи расширения Export Cookies.

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 01:33 03-05-2011
shveicar



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Большое спасибо! ASE_DAG  
P.s: Обратился к вам, потому что вы чаще других следите за темой, и как я понимаю вы в вопросе HTTrack эксперт.

Всего записей: 333 | Зарегистр. 26-09-2010 | Отправлено: 03:08 03-05-2011
alexeyvsad

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Люди, доброго вам времени суток! А под линуксом, точнее под Mandriva 2010 free эта прога почему может не запускацца? Установил из rpm-ки, всё без ошибок, кликаю по ярлыку выезжает Firefox с мессагой "Попытка соединения не удалась.
Firefox не может установить соединение с сервером localhost:8080." - Чё делать?
 
Добавлено:
И вообще, как она себя ведёт на больших сайтах? Я тут www.lyricsmania.com хотел ободрать, так TeleportPro честно сказал, что достиг предела своих возможностей на цыфре 65535 и всё, шабаш. А сабж не говорит ничего, но половина страниц отсутствует, причём на сайте они есть и открываются нормально. Это всё под Виндой я экспериментировал, теперь с горя на Линух хотел присесть, но и тут косяк...

Всего записей: 1 | Зарегистр. 17-09-2007 | Отправлено: 15:12 03-05-2011
shveicar



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
alexeyvsad - Здравствуйте  
Вообще -телепорт-прога весьма слабая (хотя если нужны только картинки, то может и сгодиться) Нормальный сайт ей не взять- это лично мое мнение. Для создания нормальной копии сайта лучше использовать HTTrack Website Copier.  хотя в некоторых случаях можно использовать offline explorer в связке с handy cache (для правильной работы скриптов). Все зависит от типа и защищенности сайта.  

Всего записей: 333 | Зарегистр. 26-09-2010 | Отправлено: 18:19 03-05-2011
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
alexeyvsad
Во-первых, сабж прекрасно работает под Виндой.
Во-вторых, не уловил, о каком еще «ярлыке» идет речь.
Отдаете команду:
$ httrack [ключи] [фильтры] [URL]
, например:
$ httrack -* "+www.radiokot.ru/forum/viewtopic.php?f=25&t=2016*" 'http://www.radiokot.ru/forum/viewtopic.php?f=25&t=2016&start=0'
(с прошлой страницы), и поехало.
 
> но половина страниц отсутствует
А конкретно?
 
P.S. Вы, я надеюсь, не специально ради этого этого Мандриву поставили? :)

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 12:30 04-05-2011
shveicar



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Здравствуйте! у меня такой вопрос - недавно исследуя похожие темы (Сравниваем OfflineExplorer, TeleportPro, Webzip) набрел на интересную вопрос. Один пользователь не мог скачать сайт(сайт действительно оказался не прост) а именно fxyz.ru Но немного поразмыслив  и подправив настройки мне удалось его сделать. Но вот загвоздка, не работают скрипты по вычислению формул(площади фигуры и другие) - работает только калькулятор- вообщем не буду многословен кому интересно может посмотреть (narod.ru/disk/12036814001/%20WEB2.rar.html) Так вот, хотелось бы знать можно что либо сделать чтобы скрипты работали (или проблема в плохой настройки при закачке Website Copier ) Я  пока в скриптах не силен, но может кто разбирается? Если корректировка возможна получился бы не плохой справочник!

Всего записей: 333 | Зарегистр. 26-09-2010 | Отправлено: 00:40 06-05-2011
shveicar



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Доброго времени всем. Скачал на днях последнюю (httrack3.44.1) версию и обнаружил что при настройке проекта, команда (httrack -*) не нужна во всяком случае на эту команду сервер присылает ответ  "502 Bad Gateway (HC)" а без нее все в порядке, Как, интересно это можно объяснить? И еще, почему некоторые сайты с зоной (members) скачивать вообще не получается - это несмотря на экспорт cookies, например sexyjaqui.com/members/, а некоторые идут нормально например torylane.net/members/ и др. Такое ощущение что у них стоит какая-то защита на распознавание, пробовал менять идентификацию, но что-то не помогает. Но, это уже вопросы к экспертам.
P.S  Надеюсь тема еще не забыта.

Всего записей: 333 | Зарегистр. 26-09-2010 | Отправлено: 00:18 21-07-2011
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
В связи с удовлетворением просьбы о закреплении первых постов отдельных тем со стороны нашей администрации (спасибо Димону) почал новую шапку. Дополнения и замечания приветствуются.

#: старый первый пост

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 02:59 08-09-2011
shveicar



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Так все-же если вариант с cookies.txt не помогает если другие способы имитировать идентификацию браузера,(кроме, конечно- прямой авторизации через@адрес.сайта)-на некоторых сайтах как я понимаю идет проверка пользователя через сервис safebrowsing-cache.google.com или др. При этом в кэш грузится шифрованный (во всяком случае прочесть стандартными средствами у меня не получилось - в блокноте - выглядит как  набор символов..) файл и периодически он обновляется. Смена идентификации в опции -(идентифицировать как) не помогает... Или ни у кого подобных проблем нет?

Всего записей: 333 | Зарегистр. 26-09-2010 | Отправлено: 00:22 29-09-2011
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shveicar
Пример проблемного сайта (с открытой регистрацией желательно, чтоб я проверить мог) можно?
 
> идентификации в опции -(идентифицировать как)
Юзер-агент что-ли?

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 00:44 29-09-2011 | Исправлено: ASE_DAG, 00:45 29-09-2011
shveicar



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Спасибо: ASE_DAG

Цитата:
идентификации в опции -(идентифицировать как)
Юзер-агент что-ли?
Ну да, альтернатива cookies (пример-http://wkochev:william@lorilust.com/members/index.html) Ну а проблемные варианты - пример (
http://sexycherrypie.com/members/members01.html) Заранее извиняюсь за контент, - пароль в личке, В общем логика проста, если members стоит перед именем сайта то как правило все "ок", а вот если как в последнем примере (после адреса) то здесь облом... Закачка через прокси кэш (например - Handy) при такой авторизации все равно не помогает.. Хотя тот-же scrapbook (firefox) и например offline explorer - справляется без проблем. Но тут вопрос именно технический...

Всего записей: 333 | Зарегистр. 26-09-2010 | Отправлено: 02:42 29-09-2011
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shveicar
>> Юзер-агент что-ли?  
> Ну да.
Да нет, судя по всему. :-)
 
> http://wkochev:william@lorilust.com
А! HTTP-авторизация (Basic access authentication) вам нужна.
 
> альтернатива cookies
Скорее наоборот: это авторизация через куки была освоена как альтернатива обычной.
 
> Заранее извиняюсь за контент
Да ничего страшного. ;-)
 
> В общем логика проста, если members стоит перед именем сайта то как правило все "ок", а вот если как в последнем примере (после адреса) то здесь облом.
Не понял до конца чего вы хотели сказать, но вы однозначно чего-то напутали.
 
В общем так. Сабж вполне понимает логин-пароль в URI. В мане это действительно не упомянуто, видимо считается за само-собой разумеющуюся вещь.
$ httrack [ опции ] http://moew94:furg18@sexycherrypie.com/members/members01.html

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 03:15 29-09-2011 | Исправлено: ASE_DAG, 03:17 29-09-2011
shveicar



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Прошу прощения ASE_DAG - Я видимо привел неудачный пример, Ну, что-ж усложняем задачу (адресс - http://peeasian.com/members_area/news.php) Как на счет этого варианта? (кстати там весьма хитрый скрипт на сервере, который отслеживает действия браузера, и чуть что сшибает авторизацию (например при частой смене языков, или нелогичной загрузки содержимого)...

Всего записей: 333 | Зарегистр. 26-09-2010 | Отправлено: 03:56 29-09-2011 | Исправлено: shveicar, 04:00 29-09-2011
shveicar



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
И еще у меня есть один вопрос- в HTTrack Website Copier  есть опция - загрузить отдельные файлы, при этом все файлы грузятся в одну директорию.(даже если в настройках стоит загружать с охранением структуры сайта) как сделать так, чтобы файлы сохранялись в свои директории,- как на сервере? Конечно можно качать через прокси кэш, но это не всегда удобно.. Спасибо.

Всего записей: 333 | Зарегистр. 26-09-2010 | Отправлено: 14:24 29-09-2011
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shveicar
> есть опция - загрузить отдельные файлы
Это которая -g (--get-files)?
 
> при этом все файлы грузятся в одну директорию
Да, таково дефолтное поведение для этой опции.
 
> даже если в настройках стоит загружать с охранением структуры сайта
Нет, это поведение вполне можно изменить.
$ httrack -g -N0 http://mirror.yandex.ru/debian/pool/main/
загрузит один файл index.html в ./mirror.yandex.ru/debian/pool/main, а не в . (текущую директорию) как без ключа -N0.
 
> усложняем задачу (адресс - http://peeasian.com/members_area/news.php) Как на счет этого варианта?
Сейчас попробую.

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 02:00 30-09-2011
shveicar



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
ASE_DAG

Цитата:
Нет, это поведение вполне можно изменить.  
Спасибо - Дельный совет (команды как и с wget ) как  Я понимаю,  Вы работаете с Linux? Есть ли разница в функционале (режимы возможностей загрузки) по сравнению с win xp или версии  HTTrack Website Copier  для обеих систем равнозначны? Еще раз благодарю за помощь.

Всего записей: 333 | Зарегистр. 26-09-2010 | Отправлено: 02:20 30-09-2011
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shveicar
> Спасибо - Дельный совет
Всегда пожалуйста. ;-) Т.е. с этим вопросом разобрались?
 
> команды как и с wget  
Не понял, честно говоря.
 
> Вы работаете с Linux?
Ну да, с Дебианом, а какое это имеет значение? Или вы про Баш и компанию?
 
> Есть ли разница в функционале по сравнению с win xp
Нет, конечно. Какая тут может быть платформозависимость — все кроссплатформенно, собирается из идентичных исходников. А если вы спрашиваете отстает ли в функционале гуевый (графический) фронтенд (WinHTTrack, или как его там) от самой программы, то не знаю, не знаком с этим гуем, но вполне может быть, что отстает.
 


> Сейчас попробую.
Мда... Действительно, ресурс противодействует качальщикам вовсю. Два раза подряд обновил страницу — все, авторизация сброшена, куки невалидны; и т. п. Ну, ничего, как говориться, на каждую хитрую дырку... Вам же оттуда видеозаписи нужны, правильно? Тогда имеет смысл сменить инструмент, а именно попытаться автоматировать поведение Файрфокса — это позволит при необходимости вмешиваться в процесс, чего сабж делать не позволяет.  
В принципе, если озадачиться, то можно набросать юзер-скрипт с нуля, но лучше не велосипедировать, а пойти погуглить на предмет полуфабриката.

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 03:43 30-09-2011 | Исправлено: ASE_DAG, 03:46 30-09-2011
shveicar



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Добрый день ASE_DAG
Цитата:
> команды как и с wget  
Не понял, честно говоря.  
Имел ввиду что (-g -N0 ) похожи на команды wget (-x -r -w3)
Цитата:
> Вы работаете с Linux?
Ну да, с Дебианом, а какое это имеет значение? Или вы про Баш и компанию?
Просто собираюсь поставить на Vmware -Linux для пробы, поэтому и интересуюсь возможностями.
Цитата:
Тогда имеет смысл сменить инструмент, а именно попытаться автоматировать поведение Файрфокса
- интересно, а как его можно автоматизировать?(кроме использования scrapbook+ конечно)

Цитата:
В принципе, если озадачиться, то можно набросать юзер-скрипт с нуля,
-А Что за скрипт? Дело в том что сайт, как говорится, у меня "в кармане" Пришлось разбить закачку на несколько этапов. Для начала поработал offline explorer и закачал только html с (не изменёнными) адресами далее, в дело пошел textpipe (извлечение мультимедийных ссылок и графики), а затем scrapbook + HandyCache (опция -загрузка отдельных файлов,)- на такой ход скрипты защиты не реагируют и при висячей странице можно качать сколько угодно. Просто интересно, какой еще вариант можно было использовать?  
Но с этим сайтом ситуация более- менее ясна, в вот этот (http://members.euro-pornstars.com/index.php) - настоящая проблема, файлы видео и zip можно качать всего лишь отдельными файлами, иначе авторизация слетает, и  по несколько штук в очереди - интересно как можно автоматизировать процесс чтобы закачивать хотя-бы штук по 50 за один раз? (кстати, про него я говорил когда упоминал службу safebrowsing-cache.google.com -эти файлы видны особенно хорошо когда работаешь через Handy Cache)Спасибо.  
 Да вот еще проблема, - загружал через HTTrack Website Copier файлы из текстового списка, так он на следующий день выдал - "достигнут предел в 100.000 файлов" и оборвал закачку, - а где установлено это ограничение (я где-то видел, что поддерживается до 1 миллиона ссылок) и как его убрать?
 
 
 
 
 

Всего записей: 333 | Зарегистр. 26-09-2010 | Отправлено: 12:34 30-09-2011 | Исправлено: shveicar, 22:30 01-10-2011
Gideon Vi

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
сабж не умеет выкачивать ролики с ютуба, размещенные на странице другого сайта?

Всего записей: 8084 | Зарегистр. 02-02-2004 | Отправлено: 10:30 13-10-2011
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11

Компьютерный форум Ru.Board » Компьютеры » Программы » HTTrack Website Copier


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru