Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » HTTrack Website Copier

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11

Открыть новую тему     Написать ответ в эту тему

ShigaLex



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Рекурсивная загрузка веб-сайтов; оффлайн-браузеры — общая тема по вопросу; если вы еще не определились с выбором инструмента, то вам туда.

HTTrack Website Copier

 
HTTrack — свободное приложение для рекурсивной загрузки веб-сайтов, т.е. для той задачи, которую решают Wget в режиме зеркалирования (--mirror) и проприетарные Teleport Pro и Offline Explorer.
Основной интерфейс — неинтерактивный командный, но доступно и по меньшей мере две графические оболочки: виндовый WinHTTrack и браузерный WebHTTrack.

 

| Офсайт | Википедия | Фрешмит | Ман |

 
Документация:
Httrack Users Guide by Fred Cohen — довольно длинный учебник
FAQ & Troubleshooting — официальный FAQ
HTTrack Website Copier by Leto Kauler — годная смесь FAQ'а и мануала
 
Зачатки FAQ'а:
Q: Я хочу загрузить сайт, который требует авторизации. Что делать?
A: Кинуть в текущую директорию файл cookies.txt с нужными (но лишние не помешают) куками в нетскэйповском формате, HTTrack его подхватит. У Файрфокса куки в требуемом виде можно получить, воспользовавшись расширением «Export Cookies»; у Хрома — «Cookie.txt export».
 

Смело правьте и дополняйте шапку, однако не забывайте отписываться об исправлениях и сохранять исходный вариант.

Всего записей: 18 | Зарегистр. 30-07-2007 | Отправлено: 21:34 30-07-2007 | Исправлено: Maz, 15:54 01-04-2019
11Sergey11

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Разобрался, спасибо

Всего записей: 2 | Зарегистр. 02-12-2016 | Отправлено: 14:39 03-12-2016 | Исправлено: 11Sergey11, 14:59 03-12-2016
abazhur

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
я нуб. подскажите, пожалуйста, как сделать так, чтобы HTTrack Website Copier мог копировать с сайта, на котором необходима авторизация?

Всего записей: 10 | Зарегистр. 08-02-2017 | Отправлено: 22:12 08-02-2017
TheBarmaley



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
abazhur
Цитата:
как...копировать с сайта, на котором необходима авторизация
писатель штоле? глаза подыми в шапку - "зачатки фака"..

----------
..the one of.. ··· ..sam-&-pol..

Всего записей: 17316 | Зарегистр. 07-06-2006 | Отправлено: 01:06 09-02-2017
abazhur

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Подробнее...

Всего записей: 10 | Зарегистр. 08-02-2017 | Отправлено: 05:58 09-02-2017
TheBarmaley



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
abazhur
есть предложение - попробовать "с нуля", т.е. создать новую закачку и уже ей скормить куки..
ну  ваще - убедись, шо всё правильно делаешь, может, твой файлик просто не подхватывается.. )
и да - я бы срезал каменты в начале файла..

----------
..the one of.. ··· ..sam-&-pol..

Всего записей: 17316 | Зарегистр. 07-06-2006 | Отправлено: 08:37 09-02-2017
abazhur

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
короче так:
1. создавал куки-файл, находясь на разных страницах сайта, будучи авторизованным (куки разные, так должно быть?);
2. помещал куки-файл в корневой каталог, где куки-файл не создается вообще, помещал куки-файл, затирая старый, в каталог внутри корневого;
3. затирал куки-файл, едва начав закачку, имея лишь корневой каталог и ничего внутри;
4. обновлял закачку, начинал новую, имея старую.
 
 - ничего не получилось.
 
зайдя на страницу, полностью видную лишь авторизованным пользователям, и закачанную с помощью винтрак, имею отсутствие авторизации. на скаченной странице видно, что ее нет.
попробую MetaProducts Offline Explorer Enterprise 7.4.4560, стянутую с известного ноунеймного (в буквальном смысле) трекера

Всего записей: 10 | Зарегистр. 08-02-2017 | Отправлено: 20:28 10-02-2017 | Исправлено: abazhur, 22:51 10-02-2017
TheBarmaley



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
abazhur
Цитата:
ничего не получилось.
из мануала:
Цитата:
Q: I can not access several pages (access forbidden, or redirect to another location), but I can with my browser, what's going on?
A: You may need cookies! Cookies are specific data (for example, your username or password) that are sent to your browser once you have logged in certain sites so that you only have to log-in once. For example, after having entered your username in a website, you can view pages and articles, and the next time you will go to this site, you will not have to re-enter your username/password.
To "merge" your personnal cookies to an HTTrack project, just copy the cookies.txt file from your Netscape folder (or the cookies located into the Temporary Internet Files folder for IE) into your project folder (or even the HTTrack folder)
не?

----------
..the one of.. ··· ..sam-&-pol..

Всего записей: 17316 | Зарегистр. 07-06-2006 | Отправлено: 03:02 11-02-2017
abazhur

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
все пошло.
я вместо файла cookies.txt создавал cookie.txt
нужно в папку самого проекта (находится внутри создаваемого программой корневого каталога) поместить файл cookies.txt и дело в шляпе.
 
спс за советы.

Всего записей: 10 | Зарегистр. 08-02-2017 | Отправлено: 10:04 11-02-2017 | Исправлено: abazhur, 11:41 11-02-2017
TheBarmaley



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
abazhur
куко-экспорт всё правильно делает, не придумывай.. ))
1. ещё раз - удали комментарии в файле..
2. ещё раз - абзац из мануала выше:
Цитата:
into your project folder (or even the HTTrack folder)
что непонятного-то?
 
Добавлено:
..чё-та два раза отправилось, дубль поста стёр..

----------
..the one of.. ··· ..sam-&-pol..

Всего записей: 17316 | Зарегистр. 07-06-2006 | Отправлено: 11:32 11-02-2017 | Исправлено: TheBarmaley, 11:43 11-02-2017
abazhur

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
немного подправлю предыдущий пост.
1. в общем, так: авторизация с помощью куки действует только на первые 3 адреса, указанные в списке адресов URL. если в списке адресов более 3, то на остальные адреса она не действует.
2. и еще, каждый раз при обновлении закачки из существующего списка файлов файл Cookies.txt слетает(туда записывается что-то новое) и приходится его заново перезаписывать перед обновлением закачки.
 
p.s. галочка в настройках ("Задать параметры"), в закладке "Качалка" напротив опции "Разрешить cookies" стоит. без нее вообще куки не работают.

Всего записей: 10 | Зарегистр. 08-02-2017 | Отправлено: 15:03 11-02-2017
3t

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Можно ли скачанную папку (с частью сайта) сделать портабельной?
 
Подробнее:
Скачал 200 страниц с сайта по списку из 200 адресов с помощью WinHTTrack и просматриваю их офлайн по ссылкам из автоматически созданного файла index.html. Меня устраивает. Но, когда переношу папку на другой диск/компьютер, то ссылки не работают. Что-то может помочь, кроме изменения адресов вручную?

Всего записей: 249 | Зарегистр. 28-12-2006 | Отправлено: 19:21 04-04-2017
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
3t, изменение путей невручную?

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 22:24 04-04-2017
3t

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ASE_DAG

Цитата:
3t, изменение путей невручную?

Невручную с помощью WinHTTrack? Или в нём это не предусмотрено?

Всего записей: 249 | Зарегистр. 28-12-2006 | Отправлено: 09:21 05-04-2017
TheBarmaley



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
3t
там же, вроде, и так все ссылки относительные, не?

----------
..the one of.. ··· ..sam-&-pol..

Всего записей: 17316 | Зарегистр. 07-06-2006 | Отправлено: 11:04 05-04-2017
3t

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TheBarmaley

Цитата:
там же, вроде, и так все ссылки относительные, не?
Спасибо за ссылку. Это оттуда (машинный перевод):
Подробнее...
Действительно, похоже я что-то делал не так. Буду копать.

Всего записей: 249 | Зарегистр. 28-12-2006 | Отправлено: 18:39 05-04-2017
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
3t> Невручную с помощью WinHTTrack? Или в нём это не предусмотрено?
 
А какая разница?  Что может быть проще, чем превратить пачку абсолютных ссылок в относительные в рамках одного файла?

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 21:38 05-04-2017 | Исправлено: ASE_DAG, 21:38 05-04-2017
Kas_Narayda



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А вот к примеру если мне нужно скачать mp3-файлы на сайте http://www.sirius-ru.net/, но ссылки на скачивание mp3 ведут на сайт http://conference.sirius-net.org да ещё и качаются по порту 8020 например на странице:
http://www.sirius-ru.net/dictations/aprel_iyl_2009/audio.htm есть ссылки
http://conference.sirius-net.org:8020/dictations_2009_iun-iul/2009-07-10_moria.mp3
http://conference.sirius-net.org:8020/dictations_2009_iun-iul/2009-07-09_m_maria.mp3
http://conference.sirius-net.org:8020/dictations_2009_iun-iul/2009-07-08_padma_sambhava.mp3
и т. д. Как быть в этом случае. Просто так настроив скачивание сайта http://www.sirius-ru.net/ никаких mp3 не даёт.

Всего записей: 9 | Зарегистр. 28-07-2017 | Отправлено: 11:32 28-07-2017
totnetot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Народ, как выставить паузу между загрузками страниц?  
Человек много страниц назад спрашивал, а ему вроде так и не ответили. Ведь, по сути, в некоторых случаях скачка большого числа страниц может стать аналогом DoS атаки.
 
Добавлено:
Полазил по офф. форуму. Похоже такой опции не предусмотрено. Людям рекомендуют ограничивать скорость, максимальное количество соединений в секунду и т.д.
 
 
Добавлено:
Может подскажете аналогичные проекты? Интересует Open Source, желательно с GUI.

Всего записей: 410 | Зарегистр. 16-03-2013 | Отправлено: 16:35 07-08-2017
AnTul

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Подскажите, пожалуйста, как отсюда: https://www.outlookfreeware.com/ru скачать все exe файлы?

----------
Василий Великий: «Кто смотрит на зло без отвращения, тот скоро будет смотреть на него с удовольствием».

Всего записей: 5483 | Зарегистр. 13-07-2004 | Отправлено: 19:46 07-08-2017
totnetot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
AnTul
я протестировал этот сайт с такими параметрами:
 
У меня закачка остановилась, когда набежало 100 Mb (как я и настраивал).
После заходишь в директорию проекта через Total Commander, Alt-F7 поиск по маске *.exe и "файлы на панель". После выделяешь все найденные файлы и копируешь или перемещаешь в нужную папку. Лишнее удаляешь.
 
В итоге у меня оказалось 53 exe файла. Но там их наверняка больше лежит.
 
То что фильтры у меня не совсем правильно настроены - в этом я уверен. Возможно можно заменить некоторые + на -. Надо тестировать. В теории если начнешь качать только exe файлы может сработать какая нибудь защита. Я пока в этом не разбираюсь. Но некоторые сайты 100% защищаются от таких вот пауков.
 
И главное -  не ставь сильно большую скорость закачки и большое количество потоков. Иначе можешь попасть в бан по IP, по подозрению на DoS атаку. Большее количество потоков чем сделал я, и большую скорость - не ставь. На офф. сайте вообще рекомендуют иногда соединений ставить 1 или меньше 1. Из-за вероятности попадания в бан лист. И скорость рекомендуют поменьше.
 
Эта программа достаточно рабочая, но и достаточно дубовая. Почти как топор. Правила фильтрации насколько я понял нормально настроить невозможно. Вот если бы она понимала регулярные выражения - то цены бы ей не было. Сам ее второй день тестирую. Решил тебе помочь из спортивных соображений и любопытства.

Всего записей: 410 | Зарегистр. 16-03-2013 | Отправлено: 17:04 08-08-2017 | Исправлено: totnetot, 17:07 08-08-2017
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11

Компьютерный форум Ru.Board » Компьютеры » Программы » HTTrack Website Copier


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru