Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » HTTrack Website Copier

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11

Открыть новую тему     Написать ответ в эту тему

ShigaLex



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Рекурсивная загрузка веб-сайтов; оффлайн-браузеры — общая тема по вопросу; если вы еще не определились с выбором инструмента, то вам туда.

HTTrack Website Copier

 
HTTrack — свободное приложение для рекурсивной загрузки веб-сайтов, т.е. для той задачи, которую решают Wget в режиме зеркалирования (--mirror) и проприетарные Teleport Pro и Offline Explorer.
Основной интерфейс — неинтерактивный командный, но доступно и по меньшей мере две графические оболочки: виндовый WinHTTrack и браузерный WebHTTrack.

 

| Офсайт | Википедия | Фрешмит | Ман |

 
Документация:
Httrack Users Guide by Fred Cohen — довольно длинный учебник
FAQ & Troubleshooting — официальный FAQ
HTTrack Website Copier by Leto Kauler — годная смесь FAQ'а и мануала
 
Зачатки FAQ'а:
Q: Я хочу загрузить сайт, который требует авторизации. Что делать?
A: Кинуть в текущую директорию файл cookies.txt с нужными (но лишние не помешают) куками в нетскэйповском формате, HTTrack его подхватит. У Файрфокса куки в требуемом виде можно получить, воспользовавшись расширением «Export Cookies»; у Хрома — «Cookie.txt export».
 

Смело правьте и дополняйте шапку, однако не забывайте отписываться об исправлениях и сохранять исходный вариант.

Всего записей: 18 | Зарегистр. 30-07-2007 | Отправлено: 21:34 30-07-2007 | Исправлено: Maz, 15:54 01-04-2019
Weinaum



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
понравилась программа, но вот что то не пойму, как ограничения скорости снять?
в настройках по дефолту стоит 25 кб/с, убираю,как будто этого ограничения быть больше не должно, а все равно больше чем 25 не дает скорости. Причем, на всех версиях, под вин, под линукс, с веб мордой - все везде одинаково - тянет 10 минут то что вгетом может за 10-20 секунд скачаться.
Есть ли вариант научить скорости?

Всего записей: 2152 | Зарегистр. 18-06-2006 | Отправлено: 19:44 23-10-2009 | Исправлено: Weinaum, 19:45 23-10-2009
donbaton

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
http://www.cmsimplewebsites.com/demos/clouds/
Вот по этой сссылке страницы обычные, а качать не хочет, как заставить?
Он делает ссылку в виде ссылки в интернет, а не качает страницу по ссылке локально.
 
А страницу, на которой эта ссылка, он скачал:
папка на пк/4/www.cmsimplewebsites.com/index7c5a.html?Templates_Section_2:Waterripple
 
Эта ссылка в интернете на этой странице:
http://www.cmsimplewebsites.com/?Templates:Clouds
"Click here for Demo of this template"
 
Как мне закачать сайт?

Всего записей: 170 | Зарегистр. 18-03-2009 | Отправлено: 17:24 19-02-2010
MENNENN



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Реальная программа, жаль тему забросили.

Всего записей: 49 | Зарегистр. 26-04-2009 | Отправлено: 07:55 03-03-2011 | Исправлено: MENNENN, 09:07 03-03-2011
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
MENNENN
Кто забросил? Куда забросил? У вас есть какие-то вопросы?

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 21:22 03-03-2011
MENNENN



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ASE_DAG
Здравствуйте, рад вас снова видеть!  
В теме давно не наблюдалась активность пользователей, посмел предположить что про нее запамятовали.
В программе практически разобрался. Насколько понял, одной из главных составляющих программы является Фильтр (Scan Rules), который при оптимальной настройке позволяет добиться правильного сохранения сайта. Однако существует небольшой нюанс, который заставил меня усомнится в правильности сохранения.
 
В настройках добавил в фильтр -* +www.erowid.org/*
 
никуда не переходить и качать только с одного сайта. Спустя некоторое время после скачки, в некоторых папках и под папках появляются дубликаты c нижним подчеркиванием, наподобие этой www.erowid.org_  
в них тоже закачиваются файлы. На официальном форуме программы есть ответ по этому поводу http://forum.httrack.com/readmsg/19828/19826/index.html Автор: William Roeder утверждает, что это возможно из за неправильного парсинга js или отсутствия порта 8080 в URL, но не объясняет, как этого избежать.
Каким образом нужно задать параметр в Scan Rules, чтобы эти папки не создавались? Возможно дело в самих настройках программы?  
И еще, когда в настройках программы в разделе Spider выбираю параметр follow robots.txt rules в логах появляется отчет об ошибке.
 
Info:  Note: due to www.erowid.org remote robots.txt rules, links begining with these path will be forbidden: /cgi-bin/, /archive/hyperreal/, /archive/rhodium/chemistry/nitrostyrenes/, /experiences/exp_pdf.php, /wp-*, /references/texts/ (see in the options to disable this)
Повлияет ли отключение параметра robots.txt на загрузку, или нет?
 
Надеюсь на вашу помощь. Благодарю за внимание!  

Всего записей: 49 | Зарегистр. 26-04-2009 | Отправлено: 04:18 04-03-2011 | Исправлено: MENNENN, 04:42 04-03-2011
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
MENNENN
> Здравствуйте, рад вас снова видеть!
Здравствуйте, взаимно.
 
> The only time I've seen a directory with a underscore
Ну а я не разу не встречал. Увы.
 
> -* +www.erowid.org/*
А вот это совершенно излишне.
$ httrack http://www.erowid.org/
и все.
 
Надо посмотреть в логе (hts_cache/new.txt, если закачка еще не закончена) с каких урлов было загружено содержимое этой директории www.erowid.org_ и по этой информации делать выводы.
 
> Повлияет ли отключение параметра robots.txt на загрузку, или нет?
Ну да, будут загружаться в том числе и те страницы, индексирование которых запрещено.

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 04:42 04-03-2011 | Исправлено: ASE_DAG, 04:47 04-03-2011
MENNENN



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ASE_DAG
Появились сообщения об ошибке bogus state (incomplete type), Unknown (not HTTP/xx)
 

Код:
Error:  "Unknown (not HTTP/xx) response structure" (-1) at link www.erowid.org/experiences/exp.cgi?A=Search&AuthorSearch=yang&Exact=1 (from www.erowid.org/experiences/exp.php?ID=76990)
Error:  "Unknown (not HTTP/xx) response structure" (-1) at link www.erowid.org/experiences/exp.cgi?New&S1=484 (from www.erowid.org/experiences/subs/exp_Cannabinoid_Receptor_Agonists.shtml)
Error:  "Unknown (not HTTP/xx) response structure" (-1) at link www.erowid.org/experiences/exp_pdf.php?ID=15164&format=latex (from www.erowid.org/experiences/exp.php?ID=15164)
Error:  "Unknown (not HTTP/xx) response structure" (-1) at link www.erowid.org/plants/nutmeg/ (from www.erowid.org/experiences/exp.php?ID=32591)
 
 
Warning:  file not stored in cache due to bogus state (incomplete type): www.erowid.org/includes/summary_herbs_db.css
Warning:  file not stored in cache due to bogus state (incomplete type): www.erowid.org/cgi-bin/messages/message_view_record.php?message_id=117&page_url=/plants/coffee/coffee.shtml
Warning:  file not stored in cache due to bogus state (incomplete type): www.erowid.org/cgi-bin/messages/message_view_record.php?message_id=31&page_url=/references/refs_view.php&Q&ID=6793&E&
Warning:  file not stored in cache due to bogus state (incomplete type): www.erowid.org/cgi-bin/messages/message_view_record.php?message_id=2&page_url=/experiences/exp.php&Q&ID=28413&E&

 
 
Может быть, что MIME Types настроены неправильно и WinHTTrack не может сохранить эти страницы должным образом? Или дело в сайте, в нестандартных откликах? Функция Толерантных Запросов (Tolerant requests) отключена, в мане сказано, что она тоже может помочь, но как правило приводит к фиктивности файлов. Также не включена функция кэширования, которая раздувает кэш и зеркало, что не очень хорошо!?  
 
В принципе сайт сохраняется нормально для локального просмотра, его структура и внешний вид, все работает хорошо, за исключением этих ошибок. В общем не буду больше париться по этому поводу.

Всего записей: 49 | Зарегистр. 26-04-2009 | Отправлено: 17:54 04-03-2011 | Исправлено: MENNENN, 23:28 04-03-2011
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
MENNENN
> Unknown (not HTTP/xx)  
Вы может быть удивитесь, но у меня сабж по этим ссылкам все прекрасно загружает.
$ httrack -g 'http://www.erowid.org/plants/nutmeg/'
HTTrack3.43-9+libhtsjava.so.2 launched on Fri, 04 Mar 2011 23:14:44 at http://www.erowid.org/plants/nutmeg/
(httrack -g http://www.erowid.org/plants/nutmeg/ )
 
Mirror launched on Fri, 04 Mar 2011 23:14:44 by HTTrack Website Copier/3.43-9+libhtsjava.so.2 [XR&CO'2010]
mirroring http://www.erowid.org/plants/nutmeg/ with the wizard help..
1/2: www.erowid.org/plants/nutmeg/ (14827 bytes) - OK
HTTrack Website Copier/3.43-9 mirror complete in 1 seconds : 1 links scanned, 1 files written (14827 bytes overall) [4585 bytes received at 4585 bytes/sec], 14827 bytes transfered using HTTP compression in 1 files, ratio 28%
(No errors, 0 warnings, 0 messages)
Done.

 
Так что в чем проблема, установить, увы, не могу.
 
> В общем не буду больше париться по этому поводу.  
Разумно. ;)

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 23:16 04-03-2011
gss77

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Прошу подсказать - есть тема форума на 144 страницах с вложениями ... Как правильно настроить прогу для скачивания и автономного просмотра

Всего записей: 110 | Зарегистр. 28-07-2005 | Отправлено: 08:01 16-03-2011
John13friday



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А в случае с этим skins.be напротив не вижу никакой проблемы — там разрешение указано прямо в имени файла.  
 
Добавлено:  
Если вам, к примеру все обои с сайта нужны (сколько же это вы скачивать то будете), то примерно так:  
$ httrack -* +www.skins.be/page/* +wallpaper.skins.be/*1280x1024* +*1280x1024*.jpg  
http://www.skins.be

 ASE_DAG, спасибо за подсказку. Качает вроде то что надо
http://www.imagepost.ru/images/760/HTTrack.jpg
 Только скорость низкая почему то, у меня входящая так то 5Мбит

Всего записей: 100 | Зарегистр. 07-03-2009 | Отправлено: 11:11 16-03-2011 | Исправлено: John13friday, 11:13 16-03-2011
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
John13friday
> спасибо за подсказку
Всегда пожалуйста. ;)
 
> скорость низкая
Какая именно скорость, и насколько она низкая? (Какая величина и какое у нее значение?)
 
gss77
> есть тема
Где?

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 20:48 16-03-2011
John13friday



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
> скорость низкая  
Какая именно скорость, и насколько она низкая? (Какая величина и какое у нее значение?)

На скриншоте скорость указана

Всего записей: 100 | Зарегистр. 07-03-2009 | Отправлено: 21:14 16-03-2011
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
John13friday
Это суммарный загруженный объем на прошедшее время со старта. Да нет, не очень низкое значение.

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 22:25 16-03-2011
gss77

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
тема форума http://www.radiokot.ru/forum/viewtopic.php?t=2016 на 144страницах

Всего записей: 110 | Зарегистр. 28-07-2005 | Отправлено: 01:27 17-03-2011
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
gss77
 
$ httrack -* "+www.radiokot.ru/forum/viewtopic.php?f=25&t=2016*" 'http://www.radiokot.ru/forum/viewtopic.php?f=25&t=2016&start=0'
 
Не?

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 19:11 17-03-2011
gss77

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
спасибо попробую (сейчас вне компьютера) потом отпишу

Всего записей: 110 | Зарегистр. 28-07-2005 | Отправлено: 03:58 18-03-2011
shveicar



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Здравствуйте. у меня вопрос пытаюсь выкачать шаблоны с (web-mastery.info) перепробовал разные варианты выкачивает все кроме них при нажатии на скачать  браузер рвется в онлайн Я только начал осваиваться с этой программой помогите если не сложно.

Всего записей: 333 | Зарегистр. 26-09-2010 | Отправлено: 00:33 04-04-2011
shveicar



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Сам себе и отвечаю -  помогла связка offline exlorer и handey  HTTrack почему-то не справился (видимо каждому инструменту свое назначение).

Всего записей: 333 | Зарегистр. 26-09-2010 | Отправлено: 22:39 04-04-2011
Uzuhiko



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Всем здравости.
 
Вот хочу высосать один сайтец, но выскакивает ошибка о каком-то зеркале... Вот скрин:
 
   
 
Сайт живой, работает нормально.

Всего записей: 90 | Зарегистр. 12-11-2010 | Отправлено: 08:08 17-04-2011
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Uzuhiko
А если без гуя (я с ним просто не знаком, мне эта ошибка ни о чем не говорит)?

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 19:45 17-04-2011 | Исправлено: ASE_DAG, 19:45 17-04-2011
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11

Компьютерный форум Ru.Board » Компьютеры » Программы » HTTrack Website Copier


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru