MENNENN
Junior Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору ASE_DAG Здравствуйте, рад вас снова видеть! В теме давно не наблюдалась активность пользователей, посмел предположить что про нее запамятовали. В программе практически разобрался. Насколько понял, одной из главных составляющих программы является Фильтр (Scan Rules), который при оптимальной настройке позволяет добиться правильного сохранения сайта. Однако существует небольшой нюанс, который заставил меня усомнится в правильности сохранения. В настройках добавил в фильтр -* +www.erowid.org/* никуда не переходить и качать только с одного сайта. Спустя некоторое время после скачки, в некоторых папках и под папках появляются дубликаты c нижним подчеркиванием, наподобие этой www.erowid.org_ в них тоже закачиваются файлы. На официальном форуме программы есть ответ по этому поводу http://forum.httrack.com/readmsg/19828/19826/index.html Автор: William Roeder утверждает, что это возможно из за неправильного парсинга js или отсутствия порта 8080 в URL, но не объясняет, как этого избежать. Каким образом нужно задать параметр в Scan Rules, чтобы эти папки не создавались? Возможно дело в самих настройках программы? И еще, когда в настройках программы в разделе Spider выбираю параметр follow robots.txt rules в логах появляется отчет об ошибке. Info: Note: due to www.erowid.org remote robots.txt rules, links begining with these path will be forbidden: /cgi-bin/, /archive/hyperreal/, /archive/rhodium/chemistry/nitrostyrenes/, /experiences/exp_pdf.php, /wp-*, /references/texts/ (see in the options to disable this) Повлияет ли отключение параметра robots.txt на загрузку, или нет? Надеюсь на вашу помощь. Благодарю за внимание! | Всего записей: 49 | Зарегистр. 26-04-2009 | Отправлено: 04:18 04-03-2011 | Исправлено: MENNENN, 04:42 04-03-2011 |
|