Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Wget

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178

Открыть новую тему     Написать ответ в эту тему

GaDiNa



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
[ UNIX Shell ] || [ Рекурсивная загрузка веб-сайтов ] — родительские ветки.
 
GNU Wget

GNU Wget — это свободная неинтерактивная утилита для скачивания файлов по HTTP, HTTPS, FTP и FTPS (и только), обладающая самым базовым функционалом загрузки одиночных файлов и рекурсивной загрузки сайтов (HTTP) и директорий (FTP).
 

| Офсайт | Википедия | Фрешмит | Опен-хаб (бывш. Охлох) | Мануал | Ман | Ман (русск., устар.) | --help (русск.) |

 
Где взять.
Под GNU — уже стоит. Под FreeBSD — есть в портах. Под [Mac] OS X — собрать ванильный.  
Под Windows есть варианты: Cygwin | GNUWin32 (учитывайте зависимости) | Wget + OpenSSL by GetGnuWin32  | by TumaGonx Zakkum (он же osspack32 и The Moluccas  |  by Jernej Simoncc (32 и 64 бит отдельные пакеты) | Wget2.
.
 
Литература.
Popkov. Параметры программы wget
В. А. Петров. Wget — насос для Интернета
 
FAQ
 
Q: Можно ли простым перебором загрузить страницы (допустим) с первой по сотую, если их адреса:  
http://example.org/index?page=1
http://example.org/index?page=2
...
http://example.org/index?page=100
A: Вэ-гет не умеет делать инкрементальный перебор, поскольку это умеет делать любая командная оболочка. На Баше это делается так:
$ wget -E "http://example.org/index?page="{1..100}
Еще раз отметьте, {1..100} — это синтаксическая конструкция Баша, а не Вэ-гета. Эквивалентной этой будет команда:
$ for i in {1..100}; do wget -E "http://example.org/index?page=$i"; done
Или для cmd.exe:
for /l %i in (1,1,100) do wget -E "http://example.org/index?page=%i"
 
Q: А как собственно сайт целиком-то загрузить?
A: $ wget -mpEk "http://example.org"
Это, наверное, самый ходовой набор ключей, но вам, может быть, более подойдут другие. Что значит каждый — легко узнать в мане.
 
Q: Я хочу загрузить с сайта, требующего авторизации. Что делать?
A: Проще всего кинуть куда-нибудь файл с нужными (но лишние не помешают) куками в нетскэйповском формате, затем воспользоваться ключом --load-cookies.
$ wget --load-cookies cookies.txt бла-бла # файл cookies.txt в текущей директории
У Файрфокса куки в требуемом виде можно получить, воспользовавшись расширениями «Export Cookies» либо «Cookie.txt»; у Хрома — «Cookie.txt export»
 
Q: Не-ASCII символы сохраняются в именах файлов как %D0%A5%D1%83%D0%B9 (или того хуже), хотя локаль юникодная.
A: Укажите ключ --restrict-file-names=nocontrol,unix или --restrict-file-names=nocontrol,windows соответственно.
Если у вас Windows и локаль не юникодная — используйте вариант от Alex_Piggy с ключом --local-filesystem-encoding=ENCODING, где ENCODING — имя кодировки локали в терминах iconv. Текущую локаль cmd.exe можно проверить при помощи команды chcp. Для русской кириллицы в Windows обычно используется CP866.
 
Q: Известно, что можно приказать Вэ-гету обновить ранее загруженный файл, если на сервере новее или иного размера (ключ --timestamping, он же -N). Можно приказать учитывать только дату, но не размер (--timestamping --ignore-length). А можно ли учитывать только размер, но не дату?
A: При помощи одного только Wget’а — нет.  Возможна обработка получаемых заголовков файла при помощи средств командной оболочки. Пример для cmd.exe.
 
Q: Можно ли приказать Вэ-гету докачать файл, но только если он не изменился.
A: Нет, нельзя. Сочетание ключей -cN (--continue --timestamping), как можно было бы предположить, нужного эффекта не даст — «докачает» даже если файл изменился — получите в итоге мусор.
 
Q: Можно ли при рекурсивной загрузке ограничится только ссылками, содержащими параметр lang=ru, т.е. грузить:
http://example.org/index?lang=ru
http://example.org/page?id=1001&lang=ru
http://example.org/file?id=60&lang=ru&format=dvi
и не грузить:
http://example.org/index?lang=en
http://example.org/about?lang=fr
и т.д.
A: Для версий < 1.14 нет такой возможности.  
Общий вид URI: <протокол>://<логин>:<пароль>@<хост>:<порт>/<путь>?<параметры>#<якорь>. Так вот ключи -I (--include-directories) и -X (--exclude-directories) относятся только к пути, но не к параметрам.
В версиях > 1.14 возможно при использовании ключей --accept-regex / --reject-regex. Пример: --reject-regex "lang=[^r][^u]"
 
Q: Можно ли средствами Вэ-гета ограничить перечень загружаемых файлов по дате модификации (новее чем, старше чем)?
A: Нет такой возможности.
 
Q: Можно ли при рекурсивной или множественной загрузке произвольно задать целевые пути и/или имена файлов на основе пути/имени по-умолчанию (применить транслитерацию, отбросить хвостовую часть) или хотя бы независимо (сгенерировать случайно или по счетчику)?
A: Нет.
 
Q: То — нельзя, это — невозможно. Почему все так плохо?
A: Потому что Вэ-гет на настоящий момент — базовая программа, предоставляющая только самый базовый функционал. Если вы уперлись в потолок ее возможностей, просто смените ее на другой инструмент. Из неинтерактивных свободных программ наиболее функциональными будут:
aria2c — для загрузки одиночных файлов по HTTP(S), FTP, бит-торренту;
httrack — для рекурсивной загрузки («зеркалирования») веб-сайтов;
lftp — для работы по FTP, FTPS, SFTP, FISH, а также с листингами, отдаваемыми по HTTP(S) (пример).
curl — для работы с одиночными файлам по HTTP(S), FTP(S) и многими другими протоколами на более низком уровне.
wput — клон wget для аплоада файлов на удаленные FTP(S) сервера.
axel — клон wget для многопоточной загрузки одиночных файлов по протоколам HTTP(S) и FTP(S). Порты для Windows: 2.4, 2.16.1
 
Разное.
GUI для Wget’а
 

Смело правьте и дополняйте шапку, однако не забывайте отписываться об исправлениях и сохранять исходный вариант под #.

Всего записей: 1551 | Зарегистр. 17-06-2003 | Отправлено: 13:39 08-11-2003 | Исправлено: anynamer, 11:40 25-12-2023
Fenrizz



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
MaxFrants
Но файлы в принципе скачиваются?  
Для исправления проблемы с русскими именами попробуйте рекомендации отсюда - http://forum.oszone.net/thread-279811.html
 
--restrict-file-names=nocontrol,windows  
и  
--local-filesystem-encoding=CP866 или --local-filesystem-encoding=Win1251
в разных клмбинациях.

Всего записей: 677 | Зарегистр. 12-09-2017 | Отправлено: 06:49 16-09-2022
MaxFrants

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
wget: unknown option -- local-filesystem-encoding=Win1251
 
 
А этот дистрибутив найти не смог...  
http://forum.ru-board.com/topic.cgi?forum=5&topic=10066&start=0&limit=1&m=2#1
 
UTF-8 кодировка обрабатывается как ANSI
 
 

Всего записей: 5 | Зарегистр. 22-01-2017 | Отправлено: 09:19 16-09-2022 | Исправлено: MaxFrants, 09:34 16-09-2022
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
MaxFrants, при выполнении
wget https://svk4u.ru/wp-content/uploads/Регламент-договорной-работы.docx
ситуация с именами такая же?
 
Если вам нужно скачать файлы со страницы https://svk4u.ru/?page_id=3910, почему для wget используете https://svk4u.ru ?

Всего записей: 7336 | Зарегистр. 08-09-2001 | Отправлено: 10:34 16-09-2022
MaxFrants

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Решил вопрос так, http://wincmd.ru/plugring/Translit.html

Всего записей: 5 | Зарегистр. 22-01-2017 | Отправлено: 10:46 16-09-2022
anynamer



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
https://gitlab.com/gnuwget/wget2/-/releases
Есть ссылка на
Windows executable: wget2.zip
https://gitlab.com/gnuwget/wget2/uploads/65fcac7273fb84bf8d8d6ca96819f36e/wget2.zip

Всего записей: 2241 | Зарегистр. 17-05-2010 | Отправлено: 09:11 17-09-2022
Denis_Kokyev



Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Появилась идея выкачивать ПОСЛЕДНИЕ версии нужных програм одним кликом.
Почти всё получилось сделать wget'ом, либо комбинируя c SeD, либо подключая aria2c и curl.
 
Но остались несколько программ, которые не получается у меня загружать, как задумано, потому прошу помощи.
 
* Chrome
Тут забавная ситуация. По прямой ссылке wget, aria2c и curl качают файлы с таким же размером, как и через браузер, но с другим хэшем, установщик запускается с ошибкой и браузер не ставится. Написал на коленке скрипт на AutoIT - хэш уже другой - но браузер устанавливается.
 
* Firefox
Не понимаю, как узнать ссылку на последнюю версию. В прямой ссылке фигурирует версия (releases/107.0.1/) - как отследить последнюю версию, при её изменении - не понимаю.
 
* Whatsapp
Через Wget, aria2c, curl - качать не даёт. Через скрипт AutoIT очень медленно начинает качать, но обрывается на трети закачки.
 
* SetPoint Logitech
Не могу понять, как выявить ссылку на последнюю версию.
 
* QBitTorrent
По ссылке с сайта качается html, прямая ссылка на закачку имеет 5 изменяемых чисел, 1 и 3 не знаю, как добыть:
1 - изменяется - expiretime
2 - не изменяется - как я понимаю - идентификатор QbitTorrent
3 - изменяется каждый раз
4 - не изменяется - можно увидеть в html
5 - изменяется при изменении версии - можно увидеть в html
 
* MP3DirectCut
Так же, как и QbitTorrent располагается на fosshub.com - проблемы те же.


----------
Можно ответить на любой вопрос, если вопрос задан правильно.
Платон

Всего записей: 1074 | Зарегистр. 24-02-2003 | Отправлено: 14:36 03-12-2022
Pasha_ZZZ



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Denis_Kokyev
Хром оффлайновый в MSI (Enterprise), ставится в Program Files (а не пихается каждому юзеру в AppData):
 
  • 32 бита - https://dl.google.com/tag/s/appguid%3D%7B8A69D345-D564-463C-AFF1-A69D9E530F96%7D%26iid%3D%7B0895B524-6A09-01D0-521A-D62AA3209CD6%7D%26lang%3Den%26browser%3D4%26usagestats%3D0%26appname%3DGoogle%2520Chrome%26needsadmin%3Dtrue%26ap%3Dstable-arch_x86-statsdef_1%26brand%3DGCEB/dl/chrome/install/GoogleChromeEnterpriseBundle.zip
     
  • 64 бита - https://dl.google.com/tag/s/appguid%3D%7B8A69D345-D564-463C-AFF1-A69D9E530F96%7D%26iid%3D%7B0895B524-6A09-01D0-521A-D62AA3209CD6%7D%26lang%3Den%26browser%3D4%26usagestats%3D0%26appname%3DGoogle%2520Chrome%26needsadmin%3Dtrue%26ap%3Dx64-stable-statsdef_1%26brand%3DGCEB/dl/chrome/install/GoogleChromeEnterpriseBundle64.zip
     
  • Firefox - зачем пихать прямую ссылку, когда можно сконструированную? Вот пример для русского 64-битного - wget --content-disposition "https://download.mozilla.org/?product=firefox-latest-ssl&os=win64&lang=ru"
     
  • WhatsApp 32 бита - https://web.whatsapp.com/desktop/windows/release/ia32/WhatsAppSetup.exe
     
  • WhatsApp 64 бита - https://web.whatsapp.com/desktop/windows/release/x64/WhatsAppSetup.exe
     
    Из расеи может не качаться, через впн скачивается (зависит от провайдера).
     
  • qBT - есть зеркала на сорсфорж

  • Всего записей: 12403 | Зарегистр. 11-03-2002 | Отправлено: 15:13 03-12-2022
    Denis_Kokyev



    Advanced Member
    Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору

    Цитата:
    Pasha_ZZZ

     

    Цитата:
    Хром оффлайновый в MSI (Enterprise)

    Точно, я и подзабыл о существовании этой версии.

    Цитата:
    когда можно сконструированную?  

    Спасибо, не знал о таком.

    Цитата:
    WhatsApp

    Ссылки эти знаю, вот только не пускает. Например, Wget пишет ошибку Unable to establish SSL connection. Пробовал отключать проверку сертификата, включать сертификат, отключать робота и прикидываться Мазилой - не выходит. Так же через http-proxy и с включенным vpn в системе - не даёт качать.

    Цитата:
    есть зеркала на сорсфорж

    Точно, а слона то я не заметил! Получилось. Так же решилось и с MP3DirectCut через зеркало.
     

    Всего записей: 1074 | Зарегистр. 24-02-2003 | Отправлено: 16:21 03-12-2022 | Исправлено: Denis_Kokyev, 20:40 03-12-2022
    Pasha_ZZZ



    Platinum Member
    Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
    Denis_Kokyev

    Цитата:
    Ссылки эти знаю, вот только не пускает.

    У меня без впн не качает, с впн - нормально скачивает.
    Проверял через впн Америка и Япония - скачивается. Без впн:

    Цитата:
    Connecting to scontent-arn2-2.xx.fbcdn.net (scontent-arn2-2.xx.fbcdn.net)|157.240.194.27|:443... connected.
    OpenSSL: error:2406F079:random number generator:RAND_load_file:Cannot open file
    Unable to establish SSL connection.

    Используется ж Facebook CDN, а они в расиянии объявлены террористами.

    Цитата:
    &#128293; fbcdn.net заблокирован
     
    &#128262;  /n_4152173   2022-02-24 /d_hftvrn97c3tx2
    • ст. 15.3 (http://www.consultant.ru/document/cons_doc_LAW_61798/34547c9b6ddb60cebd0a67593943fd9ef64ebdd0/), мятеж и фейки
        как domain fbcdn.net
     
    типы блокировки: wildcard: &#128262;
    &#9888; Данные синхронизированы: 2022-12-03T17:10:00+03:00

    fbcdn.net под блоком вилдкард - т.е. со всеми поддоменами.

    Всего записей: 12403 | Зарегистр. 11-03-2002 | Отправлено: 16:23 03-12-2022 | Исправлено: Pasha_ZZZ, 20:30 03-12-2022
    Denis_Kokyev



    Advanced Member
    Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
    Благодаря уважаемому Pasha_ZZZ все вышеописанные проблемы решились.
    Осталась одна, возможно ли и её решить?
    Задача: есть телефон, снимает в heic, чтоб открыть этот формат нужна дровина, так как санкции, а она платная - решить это обычным способом не получается.
    Решение:
    Перейти на сайт: https://store.rg-adguard.net/
    Вставить эту строку в поиск: https://www.microsoft.com/ru-ru/p/hevc-video-extensions-from-device-manufacturer/9n4wgh0z6vhq
    Сформировать временную ссылку (из сформированных 6 нужна одна = под x64) и скачать .appx  
    Проблема в том, что ссылка https://store.rg-adguard.net/ остается неизменной, а получаемая ссылка на закачку файла дохнет после закачки или спустя короткое время.
    Можно ли это как то решить?

    Всего записей: 1074 | Зарегистр. 24-02-2003 | Отправлено: 20:38 03-12-2022
    Pasha_ZZZ



    Platinum Member
    Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
    Denis_Kokyev

    Цитата:
     
    curl -s -F "type=PackageFamilyName" -F "url=Microsoft.HEVCVideoExtension_8wekyb3d8bbwe" -F "ring=Retail" -F "lang=ru" "https://store.rg-adguard.net/api/GetFiles"|grep -iF "http://tlu."|grep -iF -e "_x64__"|grep -iF -e ".appx<"|grep -iEo "http:[^""]*"|wget -i- --content-disposition
     

    Всего записей: 12403 | Зарегистр. 11-03-2002 | Отправлено: 20:59 03-12-2022
    Denis_Kokyev



    Advanced Member
    Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору

    Цитата:
    Проверял через впн Америка и Япония - скачивается

    Оказывается - не всё, что Американское - то рабочее Попереключал VPN - на каких то американских работает, на каких то нет. С этим разобрался.
    А вот с HEVC - пишет: No URLs found in -.

    Всего записей: 1074 | Зарегистр. 24-02-2003 | Отправлено: 15:24 04-12-2022
    Pasha_ZZZ



    Platinum Member
    Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
    Denis_Kokyev
    У меня работает хевц, пробуйте через впн. Мы живем в морзотной стране, где ничему нельзя верить.

    Всего записей: 12403 | Зарегистр. 11-03-2002 | Отправлено: 15:58 04-12-2022
    Denis_Kokyev



    Advanced Member
    Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
    С Hevc так и не вышло, да и фиг с ним.
    Но меня вот что интересует по теме vpn, можно же использовать proxy.
    Вот пытаюсь без vpn и proxy скачать страничку с заблокированного трекера:

    Цитата:
    wget.exe -O %HTML% %URL% -U %UA%

    Понятно, что ничего не выходит, Access Denied.
    Подключаю proxy:

    Цитата:
    wget.exe -O %HTML% %URL% -e use_proxy=yes -e http_proxy=%Proxy_url1%:%Proxy_port% -U %UA%

    Страница скачивается.
     
    Думаю, вот он - выход для закачки ВацАп без VPN:

    Цитата:
    wget.exe %URL_File1% --content-disposition -e use_proxy=yes -e http_proxy=%Proxy_url1%:%Proxy_port% -U %UA%

    Но не вышло, ошибка Unable to establish SSL connection.
    Пробовал 15 proxy - Америка, Армения, Канада, Индия, Япония. Страничка с заблокированного трекера качается, ВацАп нет.  

    Всего записей: 1074 | Зарегистр. 24-02-2003 | Отправлено: 14:41 05-12-2022 | Исправлено: Denis_Kokyev, 14:48 05-12-2022
    usalex

    Gold Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Denis_Kokyev

    Цитата:
    С Hevc так и не вышло, да и фиг с ним

    Просто зарегай в винде этот декодер и фотки будут спокойно открываться.

    Всего записей: 6234 | Зарегистр. 20-12-2004 | Отправлено: 14:57 05-12-2022
    Denis_Kokyev



    Advanced Member
    Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору

    Цитата:
    Просто зарегай в винде этот декодер и фотки будут спокойно открываться.

    Это просто офигенно! Класс!

    Всего записей: 1074 | Зарегистр. 24-02-2003 | Отправлено: 15:49 05-12-2022
    neorion

    Full Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Приветствую.
    Хочу скачать некоторые темы из некоторого форума. Нумерация на следующие страницы кратна 28, но я не знаю как составить список URL для менеджеров закачек (uGet, wget, curl или aria2c).
    Подскажите.

    Код:
    https://example.com/viewtopic.php?t=548
    https://example.com/viewtopic.php?t=548&start=28
    https://example.com/viewtopic.php?t=548&start=56
    https://example.com/viewtopic.php?t=548&start=84
    ...
    https://example.com/viewtopic.php?t=548&start=3276

    Всего записей: 448 | Зарегистр. 02-10-2022 | Отправлено: 19:05 22-02-2023 | Исправлено: neorion, 19:18 22-02-2023
    Pasha_ZZZ



    Platinum Member
    Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
    neorion

    Цитата:
    @echo off
     
    set Step=28
    set Num=10
     
    set Topic=548
    set /a "End=Num*Step"
    del /f /q List.txt
    for /l %%a in (0,%Step%,%End%) do >>List.txt echo.https://example.com/viewtopic.php?t=%Topic%^&start=%%a
     

    Всего записей: 12403 | Зарегистр. 11-03-2002 | Отправлено: 19:13 22-02-2023
    neorion

    Full Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Pasha_ZZZ
    Благодарю.
    set Num значит задает количество страниц в теме.

    Всего записей: 448 | Зарегистр. 02-10-2022 | Отправлено: 19:27 22-02-2023
    los

    Gold Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    neorion, у curl есть

    Цитата:
    You can specify a step counter for the ranges to get every Nth number or letter:
     
      "http://example.com/file[1-100:10].txt"
      "http://example.com/file[a-z:2].txt"


    Всего записей: 7336 | Зарегистр. 08-09-2001 | Отправлено: 19:32 22-02-2023
    Открыть новую тему     Написать ответ в эту тему

    Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178

    Компьютерный форум Ru.Board » Компьютеры » Программы » Wget


    Реклама на форуме Ru.Board.

    Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
    Modified by Ru.B0ard
    © Ru.B0ard 2000-2024

    BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

    Рейтинг.ru