Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » MetaProducts Offline Explorer | Offline Browser

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53

Открыть новую тему     Написать ответ в эту тему

unreal666



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
MetaProducts Offline Explorer / Portable Offline Browser (Часть 3): Часть 1 Часть 2
--== Сопутствующая тема в разделе Варезник ==--

Offline Explorer™
Portable Offline Browser™
Текущая версия: 8.5.0.4972 ЦП 11.11.2023
Производитель: © 1997-2023 MetaProducts Systems.


Программа предназначена для загрузки, сохранения и экспорта в различные форматы целых сайтов и/или выбранных частей сайта, а также отдельных веб-страниц. При скачивании и сохранении доступно огромное число настроек и опций, позволяющих настроить скачивание под конкретный сайт, независимо от того является ли его контент динамическим или статическим. В качестве форматов экспорта могут выступать точные статические копии сайтов, как в виде вариантов предназначенных для оффлайн использования, так и для онлайн использования; в виде единого файла в формате HTML Help (.CHM); в формате мультифайлового html архива (.MHT); в формате электронной книги в виде исполняемого файла (.EXE); в виде Zip архива.

Portable Offline Browser - скачать - вариант предназначеный для работы с USB/FireWire Flash/HDD!
Offline Explorer Enterprise - скачать - практически не имеет ограничений по сложности проекта.
Offline Explorer Pro - скачать - представляет собой решение среднего уровня.
Offline Explorer - скачать - это решение начального уровня для простых работ.


Скрипты расширяющие возможности программы:
Второе дерево проектов (если вам не хватает одного).
Показать проекты с описаниями (выделенные цветом или со значком) - автор скрипта Rush.
Статьи об Offline Explorer:
FAQ темы
!!! советы, предостережения
!!! Для корректного копирования проектов из этой темы, устанавливаем и пользуемся vbs-модулем от ViSiToR, или же скриптом от Nagual
(после копирования переходим в дерево Offline Explorer и жмём Ctrl+V)
!!! Просьба постить проекты между тегами [more][/more], чтоб не портить читабельность темы.

Родственные темы:
Сравнение оффлайн-браузеров
TextPipe

Всего записей: 6637 | Зарегистр. 14-02-2005 | Отправлено: 16:24 07-12-2015 | Исправлено: Luber, 15:17 11-11-2023
Aws



Junior Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
есть ещё один интересный вопрос))
 
на вкладке Фильтры URL - Серверы есть опция Изменять ссылки с www...
 
 
Задания на закачку формирую командами из командной строки, потому что не нашел пока ни другого апи, другого способа сгенерировать файл проекта и подсунуть программе…
 
Так вот, хотелось бы использовать эту опцию, но...
- в шаблоне проектов эта галочка не активна,
- при запуске с параметрами из командной строки - нет параметра для включения этой опции

Код:
oe7.exe /new=url=http://electionaccess.org,url=https://electionaccess.org,template=Template01_FullSite,folder=electionaccess.org,run=true,url=Additional=AutoExport=e:\CyberLab\Export\electionaccess.org\

 
Если кто уже решал эту задачку, скажу спасибо
 
Кстати, а может есть где список "Parameter name= Parameter value" для командной строки, или это единственный список:
https://metaproducts.com/help/offline-explorer-enterprise/#!help/offline-explorer-enterprise/command-line-interface/commands-to-perform-tasks-with-projects

Всего записей: 123 | Зарегистр. 01-12-2003 | Отправлено: 22:07 14-01-2020 | Исправлено: Aws, 22:13 14-01-2020
Jonmey

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ChernavinOleg
Неплохо было бы добавить в настройки проекта (и отображать в дереве проектов соответствующим образом, в зависимости от конкретной реализации) дату скачивания проекта - хотя бы просто в название (по тому или иному шаблону) или в свойства (но также показывать это поле [дату скачивания] в дереве проектов).
Дело в том, что нередко некоторые сайты скачиваю с какой-то периодичностью, оставляя старые версии сайтов. Проекты одноименные и чтобы их различать приходится вводить дату в название. Автоматизировать или просто сделать кнопку ' текущая дата' было бы весьма удобным.
 
Aws
Цитата:
спасибо, справка в тему, как раз именно это я и хочу - скачивать только с первоначального домена.  site.ru  *.site.ru
Первичный домен, полагаю, в вашем случае - это .ru
Тогда как сервер - site.ru
Поэтому он и качает у вас со всех .ru

Цитата:
Так вот, хотелось бы использовать эту опцию, но...  - в шаблоне проектов эта галочка не активна
Создать свой собственный шаблон (или набор шаблонов), создав, например, соответствующее правило в Замене адресов, не помогает?
 

Всего записей: 1319 | Зарегистр. 17-01-2011 | Отправлено: 22:28 14-01-2020 | Исправлено: Jonmey, 22:54 14-01-2020
Aws



Junior Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору

Цитата:
Первичный домен, полагаю, в вашем случае - это .ru  Тогда как сервер - site.ru  Поэтому он и качает у вас со всех .ru  

не должен судя по ответу за 2016 год)
https://metaproducts.com/forum/offline-explorer-enterprise-edition/6117
 

Цитата:
Создать свой собственный шаблон (или набор шаблонов) не помогает?  

так как раз в созданном мною шаблоне эта галка и не активна
как и в дефолтных не активируется
 
Добавлено:
ChernavinOleg
смотрю пример - форму на c# - которая обращается interface OEProject : IOEProject
а может можно создавать проекты средствами c#?
если такая возможность есть, конечно, можно пример?)
а то я тогда получается громожу костыль по созданию проекта c# -> run process cmd -> oe -> и потом ещё как-то проверить факт завершения...

Всего записей: 123 | Зарегистр. 01-12-2003 | Отправлено: 22:49 14-01-2020
Jonmey

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Aws
Насчет доменов - значит у юзеров в ряде случаев по половине сайта, а они об этом не догадываются.
Слава богу (с очень древних пор, типа с версии 3.х) не доверял переключалкам автора, а настраивал всегда скачивание только методом контроля результата (утомительно, зато гарантированно).
 
А относительно шаблона второй метод (наряду с упомянутым выше вводом соответствующего фильтра замены адресов) - редактирование настроек шаблонов вручную, которые содержатся в файле Templates.dat
В соответствующий шаблон (находится между полями [Object] настройки шаблона [Object]... )
вприсать строки
 
RSrvsBx=3
ConvertWWW=True

 
Первая - скачивать с домена
Вторая - галка относительно WWW

Всего записей: 1319 | Зарегистр. 17-01-2011 | Отправлено: 23:55 14-01-2020 | Исправлено: Jonmey, 23:56 14-01-2020
Aws



Junior Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Кто нить сталкивался с такой проблемой?
При создании cmd команды проект не добавляется.
Команда выполняется, но проект не создается
То ли конфликтуют инструкции RunAfterSuccess и DeleteProjectSettings, то ли ограничение на количество аргументов (вряд ли по длине строки).
Потому что если убрать что-то одно - RunAfterSuccess или DeleteProjectSettings - вуаля, все работает
 

Код:
"C:\Program Files (x86)\Offline Explorer Enterprise\OE7.exe" "/new=url=http://orioncymbals.com.br,url=https://orioncymbals.com.br,template=Template01_FullSite,folder=orioncymbals.com.br,run=true,url=Channels=10,url=RunAfterSuccess=e:\376033.bat,url=Additional=DeleteProjectSettings;DeleteProjectFiles;AutoExport=e:\orioncymbals.com"

 
Цель - скачать, экспортировать, переместить сайт на сервер. А файлы удалить, чтобы место не занимали)

Всего записей: 123 | Зарегистр. 01-12-2003 | Отправлено: 23:20 17-01-2020
Frantishek



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
блин, как все таки научиться понимать, загружен сайт полностью, или нет, в отношении тех проектов, где ссылки имеют склонность гоняться по кругу (таких сайтов не более 5-10%). и как их на этом пути отрубать.  
скажем, загружено уже тыщ 50 страниц. очевидно, что это скорее и есть полностью сайт, но в очереди стоит 80 тыс, идет движуха, а счетчик фактически не меняется, и так полдня. десять лет назад такого не было. пусть сайты стали мудреней, но что то же им можно противопоставить тогда. если понятие уровней ссылок уже не работает. что то должно стать другим критерием завершения работы.

Всего записей: 1222 | Зарегистр. 02-05-2006 | Отправлено: 16:03 18-01-2020
Jonmey

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Frantishek

Цитата:
как все таки научиться понимать, загружен сайт полностью, или нет, в отношении тех проектов

Тщательно изучать очередь файлов на скачивание и закономерности формирования URLs. Единого рецепта нет.
Классический пример eBay или Google - фактически одна и та же страница может быть вызвана многими, формально различными URL, хотя все они имеют одно и то же основное "ядро". Определив его, можно использовать замены адресов и перевести все дублирующие URL в самый короткий вариант, что многократно уменьшит объем скачивания.
Aws

Цитата:
RunAfterSuccess=e:\376033.bat

Не знаю, как OE, но большинство программ, из которых запускают батники, напрямую их запустить неспособны (bat/cmd - не исполняемые файлы). Поэтому их запускают в них, как параметр командного процессора, типа
%comspec% /c x:\todo.bat
cmd /c x:\todo.bat
или прописывая путь в явном виде
"C:\Windows\System32\cmd.exe" /c x:\todo.bat
 
Кроме этого не знаю как программа из вашей строки определяет приоритет выполнения операций и ожидает ли она завершения предыдущей операции, чтобы начать выполнение следующей (речь о выполнении батника и удалении файлов и настроек проекта)
Нужно пошагово отлаживать цепочку, чтобы определить корректность (как задумано) выполнения каждой ее операции.

Всего записей: 1319 | Зарегистр. 17-01-2011 | Отправлено: 17:58 18-01-2020 | Исправлено: Jonmey, 18:27 18-01-2020
Aws



Junior Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору

Цитата:
Не знаю, как OE, но большинство программ, из которых запускают батники, напрямую их запустить неспособны (bat/cmd - не исполняемые файлы). Поэтому их запускают в них, как параметр командного процессора, типа  

 
Да, о чем ты говоришь, есть такая проблема - чтобы запустить батник, надо запустить командную оболочку cmd, а ей в качестве параметров передать батник. и команды в батнике тогда прописывать полными путями, потому что рабочая директория будет по умолчанию, не та, где лежит батник.
 
ОЕ запускает спокойно батник этой командой.
 
Проблема, о которой я писал - в ограничении количества символов через командную строку.
Как решил проблему - создал проект средствами командной строки, с минимум параметров.
Далее в С# создаю класс Project,
project.URL = "..." - можно передать любое количество команд.
и запуск -  
project.Start();
 
попутно обнаружил ещё интересные команды для проекта:

Код:
//Referer=http://www.site.com
//BrowseBeforeWithDelay=5;http://orioncymbals.com.br/
//Additional=NoMovedDuplicates;KeepCurrentURLs;SkipDisposition;ParseIncludedScripts

 
BrowseBeforeWithDelay - зайти на сайт перед работой и получить куки. Программа качает гет-запросами, предполагаю подсовывает тогда куки первой сессии.  
 
Referer - некоторые сайты смотрят реферер, два-три перехода без реферера - блок.
 
SkipDisposition - если одна и та же страница доступна по разным адресам, то не качать ее два раза
 
KeepCurrentURLs - не перекачивать уже имеющиеся ссылки при рестарте проекта
 
Что ещё заметил - по умолчанию ОЕ использует настолько древний юзер агент, что под ним некоторые сайты даже не открываются, это Мозилла/4.0.
Поменял на свежий хром - гораздо шустрее пошло.
 
Ещё  - баг не баг - если в поле url будет две инструкции Additional=, то ОЕ отработает только вторую, первую проигнорирует. Но не объединит их:
Additional=NoMovedDuplicates
Additional=KeepCurrentURLs
первую проигнорирует.  
 
 
Что ещё интересного - есть инструкции чтобы через поле url подключать прокси.
Proxy={:file=c:\proxies.txt}  
Только пока не знаю, как будет себя вести, если несколько прокси в файле.  
- все пускать через первый,  
- пускать все запросы равномерно через все прокси  
- или как.
Потому что при массовой скачке - по любому какая-то защита может сработать на количество запросов, и их надо делать с разных прокси.
Например, пока поставил максимум 10 соединений на сайт (Channels=10), но при использовании всех прокси из файла это можно без ограничения и тогда скорость скачки будет космическая.
Или ставить прокладку - прокси с мультипортом - каждое обращение через рандомное прокси.

Всего записей: 123 | Зарегистр. 01-12-2003 | Отправлено: 21:01 19-01-2020
Jonmey

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Aws

Цитата:
Проблема, о которой я писал - в ограничении количества символов через командную строку.

Вообще-то, в комстроке ограничение в длине начинается с 2000 символов с хвостиком.
 
Добавлено:

Цитата:
попутно обнаружил ещё интересные команды для проекта:
Код:
 //Referer=http://www.site.com  //BrowseBeforeWithDelay=5;http://orioncymbals.com.br/  //Additional=NoMovedDuplicates;KeepCurrentURLs;SkipDisposition;ParseIncludedScripts  

Вообще-то обнаружить можно было проще, нажав F12 в окне настроек проекта
 
тогда как параметры ключа Additional приведены даже в русской справке (к версии не знаю какой точно из старых):

Цитата:
Что ещё заметил - по умолчанию ОЕ использует настолько древний юзер агент, что под ним некоторые сайты даже не открываются, это Мозилла/4.0.  Поменял на свежий хром - гораздо шустрее пошло.  

Насчет шустрее - это вряд ли, поскольку тогда самым быстрым UA является GoogleBot.
Цитата:
Ещё  - баг не баг - если в поле url будет две инструкции Additional=, то ОЕ отработает только вторую, первую проигнорирует. Но не объединит их:  Additional=NoMovedDuplicates
Additional=KeepCurrentURLs  первую проигнорирует.

Полагаю это из разных опер: первое на тему редиректа (302), вторая на тему не скачивания новых ссылок которые детектируются при повторном скачивании проекта.
 
В целом, на мой взгляд, вся эта возня с работой OE из комстроки не стоит потраченного на нее времени, поскольку сайты все более и более различаются по настройкам скачивания, а если их сначала определять, а уже потом писать строку, то теряется смысл всей затеи. Повторное же скачивание сайтас использованием старой комстроки с большой долей вероятности будет кривым или вообще неуспешным, поскольку движки/скрипты сайтов и проч. меняются достаточно часто и прошлое удачное скачивание не гарантирует следующего без предварительного ручного контроля настроек, что делает бессмысленным использование комстроки, как средства облегчающего работу. В общем, это скорее для экспериментаторов, чем для людей занятых.
Подтверждением тому тезису является факт существования многочисленных менеджеров закачек заточенных под конкретные сайты и под конкретные типы файлов. Тогда как OE в этом смысле неспецифичен и рассчитан скорее для подстройки под каждый сайт и то с известными ограничениями.
Во времена Web 1.0 работа с OE из комстроки имела куда больше смысла.

Всего записей: 1319 | Зарегистр. 17-01-2011 | Отправлено: 00:59 20-01-2020 | Исправлено: Jonmey, 02:34 20-01-2020
Aws



Junior Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору

Цитата:
Полагаю это из разных опер: первое на тему редиректа (302), вторая на тему не скачивания новых ссылок которые детектируются при повторном скачивании проекта.

не, это просто проверить
тест я проводил с инструкцией на удаление проекта.
если Additional=Delete... шла первой командой, то не отрабатывала.  
если все команды были в одном Additional то отрабатывала
 

Цитата:
Вообще-то, в комстроке ограничение в длине начинается с 2000 символов с хвостиком.  

в курсе, предполагаю ограничения ОЕ
 
а что насчёт использования прокси?))
 

Цитата:
Насчет шустрее - это вряд ли, поскольку тогда самым быстрым UA является GoogleBot.

юзерагент сам не ускоряет скачку, он указывает, на соответствие каким инструкциям/разметке/прочее отдавать контент.
при старом юзер агенте он может генерировать неизвестно что.
насчёт гуглевского юзерагента - думаю отдельно поставить поэкспериментировать, потому что большинство защит от скрапинга (копирования сайтов) могут лояльно относиться к псевдо-гуглю))

Всего записей: 123 | Зарегистр. 01-12-2003 | Отправлено: 02:00 20-01-2020
Jonmey

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
это просто проверить  

Для этого нужен, как минимум URL сайта, который гарантированно имеет редиректы (302) и их можно было наблюдать в браузере.

Цитата:
тест я проводил с инструкцией на удаление проекта.  если Additional=Delete... шла первой командой, то не отрабатывала.   если все команды были в одном Additional то отрабатывала  

Если проект удален первой командой, как можно исполнить остальные инструкции в отношении уже удаленного проекта?
Цитата:
в курсе, предполагаю ограничения ОЕ  

Не знаю. Не думаю, что автор сделал ограничения сильно больше ограничений самой командной строки (то есть, короче 2000 символов), поскольку ключи OE изначально не отличаются краткостью.

Цитата:
а что насчёт использования прокси?

Насколько понимаю, там в первозданном состоянии - рандомный перебор без разбора. Ни окаких космических скоростях нет и речи (с публичными прокси в особенности). Вследствие этого при большом числе потоков ситуация когда к серверу одновременно масса запросов, что убивает идею мульипрокси на защищенных сайтах. Делал ранее предложения автору, но реакции не последовало.
Ситуация усугубляется тем сайты стали медленнее, а большой брат наставил софтов на весь трафик. Помню по времена, версий OE типа 3-5 программа с радостью захватывала весь канал, каким бы он толстым ни был, да так, что не успевала обрабатывать скачиваемые страницы (помню больше 10 потоков вообще было невозможно поставить - программа начинала виснуть от бешенного потока, того, что качала). А теперь, даже на сайтах не изменившихся с тех пор, если OE отхватит пару мегабайт от канала, то этот день готов обозначить красным днем календаря. Думаю, что дело не в OE - просто суммарно интернет стал медленнее в смысле новый URL-запрос-ответ, а не абстрактной толщины канала, которая, конечно, сказывается при скачивании больших файлов. Наверное есть какая-то зависимость от провайдера, но общая тенденция именно как описано и полагаю будет усугубляться.

Цитата:
при старом юзер агенте он может генерировать неизвестно что.

Обычно генерируется самая простая и как следствие  - быстрая, в том числе и для скачивания. Но это уже старые технологии.
Сейчас в моде технологии, когда скачиваемые страницы уже имеют средства подстройки под браузер, в котором открывается страница, тогда как на UA перестают обращать внимание вследствие поголовной любви к анонимизации вэбсерфинга. Оно и понятно - например, юзер использующий ТОР фактически отдает серверу совершенно левый, чужой и рандомный UA, тогда как получает волне конкретную страницу, которая вовсе не кривая или неизвестно с какой разметкой.

Цитата:
насчёт гуглевского юзерагента - думаю отдельно поставить поэкспериментировать, потому что большинство защит от скрапинга (копирования сайтов) могут лояльно относиться к псевдо-гуглю))

Не думаю, что кому-то из озабоченных тем что его сайт могут скачать, есть дело до UA. Они как правило и Google блочат (иначе чере его кэш сайт могут вытянуть). На пхп простейша защита от скачивания - несколько строк кода считающих число запросов с IP в единицу времени. Можно добавить учет интервалов и уже при этих условиях будут немалые проблемы, например, у OE, поскольку он не имеет "live" режима скачивания, и придется делать огромные интервалы (типа минута и более), качать в один поток и т.д.

Всего записей: 1319 | Зарегистр. 17-01-2011 | Отправлено: 03:22 20-01-2020
Aws



Junior Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Jonmey
продолжаю наше интересное обсуждение)
при добавлении списка прокси коннекты одного проекта идут через разные прокси:
HTTPS38    21.01.2020 2:31:40    Connecting to www.agenciasawi.com.br via proxy (x.x.x.x:80xx)...
HTTPS24    21.01.2020 2:31:40    Connecting to www.agenciasawi.com.br via proxy (x.x.x.x:80xx)...
 
Добавлено:
а по скорости - мониторчик в правом нижнем углу показывает от 100 000 до 900 000 б/с, то есть, до мегабайта/секунду.
пару раз только до 6 Мб/с поднимался
это при том что у меня канал гораздо толще, гарантированный.

Всего записей: 123 | Зарегистр. 01-12-2003 | Отправлено: 01:32 21-01-2020
Jonmey

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Aws

Цитата:
при добавлении списка прокси коннекты одного проекта идут через разные прокси

Ну само собой. А иначе смысла в мультипрокси бы не было.
Проблема, как я уже сказал, в том, что новый запрос идет когда старый сервером еще обработан - как результат масса одновременных запросов на последовательные неповторяющиеся URL, причем с равными интервалами. Этого достаточно, чтобы ушлый хозяин сайта тупо блокировал IP автоматом (даже не нужно навсегда, достаточно на день-месяц).
А вот при скачивании в один поток, в live режиме через мультипрокси сделать автомат будет куда сложнее, а если еще и опцию ввести в OE - качать последовательно страницы с принадлежащими им элементами (картинки, скрипты и проч), подобно тому как это делает браузер (не путать с медленным режимом загрузки страниц с открытием каждой страницы в браузере), то сделать автомат блокировки будет куда сложнее.
 
Дело не максимумах на каких-то сайтах. А в средней скорости. А она нынче очень низкая (медленный отклик, то есть кучу мелких файлов будет качать долго). А раньше быстрые были отклики и, что мелкие файлы качать, что большие - скорость была соизмеримая (мне легко это сравнивать, поскольку в те далекие времена (более 15 лет назад) платил по трафику долгое время, а не по толщине канала и соответственно толщина канала была фактически неограниченной. Сейчас на 150 MB канале качается медленнее (хотя в те древние времена скорость локалки была 100 MB). Для меня это неудивительно. поскольку вэбскриптинг - очень медленная вещь, которая развивается главным образом экстенсивно (для удобства писателей, но не читателей), рассчитывая на компенсацию за счет развития железа. Но это тупиковый путь. Помню, раньше в борьбе за скорость сайтов скрипты компилировали в бинарники (то есть исполняемые файлы), точнее писали полноценные приложения аналогичные обычным локальным программам, которые даже на допотопных компах с поднятым сервером - летали. А теперь 2 килобайта текста с одного URL тянут за собой несколько мегабайт гавна, рассованного на сотню файлов, которые в свою очередь тянутся с двадцати других урлов. Понятно. что современный сервер сам пытается переваривать тонны кирпичеобразных модных скриптов и выдавливает результат из себя по каплям (хелп ое, состоящий из трех страниц грузит дольше, чем любой порнушный сайт до отказа забитый рекламой; и это не говоря о том, что на половине браузеров он вообще не работает) Откуда скорость, Зин? Душа отдыхает лишь на редких сайтах-динозаврах, чудом сохранившихся со времен web 1.0.

Всего записей: 1319 | Зарегистр. 17-01-2011 | Отправлено: 08:48 21-01-2020 | Исправлено: Jonmey, 08:51 21-01-2020
Aws



Junior Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору

Цитата:
А она нынче очень низкая (медленный отклик, то есть кучу мелких файлов будет качать долго).

а не делал замеры,
если качать не встроенным загрузчиком (который выкачивает каждый файл самостоятельно), а через опцию веб-браузер - открыл страницу - сохранил страницу.  
Тогда в несколько потоков оно и естейственно выглядеть должно, и страницы должны открываться со скоростью обычного браузера?

Всего записей: 123 | Зарегистр. 01-12-2003 | Отправлено: 11:38 21-01-2020
Jonmey

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
а не делал замеры

Когда качаешь страницы сотнями тысяч - они не нужны, потому что разница в днях.
Цитата:
Тогда в несколько потоков оно и естейственно выглядеть должно, и страницы должны открываться со скоростью обычного браузера?

Вероятно в один, поскольку браузер-то один и две страницы в окне никак не загрузить одновременно.
Хотя зависимые запросы (карттинки и проч.) по идее и так идут параллельно. как там автр наверетел - не знаю, но логично предположить, что в этом режиме число потокой теряет смысл, поскольку речь фактически об автоматизации рутины открытия страниц в браузере.

Всего записей: 1319 | Зарегистр. 17-01-2011 | Отправлено: 01:35 22-01-2020 | Исправлено: Jonmey, 01:39 22-01-2020
Aws



Junior Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
хм, наблюдаю что 10 проектов * 10 потоков - вылетает регулярно.
она случаем где-нить подробных логов не ведет, посомтреть причину вылета?

Всего записей: 123 | Зарегистр. 01-12-2003 | Отправлено: 12:34 23-01-2020
Frantishek



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
еще в программе постоянно есть такая история, наблюдаю которую чуть ли не все последние годы работы ее, и логики в этом не вижу никакой.  
это переменная скорость загрузки, вплоть до полного ее падения. и потом по непонятным причинам возобновление. вот сейчас буквально проверил.
качаются два крупных проекта. в очереди по 80 тыс страниц. пару часов все шуршало на полной, сейчас скорость ноль. Интернет в идеале. скорость проверил. сайты банов не выдали. проверил. что надо? спрашивается. ставлю на паузу, убираю с паузы - зашуршала дальше. как это понимать? причем скорость опять какая то хаотически переменная. и чем больше в работе проект, тем чаще эти непонятные задумчивые замирания. сколько пробовал, такая история все последние десять лет, на любых версиях.

Всего записей: 1222 | Зарегистр. 02-05-2006 | Отправлено: 12:26 29-01-2020
callidus



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
еще в программе постоянно есть такая история, наблюдаю которую чуть ли не все последние годы работы ее, и логики в этом не вижу никакой.  
это переменная скорость загрузки, вплоть до полного ее падения. и потом по непонятным причинам возобновление. вот сейчас буквально проверил.
качаются два крупных проекта. в очереди по 80 тыс страниц. пару часов все шуршало на полной, сейчас скорость ноль. Интернет в идеале. скорость проверил. сайты банов не выдали. проверил. что надо? спрашивается. ставлю на паузу, убираю с паузы - зашуршала дальше. как это понимать? причем скорость опять какая то хаотически переменная. и чем больше в работе проект, тем чаще эти непонятные задумчивые замирания. сколько пробовал, такая история все последние десять лет, на любых версиях.

 
Это заметил, но мне казалось, что проблема вероятно в кукисах или ид пользователя, если по ид детектили, что слишком часто вызываешь странички, то замедлялась или блокировалась загрузка, раньше были такие плагины, не знаю как сейчас, но как вариант ..  
 
Добавлено:

Цитата:
хм, наблюдаю что 10 проектов * 10 потоков - вылетает регулярно.
она случаем где-нить подробных логов не ведет, посомтреть причину вылета?

Это проблемы с управлением памятью, там можно найти целый букет всяких других багов, если хорошенько тестировать нагрузку всех функций. Нужно сделать полный аудит менеджера памяти или фазинг с тестированием адаптировать. Не качайте так много) Я например уже зная некоторые баги, просто не запускаю программу, пока не будет нужных условий =D

Всего записей: 545 | Зарегистр. 04-02-2006 | Отправлено: 12:50 29-01-2020
Frantishek



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
проблема вероятно в кукисах или ид пользователя

и как ее решать? за день ни на грамм не продвинулось. все стоит. бесит уже. и аналогов нормальных нет. у всех остальных логика убогая в интерфейсе.

Всего записей: 1222 | Зарегистр. 02-05-2006 | Отправлено: 19:54 29-01-2020 | Исправлено: Frantishek, 19:55 29-01-2020
Jonmey

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
и как ее решать?

Качайте в один поток с интервалами между запросами. Или пробуйте анонимные мультипрокси.
Если причина в том, что автор сайта контролирует запросы/трафик - эту проблему никак не решить (в смысле быстрого многопоточного скачивания; в лучшем случае - медленно, но верно).
Причем сейчас возможны ситуации, когда проблема кроется не в скачиваемом сайте, а в сторонних сайтах, с которых подтягивается контент имеющийся на страницах (картинки, скрипты, шрифты и т.д.).  
 
Добавлено:

Цитата:
она случаем где-нить подробных логов не ведет, посомтреть причину вылета?

Настройки проекта - Отчеты.

Всего записей: 1319 | Зарегистр. 17-01-2011 | Отправлено: 22:28 29-01-2020 | Исправлено: Jonmey, 22:35 29-01-2020
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53

Компьютерный форум Ru.Board » Компьютеры » Программы » MetaProducts Offline Explorer | Offline Browser


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru