Jonmey
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору ChernavinOleg Мне вот интересен такой, я бы сказал застарелый момент OE (по крайней мере, я о нем знаю с момента начала использования - то есть, больше 15 лет назад). Не скажу за все сайты, но периодически (случайно, методом тыка) сталкиваюсь с ситуацией, когда OE не скачивает некоторые совершенно однотипные страницы. Причем речь идет не о навороченных говнокодом современных модных страниц, а вполне себе прозаических. Вот скачивал намедни словарь (точнее, один из) https://www.grand-dictionnaire-latin.com/dictionnaire-latin-francais.php?pg=1 Простой перебор номеров с шагом 49 (+ сингл для полноты) https://www.grand-dictionnaire-latin.com/dictionnaire-latin-francais.php?pg={:1..76408|49} SingleURL=https://www.grand-dictionnaire-latin.com/dictionnaire-latin-francais.php?pg=76408 Этот набор содержит исчерпывающий список URL на слова (76455 шт). Ограничения на уровни нет, но есть фильтр на страницы, которые включать (кроме базовых) https://www.grand-dictionnaire-latin.com/dictionnaire-latin-francais.php?lemma=* По расчетам, должно скачаться 78022 файла (html) = 1567 базовые + 76455 слова (согласно разрешенным для скачивания URL). Очевидно, задача не отличается сложностью. Но OE, тем не менее, с ходу не смог скачать все страницы, причем даже базовые. Мне пришлось вручную просто добавить весь список в явном виде. В данном случае нет никаких ограничений на скачивание с сервера (я не заметил таковых). Аналогичная картина и с разрешенными для скачивания URL - часть из них ОЕ не скачал по неизвестной причине (то есть, отсутствоали случайные страницы, ссылки на которые заведомо присутствовали в успешно скачанных базовых страницах). Если бы список всех URL не был легко просчитываем (я составил вручную весь список из 78022 URL и контролировал его скачивание, поскольку полнота скачивания была принципиальна для меня - речь о словаре). В противном случае, я бы даже не догадался, что ~5% (может меньше, но в данном случае это не имеет значения, поскольку важен сам факт) страниц не скачаны, а OE никак об этом не информирует. Это свежий пример. Но как я сказал - это застарелая болезнь OE, поскольку столкнулся с этим на заре использования программы. И как с ней бороться - не имею малейшего понятия. Дело не в том, что OE не может чего-то там скачать. Это полбеды. Главная проблема в том, что юзер даже не знает, что задание выполнено не полностью, хотя OE радостно рапортует об обратном. Была бы, например, закладка (наряду с Map, Levels и проч.) типа Problems, на которой по результатам работы был бы представлен список страниц/URL, которые не скачались, на которые сервер дал ответ отличный от 200, которые скачались, но вызывают подозрение (маленький размер, отсутствие каких-то элементов и тд) и прочие проблемы, тогда юзер хотя бы мог узнать о возможной неполноте скачивания. А то странная ситуация - в программе присутствует опция "Проверять всевозможные подкаталоги" (то есть скачивать все, что возможно, даже, если этого в явном виде нет в задании), тогда как у программы имеются проблемы со скачиванием явно заданных на скачивание страниц. В данном случае все базовые URL явно заданы и программа точно знала их число. Причем, скачав их, она также точно знала минимальное число URL первого уровня (76455) (разумеется я не учитываю вспомогательные файлы, типа css, js и проч., но они и не сильно важны в данном случае). При этом в настройках разрешено 20 раз пытаться скачать при неудаче. Как я уже сказал, это давно замеченная мною беда OE (пропуск страниц, по неизвестным причинам, как минимум, на некоторых сайтах). И лично для меня, она перевешивает все остальные недостатки OE вместе взятые. В этом смысле, бывают ситуации когда мне принципиально важно скачать все имеющиеся страницы, но я знаю лишь примерный шаблон (допустим страницы, номерные, без четкой периодичности и известен лишь примерный диапазон номеров). В таком случае, я предпочитаю использовать старинный FlashGet давая ему пакетное задание на перебор, порою, десятков, а то и сотен тысяч возможных URL, нежели использовать OE. Именно вследствие описанной выше проблемы - случайный пропуск URL (не исключаю, что он и пытается их скачать, но почему-то бросает). FlashGet же (как впрочем и некоторые другие), отличается "цепкостью" по отношению к URL - тупо пытается скачать согласно настройкам, уж если он их бросает, то об этом хотя бы наглядно видно. То есть, он конечно может (по каким-то причинам) не скачать файл, но это случается несоизмеримо реже и по крайней мере, это хоть как-то контролируемо. Хотя на мой взгляд, разницы между OE и FlashGet в подобных заданиях быть не должно, как минимум. Но на практике это не так, в пользу FlashGet. К сожалению. | Всего записей: 1377 | Зарегистр. 17-01-2011 | Отправлено: 22:36 06-07-2020 | Исправлено: Jonmey, 23:07 06-07-2020 |
|