Оффлайн-браузер по тегам :: Программы :: Компьютерный форум Ru.Board

Перейти из форума на сайт.

Новости • Файловые архивы
Поиск • Активные темы • Топ лист
Правила • Кто в on-line?

Вход • Забыли пароль? • Первый раз на этом сайте? • Регистрация

Компьютерный форум Ru.Board » Компьютеры » Программы » Оффлайн-браузер по тегам

Модерирует : gyra, Maz
Версия для печати • Подписаться • Добавить в закладки

Открыть новую тему

Написать ответ в эту тему

Newbie

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Подскажите пожалуйста есть ли в природе

качалки, которые умеют закачивать веб-странички по тегам. Поясню.
Например сама страница весит 100 кило, но большую половину из этого мне не надо, а всего лишь 10-20%. Я качаю одну страничку (все они однотипные) - нахожу уникальные тэги (начало и конец - например <div> и </div>) и хочу скачать только тот кусочек, который стоит между этими тэгами. Но чем скачать - проблема.
Подскажите, пожалуйста средство.

Всего записей: 20 | Зарегистр. 16-06-2007 | Отправлено: 22:21 21-06-2007

Cheery

.:МордератоР:.

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

foka_bs

Цитата:

и хочу скачать только тот кусочек, который стоит между этими тэгами

страницу все равно скачать придется.. по крайней мере до </div>

----------
Away/DND

Всего записей: 52737 | Зарегистр. 04-04-2002 | Отправлено: 22:23 21-06-2007

foka_bs Newbie	Редактировать \| Профиль \| Сообщение \| Цитировать \| Сообщить модератору Пускай хотя бы до </div>. То что интересует лежит как раз по-середине. Но всё таки чем же ?
	Всего записей: 20 \| Зарегистр. 16-06-2007 \| Отправлено: 17:39 22-06-2007

pom205

BANNED

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

WatzNew и Curl, если не ошибаюсь, такое могут.

Добавлено:
Wget точно может скачивать от одного заданного байта и до другого заданного байта.

Добавлено:
Но по байтам, а не по тегам! Мысли логически, как определить. где начнётся тэг <div>, не закачивая всё до него? А вот прекратить скачивание при достижении некого заданного тэга </div> - вполне возможный алгоритм.

Всего записей: 555 | Зарегистр. 03-06-2006 | Отправлено: 17:45 22-06-2007

Newbie

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

WatzNew может. Согласен. Но только показывать. Да и пакетом качать около 1000 или 2000 страничек, увы это сколько времени надо

Плюс на каждую страничку дать линк. Наверное это не вариант.
Я немного поправлюсь - надо качать пакетом. Один файл весит около 100 кило. После черновой обработки не больше 20-и. Разница ощутима, тем более на диалапе

Что такое Curl - ссылку если можно.

Побайтно не вариант, но попробую Wget. но тут тоже надо задавать ссылки ( а списка нету).
Мне кажется по тэгам лучше и надёжнее.

Может ещё какие есть варианты

Всего записей: 20 | Зарегистр. 16-06-2007 | Отправлено: 21:38 22-06-2007

pom205

BANNED

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Curl

cURL is the name of the project. The name is a play on 'Client for URLs',
originally with URL spelled in uppercase to make it obvious it deals with
URLs. The fact it can also be pronounced 'see URL' also helped, it works as
an abbreviation for "Client URL Request Library" or why not the recursive
version: "Curl URL Request Library".

http://curl.haxx.se

Цитата:

WatzNew может. Согласен. Но только показывать.

А я о чём?

Добавлено:
Где то я читал, что WatzNew может останавливать загрузку при досстижении заданного тэга.

Всего записей: 555 | Зарегистр. 03-06-2006 | Отправлено: 22:23 22-06-2007 | Исправлено: pom205, 22:31 22-06-2007

Newbie

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

WatZNew только что попробовал. Сразу же снёс. shtml-не берёт

Wget - хоть у него и есть функция "Квота", но она почему-то у меня не работает - всё равно качает целый файл, или надо где-то ещё копать.

Цитата:

По тэгам? Абсурд.

Почему же абсурд WatzNew - пример.
Пробую HTTrack, но он в настройке сложноват.

Неужели больше ничего нету

, кроме этих двух прог ?
А кто ещё умеет побайтно качать ?

Всего записей: 20 | Зарегистр. 16-06-2007 | Отправлено: 22:37 22-06-2007

pom205

BANNED

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Для твоих обст-в смотри ветку о сжатии трафика.

Добавлено:
Очень интересен webworper перед адресом, с которого хочешь качать поставь http://webwarper.net/ww/~s/
Т. е. для данной странички это будет
http://webwarper.net/ww/~s/forum.ru-board.com/topic.cgi?forum=5%26topic=23847%23lt

Получишь странички уже очищенными с помощью этого сервиса.

Всего записей: 555 | Зарегистр. 03-06-2006 | Отправлено: 22:40 22-06-2007

Newbie

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Так надо же качать много !!! Т.е. я задаю только http://www.moysait /soft/ и всё. Дальше должна работать качалка. Вообще сейчас качаю Offline Explorer'ом. А как это сделать оптимизаторами траффика ? Да и оптимизация будет небольшая 20-30%, а по времени тоже самое

Как я понял вариантов больше нету ?

P.S. Curl - командная строка, как Вы представляете более 100 с лишним ссылок да ещё и с заданными параметрами набирать в командной строке ? Не пойдёт - не удобно - вчерашний день.

Добавлено:
Вообщем ничего я не нашёл. Но спасибо pom205 за наводку.
Поставил Toonel http://www.toonel.net и закачка фактически в 2-а раза ускорилась, а трафик жмёт на 40%-50% - почти то что надо.
А WebWarper мне не нравится. Так у него привязка к ослику, которым я совершенно не пользуюсь.

Всего записей: 20 | Зарегистр. 16-06-2007 | Отправлено: 23:50 22-06-2007

pom205 BANNED	Редактировать \| Профиль \| Сообщение \| Цитировать \| Сообщить модератору Задай начальный адрес для загрузки http://webwarper.net/ww/~s/www.moysait/
	Всего записей: 555 \| Зарегистр. 03-06-2006 \| Отправлено: 01:33 23-06-2007

A_OLENI_LUCHSHE

Advanced Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:

Например сама страница весит 100 кило, но большую половину из этого мне не надо, а всего лишь 10-20%. Я качаю одну страничку (все они однотипные) - нахожу уникальные тэги (начало и конец - например <div> и </div>) и хочу скачать только тот кусочек, который стоит между этими тэгами. Но чем скачать - проблема.

Есть вариант, но это будет не совсем программа. Короче говоря всем вашим условиям удовлетворяет скрипт NewsGrabber - он как раз может текст выдирать между тегами. Поставить скрипт на хост, настроить и выдирать им - а уже результаты с этого хоста сливать любым оффлайновым браузером. А чтобы хост сам себя окупал повесьте на этот сайт Бегуна или AdSense для буржунета - еще и денег соберете.
Или не обязательно на хост - если канал у вас нормальный(ну не диалап), поднимите на своем компьютере на Денвере этот скрипт - и получится у вас оффлайновый браузер с требуемой вами функциональностью.

Всего записей: 986 | Зарегистр. 05-01-2004 | Отправлено: 06:10 23-06-2007 | Исправлено: A_OLENI_LUCHSHE, 06:14 23-06-2007

Newbie

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:

скрипт NewsGrabber

Интересная штучка

А под Апач с дома он потянет ?

Всего записей: 20 | Зарегистр. 16-06-2007 | Отправлено: 13:09 23-06-2007

A_OLENI_LUCHSHE

Advanced Member

Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:

А под Апач с дома он потянет ?

Да.

Всего записей: 986 | Зарегистр. 05-01-2004 | Отправлено: 13:23 23-06-2007

Открыть новую тему

Написать ответ в эту тему

Компьютерный форум Ru.Board » Компьютеры » Программы » Оффлайн-браузер по тегам

Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC