Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Интернет » Web-программирование » Граббер страницы с другого сайта

Модерирует : Cheery

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6

Открыть новую тему     Написать ответ в эту тему

lwz



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Cheery
спасибо.
 
Добавлено:
С обработкой ответа я вроде как разобралсяно, но как симитировать сам запрос через мою форму и получить ответ?

----------
Моё :)

Всего записей: 498 | Зарегистр. 29-04-2002 | Отправлено: 18:27 08-02-2005
lucky



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
lwz
http://forum.ru-board.com/topic.cgi?forum=31&topic=3108#1
только там:
1) PHP
2) про курсы валют, но это легко поправимо

----------
я буйный, но прикидываюсь тихим
ага.... и фигачу свой старый проектег Лунная База

Всего записей: 679 | Зарегистр. 10-04-2002 | Отправлено: 16:31 21-02-2005
tedo

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Здраствуйте!  
У меня такая же почти проблема. У меня есть програмка которая крутит бегущую строку на большой экран телевизора через комп. Прокручиваемую инфу он берет из любого текстового файла...... Всю инфу из интернета надо вбивать вручную((((((((( Ребята!!!!Нужен скрипт который бы дергал контент с сайта www.livescore.com Там нужны поля КОМАНДЫ ВРЕМЯ ИГРЫ и СЧЕТ  
Можно ли такое сделать.....  
 
С уважением Тедо

Всего записей: 3 | Зарегистр. 01-06-2005 | Отправлено: 17:22 01-06-2005
exMIB



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
tedo

Цитата:
Здраствуйте!  
У меня такая же почти проблема. У меня есть програмка которая крутит бегущую строку на большой экран телевизора через комп. Прокручиваемую инфу он берет из любого текстового файла...... Всю инфу из интернета надо вбивать вручную((((((((( Ребята!!!!Нужен скрипт который бы дергал контент с сайта www.livescore.com Там нужны поля КОМАНДЫ ВРЕМЯ ИГРЫ и СЧЕТ  
Можно ли такое сделать.....  
   
С уважением Тедо

Программу в обмен на способ выдергивания.

Всего записей: 3337 | Зарегистр. 27-09-2001 | Отправлено: 18:47 01-06-2005
tedo

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Нет проблем!!! Поделимся по братски!!!! Ты можешь скриптик написать и объяснить как он работает.....

Всего записей: 3 | Зарегистр. 01-06-2005 | Отправлено: 11:15 02-06-2005
exMIB



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Вот нашел код в теме http://forum.ru-board.com/topic.cgi?forum=28&topic=0655#1

Цитата:
$content= fread(fopen("http://www.url.here", "r"), 100000);  
if ($content)  
{  
$start= strpos($content, "откуда режем - уникальный хтмл-код!");  
$finish= strpos($content, "докуда режем - уникальный хтмл-код!");  
$length= $finish-$start;  
$code=Substr($content, $start, $length);  
}  
echo $code;  
 

 
Не проверял ещё.
Мне нужно это ещё в файл загнать, а потом через SSI вставить.
Как в файл HTML загнать ?

Всего записей: 3337 | Зарегистр. 27-09-2001 | Отправлено: 00:36 25-11-2005 | Исправлено: exMIB, 00:37 25-11-2005
phpcoder

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Написал скрипт на PHP который грабит страницы с другого сайта.
Скрипт работает с браузера.
Алгоритм работы таков: В базе держу урлы страниц, беру урлы по одному, граблю, выставляю в базу флаг что урл сграблен, хедером посылаю в броузер рефреш. Далее беру урл у которого флага нет и по кругу.
Теперь я хочу изобразить нечто такое, чтобы это работало с CRONTAB.
В цикл загонять урлы и грабить их не хочется.
И ещё интересна возможность грабить одновременно несколько урлов.

Всего записей: 194 | Зарегистр. 23-05-2004 | Отправлено: 17:50 26-11-2005
exMIB



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
phpcoder

Цитата:
Написал скрипт на PHP который грабит страницы с другого сайта.  
Скрипт работает с браузера.  
Алгоритм работы таков: В базе держу урлы страниц, беру урлы по одному, граблю, выставляю в базу флаг что урл сграблен, хедером посылаю в броузер рефреш. Далее беру урл у которого флага нет и по кругу.  
Теперь я хочу изобразить нечто такое, чтобы это работало с CRONTAB.  
В цикл загонять урлы и грабить их не хочется.  
И ещё интересна возможность грабить одновременно несколько урлов.  

А кодом поделишься ?

Всего записей: 3337 | Зарегистр. 27-09-2001 | Отправлено: 21:49 26-11-2005
phpcoder

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А кодом поделишься ?

 
$DbHost = "";
$DbUserName = "";
$DbPswd = "";
$DbName = "";
$Table = "";
 
@mysql_pconnect($DbHost, $DbUserName, $DbPswd);
@mysql_select_db($DbName);
@mysql_query("set CHARACTER SET cp1251_cp1251");
 
$next = mysql_result(mysql_query("SELECT MIN(`ID`)  FROM `".$Table."` WHERE `flag`=0 LIMIT 0, 1"), 0);
$url = mysql_result(mysql_query("SELECT `URL`  FROM `".$Table."` WHERE `ID`=".$next), 0);
 
if($next == 0){
    exit();
}
mysql_query("UPDATE `".$Table."` SET `flag`=1 WHERE `ID`=".$next);
 
$str = implode("", file($url));
$str = str_replace("\r\n", "", $str);
$str = str_replace("\n", "", $str);
 
//===================================================//
//       обрабатываем скачанную страницу       //
//===================================================//
 
mysql_close();

Всего записей: 194 | Зарегистр. 23-05-2004 | Отправлено: 11:00 27-11-2005 | Исправлено: phpcoder, 11:03 27-11-2005
exMIB



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
phpcoder
А понял, а формат таблицы какой, но как с веб загнать адреса в базу ?

Всего записей: 3337 | Зарегистр. 27-09-2001 | Отправлено: 17:04 27-11-2005 | Исправлено: exMIB, 17:11 27-11-2005
phpcoder

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Например, грабим урл hxxp://domain.com, который содержит урлы страниц которые нам надо  в дальнейшем сграбить, эти урлы пихаем в базу. Структура таблицы примерно такая
ID int,
URL text,
FLAG int.
Что дальше я уже писал.
 
P.S. И все же было бы интересно, есть ли ответ на мой вопрос, или какое-нибудь решение, я просто даже не знаю в какую сторону смотреть.

Всего записей: 194 | Зарегистр. 23-05-2004 | Отправлено: 22:51 28-11-2005 | Исправлено: phpcoder, 22:56 28-11-2005
exMIB



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
phpcoder

Цитата:
Например, грабим урл hxxp://domain.com, который содержит урлы страниц которые нам надо  в дальнейшем сграбить, эти урлы пихаем в базу. Структура таблицы примерно такая  
ID int,  
URL text,  
FLAG int.  
Что дальше я уже писал.  

Понятно, т.е. у тебя база сама пополнется из HTML страницы со списком ссылок.
 
Добавлено:

Цитата:
P.S. И все же было бы интересно, есть ли ответ на мой вопрос, или какое-нибудь решение, я просто даже не знаю в какую сторону смотреть.

Чем смогу помогу:
 
Использование CRON и команды crontab
http://www.codenet.ru/webmast/php/cron.php
 
http://lafox.net/support/index.php?showtopic=6677
 
Добавлено:
Кто к нам с хотлинком придет ...  
http://www.rusawm.com/articles.php?id=86

Всего записей: 3337 | Зарегистр. 27-09-2001 | Отправлено: 23:35 28-11-2005
Delphi6



BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
phpcoder
Я уже решал данную проблему на заказ. Только в моем случае я определял с кем треидит данный сидж. У вас возникнут проблемы с перегрузкой сервера и с timout-ом вашего скрипта, по этой причине рекомендую вам разобрать следующие веши:
1) Crontab без него никуда, это типа шедула только под никсы.
2) Симуляция работы скрипта в много потоковом режиме.
3) Для реализации выше сказанного вам понадобиться разобраться как запускать внешние скрипты из вашего скрипта (*nix command line + exec())
Не уверен что у меня остались все исходники, но если возникнуть вопросы пишите на мыло administrator@gesoft.org, чем могу помогу
П.С. В моем случае мне каждую ссылку приходилось проверять до 100 раз, так как каждый раз редирект происходил на разные сайты.

Всего записей: 2631 | Зарегистр. 06-07-2004 | Отправлено: 04:19 29-11-2005
phpcoder

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
exMIB, спасибо за полезности, будем изучать.
Delphi6, кронтабом чуть-чуть пользовался.
Интересна тема симуляции в многопотоковом режиме. В PHP это вообще возможно?
И ещё, побольше бы инфы о том "..как запускать внешние скрипты из вашего скрипта..". Т.к. в *nix comand line я полный ноль!

Всего записей: 194 | Зарегистр. 23-05-2004 | Отправлено: 19:14 01-12-2005 | Исправлено: phpcoder, 19:15 01-12-2005
Delphi6



BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
phpcoder

Цитата:
Интересна тема симуляции в многопотоковом режиме. В PHP это вообще возможно?

Реально Для примера можно взять последний проект proxy-list.org так каждые 10 минут проверяются 590 прокси, проверять все из одно скрипта невозможно, так как таим аут у каждого прокси 30 секунд, ну вод и подсчитайте сколько времени нужно на все это? Вот и запускаю каждые 10 минут 590 потоков (скриптов одновременно), конечно сервер подвисает, доступ к сайту в это время на 30 секунд прерывается, так как это типа локальной ддос атаки
Вот пример как из командной строки запускать:

Код:
            for ($i=0; $i<590; $i++) {
                $command = "/usr/bin/php ${_SERVER['SCRIPT_FILENAME']} op=myoperation id=$variable 2>/dev/null >&- <&- >/dev/null &";
                exec($command);
            }

Что в конце "2>/dev/null >&- <&- >/dev/null &" даже не спрашивай Долго объяснять (на форуме год назад или пол обсуждал эту тему ) в подробностях, но это для того что бы результат работы не возвращался, другими словами работа в саилент режиме.
Результат работы каждого "потока" (скрипта) записывается в базу, и потом обрабатывается Можно конечно уже обработанную информацию загонять в базу

Всего записей: 2631 | Зарегистр. 06-07-2004 | Отправлено: 02:42 02-12-2005 | Исправлено: Delphi6, 02:42 02-12-2005
MKostas

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Установил себе manlix_site_grabber_v1_0, настроил все... И инклуд в код стартовой страницы поместил и настроил admin.php, но при загрузке страницы браузером выдает: "Grabber: не удаётся установить соединение с хостом soccerstand.com, через 8080 порт."
В чем может заключаться ошибка?

Всего записей: 4 | Зарегистр. 13-02-2006 | Отправлено: 02:14 07-03-2006 | Исправлено: MKostas, 02:14 07-03-2006
Brodyaga



Silver Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
INI fopen_wrappers
 
Добавлено:
Тем более редирект идет на hххp://www1.soccerstand.com/

----------
Damn Metal

Всего записей: 2713 | Зарегистр. 07-01-2006 | Отправлено: 10:42 07-03-2006
v7r



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Господа! Очень интересная тема! Мне бы хотелось знать, может ли описанная здесь конструкция на _Perl_:
- отправлять данные методом post;
- поддерживать cookie;
 
Насчет первого я почти не сомневаюсь, остальное...
Объясню, зачем надо: зайти на сайт, набрать логин/пароль, принять cookie и скачать оттуда контент. Пример: так работают большинство почтовых ящиков через web.
 
И еще: как устроены сессии? В смысле, когда заходишь на сайт, логинишься, выдают session id - длинное hex число, - я так понял, оно уникально. Сессия держится определенное время. Зная sid можно зайти на сайт без пары логин/пароль (если сайт не поддерживает cookie). Если что-то не так, поправьте.

Всего записей: 148 | Зарегистр. 24-11-2004 | Отправлено: 18:42 07-03-2006
Brodyaga



Silver Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору

Цитата:
 
И еще: как устроены сессии? В смысле, когда заходишь на сайт, логинишься, выдают session id - длинное hex число, - я так понял, оно уникально. Сессия держится определенное время. Зная sid можно зайти на сайт без пары логин/пароль (если сайт не поддерживает cookie). Если что-то не так, поправьте.
 

Определенное время-чаще всего 14 минут после неактивности.
Это не hex число, это хеш, 32 битный.
Зная сид можно зайти только в том случае, если скрипт использует сессии и сессия настоящего пользователя ещё не истекла.
Это серверная часть.
 
Добавлено:

Цитата:
- отправлять данные методом post;  
- поддерживать cookie;  

Достатчно поискать на search.cpan.org по слову LWP и вывалится модуль, предоставляющий отличные возможности для этого и многого другого.

----------
Damn Metal

Всего записей: 2713 | Зарегистр. 07-01-2006 | Отправлено: 18:56 07-03-2006
MKostas

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
INI fopen_wrappers  
 
Добавлено:  
Тем более редирект идет на hххp://www1.soccerstand.com/
 

То же самое выдает и если я граблю weather.bigmir.net... Почему?

Всего записей: 4 | Зарегистр. 13-02-2006 | Отправлено: 02:50 08-03-2006
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6

Компьютерный форум Ru.Board » Интернет » Web-программирование » Граббер страницы с другого сайта


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru