Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » IkonBoard и другие форумы » Ikonboard v.2 » индексация поисковиком форума

Модерирует : Antuan

 Версия для печати • ПодписатьсяДобавить в закладки

Открыть новую тему     Написать ответ в эту тему

Guest

BANNED
Редактировать | Цитировать | Сообщить модератору
У кого-нить яндекс проиндексировал борду? А то у меня чего-то не получается... Вообще ее можно проиндексировать, ведь страницы динамические или это не играет роли?

Отправлено: 01:25 18-07-2001
DimoN



Tech administrator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Да должно все нормально индексироваться.
 
Вон google.com вооюще может целиком странички проиндексированные у себя сохранять

----------
Мы Баним с улыбкой :) ™

Всего записей: 7528 | Зарегистр. 19-04-2001 | Отправлено: 02:49 18-07-2001
Guest

BANNED
Редактировать | Цитировать | Сообщить модератору
Да, индексируется, причем довольно неплохо, вот только долго.

Отправлено: 12:41 27-07-2001
lynx



Advanced lynx
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Хоть тема и старая, но хорошая, потому продолжим
 
 
Итак, Гугл чудно индексирует форумы, Яндекс особо чудно индексирует форумы в зоне .ru и гораздо хуже в отстальных зонах, например *.com.
 
 
Но сейчас не об этом, а о том, как сделать так, чтобы посковый робот, пришедший индексировать ваш форум, проиндексировал там именно те страницы, которые содержат полезную информацию, а не страницы вида: "Сюда можно только зарегистрированным", "Гости не могут пользоваться личным ящиком", "У вас нет доступа в этот форум" и т.п.  
 
Что нужно сделать, чтобы поисковый робот не шел по таким ссылкам?
Нужно запретить ему ходить по ним в файле robots.txt. Это служебный файл, который должен лежать в корне сайта, в нем храниться информация именно для роботов.
Подробнее о синтаксисе и других особенностях этого файла в теме:
 
Robots.txt
 
 
Итак, первая строка файла должна быть такой:
 

Код:
 
User-agent: *
 

 
Это указывает, что нижеперечисленные директивы даются всем роботам, а не кому-то одному.
 
 
Далее с каждой новой строки (сначала строки) ставится одна (только одна, две и более нельзя) директива о том, что запретить к индексации.
 
В нашем случае имеет смысл запретить следующее:
 
 

Код:
 
Disallow: /cgi-bin/ikonboard/profile.cgi #профили пользователей - чтобы не индексировались e-mail адреса
Disallow: /cgi-bin/ikonboard/viewip.cgi  #просмотр IP, все равно выдаст ошибку
Disallow: /cgi-bin/ikonboard/postings.cgi #редактирование  
Disallow: /cgi-bin/ikonboard/ikonfriend.cgi #послать письмо другу
Disallow: /cgi-bin/ikonboard/memberlist.cgi #список участников (если есть и если хотите. Рекомендую).
Disallow: /cgi-bin/ikonboard/messenger.cgi #Личный ящик. Все равно бот не сможет им пользоваться
Disallow: /cgi-bin/ikonboard/misc.cgi #список смайликов - там нечего индексировать, пусть не создает нагрузку на сервер
Disallow: /cgi-bin/ikonboard/whosonline.cgi  #просмотр, кто в он-лайн. Все равно постоянно меняется, смысла нет.
Disallow: /cgi-bin/ikonboard/register.cgi #Регистрация. Он точно укажет направильное мыло, лол
Disallow: /cgi-bin/ikonboard/post.cgi #Все равно бот ничего нам постить не будет
Disallow: /cgi-bin/ikonboard/loginout.cgi #Логиниться он тоже не станет
Disallow: /cgi-bin/ikonboard/newposts.cgi #Просматривать новые посты все равно можно только зарегистрированным
Disallow: /cgi-bin/ikonboard/forums.cgi?forum=3  #Тут номер вашего тестового форума, или приватного
Disallow: /cgi-bin/ikonboard/topic.cgi?forum=3  #Аналогично, топики этого форума тоже нечего индексировать
 

 
 
 
Будьте внимательны. Синтаксис файла robots.txt легкий, но строгий.
Можете проверить, правильно ли вы прописали директивы, воспользовавшись одной из служб он-лайновой проверки robots.txt, собранных в теме:  
FAQ по раскрутке сайтов:
 

Цитата:
 
http://www.ukoln.ac.uk/web-focus/webwatch/services/robots-txt/  
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi  
http://www.sxw.org.uk/computing/robots/check.html  
on-line тестеры синтаксиса robots.txt  
 
 

 

Всего записей: 11712 | Зарегистр. 08-05-2001 | Отправлено: 15:17 22-08-2004
Shurik



Главком. флейма
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
У меня не так давно реально загрузил форум робот MSN (после того, как я сделал распознавание роботов, ибо раньше такого наплыва не было). Он "делился" буквально до 600-700 роботов. В итоге трафик вырос огого как буквально за неск. дней. Пришлось утихомиривать - я его просто напросто отключил, ибо трафика с MSN - нет. Хотя есть возможность проставить, чтобы робот притормозил на NN секунд. Не помню как, но можно.
 
Может, кому-то это полезно будет.
 
а нашими индексируется прекрасно. Однако, еще полезная штука: рамблер хорошо индексирует динамику, если сайт качественный, интересный + участвует в их рейтинге.  
И правда: форум мой рамблер проиндексировал вполне неплохо, хотя начинал он медленно... буквально по 100-150 страниц. Зато другой подпроект - вообще не знает. Он тоже весь из себя динамический, но не зареган в top100. Очень интересно, когда зарегаюсь - как там индексацию будет.

----------
Metal Bands...

Всего записей: 3171 | Зарегистр. 11-06-2001 | Отправлено: 01:41 11-09-2004
eugrus



UNIX-like Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
2lynx - спасибо
Очень ценно!
А Allow: работает?
можно указать страницы которые должны индексироваться/показываться в списке  в первую очередь?
 
ЗЫ: а для кого это работает?

----------
IT-Recht Blog

Всего записей: 5471 | Зарегистр. 17-06-2004 | Отправлено: 18:44 11-09-2004 | Исправлено: eugrus, 18:45 11-09-2004
lynx



Advanced lynx
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Shurik

Цитата:
 Хотя есть возможность проставить, чтобы робот притормозил на NN секунд. Не помню как, но можно.  

 
Моделями Апачевыми я это делаю, вот:
 
Форум В помощь системному администратору » Обзор (карта) форума "В помощь системному администратору"  »  
FAQ по Apache »  
 
Ограничение скорости Apache (Windows, Unix)
Ограничение скорости Apache (Unix)
Ограничение подключений с одного IP в Apache (Windows, Unix)
Apache + mod_throttle: ограничение доступа с одного IP, Unix
 
Вот еще, может, кому надо:
 
Закрытие доступа с определенных IP
Закрытие доступа с определенных IP-2
Запрет доступа с определенных IP - 3
 
Ну, и уж совсем:
Разрешение доступа только из локальной сети
Разрешение закачки файлов только в один поток
Apache: запрещаем скачивать сайт менеджерами закачек
 
 

Цитата:
не зареган в top100. Очень интересно, когда зарегаюсь - как там индексацию будет.

 
Да, у Рамблера это очень зависит, поэтому я не люблю этот поисковик - он нечестный. Он индексирует не интернет, а то, что выгодно ему. И надо думать, прежде чем с ним иметь дело. Думать о том, нужны ли вам посетители с такого поисковика как Рамблер. то есть, например (хотя это сугубо мое мнение), если форум расчитан на компьютерщиков, то с Рамблером можно дела не иметь, ибо инфу он ищет плохо, фильтровано и компьюерщики обычно не пользуются им для поиска. Особенно опытные. Потому вам с него посетители не нужны, ибо это будут новички какие-нибудь.
 
eugrus

Цитата:
А Allow: работает?  

 
Если не запрещено, считается, что разрешено.
 

Цитата:
можно указать страницы которые должны индексироваться/показываться в списке  в первую очередь?  

 
нет. Робот не выполняет указаний вебмастеров. Он старается быть объективным
 

Цитата:
а для кого это работает?

 
В смысле? Для всех поисковых роботов.
 
По остальным вопросам, если таковые возникнут, очень рекомендую тему:
 
robots.txt

Всего записей: 11712 | Зарегистр. 08-05-2001 | Отправлено: 19:50 11-09-2004
eugrus



UNIX-like Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
ещё раз спасибо
ато у меня Яндекс на форуме проиндексировал только поля редактирования

----------
IT-Recht Blog

Всего записей: 5471 | Зарегистр. 17-06-2004 | Отправлено: 18:05 12-09-2004
Shurik



Главком. флейма
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
lynx

Цитата:
Моделями Апачевыми я это делаю, вот:

зачем же такие сложности? robots.txt это умеет.

Цитата:
Да, у Рамблера это очень зависит, поэтому я не люблю этот поисковик - он нечестный.

быть может. Но свой трафик я оттуда имею... Кстати, в процентном соотношении он почти догнал Яндекс. Щас вот Гугл догоняет тоже.

----------
Metal Bands...

Всего записей: 3171 | Зарегистр. 11-06-2001 | Отправлено: 05:30 18-09-2004
lynx



Advanced lynx
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Shurik

Цитата:
Моделями Апачевыми я это делаю, вот:  
 
зачем же такие сложности? robots.txt это умеет.  

 
Ограничивать число запросов файла в единицу времени? Покажи, как.
 

Цитата:
 Щас вот Гугл догоняет тоже.

 
Ой, не смешите меня. Все равно что дворничиху бабу Надю сравнивать с принцессой Дианой.

Всего записей: 11712 | Зарегистр. 08-05-2001 | Отправлено: 16:02 18-09-2004
Marchenk

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Подскажите, пожалуйста, как запретить индексацию ссылки на домашнюю страницу.
 
Для Гугла, я так понимаю, поставить rel="nofollow" в topic.cgi:
 
        $homepage =~ s/http\:\/\///sg;
        if($homepage) {  
           if ($text_menu ne "yes"){    
              $homepagegraphic = qq~<a href="http://$homepage" target="_blank" rel="nofollow"><img src="$imagesurl/images/$homepagepic" border=0></a>~; }
           else {$homepagegraphic = qq~ | <a href="http://$homepage" target="_blank">WWW</a>~; }
        }
        else { undef $homepagegraphic; }
 
А куда поставить <noindex></noindex> для Яндекса?
 
И вообще, как запретить индексацию любой ссылки в топике?

Всего записей: 26 | Зарегистр. 21-06-2003 | Отправлено: 21:57 14-06-2006
Delias



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
что-то делаю неправильно, прописал robots.txt по инструкции, как в примере:

Цитата:
 
...
Disallow: /cgi-bin/ikonboard/profile.cgi
...  

проверяю его работоспособность тут но вылазят ошибки:

Цитата:
Error at line number 2:
Disallow: har.org.ua/cgi-bin/ikonboard/viewip.cgi
No User Agent. A Disallow line must have a User-agent line before it. As records are delimited by newlines, there cannot be newlines between the User-agent and Disallow lines.

Всего записей: 228 | Зарегистр. 11-05-2004 | Отправлено: 15:21 30-12-2007
Delias



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
вопрос снят. разобрался. простите

Всего записей: 228 | Зарегистр. 11-05-2004 | Отправлено: 23:08 30-12-2007
Открыть новую тему     Написать ответ в эту тему

Компьютерный форум Ru.Board » IkonBoard и другие форумы » Ikonboard v.2 » индексация поисковиком форума


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru