Пожалуйста, заполните ваше имя Ваше имя:
Нужен ваш телефон Ваш email или телефон:
Введите текст задания Ваше задание на сайт:

Galleo (главная страница) :: Статьи :: Продвижение сайта :: Знакомтесь - поисковые роботы

Знакомтесь - поисковые роботы

  

Увеличить шрифт  Уменьшить шрифт

В статье речь пойдет не о киборгах, бороздящих просторы Вселенной как, возможно, кто-то подумал, а о поисковых роботах сети интернет. В ней роботы ищут, но не золото инков, а контент.
Знакомтесь - поисковые роботы

Поисковый робот – это… Даль ему не дал определение , почему я же должен давать?
У каждой крупной поисковой системы есть свой робот (или несколько) и поисковая база, куда робот складывает результаты своей работы (индексирования). У поисковиков поменьше роботы не свои и базы скорее тоже.
Что это значит для веб-мастера? А то, что каждый робот имеет собственные алгоритмы индексирования содержимого. И для высоких рейтингов в конкретном поисковике придется учитывать как алгоритмы поиска в базе поисковой машины, так и алгоритмы индексирования роботом. Но это не значит, что надо брать учебник по теории множеств, книгу по теории поиска в неструктурируемой БД :-o , но знать что робот индексирует, что нет, что и как ему запретить или разрешить, как позвать посетить и какой от этого будет результат надо.


ПОИСКОВЫЕ РОБОТЫ РОБОТ ПОИСКОВОЙ СИСТЕМЫ ЯNDEX
Первоисточник – документация с www.yandex.ru
У Яндекса есть несколько роботов, которые представляются по-разному.
- Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот
- Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок
- Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов
- Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы сайтов (favicons)
- Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
- Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке «Найденные слова»
- YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса
IP-адресов, с которых «ходит» робот Яндекса, много, и они могут меняться. Список адресов мы не разглашаем.
Кроме роботов у Яндекса есть несколько агентов-«простукивалок», которые определяют, доступен ли в данный момент сайт или документ, на который стоит ссылка в соответствующем сервисе.
- Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
- Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
- Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.
- Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Яндекс.Новостей. Она формирует отчет для контент-менеджера, который оценивает масштаб проблем и, при необходимости, связывается с партнером.

Робот индексирует:
1. киррилический текст и ссылки в нем (автоматически определяя кодировку) в html-, shtml- (и т.п.) документах;
2. не русскоязычный текст, при наличии письма с просьбой проиндексировать в службу поддержки Яндекса;
3. “flash-документы“ (цитата из faq Яндекса; но по-моему индексируются только ссылки в них);
4. rtf, doc-документы;
5. pdf-документы;
6. фрейм-конструкции.
(*) директивы description и keywords принимаются во внимание Подробнее о meta…

Робот игнорирует:
1. скрипты;
2. текст, заключенный между тегами <noindex></noindex>
3. файлы и папки исключенный из индексации при помощи robots.txt. Подробнее о robots.txt…
4. html-документы с запретом индексирования, настроенным при помощи meta-тегов "Robots". Подробнее о meta-тегах…
5. При обращение робота к серверу, он не отвечает, либо выдает ошибку. Робот уходит, и повторно дойдет до сайта в порядке общего обхода;
6. Согласно лицензии на использование поисковой системы Яндекса, страницы, добавленные через автоматическую систему, не будут включены в базу;
7. Игнорируется директива Revisit-After;
8. когда робот Яндекса обнаруживает несколько зеркал сайта, он выбирает одно из них в качестве основного, остальные из индекса удаляются;
(*) Яндекс не дает гарантии, что страница будет проиндексирована.

Чего нельзя:
“Мы стараемся не индексировать или не ранжировать высоко:
- автоматически сгенерированный (бессмысленный) текст,
- сайты, копирующие информацию с других ресурсов и не создающие оригинального контента или сервиса,
- сайты, представляющие товары или информацию по партнерским программам, но не создающие для пользователя никакой добавленной ценности,
- страницы с невидимым или слабовидимым текстом или ссылками,
- сайты, отдающие разный контент пользователю и роботам поисковых систем («клоакинг»),
- страницы и сайты, единственной целью которых является перенаправление пользователя на другой ресурс, автоматически («редирект») или добровольно (реклама без контента),
- сайты, на которых из-за обилия навигационных меню, новостей, вспомогательной информации, рекламы трудно найти их основное содержание,
- страницы и сайты, ставящие ссылки исключительно для обмана поисковых систем и накачивания релевантности,
- сайты или группы сайтов, интенсивно ссылающиеся друг на друга («линкфармы»),
- ссылки, не являющиеся рекомендацией автора посетить ресурс“.

Особенности:
1. Описание составляется автоматически на основе цитат из текста найденного документа, а заголовок — на основе тега документа title.
2. FavIcon – отображается рядом с заголовком.
3. Пытается автоматически определить географическую принадлежность, используя ip-сервера. Если тебе эта фраза что-нибудь сказала, и у тебя дома не стоит собственный сервак и за ним не работает сисадмин, то ты понял информация о твоей географической принадлежности скорее ложная, чем нет. Географическая принадлежность сайта важна при поиске с ограничением по региону, когда сайты из других регионов не показываются. Возникает проблема, понял какая? Но выход есть!
Ответ с faq Яндекса, цитирую: “…поэтому наиболее простой способ указать географию ресурса — разместить на сайте полный (с индексом, телефонным кодом и именем города) и корректный адрес владельца”.


ПОИСКОВЫЕ РОБОТЫ РОБОТ ПОИСКОВОЙ СИСТЕМЫ RAMBLER
Первоисточник – документация с www.rambler.ru
Робота Рамблера зовут: StackRambler

Робот индексирует:
1. сайты, находящиеся в следующих доменах первого уровня: .ru, .su, .ua, .by, .kz, .kg, .uz, .ge;
2. русскоязычные тексты из доменов .com, .org, .net и других. Сайты не на русском языке из других доменов игнорируются;
3. “flash-документы“ (извлекаются только гиперссылки);
4. rtf, doc, pdf-документы (информация отсутствует);
5. фрейм-конструкции (хотя их применение не рекомендуется в документации).
(*) директивы description и keywords не принимаются во внимание

Робот игнорирует:
1. Все meta-теги, кроме содержащих директиву robots
2. текст, заключенный между тегами <noindex></noindex>
3. файлы и папки исключенный из индексации при помощи robots.txt. Подробнее о robots.txt…
4. html-документы с запретом индексирования, настроенным при помощи meta-тегов "Robots". Подробнее о meta-тегах…
5. При обращение робота к серверу, он не отвечает, либо выдает ошибку.
6. Максимальный размер документа для роботов Рамблера составляет 200 килобайт. Документы большего размера усекаются до указанной величины.
(*) Рамблер не дает гарантии, что страница будет проиндексирована.

Особенности:
HTML-теги (в порядке значимости согласно Rambler’s faq) <title> <h1>...<h4> <b>, <strong>, <u>


ПОИСКОВЫЕ РОБОТЫ РОБОТ ПОИСКОВОЙ СИСТЕМЫ GOOGLE
Первоисточник – документация с www.google.com
Знакомьтесь Googlebot/2.1
Всю информацию о своем боте разработчки выкладывают сюда google.com/bot.html
Не буду перечислять, все что он индексирует, а что нет. Почти все анологично двум предыдущим поисковикам. Лучше сразу перейду к особенностям


ПОИСКОВЫЕ РОБОТЫ РОБОТ ПОИСКОВОЙ СИСТЕМЫ MSN SEARCH
Первоисточник – документация с search.msn.com
Официально робот зовут msnbot/1.0
Всю информацию о своем боте разработчки выкладывают сюда search.msn.com/msnbot.htm
Все на английском (или просто я не догадался где на русском?). Никаких сверхестественных требований или странностей, да и, честно говоря не так уж и популярен, данный поисковик в рунете.


Напоследок список ботов различных поисковых систем:
поисковый робот -- поисковая система

Acoon -- Acoon bot
AnzwersCrawl -- Australian search
Arachnoidea -- EuroSeek search
Araneo -- Apparently spiders
ArchitextSpider -- Excite spider
Atomz -- Atomz bot
CMC -- Computer Music Center bot
ComputingSite -- ComputingSite bot
Cruizer -- Southafrican spider
Datenbank -- Datenbank.de bot
DeepIndex --DeepIndex spider
Die Blinde Kuh -- German Kids spider
DomainsDB.net -- MetaCrawler v.0.9.7b
Esther -- Build database bot
ExplorerSearch -- New Zealand Explorer
Fast-WebCrawler -- AllTheWeb spider
Fido -- PlanetSearch spider
FreeCrawl -- EuroSeek spider
Gaisbot -- GAIS spider
Gigabot -- Gigablast
Googlebot/2.1 -- Google
Gulliver -- Northern Light spider
Gulper Web Bot -- Yuntis web robot
Icorus -- Webmasterworld.com Bot
InfoSeek -- InfoSeek spider
Iron33 -- Verno spider
IsraeliSearch -- Israeli Society
JCrawler -- Vietnamese search
KIT Fireball -- Fireball search
KO Yappo -- Yappo search
Mercator -- Altavista spider
Mewsoft Search Engine -- Newsoft spider
Motor -- CyberCon Search spider
MuscatFerret -- EuroFerret database
MwdSearch -- Finnish search
NEC MeshExplorer -- NETPLAZA search
Nederland Zoek -- Nederland.net search
NetScoop -- NetScoop search
Nutch -- open-source web search
Onet.pl -- SA
Openbot -- Openfind search
Openfind data gatherer -- Openfind bot
Orb Search -- Orb search
RHCS -- RoadHouse search
Scooter -- Altavista spider
Scrubby -- Scrub The Web search
SearchTone -- Developer's site spider
Sidewinder -- InfoSeek spider
Slurp -- Inktomi/Hot Bot search
Rambler.ru -- StackRambler/2.0
SwissSearch -- Swiss search
Tarantula -- Altavista spider
Trek17 -- Altavista search
UdiSearch -- Yahoo spider
UltraSeek -- InfoSeek spider
VWbot -- SearchBC database spider
Vagabondo -- Mainly Dutch spider
Valkyrie -- Japanese ODIN search
Voyager -- Lisa search service
WebCrawler -- Fast
WebCrawler -- WebCrawler search
WebQuest -- Build search
Wired Digital -- Wired Digital spider
YahooSeeker -- Yahoo spider
Yandex/1.01.001 (compatible; Win16; H) и др. Подробнее... -- Yandex bots
Zealbot -- LookSmart spider
ZyBorg -- Wisenut search
aWapClient -- WAP content crawler
ah-ha.com -- ah-ha bot
aport -- Aport.ru bot
appie -- Walhello.com search
ask jeeves -- Ask Jeeves
bumblebee -- Relevare.com bot
crawler3 -- Altavista spider
ia_archiver -- Archive.org bot
lycos -- Lycos.com Bot
msnbot/1.0 -- MSN Search bot
scooter -- Altavista bot
semanticdiscovery -- Semanticdiscovery.com spider
slurp@inktomi -- inktomi
szukacz -- Polish searches
w3index -- Scandinavian web spider
whatuseek -- What You Seek


http://www.prlabs.ru
Добавить в закладки: 

Ускорение просмотра Web-страниц.Ускорение просмотра Web-страниц.
Можно ли ускорить сегодняшний Internet чисто программным способом, не используя более дорогие каналы каналы связи? Можно... Читать дальше...
Как работают поисковые системыКак работают поисковые системы
В Интернет сотни миллионов страниц с информацией. Проблема в том, как найти именно ту информацию, которая вам нужна. ... Читать дальше...
DMOZ:DMOZ:
Если Ваш сайт находится в каталоге Open Directory Project (ODP, DMOZ), то это является очень важным шагом к успешному пр... Читать дальше...
SEO-копирайтинг и его задачиSEO-копирайтинг и его задачи
Как найти и отличить ваш сайт среди многих других? Вы заказали оптимизацию ресурса в поисковых системах, технические спе... Читать дальше...
Скупка картриджей как сервис для системных администраторов

Скупка картриджей как сервис для системных администраторов
... Читать дальше...
Сделать сайт самостоятельно или заказать готовый?

Сделать сайт самостоятельно или заказать готовый?
... Читать дальше...
Федор Иванович Лидваль. Часть 7

Федор Иванович Лидваль. Часть 7
... Читать дальше...


17.05.2010 13:09:35
гнш


01.02.2012 13:35:00
ороролрлрлорлррл
Ваш комментарий к данной статье:
Жирный шрифт Курсив Подчеркнуть Выровнять влево Выровнять по центру Выровнять вправо Выровнять по ширине Вырезать Копировать Вставить Отменить Повторить Список Нумерованный список Верхний индекс Нижний индекс Вставить ссылку  Цвет:
Инфо от наших друзей:




Наши партнёры: