Знакомтесь - поисковые роботы

Поисковый робот – это… Даль ему не дал определение , почему я же должен давать?
У каждой крупной поисковой системы есть свой робот (или несколько) и поисковая база, куда робот складывает результаты своей работы (индексирования). У поисковиков поменьше роботы не свои и базы скорее тоже.
Что это значит для веб-мастера? А то, что каждый робот имеет собственные алгоритмы индексирования содержимого. И для высоких рейтингов в конкретном поисковике придется учитывать как алгоритмы поиска в базе поисковой машины, так и алгоритмы индексирования роботом. Но это не значит, что надо брать учебник по теории множеств, книгу по теории поиска в неструктурируемой БД :-o , но знать что робот индексирует, что нет, что и как ему запретить или разрешить, как позвать посетить и какой от этого будет результат надо.

ПОИСКОВЫЕ РОБОТЫ РОБОТ ПОИСКОВОЙ СИСТЕМЫ ЯNDEX
Первоисточник – документация с www.yandex.ru
У Яндекса есть несколько роботов, которые представляются по-разному.
- Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот
- Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок
- Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов
- Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы сайтов (favicons)
- Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
- Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке «Найденные слова»
- YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса
IP-адресов, с которых «ходит» робот Яндекса, много, и они могут меняться. Список адресов мы не разглашаем.
Кроме роботов у Яндекса есть несколько агентов-«простукивалок», которые определяют, доступен ли в данный момент сайт или документ, на который стоит ссылка в соответствующем сервисе.
- Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
- Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
- Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.
- Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Яндекс.Новостей. Она формирует отчет для контент-менеджера, который оценивает масштаб проблем и, при необходимости, связывается с партнером.

Робот индексирует:
1. киррилический текст и ссылки в нем (автоматически определяя кодировку) в html-, shtml- (и т.п.) документах;
2. не русскоязычный текст, при наличии письма с просьбой проиндексировать в службу поддержки Яндекса;
3. “flash-документы“ (цитата из faq Яндекса; но по-моему индексируются только ссылки в них);
4. rtf, doc-документы;
5. pdf-документы;
6. фрейм-конструкции.
(*) директивы description и keywords принимаются во внимание Подробнее о meta…

Робот игнорирует:
1. скрипты;
2. текст, заключенный между тегами <noindex></noindex>
3. файлы и папки исключенный из индексации при помощи robots.txt. Подробнее о robots.txt…
4. html-документы с запретом индексирования, настроенным при помощи meta-тегов "Robots". Подробнее о meta-тегах…
5. При обращение робота к серверу, он не отвечает, либо выдает ошибку. Робот уходит, и повторно дойдет до сайта в порядке общего обхода;
6. Согласно лицензии на использование поисковой системы Яндекса, страницы, добавленные через автоматическую систему, не будут включены в базу;
7. Игнорируется директива Revisit-After;
8. когда робот Яндекса обнаруживает несколько зеркал сайта, он выбирает одно из них в качестве основного, остальные из индекса удаляются;
(*) Яндекс не дает гарантии, что страница будет проиндексирована.

Чего нельзя:
“Мы стараемся не индексировать или не ранжировать высоко:
- автоматически сгенерированный (бессмысленный) текст,
- сайты, копирующие информацию с других ресурсов и не создающие оригинального контента или сервиса,
- сайты, представляющие товары или информацию по партнерским программам, но не создающие для пользователя никакой добавленной ценности,
- страницы с невидимым или слабовидимым текстом или ссылками,
- сайты, отдающие разный контент пользователю и роботам поисковых систем («клоакинг»),
- страницы и сайты, единственной целью которых является перенаправление пользователя на другой ресурс, автоматически («редирект») или добровольно (реклама без контента),
- сайты, на которых из-за обилия навигационных меню, новостей, вспомогательной информации, рекламы трудно найти их основное содержание,
- страницы и сайты, ставящие ссылки исключительно для обмана поисковых систем и накачивания релевантности,
- сайты или группы сайтов, интенсивно ссылающиеся друг на друга («линкфармы»),
- ссылки, не являющиеся рекомендацией автора посетить ресурс“.

Особенности:
1. Описание составляется автоматически на основе цитат из текста найденного документа, а заголовок — на основе тега документа title.
2. FavIcon – отображается рядом с заголовком.
3. Пытается автоматически определить географическую принадлежность, используя ip-сервера. Если тебе эта фраза что-нибудь сказала, и у тебя дома не стоит собственный сервак и за ним не работает сисадмин, то ты понял информация о твоей географической принадлежности скорее ложная, чем нет. Географическая принадлежность сайта важна при поиске с ограничением по региону, когда сайты из других регионов не показываются. Возникает проблема, понял какая? Но выход есть!
Ответ с faq Яндекса, цитирую: “…поэтому наиболее простой способ указать географию ресурса — разместить на сайте полный (с индексом, телефонным кодом и именем города) и корректный адрес владельца”.

ПОИСКОВЫЕ РОБОТЫ РОБОТ ПОИСКОВОЙ СИСТЕМЫ RAMBLER
Первоисточник – документация с www.rambler.ru
Робота Рамблера зовут: StackRambler

Робот индексирует:
1. сайты, находящиеся в следующих доменах первого уровня: .ru, .su, .ua, .by, .kz, .kg, .uz, .ge;
2. русскоязычные тексты из доменов .com, .org, .net и других. Сайты не на русском языке из других доменов игнорируются;
3. “flash-документы“ (извлекаются только гиперссылки);
4. rtf, doc, pdf-документы (информация отсутствует);
5. фрейм-конструкции (хотя их применение не рекомендуется в документации).
(*) директивы description и keywords не принимаются во внимание

Робот игнорирует:
1. Все meta-теги, кроме содержащих директиву robots
2. текст, заключенный между тегами <noindex></noindex>
3. файлы и папки исключенный из индексации при помощи robots.txt. Подробнее о robots.txt…
4. html-документы с запретом индексирования, настроенным при помощи meta-тегов "Robots". Подробнее о meta-тегах…
5. При обращение робота к серверу, он не отвечает, либо выдает ошибку.
6. Максимальный размер документа для роботов Рамблера составляет 200 килобайт. Документы большего размера усекаются до указанной величины.
(*) Рамблер не дает гарантии, что страница будет проиндексирована.

Особенности:
HTML-теги (в порядке значимости согласно Rambler’s faq) <title> <h1>...<h4> <b>, <strong>, <u>

ПОИСКОВЫЕ РОБОТЫ РОБОТ ПОИСКОВОЙ СИСТЕМЫ GOOGLE
Первоисточник – документация с www.google.com
Знакомьтесь Googlebot/2.1
Всю информацию о своем боте разработчки выкладывают сюда google.com/bot.html
Не буду перечислять, все что он индексирует, а что нет. Почти все анологично двум предыдущим поисковикам. Лучше сразу перейду к особенностям

ПОИСКОВЫЕ РОБОТЫ РОБОТ ПОИСКОВОЙ СИСТЕМЫ MSN SEARCH
Первоисточник – документация с search.msn.com
Официально робот зовут msnbot/1.0
Всю информацию о своем боте разработчки выкладывают сюда search.msn.com/msnbot.htm
Все на английском (или просто я не догадался где на русском?). Никаких сверхестественных требований или странностей, да и, честно говоря не так уж и популярен, данный поисковик в рунете.

Напоследок список ботов различных поисковых систем:
поисковый робот -- поисковая система

Acoon -- Acoon bot
AnzwersCrawl -- Australian search
Arachnoidea -- EuroSeek search
Araneo -- Apparently spiders
ArchitextSpider -- Excite spider
Atomz -- Atomz bot
CMC -- Computer Music Center bot
ComputingSite -- ComputingSite bot
Cruizer -- Southafrican spider
Datenbank -- Datenbank.de bot
DeepIndex --DeepIndex spider
Die Blinde Kuh -- German Kids spider
DomainsDB.net -- MetaCrawler v.0.9.7b
Esther -- Build database bot
ExplorerSearch -- New Zealand Explorer
Fast-WebCrawler -- AllTheWeb spider
Fido -- PlanetSearch spider
FreeCrawl -- EuroSeek spider
Gaisbot -- GAIS spider
Gigabot -- Gigablast
Googlebot/2.1 -- Google
Gulliver -- Northern Light spider
Gulper Web Bot -- Yuntis web robot
Icorus -- Webmasterworld.com Bot
InfoSeek -- InfoSeek spider
Iron33 -- Verno spider
IsraeliSearch -- Israeli Society
JCrawler -- Vietnamese search
KIT Fireball -- Fireball search
KO Yappo -- Yappo search
Mercator -- Altavista spider
Mewsoft Search Engine -- Newsoft spider
Motor -- CyberCon Search spider
MuscatFerret -- EuroFerret database
MwdSearch -- Finnish search
NEC MeshExplorer -- NETPLAZA search
Nederland Zoek -- Nederland.net search
NetScoop -- NetScoop search
Nutch -- open-source web search
Onet.pl -- SA
Openbot -- Openfind search
Openfind data gatherer -- Openfind bot
Orb Search -- Orb search
RHCS -- RoadHouse search
Scooter -- Altavista spider
Scrubby -- Scrub The Web search
SearchTone -- Developer's site spider
Sidewinder -- InfoSeek spider
Slurp -- Inktomi/Hot Bot search
Rambler.ru -- StackRambler/2.0
SwissSearch -- Swiss search
Tarantula -- Altavista spider
Trek17 -- Altavista search
UdiSearch -- Yahoo spider
UltraSeek -- InfoSeek spider
VWbot -- SearchBC database spider
Vagabondo -- Mainly Dutch spider
Valkyrie -- Japanese ODIN search
Voyager -- Lisa search service
WebCrawler -- Fast
WebCrawler -- WebCrawler search
WebQuest -- Build search
Wired Digital -- Wired Digital spider
YahooSeeker -- Yahoo spider
Yandex/1.01.001 (compatible; Win16; H) и др. Подробнее... -- Yandex bots
Zealbot -- LookSmart spider
ZyBorg -- Wisenut search
aWapClient -- WAP content crawler
ah-ha.com -- ah-ha bot
aport -- Aport.ru bot
appie -- Walhello.com search
ask jeeves -- Ask Jeeves
bumblebee -- Relevare.com bot
crawler3 -- Altavista spider
ia_archiver -- Archive.org bot
lycos -- Lycos.com Bot
msnbot/1.0 -- MSN Search bot
scooter -- Altavista bot
semanticdiscovery -- Semanticdiscovery.com spider
slurp@inktomi -- inktomi
szukacz -- Polish searches
w3index -- Scandinavian web spider
whatuseek -- What You Seek