Как работают поисковые системы

Прошло то время, когда люди общались в конференциях и давали друг другу ссылки на интересные сайты. Разумеется, такой обмен все еще существует, но его трудно назвать эффективным для поиска конкретной информации. Именно потребность быстро найти необходимую информацию (желательно не один, а несколько источников) и породила сервисы поисковых систем.

Поисковые системы - это сетевые сервисы в Интернет, созданные чтобы помочь пользователю в поиске информации хранящейся на различных сайтах.

Знаете ли вы, что:
Поисковая система по-английски: Search Engine (SE). Наиболее близкий аналог в русском языке - поисковый "движок". Также очень часто используется слово - "поисковик".

Разные поисковые системы работают по-разному, однако есть основные задачи, которые решают все поисковики:

Сканируют множество сайтов в сети и составляют индекс содержащейся на них информации (индексируют сайты)
Позволяют пользователям искать слова и комбинации слов в своем индексе.

Индексирование информации в сети

Перед тем как поисковые системы выдадут вам информацию по вашему запросу, они должны сначала найти эту информацию. Разумеется, они не сканируют весь интернет при вводе каждого запроса. Это было бы слишком расточительно и очень долго.

Вместо этого поисковики создают некую базу данных по всем страницам, содержащимся в сети, и производят поиск в этой базе данных. Разумеется, это намного быстрее, чем множество раз проводить поиск по всем сайтам. Как же поисковики заполняют эту свою базу данных (обычно, базу данных называют индексом поисковой системы, а включение определенного сайта в этот индекс называют индексированием сайта).

Каждый поисковик имеет специальную программу - робота, которая и индексирует сайты. Эта программа называется пауком (spider), а процесс индексирования - ползание паука(spider crawling). И, действительно, если подумать, то процесс напоминает ползание паука по различным сайтам и собирание информации с них (индексация).

Знаете ли вы, что:
Поисковых пауков часто называют - ботами. Каждый поисковый бот имеет свое название, чтобы можно было отличать ботов именно данной поисковой системы. Это имя отображается обычно в поле User-Agent запроса к серверу. Например, бот Google имеет имя - Googlebot, а Яндекса - Yandex. Эти названия веб мастер может использовать, например, в файле robots.txt (Я расскажу об этом файле в другой статье), чтобы запретить определенному поисковику индексировать некоторые страницы.
Некоторые, веб программисты, создают различные страницы для различных поисковых ботов. Например, при заходе бота от Yandex на страницу, выдается одна страница, а для бота Google - другая. Еще хуже, если для поискового бота выдается одна страница, а для пользователя - другая. Это все нечестные приемы и если поисковики узнают об этом, то велика вероятность, что такой сайт совсем исключат из индекса поисковой системы. (Исключение из индекса называется БАН).

Как же пауки начинают свое путешествие по сети?
Обычно, поисковые боты начинают свое путешествие с самых популярных и посещаемых сайтов и страниц в сети. Они индексируют слова на данной странице, а затем следуют по всем ссылкам с текущей страницы и с других страниц того же сайта. Таким образом поисковый бот довольно быстро сканирует наиболее широко используемые ресурсы сети.

Сканирование страницы

Теперь рассмотрим, что происходит, когда поисковый бот пришел на некую страницу и начал ее сканирование.

Поисковик составляет список слов, прИсутствующих на странице и заносит эти слова с свою базу с некоторыми весовыми коэффициентами. Эти коэффициенты затем будут влиять на позиции данной страницы в выдаче поисковика по данному слову или словосочетанию, включающему данное слово.

Разные поисковики используют разные системы "весов" для слов на странице. К тому же, обычно поисковики не раскрывают принцип начисления "весов", для того, чтобы веб мастера искусственно не завышали рейтинг сайта.

Однако, можно выделить несколько общих моментов, которые, скорее всего, присутствуют во всех поисковых системах при начислении "веса" слова.

Слово, присутствующее в заголовке страницы (тег title), получит больший вес, чем то же слово внутри текста на странице.
Слово, присутствующее в тегах meta, добавит веса странице. Однако, так как содержимое этих тегов не отображается пользователю, то возникает соблазн "запихать" в них как можно больше различных слов. Поэтому, есть мнение, что в настоящее время поисковики уделяют содержимому этих тегов все меньше и меньше внимания.
Слово в заголовках и подзаголовках (теги H1, H2, и т.д.) имеет повышенный вес.
Слово, выделенное тем или иным способом (например, жирным (тег B) или курсивом (тег I), скорее всего более "ценное" для поисковика (не зря же вы его выделили).
Раньше бытовало мнение, что если слово расположено в первых 20 строках на странице, то оно более "ценно" для поисковика. Не думаю, что сейчас это имеет какое-либо значение. Хотя, кто знает?
Слово, у которого форма точно соответствует введенному в строке запроса, явно имеет больший вес, чем другая форма этого слова. Например, если пользователь ввел "Слон", то слово "слон" на странице будет цениться больше, чем слово "слону".
Есть понятие "вес слова на странице". Это отношение количества повторений данного слова на странице к общему количеству слов на странице. Раньше это был существенный фактор для поисковиков. Однако, сегодня поисковики уделяют ему все меньше внимания, так как можно создать страницу заполненную одним и тем же словом, которая, очевидно, будет иметь "вес" близкий к 1. Другими словами, этот параметр может быть легко поднят нечестным на руку вебмастером.

Существует еще множество различных приемов, как можно поднять "вес" слова на странице, однако, насколько поисковики учитывают тот или иной параметр, точно не знает никто.

Скорее всего, каждый поисковик создал свою собственную систему расчета "весов" слов на странице, которая базируется как на параметрах перечисленных выше, так и на других, уникальных для каждого поисковика значениях. Как я уже говорил, система расчета "весов" держится в строжайшей тайне. Разумеется, эти системы у поисковиков подвержены изменениям. Периодически стратегии подсчета корректируются, вводятся новые параметры, изменяются старые.

Выдача результатов поиска

Теперь нетрудно представить, что происходит, когда пользователь вводит запрос к поисковику в строке поиска.

Поисковик проводит поиск в своей базе. Находит страницы, подходящие под запрос пользователя и выводит их в порядке убывания соответствия запросу. Соответствие запросу называется - релевантностью страницы (page relevancy). Соответствие запросу определяется по определенным алгоритмам, частично описанным выше. Именно здесь и применяются все "веса" и коэффициенты определенные поисковым ботом при индексировании страницы.

Все становится сложнее, если пользователь ввел не одно, а два или больше слов. Здесь в игру вступают другие факторы. Например, как близко расположены слова на странице друг относительно друга. Очевидно, что чем ближе в тексте искомые слова, тем страница релевантнее (более соответствует запросу).

Бывалые оптимизаторы и другие, опытные в раскрутке люди, дочитав до этого места, уже, видимо, возмущаются: Как же так? А как же внешние факторы, влияющие на выдачу в поисковиках? Разумеется, я не оставлю их без внимания. Просто до этого момента, я описывал, влияние только внутренних факторов на выдачу страницы в поисковике. Теперь пришло время упомянуть и про популярность страницы.

Как уже было сказано то, что описано выше называется внутренними факторами, влияющими на положение страницы в выдаче поисковика. Существует так же и внешние факторы, причем они не менее (а зачастую даже и более) важны, чем внутренние.

Каждая поисковая система имеет свой параметр, который определяет популярность страницы среди других участников сети Интернет. У разных поисковиков он называется и определяется по-разному, но его назначение остается достаточно простым:
Чем популярнее сайт у других участников сети, тем выше его шансы появиться в выдаче поисковой системы.

Это действительно логично. Если на сайт ссылается множество других сайтов, то, скорее всего, там размещен качественный и нужный пользователю контент. Хотя это не всегда так. Именно на этом часто выигрывают проекты, имеющие хороший бюджет. При раскрутке сайта, покупается множество ссылок с других сайтов, поднимая популярность до очень хороших значений.

Я не буду останавливаться в данной статье на описании того, как определяют популярность сайта поисковые системы. Это отдельный вопрос, о котором я обязательно расскажу в другой раз.

Выводы

В данной статье описываются основные принципы работы поисковых систем. Описаны различные факторы, которые влияют на выдачу сайтов в результатах поиска. Надеюсь, что эта статья побудит читателя к дальнейшим изысканиям в области поисковой оптимизации.

Автор Александр Архипов