Как часто проходит “танец Google”?
Название “танец Google” часто используется, чтобы описать период, когда происходит главное обновление индекса поисковой системы Google. Это обновление проходит, в среднем, каждые 36 дней или 10 раз в году, хотя танец мая года начался рано, и скорее всего более важен, чем предыдущие. Танец можно легко определить по существенным изменениям в результатах поиска, а также обновлении всех проиндексированных страниц в кэше Google. Эти изменения заметны от минуты к минуте. Но обновление – это не просто переключение между индексами. Как правило, на полное его обновление уходит несколько дней.
Так как Google, как и любая другая поисковая система, зависит от своих посетителей, приносящих ей результаты 24 часа в сутки, семь дней в неделю, то обновление становится серьезной проблемой. Они не могут быть приостановлены для технического обслуживания и не могут быть отключены от сети даже на одну минуту. Следовательно, нам необходим танец. Все поисковые системы прошли через это, одни чаще чем Google, другие реже. Однако, это так только потому, что Google уделяет перестройке индексов большее внимание чем другие системы
В течение это периода индекс постоянно меняется, и результаты поиска могут сильно различаться, так как во время танца Google корректирует алгоритмы и обновляет PageRank и Back Links для каждого проиндексированного сайта.
Результаты поиска изменяются только во время танца Google?
Нет, как правило, в течение любого месяца происходят незначительные изменения в рейтингах. Виной тому – робот или паук Google, которые работают всегда в поисках нового материала. Это также происходит, если робот обнаруживает, что сайт прекратил свое существование и его требуется удалить из индекса. Во время танца Googlebot вновь посещает каждый сайт, подсчитывая на сколько сайтов он ссылается, сколько ссылаются на него и насколько показательны эти ссылки.
Так как Google постоянно проходит и обновляет индекс выбранных страниц, то результаты поиска будут незначительно варьироваться в течение месяца. Однако, только во время танца Google эти результаты могут изменяться достаточно сильно. Примите также во внимание, что у Google есть 8 информационных центров, покрывающих более 10000 серверов. Так или иначе, необходимо производить обновления в течение месяца, вне танца Google. Это постоянный процесс для Google, как и любой другой поисковой системы. Эти продолжительные, накапливающиеся обновления влияют только на состояние определенных участков индекса в каждый момент времени.
Обнаружение танца Google
Вам, наверное, известно, что у Google есть 8 главных веб-серверов:
- www-ex.google.com – (на который вы попадаете, набирая www.google.com)
- www-sj.google.com – (доступ к которому происходит по адресу www2.google.com)
- www-va.google.com – (доступ к которому происходит по адресу www3.google.com)
- www-dc.google.com
- www-ab.google.com
- www-in.google.com
- www-zu.google.com
- www-cw.google.com
Во время танца Google, можете проверить 8 серверов Google: они отобразят различающиеся, а иногда даже очень сильно, результаты , и можно сказать, что они “танцуют”, отсюда и название “танец Google”.
Самый простой способ проверить, идет ли танец Google – это осуществить поиск на www.google.com. Посмотрите на синюю полосу страницы. Там будут слова, примерно такие “Results 1 – 10 of about 626,000. Search took 0.48 seconds” Теперь проведите аналогичный поиск на www2.google.com, и www3.google.com. Если вы наблюдаете разницу в совокупном числе страниц для одного и того же поиска, то танец Google уже идет. Вы также можете проверить все сервера, указанные выше. www2 – на самом деле www-sj, а www3 – это www-va. Мы обнаружили, что для всех остальных необходимо набирать их полный адрес www-расширение.google.com в адресной строке, если хотите правильно провести исследование. Существуют также сайты, предоставляющие такой инструмент, как одновременная проверка и сравнение всех индексов. Если количество и порядок результатов одинаковы на всех восьми серверах, то танец закончился.
Важность танца Google
Для большинства людей это событие само по себе не важно. Однако время оптимизации поисковой системы – время замечаний. Во-первых, во время танца нам поступает множество звонков от клиентов. Страницы временно не отображаются. Иногда это продалжается сутки. Люди в панике. Затем, после повторного их добавления, они становятся на еще более хорошее место, чем раньше и все успокаивается. Интересно наблюдать, насколько оказывается важным этот механизм.
Техническая сторона танца Google
Поисковая система Google передает свои результаты с более чем 10,000 серверов. Это значит, что когда вы вводите вопрос или запрос в Google, то он перенаправляется одному из 10,000 компьютеров. Какому именно серверу достанется этот вопрос – неизвестно, так как ситуация меняется ежесекундно. Представьте, что все книги Библиотеки Конгресса положили на пол самолетного ангара, а затем спрашивают “искусство войны Сан Цзу”. Трудно найти ответ, если в глазах рябит от книг. А мы, вдобавок, еще просим поисковые системы делать это ежедневно.
Google использует сервера на базе Linux. Когда проходит перестроение индекса, все 10,000 серверов обновляются. Естественно, всегда будут определенные отличия между индексами, хотя бы потому, что новые сайты добавляются постоянно, а изменения влияют на положение некоторый сайтов. Но во время танца эти изменнения поразительны. Сервера обновляются один за другим частями нового индекса, до тех пор, пока не будут полностью обновлены индекс базы данных.
Танец Google и DNS
Не только индекс Google покрывает более 10,000 серверов. Эти серверы находятся в восьми разных информационных центрах, расположенных, большей частью, в США.
Google использует множество информационных центров для увеличения скорости выполнения запросов конечных пользователей. Если вы получаете доступ к информационному центу, расположенному недалеко от вас, то, теоретически, вашему соединению необходимо проходить через меньшее число узлов. У каждого информационного центра есть свой IP адрей (цифровой адрес в Интернет) и система доменных имен (DNS), которая управляет доступом к этим IP адресам. Система перенаправляет ваш запрос на ближайший, или менее занятый информационный центр. Затем запрос, внутри данного информационного центра, перенаправляется простаивающему серверу. В целях управления траффиком, Google использует двухшаговую систему с помощью таблиц DNS. В результате, становится возможным снизить расстояние для передачи и повысить скорость ответа.
Во время танца Google, все сервера во всех информационных центрах не могут одновременно получить новый индекс. Как правило, новый индекс одновременно может быть передан каждому информационному центр только частично. Разные части загружаются на сервер в разное время, что также влияет на результаты. Когда пользователи запрашивают Google, во время танца, они могут получать разные результаты от информационных центров, у которых все еще хранится старый индекс, а через минуту от центра, который уже обновил данные. Со стороны пользователя эти изменения происходят в течение секунд.
Ежемесячное перестраивание индекса может вызвать определенные проблемы. В конце концов, поисковым системам необходимо пройти миллиарды документов, а затем обработанную информацию передать в одно место. Это не малый труд.
Вне периода танца также могут быть заметны незначительные изменения в результатах поиска. Причиной тому является тот факт, что не индексы не могут быть идентичны в разных информационных центрах. Постоянно добавляются новые сайт, удаляются старые, и т.д. Вычислено, что каждый день создается более 8 миллионов новых веб-страниц. Некоторые из них добавляеются в поисковые системы, тем самым влияя на результаты поиска.
Автор: Richard Zwicky CEO of Metamend Software
Перевод: Fox