Алгоритм роботи Google (інтерв"ю з Google)

Одной из наиболее распространенных поисковых систем г. Киев (Украина) является система Google.

Самый главный фактор, на котором базируется алгоритм работы Google - место, где находится искомый текст, размер шрифта, использование жирного шрифта.

Размер сайта.

Все страницы ранжируются отдельно - никакой выгоды от размера сайта для страницы нет. Технически, большие корпоративные сайты и личные сайты из 4 страницы равны.

Динамические страницы.

Google уже начал читать и индексировать динамические страницы. Эта техногия сравнительно молода и еще дорабатывается. Разработчики понимают, что есть опасность для робота заблудиться в таких страницах под действием все новых параметров ( по аналогии обычный робот может до бесконечности следовать по ссылке "дальше"). Индексация ведется "осторожно", но теперь такие страницы включены в базу, что, несомненно, является хорошей новостью.

Внешние ссылки.


Как предполагается, исходя из идеологии PageRank, количество страниц, ссылающихся на вашу страницу влияет на этот показатель. Однако, помимо этого, имеются факторы, связанные с внешними ссылками и влияющие на позицию вашей страницы в результатах поиска помимо PageRank. Google также учитывает текст ссылок. "Когда мы индексируем страницу, мы учитываем не только то, что написал автор, но и то, что написали другие вебмастера, ссылаясь на нее." Получается, что вебмастера, ссылаясь на Вас с несоответствующими содержанию сайта ссылками вредят вашим позициям в Google? Google учитывает это при индексации текста ссылок и подобные ссылки не повредят вам. Равно как и ссылка с несоответствующего сайта. Вообще, тематика сайта не важна для ранжирования - учитывается лишь текст такой ссылки.

База данных.

База данных Google обновляется в среднем раз в месяц. Робот необязательно проиндексирует весь сайт - как правило, выбираются наиболее важные страницы. Впрочем, количество страниц с одного сайта никак не ограничено.

Содержимое метатэгов.


Не стоит подгонять содержимое метатэгов для Google. Машина игнорирует как keywords, так и description. Google не доверяет им и просто пропускает эту часть страницы. Вместо этого, робот использует т.н. "отрывок" для описания содержимого страницы, который имеет преимущество перед содержимым метатега description и помещается в результатах поиска, что позволяет пользователям сразу определить, соответствует страница запросу или нет.

Борьба со спамом.

Главное преимущество технологии PageRank - возможности противостоять поисковому спаму. PageRank делает Google практически иммунным к разного рода спаму, поскольку, если даже сайт, использующий такие неэтичные методы, и попадет в базу, у него крайне мало шансов получить высокую оценку PageRank. Единственная возможность для такого сайта - попасть в нишу, где нет большого количества сайтов, отвечающих запросу. Сайты, уличенные в использовании таких приемов будут исключены из базы навсегда. Клоакинг тоже относится к числу таких технологий. Компаниям, сайты которых состоят в основном из графики, без большого количества текста, рекомендуется применять тэги alt, и даже переделать страницы описав в таких тэгах содержание страницы. Это очень интересный момент, иллюстрирующий акцент на текстовом содержании страниц, существующий в Google. Опять возникает вопрос о клоакинге. Что, если компания изготовит текстовую версию страницы с полностью аналогичным содержанием. Теоретически, нет никакого вреда в применении клоакинга для таких страниц, верно? Нет. Это также будет признано вредным приемом и сайт будет удален. Причина в том, что конкретное расположение элементов на странице не будет идентичным. Отсюда можно сделать вывод, какую роль для робота играют варианты оформления страницы.

Ручные субмиты сайтов.


Google не одобряют такие сабмиты. "Лучший путь получить правильный ранг страниц - найти их по ссылкам, посчитав заранее PageRank". По мнению компании, качественный сайт будет найден и без ручной присылки адреса роботу, хотя никто не запрещает воспользоваться сервисом добавления страницы. Не стоит также присылать сайт, если он только создан и на него нет ни одной ссылки - сайт не будет добавлен в базу, пока никто на него не сошлется. Достаточно одной ссылки, чтобы сайт был добавлен в базу - это легко доступно для больших компаний, которые с легкостью могут поставить ссылки на новый сайт с других своих сайтов. Правда, очень многие этого не делают.

Коммерциализация Google.

Естественно, есть вопрос - не рассматривается ли вариант продажи позиций в результатах поиска в будущем. Google гордится тем, что их результаты абсолютно честны и непредвзяты. Пока остальные поисковики предлагают купить такие позиции а попутно и решить вопрос окупаемости проектов, Google концентрируется на удовлетворении потребностей пользователей. Очевидно, такая позиция разумна - с ежедневной загрузкой в 29 миллионов поисков Google занимает все новые позиции, как один из самых крупных поисковых сервисов.