Дослідження пошукових систем

Чтобы успешно продвигать сайт в поисковых системах, необходимо понимать, как они работают. Алгоритмы поисковиков тщательно скрываются их владельцами. Откуда же можно брать информацию о том, как функционирует поисковик?

Поисковые системы возникли не спонтанно, а на основе больших наработок в области поиска информации (дисциплина "Information Retrieval"). Поэтому большинство базовых алгоритмов опубликовано в научных работах, и поисковые системы используют их с небольшими вариациями в своих программах. Сотрудники поисковиков нередко рассказывают о деталях в интервью или на специализированных форумах. Специалисты по продвижению сайта, общаясь на форумах, дают много полезных советов.

Но чтение форумов и научных статей - не единственный метод. Поисковики можно исследовать и экспериментировать с ними. Самый простой способ - изучение кода страниц, которые попадают в верхние 10 результатов поиска.

Что у них общего? Как эта страница не по теме смогла пробиться наверх? Почему была выдана именно эта страница сайта?

Найденные ответы прояснят картину и приоткроют детали используемого алгоритма. Новички иногда пытаются отыскать магический процент ключевых слов в тексте или "правильную" длину заголовка, усредняя данные страниц, стоящих на первых местах. Но полученные числа напоминают не философский камень, а орудие пролетариата, булыжник.

Дело в том, что все факторы ранжирования (а их десятки) используются во взаимосвязи, и потому изучение одного из них без учёта остальных не даёт никакой полезной информации. Применение методов многомерного статистического анализа может облегчить задачу, но это тема отдельного большого рассказа. Иногда прояснить картину может эксперимент. Создав десяток страниц с разной плотностью ключевых слов и расположив их на новых только что созданных доменах (чтобы исключить влияние посторонних факторов), в результатах поиска можно увидеть, какая из страниц окажется выше по выбранному запросу. Казалось бы, волшебный ключ найден, но это не так. Кто сказал, что оптимальная плотность ключевых слов одинакова для разных запросов, для страниц разной длины? А поставить эксперименты с учётом всех факторов в разумные сроки невозможно.
Приходится снова возвращаться к исследованиям.

Я дам пару рекомендаций по раскрытию алгоритмов.
Во-первых, изучайте работу конкретного алгоритма, а не ищите всю "формулу релевантности" сразу. Во-вторых, ищите такие примеры запросов и соответствующих им страниц, где изучаемый алгоритм проявляется в максимально чистом виде.
Например, вас интересует влияние веса сайта по алгоритму PageRank на поиск. Как исключить остальные факторы? Найдите страницы с очень похожим текстом (полностью дублирующие нельзя, чтобы Google не исключил одну из них из поиска). Выберите из текста такое ключевое слово, которое было бы одинаково оформлено в обоих вариантах, содержалось в одних и тех же элементах страниц (заголовок, текст, мета-теги). Слово (или фраза) должно быть достаточно редким, чтобы не пришлось искать страницы среди миллионов других, но при этом достаточно популярным, чтобы в результатах не были выданы только эти две страницы. И т. д. Задайте запрос и сравните позиции в результатах поиска. Чем ближе они окажутся, тем меньше влияние PageRank по данному запросу. Повторите подобный поиск с десятком других пар страниц, чтобы исключить случайные факторы. Сравнивая полученные результаты, обычно можно сделать выводы о том, насколько важен тот или иной фактор и в каких случаях он применяется.
Самое главное, не забывайте думать.

Поисковики применяют те или иные факторы не для красоты формулы, а чтобы результаты поиска были лучше. Эффективность поиска принято оценивать по двум основным критериям: полноте и точности. Чем больше процент релевантных (соответствующих запросу) документов среди всех найденных, тем выше точность. Чем больше процент числа найденных документов среди всех документов, что хранятся в базе поисковика, тем лучше полнота. Конкретную реализацию алгоритма оценивают ещё по ресурсоёмкости поиска, как с точки зрения объёма хранимых данных, так и с точки зрения затрат машинного времени. Только если обнаруженный фактор ранжирования или его детали могут улучшить эти показатели, не вызвав резкого увеличения потребности в ресурсах, они правдоподобны.

Итак, методы изучения алгоритмов поисковиков сводятся к следующему:
чтение научных статей об алгоритмах поиска и специализированных форумов;
изучение страниц из верхушки результатов поиска;
исследование конкретного алгоритма в максимально чистом виде;
применение статистического анализа;
проверка обнаруженных зависимостей на улучшение полноты, точности или снижение ресурсоёмкости.

Источник: portal.seomaste.ru