Качество поиска: теория графов ссылок

  1. Вступление
  2. Рейтинг на основе подключения
  3. Запрос-зависимый
  4. Упрощенные визуальные примеры
  5. Обнаружение спама на высшем уровне
  6. Практические на вынос
  7. Рекомендации:
  8. Дан Петрович

Теория оценки качества результатов поиска посредством алгоритмической обработки веб-индекса. Читайте дальше и откройте для себя некоторые из основных сил в рейтинге поисковых систем.

Читайте дальше и откройте для себя некоторые из основных сил в рейтинге поисковых систем

Часть 1 Качество поиска Серии по Деян SEO

Вступление

В Интернете существуют различные типы графиков, полезных для поисковых систем при обработке и оценке релевантности и репутации страниц в их индексе. Вот примеры графиков, используемых в настоящее время поисковыми системами:

  1. График ссылок : узлы (страницы, документы), связанные направленными ребрами (ссылками).
  2. График совместного цитирования : узлы, соединенные неориентированными ребрами (A и B связаны, если C связан с обоими)
  3. Социальный график : явные и неявные связи между людьми в сети.
  4. График знаний : коллекция взаимосвязанных канонических сущностей и их атрибутов

Граф ссылок помогает в ранжировании документов, в то время как совместное цитирование облегчает поиск отношений и классификацию документов. Графики социальных сетей и знаний - это относительно новые дополнения, позволяющие прямо отвечать на наши вопросы или персонализировать наш опыт поиска.

Рейтинг на основе подключения

Query-Independent

Google преобразует весь свой индекс в график, чтобы (среди прочего) рассчитать ранжирование по совокупности для этой коллекции. Первый режим системы ранжирования на основе связности представляет собой независимую от запроса модель ранжирования, основанную только на связности документов. Это где алгоритм PageRank пригодится. Короче говоря, PageRank - это значение вероятности того, что пользователи останутся или покинут документ. Однако только PageRank не способен дать релевантные результаты и просто отражает осознанную важность страницы в Интернете.

Документ, который указывает на многие другие, может быть хорошим центром , а документ, на который указывают многие документы, может быть хорошим авторитетом . Рекурсивно, документ, который указывает на многие хорошие авторитеты, мог бы быть даже лучшим центром, и аналогично документ, на который указывают многие хорошие центры, мог бы быть еще лучшим авторитетом. Моника Хензингер, Google Inc.

Запрос-зависимый

Второй режим ранжирования на основе связности зависит от запроса и способен разбивать граф ссылок на соответствующий поднабор, который можно переупорядочивать и ранжировать таким образом, чтобы он был более значимым для данного поискового запроса [ 1 ].

В дополнение к стандартной модели неопределенности (входящие ссылки) для повышения релевантности возвращаемых документов вводятся два дополнительных фактора:

  1. Оценка хаба
  2. Авторитетный балл

Оба являются частью алгоритма HITS, который предусматривает, что концентраторы - это узлы, которые ссылаются на страницы, относящиеся к поисковому запросу, а узлы авторизации - это страницы, которые, как ожидается, будут иметь соответствующее содержимое.

Концепция зависимого от запроса / основанного на соединении алгоритма в действии иллюстрируется здесь:

Концепция зависимого от запроса / основанного на соединении алгоритма в действии иллюстрируется здесь:

Приведенное выше изображение представляет собой микросеть, состоящую не более чем из 10 000 доменов, и система ранжирования рассчитывается по принципу независимости от запроса. Во втором примере алгоритм идентифицирует только те узлы, которые, по-видимому, существенно связаны с запросом пользователя:

Во втором примере алгоритм идентифицирует только те узлы, которые, по-видимому, существенно связаны с запросом пользователя:

Это позволяет удалять не относящиеся к запросу узлы и вычислять репутацию только в контексте, специфичном для запроса.

Упрощенные визуальные примеры

На следующем графике мы видим авторитет в действии:

Обратите внимание, что авторитет работает на равноправном уровне и не учитывает качества входящих ссылок. Другой количественный анализ узлов - обнаружение концентратора:

Наконец, давайте посмотрим, как PageRank решает проблему равного количества, представив более элегантный способ определения ранжирования стоимости документов в нашей коллекции:

Комбинация всех трех даст наилучшие результаты: первые два идентифицируют актуальную актуальность, а последний - для целей сортировки. Всего существует пять ключевых элементов для анализа и обработки алгоритмических ссылок Google:

  • Степень (входящие ссылки)
  • Out-Степень (исходящие ссылки)
  • HITS авторитетный балл [ 2 ] (количество соответствующих входящих ссылок в подмножестве индекса)
  • Оценка хитов HITS (количество соответствующих исходящих ссылок в подмножестве индекса)
  • PageRank (случайная модель серфера)

Вместе упомянутые выше методы образуют фундаментальный блок анализа связей, который дополнительно настраивается и обогащается дополнительной обработкой данных и различными, более тонкими уточнениями данных.

Обнаружение спама на высшем уровне

На рисунке ниже представлена ​​многорежимная визуализация искусственной сети блогов, состоящей из 4762 доменов и 9849 соединений между доменами. Обратите внимание, что мы свернули каждый домен в один узел, чтобы упростить визуализацию. Практика рассмотрения всех узлов в одном домене как одного узла весьма распространена и имеет применение в качестве одного из этапов оценки ранжирования, зависящего от запроса.

Наблюдаемая сеть является реальной (прислана нам подлинным спамером, предлагающим купить ссылки). Числовые значения, прикрепленные к каждому узлу на графике, представляют собой рассчитанный внутри рейтинг PageRank и используются для соответствующего масштабирования и окраски узлов. Зеленым цветом выделены главные получатели ссылок в коллекции.

Зеленым цветом выделены главные получатели ссылок в коллекции

Шаблоны в сетях связи, такие как приведенная выше, позволяют легко обнаруживать схемы связей верхнего уровня, предназначенные для манипулирования алгоритмом ранжирования. Те же принципы определения релевантности и тематического сходства могут применяться для поиска аномальных шаблонов в структурах ссылок любого подмножества графа ссылок. Например, вот самые популярные узлы в этой сети:

Например, вот самые популярные узлы в этой сети:

Образцы искусственных связей очевидны даже после элементарного визуального осмотра, но дальнейшие статистические данные могут быть экстраполированы через несколько статистических параметров, включая:

  1. Обзор сети:
    1. Средняя степень (взвешенная / невзвешенная)
    2. Диаметр сети
    3. График Плотность
    4. ХИТЫ
    5. модульность
    6. PageRank
    7. Количество недельных и сильно связанных компонентов
  2. Обзор узла:
    1. Коэффициент кластеризации (включая средний)
    2. Собственный вектор Центральность
  3. Обзор Edge ::
    1. Средняя длина пути
    2. Соседство соседства / Embeddedness

Все вышеперечисленные параметры содержатся и доступны на платформе Gephi [ 3 ]. Вот пример статистического анализа сети блогов:

Обратите внимание, что в алгоритме Google PageRank играет роль доминантного собственного вектора матрицы вероятностей как части «модели случайного серфера » [ 4 ] .

Рассмотрите количество вариантов, доступных для обнаружения спама, и все это без какой-либо помощи дополнительных доступных сигналов и метрик, включая якорный текст, контент и многие другие технические шаблоны. Вводя дополнительные элементы в анализ спама, Google может с большой уверенностью предсказать, имеет ли страница неестественную структуру или шаблоны ссылок.

Практические на вынос

1) Ссылка на авторитетный контент является собственностью хаба. Концентраторы важны для поисковых систем, чтобы определить тему и классифицировать страницы.

2) Поисковые системы могут вывести актуальную связь между двумя сайтами без явной ссылки с помощью совместного цитирования. Запросите соответствующий концентратор A, который ссылается как на B, так и на C, поэтому они также должны соответствовать поисковому запросу. Виртуальная связь между ними сформирована.

3) Избегайте искусственных структур связей, так как они обнаруживаются на многих уровнях.

Рекомендации:

[1] Хензингер, М. Анализ ссылок в поиске веб-информации

[2] Дж. Клейнберг. Авторитетные источники в гиперссылочной среде , В материалах 9-го ежегодного симпозиума ACM-SIAM по дискретным алгоритмам , стр. 668–677, январь 1998 г.

[3] Бастиан М., Хейман С., Джакоми М. (2009). Gephi Программное обеспечение с открытым исходным кодом для исследования и управления сетями , Международная AAAI конференция по блогам и социальным медиа.

[4] Пейдж Л., Брин С., Мотвани Р., Виноград Т. (1999), Рейтинг цитирования PageRank наводит порядок в Интернете ,

Дан Петрович

Дэн Петрович, управляющий директор DEJAN, является самым известным именем Австралии в области поисковой оптимизации. Дэн - веб-автор, новатор и уважаемый спикер индустрии поиска.

Больше сообщений - Веб-сайт