КАК LSI РАБОТАЕТ

  1. Поиск контента Мы упоминали, что скрытое семантическое индексирование рассматривает шаблоны распределения слов (в частности, совпадение слов) по множеству документов. Прежде чем мы поговорим о математических основах, мы должны быть немного более точными о том, на какие слова смотрит LSI. Естественный язык полон избыточностей, и не каждое слово, встречающееся в документе, имеет смысловое значение. На самом деле, наиболее часто используемые слова в английском слова, которые не несут содержания вообще: функциональные слова, союзы, предлоги, вспомогательные глаголы и другие. Первым шагом в выполнении LSI является отбраковка всех этих лишних слов из документа, оставляя только содержательные слова, которые могут иметь семантическое значение. Существует много способов определения слова содержимого - вот один рецепт для создания списка слов содержимого из коллекции документов: Составьте полный список всех слов, которые появляются в любом месте коллекции Откажитесь от статей, предлогов и союзов Откажитесь от общих глаголов (знать, видеть, делать, быть) Откажитесь от местоимений Откажитесь от общих прилагательных (большой, поздний, высокий) Откажитесь от вычурных слов (поэтому, тем не менее, пусть и т. Д.) Откажитесь от любых слов, которые появляются в каждом документе Откажитесь от любых слов, которые появляются только в одном документе Этот процесс объединяет наши документы в наборы содержательных слов, которые мы затем можем использовать для индексации нашей коллекции. Мышление в сетке
  2. Завтрак в гиперпространстве
  3. Разложение по единственному значению
  4. <предыдущая следующий>
  5. Получите конкурентное преимущество сегодня

Поиск контента

Мы упоминали, что скрытое семантическое индексирование рассматривает шаблоны распределения слов (в частности, совпадение слов) по множеству документов. Прежде чем мы поговорим о математических основах, мы должны быть немного более точными о том, на какие слова смотрит LSI.

Естественный язык полон избыточностей, и не каждое слово, встречающееся в документе, имеет смысловое значение. На самом деле, наиболее часто используемые слова в английском слова, которые не несут содержания вообще: функциональные слова, союзы, предлоги, вспомогательные глаголы и другие. Первым шагом в выполнении LSI является отбраковка всех этих лишних слов из документа, оставляя только содержательные слова, которые могут иметь семантическое значение. Существует много способов определения слова содержимого - вот один рецепт для создания списка слов содержимого из коллекции документов:

  1. Составьте полный список всех слов, которые появляются в любом месте коллекции
  2. Откажитесь от статей, предлогов и союзов
  3. Откажитесь от общих глаголов (знать, видеть, делать, быть)
  4. Откажитесь от местоимений
  5. Откажитесь от общих прилагательных (большой, поздний, высокий)
  6. Откажитесь от вычурных слов (поэтому, тем не менее, пусть и т. Д.)
  7. Откажитесь от любых слов, которые появляются в каждом документе
  8. Откажитесь от любых слов, которые появляются только в одном документе

Этот процесс объединяет наши документы в наборы содержательных слов, которые мы затем можем использовать для индексации нашей коллекции.

Мышление в сетке

Используя наш список содержательных слов и документов, мы теперь можем сгенерировать матрицу терм-документов. Это причудливое название для очень большой сетки с документами, перечисленными вдоль горизонтальной оси, и словами содержания вдоль вертикальной оси. Для каждого содержательного слова в нашем списке мы пересекаем соответствующую строку и ставим «X» в столбце для любого документа, в котором появляется это слово. Если слово не появляется, мы оставляем этот столбец пустым.

Выполнение этого для каждого слова и документа в нашей коллекции дает нам в основном пустую сетку с редким разбросом X-es. Эта сетка отображает все, что мы знаем о нашей коллекции документов. Мы можем перечислить все слова содержимого в любом данном документе, выполнив поиск X-ов в соответствующем столбце, или мы можем найти все документы, содержащие определенное слово содержимого, просмотрев соответствующую строку.

Обратите внимание, что наше расположение двоичное - квадрат в нашей сетке либо содержит X, либо его нет. Эта большая сетка является визуальным эквивалентом общего поиска по ключевым словам, который ищет точные совпадения между документами и ключевыми словами. Если мы заменим пробелы и X-ы нулями и единицами, мы получим числовую матрицу, содержащую ту же информацию.

Ключевым шагом в LSI является декомпозиция этой матрицы с использованием метода, называемого декомпозицией по сингулярному значению. Математика этого преобразования выходит за рамки данной статьи (доступно строгое обращение Вот ), но мы можем получить интуитивное представление о том, что делает SVD, думая о процессе пространственно. Аналогия поможет.

Завтрак в гиперпространстве

Представьте, что вам любопытно, что люди обычно заказывают на завтрак в местном кафе, и вы хотите отобразить эту информацию в визуальной форме. Вы решаете проверить все заказы на завтрак из напряженного дня выходных и записать, сколько раз слова бекон, яйца и кофе встречаются в каждом заказе.

Вы можете построить график результатов своего опроса, настроив диаграмму с тремя ортогональными осями - по одной для каждого ключевого слова. Выбор направления произвольный - возможно, ось бекона в направлении x, ось яиц в направлении y и важная ось кофе в направлении z. Чтобы составить конкретный заказ на завтрак, вы подсчитываете вхождение каждого ключевого слова, а затем делаете соответствующее количество шагов вдоль оси для этого слова. Когда вы закончите, вы получите облако точек в трехмерном пространстве, представляющее все заказы на завтрак в этот день.

Когда вы закончите, вы получите облако точек в трехмерном пространстве, представляющее все заказы на завтрак в этот день

Если вы проведете линию от начала графика до каждой из этих точек, вы получите набор векторов в пространстве «бекон-яйца-кофе». Размер и направление каждого вектора говорит вам, сколько из трех ключевых элементов было в каком-либо конкретном порядке, а набор всех векторов, взятых вместе, говорит вам кое-что о том, какой завтрак предпочитают люди в субботу утром.

То, что показывает ваш график, называется термином пространство. Каждый заказ на завтрак формирует вектор в этом пространстве, его направление и величина определяются тем, сколько раз в нем появляются три ключевых слова. Каждое ключевое слово соответствует отдельному пространственному направлению, перпендикулярному всем остальным. Поскольку в нашем примере используются три ключевых слова, результирующее пространство терминов имеет три измерения, что позволяет нам его визуализировать. Легко видеть, что это пространство может иметь любое количество измерений в зависимости от того, сколько ключевых слов мы выбрали для использования. Если бы мы должны были вернуться к порядку и также записать случаи появления колбас, кексов и бубликов, мы бы получили шестимерное пространство терминов и шестимерные векторы документов.

Применение этой процедуры к реальной коллекции документов, где мы отмечаем каждое использование слова содержимого, приводит к пространству терминов со многими тысячами измерений. Каждый документ в нашей коллекции - это вектор, содержащий столько компонентов, сколько есть слов контента. Хотя мы не можем визуализировать такое пространство, оно построено точно так же, как причудливое место для завтрака, которое мы только что описали. Документы в таком пространстве, которые имеют много общих слов, будут иметь векторы, которые находятся рядом друг с другом, в то время как документы с несколькими общими словами будут иметь векторы, которые находятся далеко друг от друга.

Скрытое семантическое индексирование работает, проецируя это большое многомерное пространство на меньшее количество измерений. При этом ключевые слова, которые семантически похожи, будут сжаты вместе и больше не будут полностью различаться. Это размывание границ - это то, что позволяет LSI выйти за рамки простого соответствия ключевых слов. Чтобы понять, как это происходит, мы можем использовать другую аналогию.

Разложение по единственному значению

Представьте, что вы держите тропических рыб и гордитесь своим призовым аквариумом - настолько гордым, что хотите представить его фотографию в журнале Modern Aquaria для славы и прибыли. Чтобы получить наилучшее возможное изображение, вам нужно выбрать хороший угол, с которого можно сделать фотографию. Вы хотите убедиться, что как можно больше рыбы видно на вашей картинке, не будучи скрытыми другими рыбами на переднем плане. Вы также не захотите, чтобы все рыбы были сгруппированы вместе, а скорее подстрелили под углом, который показывает, что они хорошо распределены в воде. Поскольку ваш аквариум прозрачен со всех сторон, вы можете делать различные снимки сверху, снизу и со всего аквариума и выбирать лучший.

С математической точки зрения вы ищете оптимальное отображение точек в трехмерном пространстве (рыба) на плоскость (фильм в вашей камере). «Оптимальный» может означать много вещей - в данном случае это означает «эстетически приятный». Но теперь представьте, что ваша цель - максимально сохранить относительное расстояние между рыбами, чтобы рыбы на противоположных сторонах аквариума не накладывались друг на друга, чтобы выглядеть так, будто они находятся рядом друг с другом. Здесь вы будете делать именно то, что алгоритм SVD пытается сделать с гораздо более многомерным пространством.

Однако вместо преобразования 3-пространства в 2-пространство алгоритм SVD выходит на гораздо большие пределы. Типичный термин пространство может иметь десятки тысяч измерений и быть спроецирован на менее чем 150. Тем не менее, принцип точно такой же. Алгоритм SVD сохраняет как можно больше информации об относительных расстояниях между векторами документа, в то же время сворачивая их в гораздо меньший набор измерений. В этом коллапсе информация теряется, а слова содержания накладываются друг на друга.

Потеря информации звучит как плохая вещь, но здесь это благословение. То, что мы теряем, это шум от нашей исходной матрицы терминов-документов, выявляющий сходства, которые были скрыты в коллекции документов. Подобные вещи становятся более похожими, в то время как разные вещи остаются разными. Это редуктивное отображение - это то, что дает LSI, казалось бы, интеллектуальное поведение, позволяющее сопоставлять семантически связанные термины. Мы действительно используем свойство естественного языка, а именно то, что слова с похожим значением имеют тенденцию встречаться вместе.

<предыдущая следующий>


Эта работа лицензирована под Лицензия Creative Commons , 2002 Национальный институт технологий в гуманитарном образовании , Для получения дополнительной информации свяжитесь с автор ,

Получите конкурентное преимущество сегодня

Ваши главные конкуренты годами инвестировали в свою маркетинговую стратегию.

Теперь вы можете точно знать, где они находятся, выбрать лучшие ключевые слова и отслеживать новые возможности по мере их появления.

Изучите профиль рейтинга ваших конкурентов в Google и Bing сегодня, используя SEMrush.

Введите ниже конкурирующий URL-адрес, чтобы быстро получить доступ к их истории платных и обычных результатов поиска - бесплатно.

Посмотрите, где они ранги и победить их!