АННОТАЦИЯ 3
ВВЕДЕНИЕ 4
ГЛАВА 1. ПРЕДВАРИТЕЛЬНЫЕ СВЕДЕНИЯ 6
1.1 Основные определения 6
1.2 Оценка релевантности 9
1.3 Оценка эффективности 10
ГЛАВА 2. ЛАТЕНТНО-СЕМАНТИЧЕСКИЙ АНАЛИЗ 12
2.1 Подсчет данных и матрица совпадений 12
2.2 Метод понижения ранга 14
2.3 Латентно-семантический анализ 14
2.4 Оптимизация сингулярного разложения 19
ГЛАВА 3. ПРОБЛЕМА ПОЛИСЕМИИ 20
ГЛАВА 4. ИНФОРМАЦИОННЫЙ ПОИСК НА ОСНОВЕ ЛАТЕНТНО-СЕМАНТИЧЕСКОГО АНАЛИЗА 23
ГЛАВА 5. РЕАЛИЗАЦИЯ АЛГОРИТМА 24
ЗАКЛЮЧЕНИЕ 27
СПИСОК ЛИТЕРАТУРЫ 28
ПРИЛОЖЕНИЯ
В искусственном интеллекте разработка алгоритмов, которые могут автоматически обрабатывать естественный язык и текст, была большой проблемой [1]. Спрос на компьютерные системы для управления и фильтрации поиска через огромные хранилища значительно возрос с годами.
В данной работе представлен подход, называемый латентным семантическим анализом (LSA), который представляет собой метод в обработке естественного языка для извлечения и представления контекстного значения слов статистическими вычислениями, применяемый к большому объему текста [1]. Латентный семантический анализ исследует взаимосвязь между набором документов и терминов и после обработки большой выборки данных представляет слова, используемые в документе, в многомерном семантическом пространстве [3]. Хотя многие статистические методы, такие как векторная пространственная модель, вероятностная модель и кластеризация документов, могут быть использованы для поиска информации, в моей работе основное внимание методу скрытого семантического индексирования [23].
Скрытая семантическая индексация— это метод поиска информации, который индексирует и идентифицирует шаблон в неструктурированном наборе текста и отношения между ними [2]. Он использует математический метод, называемый разложением сингулярных значений (SVD) для идентификации отношений. Данная работа содержит подробное описание всего процесса скрытого семантического индексирования.
Скрытое семантическое индексирование создает ассоциации между терминами, которые встречаются в аналогичном контексте. Он основан на принципе, что слова, используемые в одном и том же контексте, имеют сходные значения. Мы анализируем, насколько эффективен LSI и как SVD можно улучшить [2]. В работе основное внимание уделяется поиску информации, используя LSI, я анализирую плюсы и минусы этой техники в отношении поиска информации.
Документ организован следующим образом:
В первой главе рассмотрены основные определения.
Во второй главе представлены различные компоненты процесса латентно-семантического индексирования. Она состоит из иллюстративного примера, относящегося к технике этого метода, а также в ней предлагается усовершенствование метода сингулярного разложения и даются соответствующие предложения.
В третьей главе разбирается проблема полисемии и её влияние на векторное представление документа.
В четвертой главе мы обсудим, почему LSI является подходящим методом для использования в целях поиска информации.
В пятой главе представлена реализация алгоритма, который выполнен на языке программирования Python.
В шестой главе представлен вывод на основе исследованной информации.
Наконец, в приложении предоставлен код программы, который реализует в настоящей работе алгоритм для поиска текстов одной тематики.
Следует сказать, что LSA используется для поиска информации, поскольку он решает проблемы синонимии, в которых одно и то же базовое понятие описывается с использованием разных терминов, полисемии, где каждое слово может иметь более одного значения и быть в терминальной зависимости, как в ассоциации между коррелированными терминами в разных документах, что делает его намного превосходящим другие традиционные стратегии поиска. Этот метод также имеет некоторые недостатки, которые включают большие требования к хранению и высокое время вычисления, которое уменьшает эффективность. В конечном счете, чтобы решить, перевешивают ли преимущества недостатки, необходимо учитывать производительность поиска. LSA обеспечивает лучшие результаты по сравнению с простой векторной моделью. Существует несколько других методов, таких как вероятностное скрытое семантическое индексирование и скрытое распределение Дирихле, которые устраняют некоторые недостатки латентно-семантического анализа. Результаты LSA не вводят четко определенных вероятностей и, следовательно, их трудно интерпретировать. Вероятностный латентно-семантический анализ решает эту проблему и обеспечивает надежную статистическую основу для анализа, предлагает лучший выбор модели и снижает сложность. Основное преимущество использования такой модели, как латентное размещение Дирихле (LDA), заключается в том, что она может быть масштабирована для обеспечения полезного механизма вывода в областях, включающих несколько уровней структуры [22]. Но LSA, будучи очень популярным методом, который уже был опробован на различных наборах данных, делает его чрезвычайно надежным. Таким образом, мы можем сделать вывод, что, хотя LSA не хватает важных когнитивных способностей, которые люди используют для построения и применения знаний из опыта, успех LSA как теории приобретения и представления человеческих знаний не следует недооценивать.