Тема: АЛГОРИТМ ПОИСКА БЛИЗКИХ ПО СОДЕРЖАНИЮ ДОКУМЕНТОВ ЦИФРОВОЙ КОЛЛЕКЦИИ НА ОСНОВЕ ЛАТЕНТНО-СЕМАНТИЧЕСКОГО АНАЛИЗА
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ВВЕДЕНИЕ 4
ГЛАВА 1. ПРЕДВАРИТЕЛЬНЫЕ СВЕДЕНИЯ 6
1.1 Основные определения 6
1.2 Оценка релевантности 9
1.3 Оценка эффективности 10
ГЛАВА 2. ЛАТЕНТНО-СЕМАНТИЧЕСКИЙ АНАЛИЗ 12
2.1 Подсчет данных и матрица совпадений 12
2.2 Метод понижения ранга 14
2.3 Латентно-семантический анализ 14
2.4 Оптимизация сингулярного разложения 19
ГЛАВА 3. ПРОБЛЕМА ПОЛИСЕМИИ 20
ГЛАВА 4. ИНФОРМАЦИОННЫЙ ПОИСК НА ОСНОВЕ ЛАТЕНТНО-СЕМАНТИЧЕСКОГО АНАЛИЗА 23
ГЛАВА 5. РЕАЛИЗАЦИЯ АЛГОРИТМА 24
ЗАКЛЮЧЕНИЕ 27
СПИСОК ЛИТЕРАТУРЫ 28
ПРИЛОЖЕНИЯ
📖 Введение
В данной работе представлен подход, называемый латентным семантическим анализом (LSA), который представляет собой метод в обработке естественного языка для извлечения и представления контекстного значения слов статистическими вычислениями, применяемый к большому объему текста [1]. Латентный семантический анализ исследует взаимосвязь между набором документов и терминов и после обработки большой выборки данных представляет слова, используемые в документе, в многомерном семантическом пространстве [3]. Хотя многие статистические методы, такие как векторная пространственная модель, вероятностная модель и кластеризация документов, могут быть использованы для поиска информации, в моей работе основное внимание методу скрытого семантического индексирования [23].
Скрытая семантическая индексация— это метод поиска информации, который индексирует и идентифицирует шаблон в неструктурированном наборе текста и отношения между ними [2]. Он использует математический метод, называемый разложением сингулярных значений (SVD) для идентификации отношений. Данная работа содержит подробное описание всего процесса скрытого семантического индексирования.
Скрытое семантическое индексирование создает ассоциации между терминами, которые встречаются в аналогичном контексте. Он основан на принципе, что слова, используемые в одном и том же контексте, имеют сходные значения. Мы анализируем, насколько эффективен LSI и как SVD можно улучшить [2]. В работе основное внимание уделяется поиску информации, используя LSI, я анализирую плюсы и минусы этой техники в отношении поиска информации.
Документ организован следующим образом:
В первой главе рассмотрены основные определения.
Во второй главе представлены различные компоненты процесса латентно-семантического индексирования. Она состоит из иллюстративного примера, относящегося к технике этого метода, а также в ней предлагается усовершенствование метода сингулярного разложения и даются соответствующие предложения.
В третьей главе разбирается проблема полисемии и её влияние на векторное представление документа.
В четвертой главе мы обсудим, почему LSI является подходящим методом для использования в целях поиска информации.
В пятой главе представлена реализация алгоритма, который выполнен на языке программирования Python.
В шестой главе представлен вывод на основе исследованной информации.
Наконец, в приложении предоставлен код программы, который реализует в настоящей работе алгоритм для поиска текстов одной тематики.



