📄Работа №41271

Тема: АЛГОРИТМ ПОИСКА БЛИЗКИХ ПО СОДЕРЖАНИЮ ДОКУМЕНТОВ ЦИФРОВОЙ КОЛЛЕКЦИИ НА ОСНОВЕ ЛАТЕНТНО-СЕМАНТИЧЕСКОГО АНАЛИЗА

Характеристики работы

▣

Тип работы Дипломные работы, ВКР

Предмет Математика

📄

Объем: 33 листов

📅

Год: 2019

👁️

6500 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

АННОТАЦИЯ 3
ВВЕДЕНИЕ 4
ГЛАВА 1. ПРЕДВАРИТЕЛЬНЫЕ СВЕДЕНИЯ 6
1.1 Основные определения 6
1.2 Оценка релевантности 9
1.3 Оценка эффективности 10
ГЛАВА 2. ЛАТЕНТНО-СЕМАНТИЧЕСКИЙ АНАЛИЗ 12
2.1 Подсчет данных и матрица совпадений 12
2.2 Метод понижения ранга 14
2.3 Латентно-семантический анализ 14
2.4 Оптимизация сингулярного разложения 19
ГЛАВА 3. ПРОБЛЕМА ПОЛИСЕМИИ 20
ГЛАВА 4. ИНФОРМАЦИОННЫЙ ПОИСК НА ОСНОВЕ ЛАТЕНТНО-СЕМАНТИЧЕСКОГО АНАЛИЗА 23
ГЛАВА 5. РЕАЛИЗАЦИЯ АЛГОРИТМА 24
ЗАКЛЮЧЕНИЕ 27
СПИСОК ЛИТЕРАТУРЫ 28
ПРИЛОЖЕНИЯ

📖 Введение

В искусственном интеллекте разработка алгоритмов, которые могут автоматически обрабатывать естественный язык и текст, была большой проблемой [1]. Спрос на компьютерные системы для управления и фильтрации поиска через огромные хранилища значительно возрос с годами.
В данной работе представлен подход, называемый латентным семантическим анализом (LSA), который представляет собой метод в обработке естественного языка для извлечения и представления контекстного значения слов статистическими вычислениями, применяемый к большому объему текста [1]. Латентный семантический анализ исследует взаимосвязь между набором документов и терминов и после обработки большой выборки данных представляет слова, используемые в документе, в многомерном семантическом пространстве [3]. Хотя многие статистические методы, такие как векторная пространственная модель, вероятностная модель и кластеризация документов, могут быть использованы для поиска информации, в моей работе основное внимание методу скрытого семантического индексирования [23].
Скрытая семантическая индексация— это метод поиска информации, который индексирует и идентифицирует шаблон в неструктурированном наборе текста и отношения между ними [2]. Он использует математический метод, называемый разложением сингулярных значений (SVD) для идентификации отношений. Данная работа содержит подробное описание всего процесса скрытого семантического индексирования.
Скрытое семантическое индексирование создает ассоциации между терминами, которые встречаются в аналогичном контексте. Он основан на принципе, что слова, используемые в одном и том же контексте, имеют сходные значения. Мы анализируем, насколько эффективен LSI и как SVD можно улучшить [2]. В работе основное внимание уделяется поиску информации, используя LSI, я анализирую плюсы и минусы этой техники в отношении поиска информации.
Документ организован следующим образом:
В первой главе рассмотрены основные определения.
Во второй главе представлены различные компоненты процесса латентно-семантического индексирования. Она состоит из иллюстративного примера, относящегося к технике этого метода, а также в ней предлагается усовершенствование метода сингулярного разложения и даются соответствующие предложения.
В третьей главе разбирается проблема полисемии и её влияние на векторное представление документа.
В четвертой главе мы обсудим, почему LSI является подходящим методом для использования в целях поиска информации.
В пятой главе представлена реализация алгоритма, который выполнен на языке программирования Python.
В шестой главе представлен вывод на основе исследованной информации.
Наконец, в приложении предоставлен код программы, который реализует в настоящей работе алгоритм для поиска текстов одной тематики.

✅ Заключение

Следует сказать, что LSA используется для поиска информации, поскольку он решает проблемы синонимии, в которых одно и то же базовое понятие описывается с использованием разных терминов, полисемии, где каждое слово может иметь более одного значения и быть в терминальной зависимости, как в ассоциации между коррелированными терминами в разных документах, что делает его намного превосходящим другие традиционные стратегии поиска. Этот метод также имеет некоторые недостатки, которые включают большие требования к хранению и высокое время вычисления, которое уменьшает эффективность. В конечном счете, чтобы решить, перевешивают ли преимущества недостатки, необходимо учитывать производительность поиска. LSA обеспечивает лучшие результаты по сравнению с простой векторной моделью. Существует несколько других методов, таких как вероятностное скрытое семантическое индексирование и скрытое распределение Дирихле, которые устраняют некоторые недостатки латентно-семантического анализа. Результаты LSA не вводят четко определенных вероятностей и, следовательно, их трудно интерпретировать. Вероятностный латентно-семантический анализ решает эту проблему и обеспечивает надежную статистическую основу для анализа, предлагает лучший выбор модели и снижает сложность. Основное преимущество использования такой модели, как латентное размещение Дирихле (LDA), заключается в том, что она может быть масштабирована для обеспечения полезного механизма вывода в областях, включающих несколько уровней структуры [22]. Но LSA, будучи очень популярным методом, который уже был опробован на различных наборах данных, делает его чрезвычайно надежным. Таким образом, мы можем сделать вывод, что, хотя LSA не хватает важных когнитивных способностей, которые люди используют для построения и применения знаний из опыта, успех LSA как теории приобретения и представления человеческих знаний не следует недооценивать.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Landauer T. K. Introduction to Latent Semantic Analysis / T.K. Landauer, P. W. Foltz, D. Laham, 1998. — 25 p, 259-284 p.
2. Landauer T. K. Indexing by latent semantic analysis, Journal of the American Society for Information Science / T.K. Landauer, S. Deerwester, S. T. Dumais,
G. W. Furnas, R. Harshman, 1990. — 41 p.
3. Landauer T. K. A solution to Plato's problem: The latent semantic analysis theory of the acquisition, induction, and representation of knowledge / T. K. Lan- dauer, S. T. Dumais, 1997. — 211-240 p.
4. Голуб Дж., Ван Лоун Ч. Матричные вычисления. Пер. с англ. / Под ред. Воеводина В. В. —М.: Мир, 1999. - 548 с.
5. Dumais S. Latent semantic indexing / S. Dumais, 1995.
6. Foltz P. W. Using Latent Semantic Indexing for information filtering / P. W. Foltz, 1990. — 40-47 p.
7. Harman D. Latent semantic indexing (LSI) and TREC-2 / D. Harman, 1994.
8. Шмойлова Р. А. Общая теория статистики / Р. А. Шмойлова, 2002. — 560 с.
9. Clarke L. A. Dynamic Inverted Indexes for a Distributed Full-Text Retrieval System / L. A. Clarke, G. V. Cormack, 1995.
10. Маннинг К. Введение в информационный поиск / К. Маннинг, Рагхаван П. Шютце, 2011.
11. Hofmann T. Probabilistic latent semantic analysis / T. Hofmann, 1999. — 289296 p.
12. Landauer T. K. Handbook of Latent Semantic Analysis. Lawrence Erlbaum Associates / T.K. Landauer, D. McNamara, S. Dennis, W. Kintsch, 2007.
13. Dumais S.T., Using Latent Semantic Analysis to improve access to textual information / S.T. Dumais, G.W. Furnas, T.K. Landauer, S. Deerwester, R. Harsh- man, 1988. — 281-285 p.
14. Amudaria S Improving the precision ration using semantic based search / S. Amudaria, S. Sasirekha, 2011. — 465-470 p.
15. Moravec P. WordNet Ontology Based Model for Web Retrieval / V. Snasel, P. Moravec, J. Pokorny, 2005. — 220-225 p.
16. Anita R. Semantic search using Latent Semantic Indexing and Word Net / R. Anita, C. N. Subalalitha, A. Dorle, K. Venkatesh., 2017. —551-555 p.
17. Moravec P. LSI vs. Wordnet Ontology in Dimension Reduction for Information Retrieval / P. Moravec, M. Kolovrat, and V. Snasel, 2004. — 18-26 p.
18. Ozcan. R. Concept Based Information Access Using Ontologies and Latent Semantic Analysis / R. Ozcan and Y. A. Aslandogan, 2004.— 1-16p.
19. Rosario B. Latent Semantic Indexing: An overview / B. Rosario, 2000.
20. Wild F. Investigating Unstructured Texts with Latent Semantic Analysis / F. Wild and C. Stahl., 2006. — 383-390 p.
21. Blei D. M. Latent Dirichlet Allocation / D. M. Blei, A. Y. Ng, M. I. Jordan // Journal of Machine Learning Research, 2003. — 993-1022 p.
22. Tkaczyk D. New Methods for Metadata Extraction from Scientific Literature /
D. Tkaczyk, 2017. — 166 p.
23. Boukhers Z. End-to-end Approach for Extracting and Segmenting High-Variance References from PDF Documents/ Z. Boukhers, S. Ambhore, S. StaabAn, 2019 . — 11 p.
24. Ингерсолл Г. С. ., Обработка неструктурированных текстов. Поиск, организация и манипулирование / Г. С. Ингерсолл, Т. С. Мортон, Э. Л. Фэррис, 2015. — 414 с.
25. Eckart C. The approximation of one matrix by another of lower rank. Psy- chometrika / C. Eckart, G. Young, 1936. — 211 -218 p.
26. Dietrich D. Data Science & Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data / D. Dietrich, Heller B., Yang B., 2015. — 256 p.

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.

Всегда отправляем файлы и чек на почту

Ник или номер телефона

Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Пожалуйста, выберите предмет работы.

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Пожалуйста, выберите тип работы.

Объем работы * Пожалуйста, укажите объем работы.

Срок выполнения * Пожалуйста, укажите срок выполнения.

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (211001)

Статьи

»» Все статьи

Вход в личный кабинет