Тип работы:
Предмет:
Язык работы:


АЛГОРИТМ ПОИСКА БЛИЗКИХ ПО СОДЕРЖАНИЮ ДОКУМЕНТОВ ЦИФРОВОЙ КОЛЛЕКЦИИ НА ОСНОВЕ ЛАТЕНТНО-СЕМАНТИЧЕСКОГО АНАЛИЗА

Работа №41271

Тип работы

Дипломные работы, ВКР

Предмет

математика

Объем работы33
Год сдачи2019
Стоимость6500 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
297
Не подходит работа?

Узнай цену на написание


АННОТАЦИЯ 3
ВВЕДЕНИЕ 4
ГЛАВА 1. ПРЕДВАРИТЕЛЬНЫЕ СВЕДЕНИЯ 6
1.1 Основные определения 6
1.2 Оценка релевантности 9
1.3 Оценка эффективности 10
ГЛАВА 2. ЛАТЕНТНО-СЕМАНТИЧЕСКИЙ АНАЛИЗ 12
2.1 Подсчет данных и матрица совпадений 12
2.2 Метод понижения ранга 14
2.3 Латентно-семантический анализ 14
2.4 Оптимизация сингулярного разложения 19
ГЛАВА 3. ПРОБЛЕМА ПОЛИСЕМИИ 20
ГЛАВА 4. ИНФОРМАЦИОННЫЙ ПОИСК НА ОСНОВЕ ЛАТЕНТНО-СЕМАНТИЧЕСКОГО АНАЛИЗА 23
ГЛАВА 5. РЕАЛИЗАЦИЯ АЛГОРИТМА 24
ЗАКЛЮЧЕНИЕ 27
СПИСОК ЛИТЕРАТУРЫ 28
ПРИЛОЖЕНИЯ

В искусственном интеллекте разработка алгоритмов, которые могут автоматически обрабатывать естественный язык и текст, была большой проблемой [1]. Спрос на компьютерные системы для управления и фильтрации поиска через огромные хранилища значительно возрос с годами.
В данной работе представлен подход, называемый латентным семантическим анализом (LSA), который представляет собой метод в обработке естественного языка для извлечения и представления контекстного значения слов статистическими вычислениями, применяемый к большому объему текста [1]. Латентный семантический анализ исследует взаимосвязь между набором документов и терминов и после обработки большой выборки данных представляет слова, используемые в документе, в многомерном семантическом пространстве [3]. Хотя многие статистические методы, такие как векторная пространственная модель, вероятностная модель и кластеризация документов, могут быть использованы для поиска информации, в моей работе основное внимание методу скрытого семантического индексирования [23].
Скрытая семантическая индексация— это метод поиска информации, который индексирует и идентифицирует шаблон в неструктурированном наборе текста и отношения между ними [2]. Он использует математический метод, называемый разложением сингулярных значений (SVD) для идентификации отношений. Данная работа содержит подробное описание всего процесса скрытого семантического индексирования.
Скрытое семантическое индексирование создает ассоциации между терминами, которые встречаются в аналогичном контексте. Он основан на принципе, что слова, используемые в одном и том же контексте, имеют сходные значения. Мы анализируем, насколько эффективен LSI и как SVD можно улучшить [2]. В работе основное внимание уделяется поиску информации, используя LSI, я анализирую плюсы и минусы этой техники в отношении поиска информации.
Документ организован следующим образом:
В первой главе рассмотрены основные определения.
Во второй главе представлены различные компоненты процесса латентно-семантического индексирования. Она состоит из иллюстративного примера, относящегося к технике этого метода, а также в ней предлагается усовершенствование метода сингулярного разложения и даются соответствующие предложения.
В третьей главе разбирается проблема полисемии и её влияние на векторное представление документа.
В четвертой главе мы обсудим, почему LSI является подходящим методом для использования в целях поиска информации.
В пятой главе представлена реализация алгоритма, который выполнен на языке программирования Python.
В шестой главе представлен вывод на основе исследованной информации.
Наконец, в приложении предоставлен код программы, который реализует в настоящей работе алгоритм для поиска текстов одной тематики.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Следует сказать, что LSA используется для поиска информации, поскольку он решает проблемы синонимии, в которых одно и то же базовое понятие описывается с использованием разных терминов, полисемии, где каждое слово может иметь более одного значения и быть в терминальной зависимости, как в ассоциации между коррелированными терминами в разных документах, что делает его намного превосходящим другие традиционные стратегии поиска. Этот метод также имеет некоторые недостатки, которые включают большие требования к хранению и высокое время вычисления, которое уменьшает эффективность. В конечном счете, чтобы решить, перевешивают ли преимущества недостатки, необходимо учитывать производительность поиска. LSA обеспечивает лучшие результаты по сравнению с простой векторной моделью. Существует несколько других методов, таких как вероятностное скрытое семантическое индексирование и скрытое распределение Дирихле, которые устраняют некоторые недостатки латентно-семантического анализа. Результаты LSA не вводят четко определенных вероятностей и, следовательно, их трудно интерпретировать. Вероятностный латентно-семантический анализ решает эту проблему и обеспечивает надежную статистическую основу для анализа, предлагает лучший выбор модели и снижает сложность. Основное преимущество использования такой модели, как латентное размещение Дирихле (LDA), заключается в том, что она может быть масштабирована для обеспечения полезного механизма вывода в областях, включающих несколько уровней структуры [22]. Но LSA, будучи очень популярным методом, который уже был опробован на различных наборах данных, делает его чрезвычайно надежным. Таким образом, мы можем сделать вывод, что, хотя LSA не хватает важных когнитивных способностей, которые люди используют для построения и применения знаний из опыта, успех LSA как теории приобретения и представления человеческих знаний не следует недооценивать.


1. Landauer T. K. Introduction to Latent Semantic Analysis / T.K. Landauer, P. W. Foltz, D. Laham, 1998. — 25 p, 259-284 p.
2. Landauer T. K. Indexing by latent semantic analysis, Journal of the American Society for Information Science / T.K. Landauer, S. Deerwester, S. T. Dumais,
G. W. Furnas, R. Harshman, 1990. — 41 p.
3. Landauer T. K. A solution to Plato's problem: The latent semantic analysis theory of the acquisition, induction, and representation of knowledge / T. K. Lan- dauer, S. T. Dumais, 1997. — 211-240 p.
4. Голуб Дж., Ван Лоун Ч. Матричные вычисления. Пер. с англ. / Под ред. Воеводина В. В. —М.: Мир, 1999. - 548 с.
5. Dumais S. Latent semantic indexing / S. Dumais, 1995.
6. Foltz P. W. Using Latent Semantic Indexing for information filtering / P. W. Foltz, 1990. — 40-47 p.
7. Harman D. Latent semantic indexing (LSI) and TREC-2 / D. Harman, 1994.
8. Шмойлова Р. А. Общая теория статистики / Р. А. Шмойлова, 2002. — 560 с.
9. Clarke L. A. Dynamic Inverted Indexes for a Distributed Full-Text Retrieval System / L. A. Clarke, G. V. Cormack, 1995.
10. Маннинг К. Введение в информационный поиск / К. Маннинг, Рагхаван П. Шютце, 2011.
11. Hofmann T. Probabilistic latent semantic analysis / T. Hofmann, 1999. — 289296 p.
12. Landauer T. K. Handbook of Latent Semantic Analysis. Lawrence Erlbaum Associates / T.K. Landauer, D. McNamara, S. Dennis, W. Kintsch, 2007.
13. Dumais S.T., Using Latent Semantic Analysis to improve access to textual information / S.T. Dumais, G.W. Furnas, T.K. Landauer, S. Deerwester, R. Harsh- man, 1988. — 281-285 p.
14. Amudaria S Improving the precision ration using semantic based search / S. Amudaria, S. Sasirekha, 2011. — 465-470 p.
15. Moravec P. WordNet Ontology Based Model for Web Retrieval / V. Snasel, P. Moravec, J. Pokorny, 2005. — 220-225 p.
16. Anita R. Semantic search using Latent Semantic Indexing and Word Net / R. Anita, C. N. Subalalitha, A. Dorle, K. Venkatesh., 2017. —551-555 p.
17. Moravec P. LSI vs. Wordnet Ontology in Dimension Reduction for Information Retrieval / P. Moravec, M. Kolovrat, and V. Snasel, 2004. — 18-26 p.
18. Ozcan. R. Concept Based Information Access Using Ontologies and Latent Semantic Analysis / R. Ozcan and Y. A. Aslandogan, 2004.— 1-16p.
19. Rosario B. Latent Semantic Indexing: An overview / B. Rosario, 2000.
20. Wild F. Investigating Unstructured Texts with Latent Semantic Analysis / F. Wild and C. Stahl., 2006. — 383-390 p.
21. Blei D. M. Latent Dirichlet Allocation / D. M. Blei, A. Y. Ng, M. I. Jordan // Journal of Machine Learning Research, 2003. — 993-1022 p.
22. Tkaczyk D. New Methods for Metadata Extraction from Scientific Literature /
D. Tkaczyk, 2017. — 166 p.
23. Boukhers Z. End-to-end Approach for Extracting and Segmenting High-Variance References from PDF Documents/ Z. Boukhers, S. Ambhore, S. StaabAn, 2019 . — 11 p.
24. Ингерсолл Г. С. ., Обработка неструктурированных текстов. Поиск, организация и манипулирование / Г. С. Ингерсолл, Т. С. Мортон, Э. Л. Фэррис, 2015. — 414 с.
25. Eckart C. The approximation of one matrix by another of lower rank. Psy- chometrika / C. Eckart, G. Young, 1936. — 211 -218 p.
26. Dietrich D. Data Science & Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data / D. Dietrich, Heller B., Yang B., 2015. — 256 p.


Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ