Тип работы:
Предмет:
Язык работы:


РАЗРАБОТКА И ОЦЕНКА ИНСТРУМЕНТАЛЬНОЙ СРЕДЫ ДЛЯ СРАВНЕНИЯ АЛГОРИТМОВ РАСЧЕТА СЕМАНТИЧЕСКОЙ БЛИЗОСТИ СЛОВ

Работа №84360

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы30
Год сдачи2016
Стоимость4250 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
39
Не подходит работа?

Узнай цену на написание


Введение 3
1. Постановка задачи 5
2. Обзор существующих подходов и систем 7
2.1. Обзор существующих подходов к решению задачи вычисления
семантической близости слов 7
2.2. Обзор существующих систем вычисления семантической близости слов .... 12
3. Описание среды вычисления семантической близости слов 19
4. Результаты исследований 23
4.1. Исходные данные 23
4.2. Коэффициент корреляции Спирмена 23
4.3. Результаты экспериментов 24
Заключение 26
Список использованных источников

С каждым годом количество пользователей сети Интернет неуклонно возрастает. Все чаще мы используем Интернет для решения мелких бытовых проблем, научных изысканий, общения и разрешения рабочих задач. Эти действия неизменно связаны с обменом и поиском информации. Объем информации, хранимой в сети, возрастает лавинообразно, в связи с чем все большей популярностью пользуются различные системы информационного поиска, позволяющие в бесконечном потоке данных отобрать нужную нам информацию.
Основная задача таких систем - исходя из пользовательского запроса, найти документы, содержащие либо указанные в запросе(ключевые) слова, либо слова, связанные с ними. И, если с ключевыми словами все понятно, то нахождение слов, близких по смыслу к ключевым, является одной из важнейших задач информационного поиска, и для ее решения мы обратимся к понятию семантической близости.
Семантическая близость, семантическое расстояние или семантическое сходство - это численная мера степени подобия слов. Ее используют для определения семантической связи, так как она имеет высокое значение для связных слов (синонимов, гипонимов, гиперонимов и т. д.). [1] Как правило, это скалярная величина в диапазоне [0; 1] или [0; +да].
Меры семантического сходства используются при обработке текста для определения сходства текстовых корпусов, создания вопросно-ответных систем, расширения поисковых запросов и решения задачи смысловой неоднозначности, кроме того, эти меры полезны в лингвистических и филологических исследованиях.
К сожалению, исследования подходов к определению семантической близости проводятся в основном для английского языка. Российские исследователи периодически адаптируют методы для английского языка, но эти попытки ограничиваются какими-либо конкретными приложениями и остаются без должной проверки и апробации.
Для русского языка наиболее известны исследования были проведены на проекте RUSSE[2][3][19] в рамках конференции Диалог[20].

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В настоящей дипломной работе был изучен механизм работы нескольких систем и подходов нахождения семантической близости слов. Некоторые из них апробированы, а также была написана инструментальная среда для нахождения семантической близости слов и семантически близких слов с использованием методов латентно-семантического анализа и поточечной взаимной информации.
Были решены следующие задачи:
- разработано приложение для вычисления семантической близости на основе двух подходов;
- протестированы подходы к решению проблемы семантической близости слов для русского языка.
Наиболее высокий результат при определении семантической близости слов показал Word2vec. Это подтверждают и другие исследования[19].
Из реализованных алгоритмов более высокий результат у метода латентно-семантического анализа. Вместе с методом поточечной взаимной информации они показали умеренный коэффициент корреляции.
Эти результаты могут быть использованы в дальнейших исследованиях, а также для решения задач определения сходства текстовых русскоязычных корпусов, создания вопросно-ответных систем, расширения поисковых запросов, определения тональности текста, решения задачи смысловой неоднозначности и для решения прочих задач информационного поиска. Кроме того, результаты могут быть полезны лингвистам, ведущим исследования в данной области.
Для повышения точности вычисления и оценки необходимы дополнительные исследования. В частности, проведение тестирования на нескольких различных корпусах с разным типом речи, а также использование как минимум еще одной метрики для оценки результатов исследования.



1. Harispe S., Ranwez S. Janaqi S., Montmain J. (2015). "Semantic Similarity from Natural Language and Ontology Analysis". Synthesis Lectures on Human Language Technologies 8:1: 1-254.
2. AI P., OO L. Evaluating three corpus-based semantic similarity systems for Russian //Dialog. - 2015. - Т. 28.
3. Kutuzov A., Andreev I. Texts in, meaning out: neural language models in semantic similarity task for Russian // arXiv preprint arXiv:1504.08183. - 2015.
4. Landauer T. K., Foltz P. W., Laham D. An introduction to latent semantic analysis //Discourse processes. - 1998. - Т. 25. - №. 2-3. - С. 259¬284.
5. Bouma G. Normalized (pointwise) mutual information in collocation extraction //Proceedings of GSCL. - 2009. - С. 31-40.
6. Голуб Дж., Ван-Лоун Ч. Матричные вычисления. М.: Мир. 1999.
7. Jeh G., Widom J. SimRank: a measure of structural-context similarity //Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining. - ACM, 2002. - С. 538-543.
8. Cilibrasi R. L., Vitanyi P. The google similarity distance //Knowledge and Data Engineering, IEEE Transactions on. - 2007. - Т. 19. - №. 3. - С. 370-383.
9. Java Wiktionary Library [Электронный ресурс]. - Режим доступа: https://github.com/dkpro/dkpro-jwktl,свободный.
10. SemanticVectors [Электронный ресурс]. - Режим доступа: https://github.com/semanticvectors/semanticvectors,свободный.
11. DISSECT [Электронный ресурс]. - Режим доступа: http://clic.cimec.unitn.it/composes/toolkit/index.html,свободный.
12. Baroni M., Zamparelli R. Nouns are vectors, adjectives are matrices: Representing adjective-noun constructions in semantic space //Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. - Association for Computational Linguistics, 2010. - С. 1183-1193.
13. Guevara E. A regression model of adjective-noun compositionality in distributional semantics //Proceedings of the 2010 Workshop on GEometrical Models of Natural Language Semantics. - Association for Computational Linguistics, 2010. - С. 33-37.
14. Wor2vec [Электронный ресурс]. - Режим доступа: https://code.google.com/archive/p/word2vec, свободный.
15. Wikipedia [Электронный ресурс]. - Режим доступа: https://www.wikipedia.org,свободный.
16. RUSSE датасеты для оценки [Электронный ресурс]. - Режим доступа: http://russe.nlpub.ru/downloads/, свободный.
17. Поляков Л. Е. Коэффициент ранговой корреляции Спирмена //М.: ЮНИТИ. - 1971. - С. 56.
18. Русскоязычные дампы Википедии [Электронный ресурс]. - Режим доступа:https://dumps.wikimedia.org/ruwiki,свободный.
19. Russian Semantic Similarity Evaluation — мероприятие по оценке методов определения семантической близости слов [Электронный ресурс]. - Режим доступа:https://nlpub.ru/RUSSE,свободный.
20. «Диалог» конференцией по компьютерной лингвистике [Электронный ресурс]. - Режим доступа:http://www.dialog-21.ru,свободный.
21. Gensim Tutorial [Электронный ресурс]. - Режим доступа: https://radimrehurek.com/gensim/tutorial.html,свободный.
22. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск //Маннинг, П. Рагхаван, Х. Шютце. М.:- «Вильямс. - 2011.
23. SciPy [Электронный ресурс]. - Режим доступа: https://www.scipy.org,свободный.
24. Биграммы Википедии [Электронный ресурс]. - Режим доступа: https://s3-eu-west- 1.amazonaws.com/dsl-research/wiki/wiki-cooccur-ge2.csv.bz2,свободный.
25. Mikolov T. et al. Efficient estimation of word representations in vector space //arXiv preprint arXiv: 1301.3781. - 2013.
26. Цыганов А. М. Методы адаптации и интеграции при эволюции больших информационных систем - 2009
27. Фаррохбахт Ф. М. Исследование и разработка автоматизированной системы смысловой обработки текстов в системе управления электронными архивами - 2013


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ