📄Работа №84360

Тема: РАЗРАБОТКА И ОЦЕНКА ИНСТРУМЕНТАЛЬНОЙ СРЕДЫ ДЛЯ СРАВНЕНИЯ АЛГОРИТМОВ РАСЧЕТА СЕМАНТИЧЕСКОЙ БЛИЗОСТИ СЛОВ

Характеристики работы

▣

Тип работы Дипломные работы, ВКР

Предмет Информатика и вычислительная техника

📄

Объем: 30 листов

📅

Год: 2016

👁️

4250 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Аннотация 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 3
1. Постановка задачи 5
2. Обзор существующих подходов и систем 7
2.1. Обзор существующих подходов к решению задачи вычисления
семантической близости слов 7
2.2. Обзор существующих систем вычисления семантической близости слов .... 12
3. Описание среды вычисления семантической близости слов 19
4. Результаты исследований 23
4.1. Исходные данные 23
4.2. Коэффициент корреляции Спирмена 23
4.3. Результаты экспериментов 24
Заключение 26
Список использованных источников

📖 Аннотация

Работа посвящена разработке и оценке инструментальной среды для сравнения алгоритмов расчета семантической близости слов. Актуальность исследования обусловлена лавинообразным ростом объемов информации в сети Интернет, что требует совершенствования систем информационного поиска, способных не только находить документы по ключевым словам, но и определять слова, близкие по смыслу. При этом большинство исследований в данной области ориентированы на английский язык, а адаптация методов для русского языка зачастую ограничена конкретными приложениями и не проходит должной апробации. В ходе работы были изучены механизмы нескольких подходов к вычислению семантической близости, реализована инструментальная среда, использующая методы латентно-семантического анализа и поточечной взаимной информации, а также проведено тестирование этих подходов для русского языка. Наиболее высокий результат показал метод Word2vec, а среди реализованных алгоритмов лучшую производительность продемонстрировал латентно-семантический анализ, показавший умеренный коэффициент корреляции вместе с методом поточечной взаимной информации. Практическая значимость результатов заключается в возможности их использования для решения задач определения сходства русскоязычных текстовых корпусов, создания вопросно-ответных систем, расширения поисковых запросов, определения тональности текста и других задач информационного поиска, а также в лингвистических исследованиях.

📖 Введение

С каждым годом количество пользователей сети Интернет неуклонно возрастает. Все чаще мы используем Интернет для решения мелких бытовых проблем, научных изысканий, общения и разрешения рабочих задач. Эти действия неизменно связаны с обменом и поиском информации. Объем информации, хранимой в сети, возрастает лавинообразно, в связи с чем все большей популярностью пользуются различные системы информационного поиска, позволяющие в бесконечном потоке данных отобрать нужную нам информацию.
Основная задача таких систем - исходя из пользовательского запроса, найти документы, содержащие либо указанные в запросе(ключевые) слова, либо слова, связанные с ними. И, если с ключевыми словами все понятно, то нахождение слов, близких по смыслу к ключевым, является одной из важнейших задач информационного поиска, и для ее решения мы обратимся к понятию семантической близости.
Семантическая близость, семантическое расстояние или семантическое сходство - это численная мера степени подобия слов. Ее используют для определения семантической связи, так как она имеет высокое значение для связных слов (синонимов, гипонимов, гиперонимов и т. д.). [1] Как правило, это скалярная величина в диапазоне [0; 1] или [0; +да].
Меры семантического сходства используются при обработке текста для определения сходства текстовых корпусов, создания вопросно-ответных систем, расширения поисковых запросов и решения задачи смысловой неоднозначности, кроме того, эти меры полезны в лингвистических и филологических исследованиях.
К сожалению, исследования подходов к определению семантической близости проводятся в основном для английского языка. Российские исследователи периодически адаптируют методы для английского языка, но эти попытки ограничиваются какими-либо конкретными приложениями и остаются без должной проверки и апробации.
Для русского языка наиболее известны исследования были проведены на проекте RUSSE[2][3][19] в рамках конференции Диалог[20].

✅ Заключение

В настоящей дипломной работе был изучен механизм работы нескольких систем и подходов нахождения семантической близости слов. Некоторые из них апробированы, а также была написана инструментальная среда для нахождения семантической близости слов и семантически близких слов с использованием методов латентно-семантического анализа и поточечной взаимной информации.
Были решены следующие задачи:
- разработано приложение для вычисления семантической близости на основе двух подходов;
- протестированы подходы к решению проблемы семантической близости слов для русского языка.
Наиболее высокий результат при определении семантической близости слов показал Word2vec. Это подтверждают и другие исследования[19].
Из реализованных алгоритмов более высокий результат у метода латентно-семантического анализа. Вместе с методом поточечной взаимной информации они показали умеренный коэффициент корреляции.
Эти результаты могут быть использованы в дальнейших исследованиях, а также для решения задач определения сходства текстовых русскоязычных корпусов, создания вопросно-ответных систем, расширения поисковых запросов, определения тональности текста, решения задачи смысловой неоднозначности и для решения прочих задач информационного поиска. Кроме того, результаты могут быть полезны лингвистам, ведущим исследования в данной области.
Для повышения точности вычисления и оценки необходимы дополнительные исследования. В частности, проведение тестирования на нескольких различных корпусах с разным типом речи, а также использование как минимум еще одной метрики для оценки результатов исследования.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Harispe S., Ranwez S. Janaqi S., Montmain J. (2015). "Semantic Similarity from Natural Language and Ontology Analysis". Synthesis Lectures on Human Language Technologies 8:1: 1-254.
2. AI P., OO L. Evaluating three corpus-based semantic similarity systems for Russian //Dialog. - 2015. - Т. 28.
3. Kutuzov A., Andreev I. Texts in, meaning out: neural language models in semantic similarity task for Russian // arXiv preprint arXiv:1504.08183. - 2015.
4. Landauer T. K., Foltz P. W., Laham D. An introduction to latent semantic analysis //Discourse processes. - 1998. - Т. 25. - №. 2-3. - С. 259¬284.
5. Bouma G. Normalized (pointwise) mutual information in collocation extraction //Proceedings of GSCL. - 2009. - С. 31-40.
6. Голуб Дж., Ван-Лоун Ч. Матричные вычисления. М.: Мир. 1999.
7. Jeh G., Widom J. SimRank: a measure of structural-context similarity //Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining. - ACM, 2002. - С. 538-543.
8. Cilibrasi R. L., Vitanyi P. The google similarity distance //Knowledge and Data Engineering, IEEE Transactions on. - 2007. - Т. 19. - №. 3. - С. 370-383.
9. Java Wiktionary Library [Электронный ресурс]. - Режим доступа: https://github.com/dkpro/dkpro-jwktl,свободный.
10. SemanticVectors [Электронный ресурс]. - Режим доступа: https://github.com/semanticvectors/semanticvectors,свободный.
11. DISSECT [Электронный ресурс]. - Режим доступа: http://clic.cimec.unitn.it/composes/toolkit/index.html,свободный.
12. Baroni M., Zamparelli R. Nouns are vectors, adjectives are matrices: Representing adjective-noun constructions in semantic space //Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. - Association for Computational Linguistics, 2010. - С. 1183-1193.
13. Guevara E. A regression model of adjective-noun compositionality in distributional semantics //Proceedings of the 2010 Workshop on GEometrical Models of Natural Language Semantics. - Association for Computational Linguistics, 2010. - С. 33-37.
14. Wor2vec [Электронный ресурс]. - Режим доступа: https://code.google.com/archive/p/word2vec, свободный.
15. Wikipedia [Электронный ресурс]. - Режим доступа: https://www.wikipedia.org,свободный.
16. RUSSE датасеты для оценки [Электронный ресурс]. - Режим доступа: http://russe.nlpub.ru/downloads/, свободный.
17. Поляков Л. Е. Коэффициент ранговой корреляции Спирмена //М.: ЮНИТИ. - 1971. - С. 56.
18. Русскоязычные дампы Википедии [Электронный ресурс]. - Режим доступа:https://dumps.wikimedia.org/ruwiki,свободный.
19. Russian Semantic Similarity Evaluation — мероприятие по оценке методов определения семантической близости слов [Электронный ресурс]. - Режим доступа:https://nlpub.ru/RUSSE,свободный.
20. «Диалог» конференцией по компьютерной лингвистике [Электронный ресурс]. - Режим доступа:http://www.dialog-21.ru,свободный.
21. Gensim Tutorial [Электронный ресурс]. - Режим доступа: https://radimrehurek.com/gensim/tutorial.html,свободный.
22. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск //Маннинг, П. Рагхаван, Х. Шютце. М.:- «Вильямс. - 2011.
23. SciPy [Электронный ресурс]. - Режим доступа: https://www.scipy.org,свободный.
24. Биграммы Википедии [Электронный ресурс]. - Режим доступа: https://s3-eu-west- 1.amazonaws.com/dsl-research/wiki/wiki-cooccur-ge2.csv.bz2,свободный.
25. Mikolov T. et al. Efficient estimation of word representations in vector space //arXiv preprint arXiv: 1301.3781. - 2013.
26. Цыганов А. М. Методы адаптации и интеграции при эволюции больших информационных систем - 2009
27. Фаррохбахт Ф. М. Исследование и разработка автоматизированной системы смысловой обработки текстов в системе управления электронными архивами - 2013

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Дополнительная информация

Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.

Всегда отправляем файлы и чек на почту

Ник или номер телефона

Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Пожалуйста, выберите предмет работы.

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Пожалуйста, выберите тип работы.

Объем работы * Пожалуйста, укажите объем работы.

Срок выполнения * Пожалуйста, укажите срок выполнения.

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (211445)

Статьи

»» Все статьи

Вход в личный кабинет