Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
ℹ️Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.
Введение 3
1. Постановка задачи 5
2. Обзор существующих подходов и систем 7
2.1. Обзор существующих подходов к решению задачи вычисления
семантической близости слов 7
2.2. Обзор существующих систем вычисления семантической близости слов .... 12
3. Описание среды вычисления семантической близости слов 19
4. Результаты исследований 23
4.1. Исходные данные 23
4.2. Коэффициент корреляции Спирмена 23
4.3. Результаты экспериментов 24
Заключение 26
Список использованных источников
📖 Аннотация
Работа посвящена разработке и оценке инструментальной среды для сравнения алгоритмов расчета семантической близости слов. Актуальность исследования обусловлена лавинообразным ростом объемов информации в сети Интернет, что требует совершенствования систем информационного поиска, способных не только находить документы по ключевым словам, но и определять слова, близкие по смыслу. При этом большинство исследований в данной области ориентированы на английский язык, а адаптация методов для русского языка зачастую ограничена конкретными приложениями и не проходит должной апробации. В ходе работы были изучены механизмы нескольких подходов к вычислению семантической близости, реализована инструментальная среда, использующая методы латентно-семантического анализа и поточечной взаимной информации, а также проведено тестирование этих подходов для русского языка. Наиболее высокий результат показал метод Word2vec, а среди реализованных алгоритмов лучшую производительность продемонстрировал латентно-семантический анализ, показавший умеренный коэффициент корреляции вместе с методом поточечной взаимной информации. Практическая значимость результатов заключается в возможности их использования для решения задач определения сходства русскоязычных текстовых корпусов, создания вопросно-ответных систем, расширения поисковых запросов, определения тональности текста и других задач информационного поиска, а также в лингвистических исследованиях.
📖 Введение
С каждым годом количество пользователей сети Интернет неуклонно возрастает. Все чаще мы используем Интернет для решения мелких бытовых проблем, научных изысканий, общения и разрешения рабочих задач. Эти действия неизменно связаны с обменом и поиском информации. Объем информации, хранимой в сети, возрастает лавинообразно, в связи с чем все большей популярностью пользуются различные системы информационного поиска, позволяющие в бесконечном потоке данных отобрать нужную нам информацию.
Основная задача таких систем - исходя из пользовательского запроса, найти документы, содержащие либо указанные в запросе(ключевые) слова, либо слова, связанные с ними. И, если с ключевыми словами все понятно, то нахождение слов, близких по смыслу к ключевым, является одной из важнейших задач информационного поиска, и для ее решения мы обратимся к понятию семантической близости.
Семантическая близость, семантическое расстояние или семантическое сходство - это численная мера степени подобия слов. Ее используют для определения семантической связи, так как она имеет высокое значение для связных слов (синонимов, гипонимов, гиперонимов и т. д.). [1] Как правило, это скалярная величина в диапазоне [0; 1] или [0; +да].
Меры семантического сходства используются при обработке текста для определения сходства текстовых корпусов, создания вопросно-ответных систем, расширения поисковых запросов и решения задачи смысловой неоднозначности, кроме того, эти меры полезны в лингвистических и филологических исследованиях.
К сожалению, исследования подходов к определению семантической близости проводятся в основном для английского языка. Российские исследователи периодически адаптируют методы для английского языка, но эти попытки ограничиваются какими-либо конкретными приложениями и остаются без должной проверки и апробации.
Для русского языка наиболее известны исследования были проведены на проекте RUSSE[2][3][19] в рамках конференции Диалог[20].
✅ Заключение
В настоящей дипломной работе был изучен механизм работы нескольких систем и подходов нахождения семантической близости слов. Некоторые из них апробированы, а также была написана инструментальная среда для нахождения семантической близости слов и семантически близких слов с использованием методов латентно-семантического анализа и поточечной взаимной информации.
Были решены следующие задачи:
- разработано приложение для вычисления семантической близости на основе двух подходов;
- протестированы подходы к решению проблемы семантической близости слов для русского языка.
Наиболее высокий результат при определении семантической близости слов показал Word2vec. Это подтверждают и другие исследования[19].
Из реализованных алгоритмов более высокий результат у метода латентно-семантического анализа. Вместе с методом поточечной взаимной информации они показали умеренный коэффициент корреляции.
Эти результаты могут быть использованы в дальнейших исследованиях, а также для решения задач определения сходства текстовых русскоязычных корпусов, создания вопросно-ответных систем, расширения поисковых запросов, определения тональности текста, решения задачи смысловой неоднозначности и для решения прочих задач информационного поиска. Кроме того, результаты могут быть полезны лингвистам, ведущим исследования в данной области.
Для повышения точности вычисления и оценки необходимы дополнительные исследования. В частности, проведение тестирования на нескольких различных корпусах с разным типом речи, а также использование как минимум еще одной метрики для оценки результатов исследования.