Тема: РАЗРАБОТКА И ОЦЕНКА ИНСТРУМЕНТАЛЬНОЙ СРЕДЫ ДЛЯ СРАВНЕНИЯ АЛГОРИТМОВ РАСЧЕТА СЕМАНТИЧЕСКОЙ БЛИЗОСТИ СЛОВ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1. Постановка задачи 5
2. Обзор существующих подходов и систем 7
2.1. Обзор существующих подходов к решению задачи вычисления
семантической близости слов 7
2.2. Обзор существующих систем вычисления семантической близости слов .... 12
3. Описание среды вычисления семантической близости слов 19
4. Результаты исследований 23
4.1. Исходные данные 23
4.2. Коэффициент корреляции Спирмена 23
4.3. Результаты экспериментов 24
Заключение 26
Список использованных источников
📖 Введение
Основная задача таких систем - исходя из пользовательского запроса, найти документы, содержащие либо указанные в запросе(ключевые) слова, либо слова, связанные с ними. И, если с ключевыми словами все понятно, то нахождение слов, близких по смыслу к ключевым, является одной из важнейших задач информационного поиска, и для ее решения мы обратимся к понятию семантической близости.
Семантическая близость, семантическое расстояние или семантическое сходство - это численная мера степени подобия слов. Ее используют для определения семантической связи, так как она имеет высокое значение для связных слов (синонимов, гипонимов, гиперонимов и т. д.). [1] Как правило, это скалярная величина в диапазоне [0; 1] или [0; +да].
Меры семантического сходства используются при обработке текста для определения сходства текстовых корпусов, создания вопросно-ответных систем, расширения поисковых запросов и решения задачи смысловой неоднозначности, кроме того, эти меры полезны в лингвистических и филологических исследованиях.
К сожалению, исследования подходов к определению семантической близости проводятся в основном для английского языка. Российские исследователи периодически адаптируют методы для английского языка, но эти попытки ограничиваются какими-либо конкретными приложениями и остаются без должной проверки и апробации.
Для русского языка наиболее известны исследования были проведены на проекте RUSSE[2][3][19] в рамках конференции Диалог[20].
✅ Заключение
Были решены следующие задачи:
- разработано приложение для вычисления семантической близости на основе двух подходов;
- протестированы подходы к решению проблемы семантической близости слов для русского языка.
Наиболее высокий результат при определении семантической близости слов показал Word2vec. Это подтверждают и другие исследования[19].
Из реализованных алгоритмов более высокий результат у метода латентно-семантического анализа. Вместе с методом поточечной взаимной информации они показали умеренный коэффициент корреляции.
Эти результаты могут быть использованы в дальнейших исследованиях, а также для решения задач определения сходства текстовых русскоязычных корпусов, создания вопросно-ответных систем, расширения поисковых запросов, определения тональности текста, решения задачи смысловой неоднозначности и для решения прочих задач информационного поиска. Кроме того, результаты могут быть полезны лингвистам, ведущим исследования в данной области.
Для повышения точности вычисления и оценки необходимы дополнительные исследования. В частности, проведение тестирования на нескольких различных корпусах с разным типом речи, а также использование как минимум еще одной метрики для оценки результатов исследования.



