Тема: ОЦЕНКА АВТОМАТИЧЕСКИХ МЕТОДОВ ВЫЯВЛЕНИЯ УСТОЙЧИВЫХ СЛОВОСОЧЕТАНИЙ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Аннотация 3
ВВЕДЕНИЕ 3
1.1.Отношения между словами 6
1.2. Понятие сочетаемости 7
1.3. Устойчивые словосочетания 8
1) Идиомы 10
4) Фразеологизмы-конструкции 13
6) Крылатые слова 14
7) Коллокации 15
Выводы по главе 1 17
2.1. Корпуса текстов как исходный материал для выявления коллокаций 18
2.2. Коллокации и их извлечение 20
2.3. Факторы, от которых зависит качество работы методов 22
2.4. Меры лексической ассоциации 22
2.5. Классификация мер ассоциации 25
MI Score 27
Min.sensitivity 27
MI. log_f 27
Выводы по главе 2 27
ГЛАВА 3. МЕТОДЫ И КРИТЕРИИ ОЦЕНКИ 30
3.1.Точность и полнота 31
3.2. Е-мера 32
З.З.Средняя точность 32
3.4. Составление золотого стандарта 32
Выводы по главе 3 33
ГЛАВА 4. ОЦЕНКА АВТОМАТИЧЕСКИХ МЕТОДОВ ИЗВЛЕЧЕНИЯ КОЛЛОКАЦИЙ 34
4.1.Эксперимент 36
4.2. Оценка результатов 57
Выводы по главе 4 59
ЗАКЛЮЧЕНИЕ 61
Список литературы 61
Источники золотого стандарта 64
📖 Введение
Наш научный интерес сосредоточен на устойчивых сочетаниях, в состав которых входят сочетания разных типов.
Существуют различные методы автоматического выявления устойчивых словосочетаний (коллокаций) на базе больших корпусов текстов. В целом процедура заключается в отборе кандидатов в коллокации на основе выбранных критериев.
Помимо выявления устойчивых словосочетаний, нужна еще и оценка методов их выявления. Суть исследования заключается в том, чтобы проанализировать возможные и до ступные автоматические методы, сравнить их, выявить положительные и отрицательные стороны и предложить вариант их улучшения или применения в зависимости от полученного результата.
Актуальность работы состоит в том, что эта тема в современной компьютерной лингвистике важна как в теоретическом, так и в практическом плане. Выявление устойчивых словосочетаний значимо для со ставления словарей, а также для использования их в самых разных прикладных задачах. Кроме того, эта задача представляет собой еще и теоретическое исследование, изучающее закономерности сочетаемо сти языковых единиц.
Объект изучения - устойчивые словосочетания.
Предмет исследования - методы автоматического извлечения на основе мер ассоциации и способы оценки их применимости и эффективности.
Материалом исследования послужили данные различных корпусов и инструменты корпусных систем.
Цель исследования - выяснить, насколько эффективны и релевантны меры ассоциации.
Сформулированная таким образом цель определила ряд стоящих
перед нами задач:
1. описать понятие сочетаемости
2. рассмотреть методы выявления устойчивых словосочетаний;
3. описать меры ассоциации
4. выбрать метрики для оценки методов выявления устойчивых словосочетаний;
5. провести эксперименты по выявлению коллокаций;
6. провести оценку эффективности мер ассоциации;
7. наметить пути повышения эффективности методов выявления коллокаций.
Методы исследования включают использование корпусных инструментов, предназначенных для извлечения словосочетаний, их настройку, статистическую обработку данных путем сопо ставления их с ассоциативными, толковыми, фразеологическими словарями, экспертную оценку.
Существует несколько точек зрения на определение термина устойчивое словосочетание, в данной работе мы будем рассматривать устойчивые словосочетания с точки зрения корпусной лингвистики, то есть опираясь на статистические методы. Также в нашей работе слово «словосочетание» будет заменяться на выражение коллокация, в соответствии с зарубежным термином collocation или multiword expression.
Практическая значимость данной работы заключается в том, что полученные результаты могут быть применены при решении различных задач прикладной лингвистики. Можно предположить, что итоги исследования окажутся полезными при составлении словарей, корпусов, снятии семантической неоднозначно сти.
Работа состоит из введения, четырех глав, заключения, списка литературы и приложений. В первой главе рассказывается про отношения в языке, дается определение понятию "словосочетания" и приводится классификация устойчивых словосочетаний. Во второй главе обсуждаются методы извлечения коллокаций и дается классификация и описание мер лексической ассоциации. Третья глава посвящена методам и критериям оценки как таковой в целом и оценки методов извлечения устойчивых словосочетаний. Четвертая глава содержит описание эксперимента и оценки работы мер ассоциации различными способами.
✅ Заключение
Была проделана работа по выявлению корреляции между данными автоматического извлечения коллокаций и наполнением нашего золотого стандарта. При этом учитывалось, на основе какого количества мер была извлечена коллокация и в каком количестве словарей она присутствует. Результатом явилось то наблюдение, что информация об устойчивых словосочетаниях в словарных статьях неполная - многие коллокации, выданные мерами ассоциации, отсутствуют в словарях. Те же коллокации были высоко оценены экспертами, что свидетельствует об их "истинности". Представляется возможным включить такие устойчивые словосочетания в словари, таким образом обновляя их.
С помощью вычисления точности мер был проведен анализ эффективности мер ассоциации. Лучшей мерой оказалась мера MI, далее следуют MI.log_f и Min.sensitivity. Это значит, что в подобных исследованиях в первую очередь следует применять именно их.
В целом все меры ассоциации показали высокий уровень работоспособности в сравнении со словарями.
Практическая и научная значимо сть данной работы связана с возможностью сравнить ее с похожими исследованиями, сопоставить результаты. В последней главе это действие выполнено и наблюдение показывает, что встречаются похожие цифры и результаты.



