ВВЕДЕНИЕ 5
ГЛАВА 1. СЛОВОСОЧЕТАНИЯ В ЯЗЫКЕ 8
1.1. Отношения между словами 8
1.2. Понятие сочетаемости. 9
1.3. Устойчивые словосочетания 11
1.4.1. Классификация устойчивых словосочетаний по В.В.Виноградову 12
1.4.2. Классификация устойчивых словосочетаний по А.Н. Баранову и Д.О. Добровольскому 13
Выводы по главе 1 20
ГЛАВА 2. МЕТОДЫ ВЫЯВЛЕНИЯ УСТОЙЧИВЫХ СЛОВОСОЧЕТАНИЙ 21
2.1. Корпуса текстов как исходный материал для выявления коллокаций 21
2.2. Коллокации и их извлечение 24
2.3. Факторы, от которых зависит качество работы методов 25
2.4. Меры лексической ассоциации 26
2.5. Классификация мер ассоциации 29
Выводы по главе 2 32
ГЛАВА 3. МЕТОДЫ И КРИТЕРИИ ОЦЕНКИ 34
3.1. Точность и полнота 35
3.2. F-мера 36
3.3. Средняя точность 36
3.4. Составление золотого стандарта 36
Выводы по главе 3 37
ГЛАВА 4. ОЦЕНКА АВТОМАТИЧЕСКИХ МЕТОДОВ ИЗВЛЕЧЕНИЯ КОЛЛОКАЦИЙ 38
4.1. Эксперимент 41
4.2. Оценка результатов 58
Выводы по главе 4 60
ЗАКЛЮЧЕНИЕ 62
Список литературы 63
Источники золотого стандарта 66
Приложение
Важность и роль выражений из нескольких слов, т.е. устойчивых словосочетаний, в прикладной лингвистике и в сфере обработки естественного языка давно признаны. Тем не менее, эти единицы требуют дальнейшего изучения. Ранее, без помощи компьютерных устройств, научное исследование было сопряжено с многими техническими трудностями, но при наличии соответствующих инструментов исследования стало проще, быстрее и удобнее.
Наш научный интерес сосредоточен на устойчивых сочетаниях, в состав которых входят сочетания разных типов.
Существуют различные методы автоматического выявления устойчивых словосочетаний (коллокаций) на базе больших корпусов текстов. В целом процедура заключается в отборе кандидатов в коллокации на основе выбранных критериев.
Помимо выявления устойчивых словосочетаний, нужна еще и оценка методов их выявления. Суть исследования заключается в том, чтобы проанализировать возможные и доступные автоматические методы, сравнить их, выявить положительные и отрицательные стороны и предложить вариант их улучшения или применения в зависимости от полученного результата.
Актуальность работы состоит в том, что эта тема в современной компьютерной лингвистике важна как в теоретическом, так и в практическом плане. Выявление устойчивых словосочетаний значимо для составления словарей, а также для использования их в самых разных прикладных задачах. Кроме того, эта задача представляет собой еще и теоретическое исследование, изучающее закономерности сочетаемости языковых единиц.
Объект изучения - устойчивые словосочетания.
Предмет исследования – методы автоматического извлечения на основе мер ассоциации и способы оценки их применимости и эффективности.
Материалом исследования послужили данные различных корпусов и инструменты корпусных систем.
Цель исследования - выяснить, насколько эффективны и релевантны меры ассоциации.
Сформулированная таким образом цель определила ряд стоящих перед нами задач:
1. описать понятие сочетаемости
2. рассмотреть методы выявления устойчивых словосочетаний;
3. описать меры ассоциации
4. выбрать метрики для оценки методов выявления устойчивых словосочетаний;
5. провести эксперименты по выявлению коллокаций;
6. провести оценку эффективности мер ассоциации;
7. наметить пути повышения эффективности методов выявления коллокаций.
Методы исследования включают использование корпусных инструментов, предназначенных для извлечения словосочетаний, их настройку, статистическую обработку данных путем сопоставления их с ассоциативными, толковыми, фразеологическими словарями, экспертную оценку.
Существует несколько точек зрения на определение термина устойчивое словосочетание, в данной работе мы будем рассматривать устойчивые словосочетания с точки зрения корпусной лингвистики, то есть опираясь на статистические методы. Также в нашей работе слово «словосочетание» будет заменяться на выражение коллокация, в соответствии с зарубежным термином collocation или multiword expression.
Практическая значимость данной работы заключается в том, что полученные результаты могут быть применены при решении различных задач прикладной лингвистики. Можно предположить, что итоги исследования окажутся полезными при составлении словарей, корпусов, снятии семантической неоднозначности.
Работа состоит из введения, четырех глав, заключения, списка литературы и приложений. В первой главе рассказывается про отношения в языке, дается определение понятию "словосочетания" и приводится классификация устойчивых словосочетаний. Во второй главе обсуждаются методы извлечения коллокаций и дается классификация и описание мер лексической ассоциации. Третья глава посвящена методам и критериям оценки как таковой в целом и оценки методов извлечения устойчивых словосочетаний. Четвертая глава содержит описание эксперимента и оценки работы мер ассоциации различными способами.
В данном исследовании были описаны меры лексической ассоциации и проведена оценка их эффективности с помощью золотого стандарта, оценки людей-экспертов и вычисления точности. В качестве золотого стандарта была собрана база устойчивых словосочетаний на основе различных толковых и фразеологических словарей.
Была проделана работа по выявлению корреляции между данными автоматического извлечения коллокаций и наполнением нашего золотого стандарта. При этом учитывалось, на основе какого количества мер была извлечена коллокация и в каком количестве словарей она присутствует. Результатом явилось то наблюдение, что информация об устойчивых словосочетаниях в словарных статьях неполная - многие коллокации, выданные мерами ассоциации, отсутствуют в словарях. Те же коллокации были высоко оценены экспертами, что свидетельствует об их "истинности". Представляется возможным включить такие устойчивые словосочетания в словари, таким образом обновляя их.
С помощью вычисления точности мер был проведен анализ эффективности мер ассоциации. Лучшей мерой оказалась мера MI, далее следуют MI.log_f и Min.sensitivity. Это значит, что в подобных исследованиях в первую очередь следует применять именно их.
В целом все меры ассоциации показали высокий уровень работоспособности в сравнении со словарями.
Практическая и научная значимость данной работы связана с возможностью сравнить ее с похожими исследованиями, сопоставить результаты. В последней главе это действие выполнено и наблюдение показывает, что встречаются похожие цифры и результаты.
1. Баранов А.Н., Добровольский Д.О. Основы фразеологии. - М.:Флинта, 2014, с.44-96.
2. Виноградов В.В. Русский язык. – М.: Наука, 1972, с.
3. Захаров В.П. Корпусная лингвистика: Учебно-метод. пособие. – СПб., 2005,с 5.
4. Иорданская Л.Н., Мельчук И.А.Смысл и сочетаемость в словаре. - М.: Языки славянских культур, 2007, с.227-228.
5. Хохлова М.В. Экспериментальная проверка методов выделения коллокаций. Slavica Helsingiensia, Хельсинки, 2008, с.354-355.
6. Шанский Н .М. Лексикология современного русского языка. М., 1964, с.201.
7. Шанский Н.М. Фразеология современного русского языка. – М.: Высшая школа,1985, с.157.
8. Ягунова Е.В., Пивоварова Л.М. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов. - М.: Всероссийский институт научной и технической информации РАН, 2010, с.14-15.
9. Ярцева В.Н. Лингвистический энциклопедический словарь.— М: Советская энциклопедия, 1990. URL:http://tapemark.narod.ru/les/index.html.
10. Ashmanov I., Grigoryev S., Gusev V., Kharin N., Shabanov V. Using Statistical Method for Intelligent Computer-Based Text Processing/ The Proceedings of the Dialog-’97,1997, pp. 33-37.
11. Benko V. Aranea: Yet Another Family of (Comparable) Web Corpora // Petr Sojka, Aleš Horák, Ivan Kopeček and Karel Pala (Eds.): Text, Speech and Dialog-ue. 17th International Conference, TSD 2014, Brno: Springer International Publishing Switzerland, 2014, pp.248-253.
12. Čermák F. Statistické metody hledání frazémů a idiomů v korpusech // Kolokace, Praha, 2006, pp.223-248.
13. Daille B. Mixed approach for the automatic extraction of terminology: lexical statistics and linguistic filters[Approche mixte pour l’extraction automatique de terminologie: statistiques lexicales et filtres linguistiques],PhD thesis, Université Paris, 1994 pp.70-72.
14. Dunning T.E. Accurate methods for the statistics of surprise and coincidence. Computational Linguistics, 19(1), 1993, pp 61-74..
15. Evert S. The statistics of word cooccurrences: Word pairs and collocations. PhD thesis, University of Stuttgart, 2004, p.35.
16. Evert S., Kermes H. Experiments on candidate data for collocation extraction. In Proceedings of the 10th Conference of The European Chapter of the Association for Computational Linguistics (EACL), 2003, p.17.
17. Fano R.M. Transmission of information; a statistical theory of communications. MIT Press, New York, 1961, pp.5-62.
18. Khokhlova M, Zakharov V, EFFICIENCY OF THE SKETCH GRAMMAR FOR RUSSIAN, St.Petersburg, 2007, pp.4-6.
19. Kilgarriff A., Rychly P., Smrz P., Tugwell D., The NoSketch Engine, Proceedings of EURALEX-2004, 2004, pp.105-116.
20. Kormacheva D., Pivovarova L. & Kopotev M.' Automatic Collocation Extraction and Classification of Automatically Obtained Bigrams' in Proceedings: Workshop on Computational, Cognitive, and Linguistic Approaches to the Analysis of Complex Words and Collocations, 2014, pp.3-4.
21. Křen M. Collocation Measures and the Czech Language: Comparison on the Czech National Corpus data, Praha, 2006, pp.246-247.
22. Mel’ˇcuk I. Collocations and lexical functions. // Cowie AP (ed) Phraseolog-y. Theory, Analysis, and Applications, Claredon Press, Oxford, 1998, pp.23-53.
23. Pecina P. Lexical association measures and collocation extraction. Language Resources and Evaluation 1(44), 2010, pp.27-28, 48.
24. Ramisch C. A generic and open framework for multiword expressions treatment: from acquisition to applications. Computation and Language. Universidade Federal do Rio Grande do Sul, 2012, p.46.
25. Rychlý, P. Manatee/Bonito – A Modular Corpus Manager // 1st Workshop on Recent Advances in Slavonic Natural Language Processing. Brno: Masaryk University, 2007, pp. 65-70.
26. Sag I., Baldwin T., Bond F., Copestake А., Flickinger D. Multiword Expressions: A Pain in the Neck for NLP? International Conference on Computational Linguistics and Intelligent Text Processing, Mexico City, Mexico, Springer, 2002, pp.3-7.
27. Seretan V. Syntax-based Collocation extraction. Text, Speech and Language. – Springer Science, 2011, p.43.
28. Sinclair J. Corpus, Concordance, Collocation. Oxford University Press, Oxford, 1991, pp.123-140.
29. Zakharov V.P. AUTOMATIC COLLOCATION EXTRACTION: ASSOCIATION MEASURES EVALUATION AND INTEGRATION// Dialog-2017, 2017 (in print), pp.1-10.