ВВЕДЕНИЕ 3
ГЛАВА 1. ОСНОВНЫЕ ТЕОРЕТИЧЕСКИЕ ПРОБЛЕМЫ
ИССЛЕДОВАНИЯ ЛИНГВИСТИЧЕСКИХ КОРПУСОВ 6
1.1 Основные положения корпусной лингвистики 6
1.2 Традиционные и корпусные исследования 8
1.3 История создания лингвистических корпусов 10
1.4 Концептуальная классификация корпусов 13
ВЫВОДЫ ПО ГЛАВЕ 1 19
ГЛАВА 2. ЯЗЫКОВОЙ КОРПУС КАК БАЗА ДЛЯ ИССЛЕДОВАНИЯ
МНОГОЗНАЧНЫХ СЛОВ 21
2.1 Методы автоматического разрешения многозначности 21
2.2 Применение корпусных данных при анализе многозначных слов. Роль
контекста при выборе семантического варианта в многозначном слове 27
2.3 Концептуальное моделирование процесса разрешения полисемии с
использованием корпуса 39
ВЫВОДЫ ПО ГЛАВЕ 2 47
ЗАКЛЮЧЕНИЕ 49
СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ 51
СПИСОК ИСТОЧНИКОВ ФАКТИЧЕСКОГО МАТЕРИАЛА 53
Данная выпускная квалификационная работа посвящена изучению специфики использования лингвистического корпуса для изучения полисемии слова. Повсеместная компьютеризация позволяет без труда создавать большие языковые базы данных для изучения того или иного языка.
Мы живем в эпоху повсеместного становления информационного общества. Процессы информатизации значительно меняют и облегчают нашу жизнь. Наиболее важным ресурсом в современном обществе становится информация. Сохранение, преумножение и рациональное использование этого ресурса стало иметь огромное значение для общества. Всеми этими возможностями обладает лингвистический корпус. Кроме того, лингвистический корпус - это отличный источник поиска контекстуального употребления слов.
Актуальность данной работы обусловлена необходимостью изучения лексической многозначности слов в рамках одного из ведущих направлений языкознания - корпусной лингвистики. С развитием компьютерной лингвистики лексическая многозначность слова становится одной из главных проблем для систем автоматической обработки текстов. В данной работе затрагиваются актуальные вопросы выявления и описания лексической многозначности. Лексическая многозначность - неотъемлемая часть естественного языка. Слова и словосочетания могут нести различную смысловую нагрузку в зависимости от контекста, в котором они использовались.
Цель работы состоит в выявлении специфики использования лингвистического корпуса для изучения полисемии слова.
Поставленная цель диктует следующие задачи исследования:
1. Показать преимущества использования корпусов текстов для решения теоретических и прикладных задач в лингвистике.
2. Проанализировать особенности реализации автоматического разрешения многозначности.
3. Продемонстрировать результаты применения корпуса при изучении многозначных частотных слов в современном английском языке.
Объектом исследования является Британский национальный корпус (British National Corpus) и Корпус современного американского английского (Corpus of Contemporary American English).
Предметом исследования является семантические характеристики многозначного слова в современном английском языке.
Материалом исследования послужили примеры многозначных слов, почерпнутые из электронных текстов корпусов British National Corpus и Corpus of Contemporary American English.
Методологической основой исследования послужили научные положения, составляющие суть таких парадигм знания, как:
- компьютерная лингвистика, представленная трудами А.Н. Баранова, В.П Захаровой, В.В. Рыкова и других ученых;
- лексическая семантика, разрабатываемая трудами Т.И. Вендиной, У. Чейфом и другими.
Методы исследования. В процессе работы использовались следующие методы:
- метод анализа словарных дефиниций;
- метод контекстуального анализа;
- метод концептуального моделирования;
- метод корпусного анализа.
Апробация работы. Основные положения и результаты данного исследования представлены в докладах на следующих научных конференциях:
• «Проблемы, перспективы и направления инновационного развития науки», 24 ноября 2017 г., г. Омск, Российская Федерация.
• «Интеграционный процессы в науке в современных условиях», 20 марта 2018 г., г. Новосибирск, Российская Федерация.
• Студенческая научная конференция в секции «Концептуализация мира в языке. Компьютерная лингвистика», 18 апреля 2018 г., г. Белгород в рамках Недели Науки ИМКиМО.
Структура работы. Данная работа состоит из Введения, двух глав, Заключения, Списка используемой литературы и Списка источников фактического материала.
Во Введении обосновывается актуальность данного исследования, формулируются его цель, задачи, определяются методы исследования.
В первой главе представлена информация об основных положениях корпусной лингвистики, традиционных и корпусных исследованиях, излагается история создания лингвистических корпусов, а также приводится концептуальная классификация корпусов.
Во второй главе представлен анализ некоторых полисемантичных слов, значения которых были изучены с помощью Корпуса современного американского английского (Corpus of Contemporary American English, COCA) и Британского национального корпуса (British National Corpus, BNC).
В Заключении в обобщенной форме излагаются основные результаты исследования.
В рамках данной дипломной работы лексическая многозначность была изучена как лингвистическая проблема.
В первой главе данного исследования было изучено то, что принято понимать под корпусной лингвистикой, а также выявлены признаки уникальности корпусной лингвистики и ее основные отличия от традиционной лингвистики. Кроме того, подробно разобрана и изучена концептуальная классификация корпусов по различным признакам.
Таким образом, была создана теоретическая база для дальнейшего практического исследования во второй главе, где с помощью языковых корпусов, а именно с помощью Британского национального корпуса (British National Corpus) и Корпуса современного американского английского (Corpus of Contemporary American English) проанализированы некоторые многозначные лексические единицы. В ходе этого анализа был установлен ряд наиболее часто употребляющихся переводов данных слов в соответствии с контекстом.
В корпусах разрешение лексической многозначности осуществляется с опорой на сочетаемость компонентов. Большие объемы современных корпусов позволяют выполнять статистически значимые наблюдения о совместной встречаемости слов в разных значениях. Наилучшие результаты дают аннотированные корпуса, в которых у слов размечены значения. Примером такого корпуса является Британский национальный корпус.
В ходе данного исследования было выявлено несколько преимуществ использования корпуса текстов в лингвистических исследованиях:
1) удобство и простота его использования, которые достигаются за счет структурности корпуса;
2) большой объем языкового материала, который обеспечивает реальные статистические данные, на основе которых можно вывести новые закономерности в языке или проверить ту или иную гипотезу.
3) корпус имеет дело с языковыми данными (словоупотреблениями) в их реальном контексте;
4) язык описывается в том виде, как он проявляет себя в речи, представленной в специально подобранном корпусе текстов;
5) языковые данные большинства лингвистических корпусов, постоянно обновляются и расширяются, что позволяет оценить современное состояние языка, проследить изменение частот и контекстов в различные периоды времени и изучить динамику процессов изменения лексического состава языка.
Более того, представлена модель распознавания значения многозначного слова, которая носит гипотетический характер и выглядит следующим образом:
• предъявление слова, употребленного одном из своих смыслов;
• активизация набора когнитивных контекстов, ассоциированных со словом;
• идентификация соответствующего когнитивного контекста (или его элемента);
• идентификация соответствующего значения многозначного слова. Представляется, что результаты данной работы могут быть полезны для
лингвистов, которые сталкиваются при переводе с проблемами лексической многозначности.
1. Баранов, А.Н. Автоматизация лингвистических исследований: корпус текстов как лингвистическая проблема [Текст] / А.Н. Баранов. Русистика сегодня. 1998. № 1 - 179-191 с.
2. Баранов А.Н. Введение в прикладную лингвистику: Учебное пособие [Текст] / А.Н. Баранов — М.: Эдиториал УРСС, 2001. — 360 с.
3. Вендина Т.И. Введение в языкознание: Учебное пособие для педагогических вузов [Текст] / Т.И. Вендина - М., Высш. шк., 2001. - 288 с.
4. Захаров В.П., Богданова С.Ю. З-38 Корпусная лингвистика: учебник для студентов гуманитарных вузов [Текст] / В.П. Захаров, С.Ю. Богданова - Иркутск: ИГЛУ, 2011. - 161 с.
5. Захаров В.П. Корпусная лингвистика: учебное пособие [Текст] / В.П. Захаров - СПб.: СПбГУ, 2005. - 48 с.
6. Кутузов А.Б. Курс «Корпусная лингвистика» [Электронный ресурс] / А.Б. Кутузов. - URL: http://lab314.brsu.by/kmp-lite/kmp2/CL/CorporeLingva.pdf
7. Марчук Ю.Н. Основы компьютерной лингвистики. Учебное пособие [Текст] / Ю.Н. Марчук. Издание 2-е дополненное. - М.: Изд-во МПУ «Народный учитель», 2000. - 226 с.
8. Нагель О.В., Корпусная лингвистика и ее использование в
компьютеризированном языковом обучении // Язык и культура. 2008. [Электронный ресурс] / О.В. Нагель. - URL:
http://cyberleninka.ru/article/nZkorpusnaya-lingvistika-i-ee-ispolzovanie-v- kompyuterizirovannom-yazykovom-obuchenii.
9. Рыков В.В., Корпус текстов как реализация объектно-ориентированной парадигмы // Труды Международного семинара Диалог-2002. [Текст] / В.В. Рыков. - М.: Наука, 2002. - 59-61 с.
10. Рыков В.В. Курс лекций по корпусной лингвистике [Электронный ресурс] / В.В. Рыков. - URL: http://rykov-cl.narod.ru/c.html
11. Чейф У.Л. Значение и структура языка [Текст] / У.Л. Чейф. Пер. с англ. Изд.3 URSS. 2009. - 424 с.
12. G. Gilguin The place of prototipicality in corpus linguistics // Corpora in cognitive linguistics: corpus-based approaches to syntax and lexis [Text] / G. Gilguin. Berlin, 2006. - 157 p.
13. J.H. Lau, P. Cook, D. McCarthy, D. Newman, T. Baldwin. Word sense induction for novel sense detection [Text] / J.H. Lau, P. Cook, D. McCarthy, D. Newman, T. Baldwin. // Proceedings of the 13th Conference of the European chapter of the association for computational linguistics, 2012. - 103-111 pp.
14. J. Svartvik Directions in Corpus Linguistics. Procedings of Nobel Symposium 92, Stockholm, 4-8 August 1991 [Text] / J. Svartvik. Berlin: Mouton de Cruyter, 1992. - 158 p.
15. K. Aijmer and B. Altenberg, (Eds.) 1991. English Corpus Linguistics: Studies in Honour of Jan Svartvik [Text] / K. Aijmer, B. Altenberg. London: Longman - 62 p.
16. M. Roth, S. Schulte im Walde. Corpus co-occurrence, dictionary and Wikipedia entries as resources for semantic relatedness information [Text] / M. Roth, S. Schulte. Proceedings of the 6th conference on language resources and evaluation. Marrakesh, 2008. - 203 p.
17. N. Ide, J. Veronis. Introduction to the special issue on word sense disambiguation: the state of the art // Computational linguistics [Text] / N. Ide, J. Veronis. 1998. V. 24. № 1. - 175 p.
18. N. S. Dash: Corpus Linguistics: A General Introduction [Text] / N. S. Dash. CIIL, Mysore, 2010. - 69 p.
19. O.Y. Kwong. New perspectives on computational and cognitive strategies for word sense disambiguation [Text] / O.Y. Kwong. New York, 2012. - 156 p.
20. P. Cook. Using social media to find English lexical blends // Proceedings of the 15th EURALEX International congress (EURALEX 2012) [Text] / P. Cook. Oslo, 2012. - 846 p.
Список источников фактического материала
1. Афоризмы великих [Электронный ресурс]. - URL:
http: //www. aphorisme. ru/by-authors/hendriks/?q= 1921
2. Электронный словарь ABBYY LingvoX5/ABBYY, 2011. [Электронный ресурс]. - URL: https://www.lingvolive.com/en-us
3. M. Lesk. Automatic sense disambiguation using machine readable dictionaries: How to tell a pine cone from an ice cream cone [Text] / M. Lesk. Proceedings of SIGDOC-86: 5th International conference on systems documentation. Toronto, 1986. - 24-26 p.
4. British National Corpus [Электронный ресурс]. - URL: https://corpus.byu.edu/bnc/
5. Corpus of Contemporary American English [Электронный ресурс]. - URL: https://corpus.byu.edu/coca/
6. English Oxford Living Dictionaries [Электронный ресурс]. - URL: https://en.oxforddictionaries.com/
7. Oxford Dictionary of English Etymology [Электронный ресурс]. - URL: https://www.etymonline.com/
8. J.R.R. Tolkien. “Hobbit” [Электронный ресурс] / J.R.R. Tolkien. - URL: http: //madbook. org/view?book=70&page=1