Тип работы:
Предмет:
Язык работы:


Анализ структуры семантических полей (на материале групп французских синонимов)

Работа №127193

Тип работы

Бакалаврская работа

Предмет

лингвистика

Объем работы41
Год сдачи2022
Стоимость4380 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
43
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 2
ГЛАВА 1 5
1.1 АКТУАЛЬНОЕ ПОЛОЖЕНИЕ СЕМАНТИКИ 5
1.2 ЗНАЧЕНИЕ И ЕГО ИНТЕРПРЕТАЦИЯ 7
1.3 ТЕОРИЯ ПОЛЯ 15
1.4 СТРУКТУРА ПОЛЯ 17
ГЛАВА 2 21
2.1 ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА 21
2.1 ИЗМЕРЕНИЕ СЕМАНТИЧЕСКОЙ БЛИЗОСТИ 25
2.2 ПОЛУЧЕННЫЕ РЕЗУЛЬТАТЫ 27
2.2.1 ТАБЛИЦЫ СЕМАНТИЧЕСКОЙ БЛИЗОСТИ 27
2.2.2 ПОСТРОЕНИЕ ГРАФОВ 30
ЗАКЛЮЧЕНИЕ 35
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 38

Настоящая работа посвящена изучению структуры семантических полей прилагательных французского языка с использованием методов обработки естественного языка.
Предметом лингвистической семантики является языковое мыслительное содержание, то есть содержание, заложенное в словах, морфемах, грамматических формах, синтаксических конструкциях естественного языка (Васильев 1990). Многих исследователей волновал вопрос существования в языке системы, связывающей между собой содержание разных понятий, и ее внутреннего устройства. В связи с этим было предложено немалое количество теорий, что на протяжении долгого времени провоцировало споры в научном сообществе, многие из которых и по сей день остаются неразрешенными.
Из необходимости структурировать лексический состав языка родилась теория поля, впервые описанная Йостом Триером в 1939 году, предлагавшая полевой подход к лингвистическому анализу. Теория не раз подвергалась критике, многие исследователи предлагали свой собственный взгляд на поле как на структуру в принципе, велись споры вокруг критериев выделения самых разнообразных полей на уровне грамматики, фонетики, лексики и синтаксиса.
Основная проблема теории поля заключается в отсутствии единого взгляда на основные положения теории и, в сущности, незрелости теории как таковой. Несмотря на большой интерес к теории поля, особенно отмечавшийся во второй половине 20 века, до сих пор отсутствует единый подход к систематизации и формализации лексики, не существует общепринятых критериев выделения полей лексическом уровне. Ввиду особого характера семантики как области изучения и ее тесной взаимосвязи с философией и психолингвистикой, семантика изучена исследователями-формалистами в наименьшей степени.
Между тем, если исследования значения лексических единиц в последнее время все больше сводятся к культурологии и анализу концепта в социуме, то сфера обработки естественного языка стремительно развивается, в том числе в области семантического анализа. Многие машинные методы базируются на разработанных учеными теориях и успешно адаптируют методы анализа, синтезируя лингвистические принципы с математическими и получая внушительные результаты, уже широко применяемые на практике. Более детальная проработка теории поля могла бы стимулировать разнообразные исследования семантических связей, создание баз данных и разработку новых инструментов для анализа и воспроизведения языка и речи, а также развитие области машинного перевода.
Стоит, однако, отметить, что чаще методы машинной обработки естественного языка применяются на практике с целью извлечения некоей пользы: создания приложений, виртуальных помощников, инструментов для работы с текстом. Довольно обширно данные методы используются в маркетинге, например, при анализе пользовательских запросов в поисковой строке. Гораздо реже методы и модели применяются при непосредственно лингвистических исследованиях в отношении языка как такового в качестве объекта изучения. Учитывая высокую эффективность и мощность существующих разработок, необходимо уделять больше внимания возможному их применению в языкознании.
Применительно к наиболее распространённым языкам, современные методы обработки естественного языка позволяют осуществлять детальный анализ на уровне фонетики, синтаксиса, морфологии, лексики и семантики. Основное внимание в данной работе уделяется именно семантическому анализу отдельных лексем, формирующих семантическое поле одного понятия, что обусловлено направленностью исследования.
Структура работы представляет собой две главы. Первая глава посвящена истокам теории поля, то есть предшествующим ей методам семантического анализа, берущим свое начало в аналитической философии 19 века, и их теоретическому обоснованию, а также последующему развитию теории поля и ее корректировкам. Вторая глава посвящена практической части работы. Она представляет собой обзор актуальных методов машинного анализа естественного языка, необходимых для дальнейшего построения поля: изучается внутреннее устройство моделей skip-gram и continious bag of words, на основе которых была разработана открытая библиотека FastText. С помощью данной библиотеки были получены векторные репрезентации синонимов прилагательного «interessant», затем было замерено семантическое расстояние между данными векторами, и на основе результатов были построены графы, иллюстрирующие семантическое поле понятия.
Основная задача исследования заключается в детальном изучении структуры семантических полей синонимов с помощью синтеза теоретической лингвистики и машинных методов семантического анализа. Немаловажно также произведенное сравнение двух метрик, применяемых для измерения семантического расстояния, поскольку метрики на данный момент изучены недостаточно, при том что широко применяются в разработках последних лет.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Как говорилось ранее, теория поля находится на довольно незрелом этапе развития. С момента ее первого упоминания в научных работах Триера исследователи уделяли внимание преимущественно недостаткам данного подхода, изредка предлагая доработки в данной области, которые могли бы привести научное сообщество к единой полноценной теории. Работы последних десятилетий, в которых фигурирует теория поля, по-прежнему ссылаются на Триера, так как со времен их научной деятельности теория не претерпела существенных изменений и, соответственно, не имеет более актуальной формы.
Ошибочно было бы полагать, будто семантика находится на недоступном формальному анализу уровне. Многообразие существующих точек зрения на значение как таковое, на его структуру, атомарные элементы и способы формализации, в свою очередь, приводит к тому, что понятийный аппарат лингвистики оказывается не сформирован на желаемом уровне, и исследователи из разных областей языкознания зачастую оперируют одними терминами применительно к различным явлениям, либо при номинации одного и того же явления прибегают к самым разным и иногда необоснованно применяемым понятиям.
Отсутствие сколько-нибудь однородного общепринятого описательного и формального подхода приводит к забвению теории поля в ее первозданном виде и замыкает структурную семантику в области культурологических и социальных исследований, специализирующихся преимущественно на анализе концептов и явлений окружающей действительности, но не структуры, лежащей внутри лексического состава языка.
Лексический уровень, однако, все же поддается формализации и структуризации, что доказывается успешным применением компонентного анализа на практике, а именно в области машинного перевода, кластеризации текстов и лексикографии. Лексикографические базы данных на сегодняшний день широко применяются в области сопоставительного языкознания, в синхронических и диахронических лингвистических исследованиях, а также оказываются незаменимыми при переводе, в особенности, когда речь идет о наименее распространенных языках.
Немаловажно, что английский язык, будучи основным языком в сфере компьютерных технологий, существенно превосходит прочие языки по количеству научно обоснованных применяемых методов. Разработка методов для остальных языков в области обработки естественного языка происходит в основном за счет усилий исследователей и программистов со всего мира и зачастую не имеет под собой достойного теоретического фундамента, что также нуждается в корректировке.
Идеи формалистов 20 века, несмотря на отсутствие консенсуса в отношении многих аспектов, все же находят свое отражение, пусть не всегда в связи с намерением разработчиков, в устройстве большинства самых актуальных разработок в области обработки и генерации естественного языка, таких как векторная семантика, синтез речи, анализ тональности текста, классификация текстов и создание виртуальных помощников. Этот факт позволяет уверенно судить о чрезвычайной эффективности синтеза лингвистики и компьютерных технологий, который способен внести существенный вклад в языкознание и значительно продвинуть исследования во многих областях.
Таким образом, теория поля требует доработки. Будучи основной теорией в области структуризации лексического строя языка, она нуждается в полноценном понятийном аппарате и в целостности основных положений и критериев выделения поля, на данный момент весьма абстрактных.
В дополнительном изучении нуждаются также метрики семантического расстояния. Косинусное расстояние широко применяется во многих библиотеках при измерении семантической близости, однако в настоящей работе демонстрирует не самые лучшие результаты. По-видимому, данная метрика более эффективно справляется с бинарными векторами или с задачами, в которых не фигурирует векторное представление каждого отдельного слова. Эту особенность стоит учитывать при последующей работе с готовыми библиотеками, предлагающими косинусное расстояние в качестве основной метрики.
Эвклидово расстояние, напротив, демонстрирует вполне приемлемые результаты, на основе которых, как показано в данной работе, возможно осуществлять построение семантических графов. Графы позволяют весьма успешно моделировать семантические поля, что могло бы внести вклад в изучение внутреннего устройства лексической системы и существующих в ней связей.



1) Апресян Ю.Д. Исследования по семанике и лексикографии. Том. 1: Парадигматика - М.: Языки славянских культур, 2009. 568 с.
2) Васильев Л.М. Современная лингвистическая семантика: Учеб, пособие для вузов. - М: Высш. шк., 1990. - 176 с.
3) Потебня А.А. Из записок по русской грамматике // Хрестоматия по истории русского языкознания. - М.: Высш. Шк., 1973.
4) Шерстюк А.Ю., Резникова Т.И. О семантической непрерывности: поле ‘толкать’ в славянских языках // Известия Российской академии наук. Серия литературы и языка. Т. 80. No 5, 2021. С. 21-33.
5) Шипицына Г.М. Учение А.А. Потебни и современные семантические теории БелГУ, 2005.
6) Щур Г.С. Теории поля в лингвистике М.: Наука, 1974. 256 с.
7) Bojanowski, P., Grave, E., Joulin, A., and Mikolov, T. Enriching word vectors with subword information. Transactions of the Association for Computational Linguistics, 5. 2017
8) Derrida, J. Structure, sign and play in the discourse of the human sciences // The Languages of Criticism and the Sciences of Man: The Structuralist Controversy, 1970, P. 247-272
9) Gliozzo, Alfio. Semantic Domains and Linguistic Theory, 2006.
10) Grave E. et al. Learning word vectors for 157 languages, 2018.
11) Hotho А., Staab S., Stumme G. Wordnet improves Text Document Clustering, 2003.
12) Huang, Anna. Similarity measures for text document clustering. Proceedings of the 6th New Zealand Computer Science Research Student Conference, 2008.
13) Katz Jerrold J., Fodor Jerry A. The Structure of a Semantic Theory Language, Vol. 39, No. 2. 1963, P. 170-210
14) Lyons J. Semantics. Cambridge University Press, 1977. 371 pp.
15) Mikolov Tomas, Wentau Yih, Geoffrey Zweig. Linguistic Regularities inContinuous Space Word Representations. // Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2013, P. 746-751.
16) Mikolov, Tomas & Chen, Kai & Corrado, G.s & Dean, Jeffrey. Efficient Estimation of Word Representations in Vector Space. Proceedings of Workshop at ICLR, 2013.
17) Nida A Componential Analysis of Meaning: An Introduction to Semantic Structures. Mouton, 1975.
18) Palmer F. R. Semantics. Cambridge University Press, 1981, 221 pp.
19) Perreault-Jenkins M. A study of similarity measures for natural language processing as applied to candidate-project matching, 2020.
20) Saussure F. Course in general linguistics, 1963.
21) Steinbach, Michael & Karypis, George & Kumar, Vipin. A Comparison of Document Clustering Techniques. Proceedings of the International KDD Workshop on Text Mining, 2000.
22) Vakulenko M., From Semantic Metrics to Semantic Fields 2021 IEEE 16th International Conference on Computer Sciences and Information Technologies (CSIT), 2021, P. 44-47.
23) Widyastuti, S. Componential analysis of meaning: theory and application. // JEE: Journal of English and Education, 4(1), 2016. P. 116-128.
24) Wunderlich, D. Lexical decomposition in grammar // The Oxford Handbook of Compositionality, 2012, P. 307-327.
Электронные ресурсы:
1) Материалы лекции “Формальная семантика как порождение лингвистики
и философии” Барбара Парти ,2012 URL:
https://polit.ru/article/2012/05/18/Partee/ (дата обращения: 26.03.2022)
2) Semiotics and structuralism (Saussure, Levi-Strauss, Derrida) URL: https://partiallyexaminedlife.com/2012/02/01/now-taking-questions-on-semiotics-and-structuralism-saussure-levi-strauss-derrida/ (дата обращения: 8.04.2022)
3) Key theories of Louis Hjelmslev // Электрон. журнал Literary theory and
criticism URL: https://literariness.org/2018/03/19/key-theories-of-louis-
hjelmslev/ (дата обращения 20.04.2022)
4) Centre national de ressources textuelles et lexicales // URL:https://www.cnrtl.fr/(дата обращения: 16.01.2022)
5) Clics Database of cross-linguistic colexifications URL: https://clics.clld.org
6) WordNet Lexical database for English URL: https://wordnet.princeton.edu/
7) Документация библиотеки FastText: https://fasttext.cc/docs/en/support.html
8) Документация библиотеки SciPy: https://docs.scipy.org/doc/


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ