Тип работы:
Предмет:
Язык работы:


Процедура тематической атрибуции русских текстов с использованием деривационного анализа

Работа №127168

Тип работы

Бакалаврская работа

Предмет

лингвистика

Объем работы121
Год сдачи2022
Стоимость4300 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
13
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 4
ГЛАВА 1. ДЕРИВАЦИОННЫЙ АНАЛИЗ 7
1.1 СЛОВООБРАЗОВАНИЕ КАК КОМПОНЕНТ ЯЗЫКОВОЙ СТРУКТУРЫ 7
1.2. ПРИНЦИПЫ МОРФЕМНОГО АНАЛИЗА И ПОНЯТИЕ МОРФЕМЫ 13
1.3. ОСНОВНЫЕ ПОНЯТИЯ ДЕРИВАЦИИ 20
ВЫВОДЫ ПО ГЛАВЕ 1 27
ГЛАВА 2. ТЕМА-РЕМАТИЧЕСКАЯ ОРГАНИЗАЦИЯ ТЕКСТА 29
2.1 ВЗГЛЯДЫ НА КОММУНИКАТИВНОЕ ЧЛЕНЕНИЕ ТЕКСТА 29
2.1.1 Традиционное членение высказывания на тему и рему 29
2.1.2 Нетривиальные взгляды на функциональную перспективу сообщения 37
ВЫВОДЫ ПО ГЛАВЕ 2 40
ГЛАВА 3 ПОДХОДЫ К АВТОМАТИЧЕСКОМУ ОПРЕДЕЛЕНИЮ ТЕМЫ 42
3.1 СТАТИСТИЧЕСКИЕ МЕТОДЫ ОПРЕДЕЛЕНИЯ ТЕМЫ 42
3.2 ТЕРМИН И ТЕРМИН-КАНДИДАТ В КАЧЕСТВЕ МАРКЕРОВ ТЕМЫ 46
3.3 ПОДХОДЫ К ВЫДЕЛЕНИЮ ТЕРМИНОВ И ТЕРМИНОЭЛЕМЕНТОВ 49
ВЫВОДЫ ПО ГЛАВЕ 3 53
ГЛАВА 4. ПРОЦЕДУРА ТЕМАТИЧЕСКОЙ АТРИБУЦИИ С
ИСПОЛЬЗОВАНИЕМ ДЕРИВАЦИОННОГО АНАЛИЗА 54
4.1. ВЫЯВЛЕНИЕ ТЕМАТИЧЕСКИ МАРКИРОВАННЫХ СЛОВ 54
4.1.1 Статистический способ тематического моделирования 54
4.2.2 Лингвистический способ тематического моделирования 62
4.2. ПОЛУЧЕНИЕ ОСНОВ ТЕМАТИЧЕСКИ МАРКИРОВАННЫХ СЛОВ С ПОМОЩЬЮ
ДЕРИВАЦИОННОГО АНАЛИЗА 75
4.2.1 Метод отсечения суффиксов и флексий 75
4.2.2 Анализ результатов тематической атрибуции 80
Количественная оценка полученных результатов 94
Качественная оценка полученных результатов 98
ВЫВОДЫ 99
ЗАКЛЮЧЕНИЕ 101
СПИСОК ЛИТЕРАТУРЫ: 102
ПРИЛОЖЕНИЕ 1 106
ПРИЛОЖЕНИЕ 2 112


Тематическая атрибуция текста - это нетривиальная задача обработки естественного языка. Она представляет собой некоторый параметр, который находит себе применение в задачах информационного поиска, фильтрации документов, определения тематических рубрик для электронных ресурсов. Тематическая атрибуция (тематическое моделирование) используется для поиска информации по смыслу, а не по ключевым словам, для построения профилей интересов пользователя и для аннотирования изображений.
В нашем видении проблему тематической атрибуции текста можно решить путем нахождения слов-дериватов, несущих в себе основную смысловую нагрузку. Общепринятым методом выявления темы текста является поиск ключевых выражений. Как правило, они частотны и представляют собой номинативные части речи. Соответственно, ключевые слова в структуре текста занимают определенные синтаксические позиции и регулярно повторяются. На этой идее основано наше представление о подходе к нахождению темы текста. Мы считаем, что повторяются в тексте те самые слова дериваты, поэтому нахождение общей основы-представителя упростило бы задачу тематического моделирования.
В связи с этим мы сталкиваемся с еще одной проблемой - морфемной сегментацией текста. На сегодняшний день стемминг (иначе выделение основы слова) - не только необходимая часть обработки любого естественного языка, но и способ нахождения тематически маркированной лексики. Основа слова - это его семантическое ядро, но, как правило, значимые для темы слова всегда имеют в тексте множество производных с той же основой, то есть являются ключевыми элементами текста. Даже в информационном поиске ключевыми терминами для запроса являются именно стеммы (или основы слова), а не исходные слова. Таким образом, для современной лингвистики очень важны исследования в области автоматического морфемного членения, и в данной работе осуществляется попытка разработать формальный подход к нахождению темы текста посредством деривационного анализа.
Итак, наша гипотеза заключается в том, что слова-дериваты, объединенные в классы эквивалентности на основании их принадлежности к одному словообразовательному гнезду, занимающие в тексте разные синтаксические позиции, но регулярно повторяющиеся, отражают тему данного текста. Включение поиска таких слов в существующие алгоритмы тематического моделирования позволит улучшить эффективность этих алгоритмов.
Актуальность исследования обусловлена малым количеством работ по тематической атрибуции, основанной на комбинированном подходе к поиску тематически важных слов.
Предметом исследования являются тематически маркированные слова в тематическом корпусе текстов.
Объектом изучения становятся слова-дериваты, которые составляют единое словообразовательное ядро и являются тематическими маркерами.
Материалом исследования является собранный тематический корпус текстов объемом 2000 словоформ.
Научная новизна данного исследования состоит в разработке подхода к определению темы текста, для которого на второй план уходит частеречная принадлежность «тематичного» слова, поскольку все синтаксические позиции в тексте заняты одной основой-представителем.
Целью исследования становится разработка алгоритма тематической атрибуции текстов определенной предметной области с опорой на правила синтаксической (транспозиционной) деривации.
Задачи:
1. Дать определение тематической атрибуции.
2. Изучить теоретические основы деривационного анализа с акцентом на словах-дериватах, для которых в процессе словообразовательного анализа не происходит изменения значения.
3. Рассмотреть существующие подходы к проблеме актуального членения, разграничить понятия темы и ремы.
4. Разработать процедуру транспозиционного деривационного анализа для
получения основ (стемм), объединяющих элементы словообразовательного гнезда.
5. Оценить эффективность метода в определении темы.
Данная работа состоит из введения, трех глав, тридцати двух таблиц, десяти иллюстраций, заключения, списка литературы и двух приложений. В первой главе рассматриваются теоретические вопросы, связанные теорией словообразования, на которую мы опирались при реализации алгоритма. Вторая глава посвящена описанию тема-рематической организации текста и основным статистическим методам определения темы. В третьей главе рассматриваются алгоритмы, направленные на выделение ключевых слов и терминов, а также статистические алгоритмы выделения темы документа. В четвертой главе описан эксперимент по присвоению темы на основании синтаксической деривации, представлены результаты и их оценка

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Данная работа посвящена актуальной проблеме поиска оптимального метода определения темы текста. Среди множества подходов нелегко найти универсальный алгоритм, применимый к любому типу текста.
В данном исследовании была предпринята попытка решения данной проблемы с помощью деривационного анализа. Результаты работы алгоритма показали необходимость доработки. Во-первых, перерассмотрения требует коэффициент тематичности, для расчета которого необходимо будет учесть регулярность появления конкретного слова, чтобы высокое значение получали не только низкочастотные слова. Во-вторых, данная работа предполагает нахождение полной основы слова, следовательно, в перспективе дальнейшего исследования и попыток улучшения эффективности метода автор данной работы намерен учитывать не только суффиксы и флексии, но и префиксы. Эта задача осложнена малой дифференцируемостью префиксов для отдельных частей речи. К тому же, данная методика потребует составления списка слов исключений из-за наличия в языке слов, у которых префикс неотделим от корня.
В целом, примененные в данной работе методы могут послужить основой для разработки полноценного алгоритма тематической атрибуции.



1. Гринев-Гриневич С.В. Терминоведение. - М., 2008. - С. 304
2. Бодуэн де Куртенэ И.А. «Об отношении русского письма к русскому языку» / И.А.Бодуэн де Куртенэ // Избранные труды по общему языкознанию. - Т. 2. - М.: Изд-во АН СССР, 1963
3. Головин Б.Н. Лингвистические основы учения о терминах. - М., 1987. - C. 103
4. Крушевский Н.В. Избранные работы по языкознанию. - М., 1998.
5. Адамец, П. Порядок слов в современном русском языке / П. Адамец. - Прага: Academia, 1966 - С. 20-39.
6. Адамец, П. Порядок слов в современном русском языке / П. Адамец. - Прага: Academia, 1966 - С. 20-39.
7. Виноградов В.В. Избранные труды. Исследования по русской грамматике. — М.: Наука, 1975.
8. Винокур Г. О. О некоторых явлениях словообразования в русской технической терминологии // Труды Московского института истории, философии и литературы. М.: ЛИТЕРА, 1939. Т. 5. Сборник статей по языковедению. С. 3-54.
9. Винокур Г.О. Заметки по русскому словообразованию, 1959
10. Воронцов К. В. Вероятностное тематическое моделирование. 2013.
[Электронный ресурс URL:
http://www.machinelearning.rU/wiki/images/2/22/Voron-2013-ptm.pdf]
11.Земская Е. А., Кубрякова Е. С., Проблемы словообразования на современном этапе, «Вопросы языкознания», 1978, No 6;
12. И.В.Евсеева, Т.А.Лузгина, И.А.Славкина, Ф.В.Степанова. Современный русский язык: Курс лекций / И.В.Евсеева, Т.А.Лузгина, И.А.Славкина, Ф.В.Степанова; Под ред. И.А.Славкиной; Сибирский федеральный ун-т. - Красноярск,2007. - C. 642
13. Ковтунова, И.И. Современный русский язык. Порядок слов и актуальное членение предложения / И.И.Ковтунова - М.: Просвещение, 1976 - C. 239
14. Кольцов С.Н., Кольцова О.Ю., Митрофанова О.А., Шиморина А.С. Интерпретация семантических связей в текстах русскоязычного сегмента Живого Журнала на основе тематической модели LDA // Технологии информационного общества в науке, образовании и культуре: сборник научных статей. Материалы XVII Всероссийской объединенной конференции «Интернет и современное общество» IMS-2014, Санкт- Петербург, 19 - 20 ноября 2014 г. СПб., 2014. С. 135-142
15. Крушельницкая, К.Г. К вопросу о смысловом членении предложения / К.Г.Крушельницкая // Вопросы языкознания. - 1956 - №5. - С. 55-67.
16. Кубрякова Е.С. Основы морфологического анализа (на материале германских языков). Файлы. Академическая и специальная литература. ... Издательство "Наука", Москва, 1974 - С. 324
17. Кубрякова Е.С. Основы морфологического анализа: На матер. германск.
18. Кузьмина И.А. Принципы морфемного членения слов в отечественной лингвистике, 2010
19. Курилович Е., Деривация лексическая и деривация синтаксическая, в его кн.: Очерки по лингвистике, М., 1962
20. Лопатин В.В. Русское словообразование и морфемика. Проблемы и принципы описания. - М.: Наука, 1977. - С. 41-62, 287-310, 109, 106-107.
21. Маслов Ю. С., О некоторых расхождениях в понимании термина «морфема», «Учёные записки ЛГУ», 1961, № 301, сер. филол. наук, в. 60, С. 140—52;
22. Михайлов М.А. Вопросы фонологического анализа: Выделимость основ и формантов. - М.: 1974. - С.8
23. Николаев Г.А. Проблемы теории словообразования в трудах Н.В. Крушевского // Николай Крушевский: научное наследие и современность. - Казань, 2001.
24. Николина Н.А. Вопросы словообразования в трудах И.А. Бодуэна де Куртенэ и Н.В. Крушевского.
25. Панфилов В.З. Грамматика и логика: Грамматическое и логико-грамматическое членение простого предложения. М. ; Л., 1963
26. Плунгян 2003 — В. А. Плунгян. Общая морфология: введение в пробле¬
матику. М.: УРСС, 2000 (2 изд. 2003, 3 изд., испр. и доп. 2009).
Прикладной анализ текстовых данных на Python. Бенгфорт, Билбро, Охеда - С. 146-147
27. Распопов, И.П. Актуальное членение предложения: простого повествования преимущественно в монологической речи / И. П. Распопов.— Уфа : Изд-во Башк. ун-та, 1961 - С. 27-80
28. Савенкова, Е.Д. Этрусская морфемика: Опыт формал. моделирования / Е. Д. Савенкова; С.-Петерб. гос. ун-т. - СПб.
29. Соколова Г.Г. Транспозиция прилагательных и существительных. - М.: Высшая школа, 1973. - С. 175
30. Суперанская А. В. , Н. В. Подольская,Н.В. Васильева Общая терминология. Вопросы теории. 2012
31. Трубачев О. Н. Приемы семантической реконструкции / О. Н Трубачев // Сравнительно-историческое изучение языков разных семей. Теория лингвистической реконструкции. — М., 1988. — С. 197-222.
32. Фирбас, Я. Функция вопроса в процессе коммуникации / Я.Фирбас //Вопросы языкознания. - 1972. - №2.
33. Хасанов Э. Р. О специфике семантической и лексической деривации в современном русском языке Вестник Челябинского государственного университета, 2018. No 6 (416). Филологические науки. Вып. 113. С. 198— 203. 4) Баранов А.Н. «Введение в прикладную лингвистику». - М., 2001. - C. 360
34. Хохлова М.В. Сопоставительный анализ статистических мер на примере
частеречных преференций сочетаемости
существительных//Компьютерная лингвистика и вычислительные онтологии. 2017
35. Шанский Н.М. Очерки по русскому словообразованию. - М., 1968. яз. - М.: 2008. - С. 41 - 43
36. Boost, K. Neue Untersuchingen zum Wesen and zur Struktur des deutschen Satzes [Text] / K. Boost. - Berlin: Akademie-Verlag, 1955. - С. 88
37. БокШИ, Milos. Tvoreni slov v cestine. 1, Teorie odvozovani slov. Vyd. 1. Praha: Nakladatelstvi Ceskoslovenske akademie ved, 1962.
38. Dane's F. Functional sentence perspective and the organization of the text // Papers on functional sentence perspective. - Prague, 1974. - p. 106-128.
39. Danes F., A Three-Level Approach to Syntax. Travaux linguistiques de Prague (TLP), Academia, Prague, 1966, 1; 225-241
40. Firbas I. On some basic issiues of the theory of functional sentence perspective: comments on Alexander Szwedek's critique //Brno studies in English. 1983. Vol.15. P. 9-36.
41.Indexing by latent semantic analysis / S. Deerwester, T. D. Susan, G. W. Furnas et al. // Journal of the American Society for Information Science. — 1990 — Vol. 41


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ