Тема: Процедура тематической атрибуции русских текстов с использованием деривационного анализа
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ВВЕДЕНИЕ 4
ГЛАВА 1. ДЕРИВАЦИОННЫЙ АНАЛИЗ 7
1.1 Словообразование как компонент языковой структуры 7
1.2. Принципы морфемного анализа и понятие морфемы 13
1.3. Основные понятия деривации 20
Выводы по главе 1 27
ГЛАВА 2. ТЕМА-РЕМАТИЧЕСКАЯ ОРГАНИЗАЦИЯ ТЕКСТА 29
2.1 Взгляды на коммуникативное членение текста 29
2.1.1 Традиционное членение высказывания на тему и рему 29
2.1.2 Нетривиальные взгляды на функциональную перспективу сообщения 37
Выводы по главе 2 40
ГЛАВА 3 ПОДХОДЫ К АВТОМАТИЧЕСКОМУ ОПРЕДЕЛЕНИЮ
ТЕМЫ 42
3.1 Статистические методы определения темы 42
3.2 Термин и термин-кандидат в качестве маркеров темы 46
3.3 Подходы к выделению терминов и терминоэлементов 49
Выводы по главе 3 53
ГЛАВА 4. ПРОЦЕДУРА ТЕМАТИЧЕСКОЙ АТРИБУЦИИ С
ИСПОЛЬЗОВАНИЕМ ДЕРИВАЦИОННОГО АНАЛИЗА 54
4.1. Выявление тематически маркированных слов 54
4.1.1 Статистический способ тематического моделирования 54
4.2.2 Лингвистический способ тематического моделирования 62
4.2. Получение основ тематически маркированных слов с помощью
ДЕРИВАЦИОННОГО АНАЛИЗА 75
4.2.1 Метод отсечения суффиксов и флексий 75
4.2.2 Анализ результатов тематической атрибуции 80
Количественная оценка полученных результатов 94
Качественная оценка полученных результатов 98
ВЫВОДЫ 99
ЗАКЛЮЧЕНИЕ 101
СПИСОК ЛИТЕРАТУРЫ: 102
ПРИЛОЖЕНИЕ 1 106
ПРИЛОЖЕНИЕ 2 112
📖 Введение
В нашем видении проблему тематической атрибуции текста можно решить путем нахождения слов-дериватов, несущих в себе основную смысловую нагрузку. Общепринятым методом выявления темы текста является поиск ключевых выражений. Как правило, они частотны и представляют собой номинативные части речи. Соответственно, ключевые слова в структуре текста занимают определенные синтаксические позиции и регулярно повторяются. На этой идее основано наше представление о подходе к нахождению темы текста. Мы считаем, что повторяются в тексте те самые слова дериваты, поэтому нахождение общей основы-представителя упростило бы задачу тематического моделирования.
В связи с этим мы сталкиваемся с еще одной проблемой - морфемной сегментацией текста. На сегодняшний день стемминг (иначе выделение основы слова) - не только необходимая часть обработки любого естественного языка, но и способ нахождения тематически маркированной лексики. Основа слова - это его семантическое ядро, но, как правило, значимые для темы слова всегда имеют в тексте множество производных с той же основой, то есть являются ключевыми элементами текста. Даже в информационном поиске ключевыми терминами для запроса являются именно стеммы (или основы слова), а не исходные слова. Таким образом, для современной лингвистики очень важны исследования в области автоматического морфемного членения, и в данной работе осуществляется попытка разработать формальный подход к нахождению темы текста посредством деривационного анализа.
Итак, наша гипотеза заключается в том, что слова-дериваты, объединенные в классы эквивалентности на основании их принадлежности к одному словообразовательному гнезду, занимающие в тексте разные синтаксические позиции, но регулярно повторяющиеся, отражают тему данного текста. Включение поиска таких слов в существующие алгоритмы тематического моделирования позволит улучшить эффективность этих алгоритмов.
Актуальность исследования обусловлена малым количеством работ по тематической атрибуции, основанной на комбинированном подходе к поиску тематически важных слов.
Предметом исследования являются тематически маркированные слова в тематическом корпусе текстов.
Объектом изучения становятся слова-дериваты, которые составляют единое словообразовательное ядро и являются тематическими маркерами.
Материалом исследования является собранный тематический корпус текстов объемом 2000 словоформ.
Научная новизна данного исследования состоит в разработке подхода к определению темы текста, для которого на второй план уходит частеречная принадлежность «тематичного» слова, поскольку все синтаксические позиции в тексте заняты одной основой-представителем.
Целью исследования становится разработка алгоритма тематической атрибуции текстов определенной предметной области с опорой на правила синтаксической (транспозиционной) деривации.
Задачи:
1. Дать определение тематической атрибуции.
2. Изучить теоретические основы деривационного анализа с акцентом на словах-дериватах, для которых в процессе словообразовательного анализа не происходит изменения значения.
3. Рассмотреть существующие подходы к проблеме актуального членения, разграничить понятия темы и ремы.
4. Разработать процедуру транспозиционного деривационного анализа для
получения основ (стемм), объединяющих элементы
словообразовательного гнезда.
5. Оценить эффективность метода в определении темы....
✅ Заключение
В данном исследовании была предпринята попытка решения данной проблемы с помощью деривационного анализа. Результаты работы алгоритма показали необходимость доработки. Во-первых, перерассмотрения требует коэффициент тематичности, для рассчета которого необходимо будет учесть регулярность появления конкретного слова, чтобы высокое значение получали не только низкочастотные слова. Во-вторых, данная работа предполагает нахождение полной основы слова, следовательно, в перспективе дальнейшего исследования и попыток улучшения эффективности метода автор данной работы намерен учитывать не только суффиксы и флексии, но и префиксы. Эта задача осложнена малой дифференцируемостью префиксов для отдельных частей речи. К тому же, данная методика потребует составления списка слов исключений из-за наличия в языке слов, у которых префикс неотделим от корня.
В целом, примененные в данной работе методы могут послужить основой для разработки полноценного алгоритма тематической атрибуции.





