Процедура тематической атрибуции русских текстов с использованием деривационного анализа
|
ВВЕДЕНИЕ 4
ГЛАВА 1. ДЕРИВАЦИОННЫЙ АНАЛИЗ 7
1.1 СЛОВООБРАЗОВАНИЕ КАК КОМПОНЕНТ ЯЗЫКОВОЙ СТРУКТУРЫ 7
1.2. ПРИНЦИПЫ МОРФЕМНОГО АНАЛИЗА И ПОНЯТИЕ МОРФЕМЫ 13
1.3. ОСНОВНЫЕ ПОНЯТИЯ ДЕРИВАЦИИ 20
ВЫВОДЫ ПО ГЛАВЕ 1 27
ГЛАВА 2. ТЕМА-РЕМАТИЧЕСКАЯ ОРГАНИЗАЦИЯ ТЕКСТА 29
2.1 ВЗГЛЯДЫ НА КОММУНИКАТИВНОЕ ЧЛЕНЕНИЕ ТЕКСТА 29
2.1.1 Традиционное членение высказывания на тему и рему 29
2.1.2 Нетривиальные взгляды на функциональную перспективу сообщения 37
ВЫВОДЫ ПО ГЛАВЕ 2 40
ГЛАВА 3 ПОДХОДЫ К АВТОМАТИЧЕСКОМУ ОПРЕДЕЛЕНИЮ ТЕМЫ 42
3.1 СТАТИСТИЧЕСКИЕ МЕТОДЫ ОПРЕДЕЛЕНИЯ ТЕМЫ 42
3.2 ТЕРМИН И ТЕРМИН-КАНДИДАТ В КАЧЕСТВЕ МАРКЕРОВ ТЕМЫ 46
3.3 ПОДХОДЫ К ВЫДЕЛЕНИЮ ТЕРМИНОВ И ТЕРМИНОЭЛЕМЕНТОВ 49
ВЫВОДЫ ПО ГЛАВЕ 3 53
ГЛАВА 4. ПРОЦЕДУРА ТЕМАТИЧЕСКОЙ АТРИБУЦИИ С
ИСПОЛЬЗОВАНИЕМ ДЕРИВАЦИОННОГО АНАЛИЗА 54
4.1. ВЫЯВЛЕНИЕ ТЕМАТИЧЕСКИ МАРКИРОВАННЫХ СЛОВ 54
4.1.1 Статистический способ тематического моделирования 54
4.2.2 Лингвистический способ тематического моделирования 62
4.2. ПОЛУЧЕНИЕ ОСНОВ ТЕМАТИЧЕСКИ МАРКИРОВАННЫХ СЛОВ С ПОМОЩЬЮ
ДЕРИВАЦИОННОГО АНАЛИЗА 75
4.2.1 Метод отсечения суффиксов и флексий 75
4.2.2 Анализ результатов тематической атрибуции 80
Количественная оценка полученных результатов 94
Качественная оценка полученных результатов 98
ВЫВОДЫ 99
ЗАКЛЮЧЕНИЕ 101
СПИСОК ЛИТЕРАТУРЫ: 102
ПРИЛОЖЕНИЕ 1 106
ПРИЛОЖЕНИЕ 2 112
ГЛАВА 1. ДЕРИВАЦИОННЫЙ АНАЛИЗ 7
1.1 СЛОВООБРАЗОВАНИЕ КАК КОМПОНЕНТ ЯЗЫКОВОЙ СТРУКТУРЫ 7
1.2. ПРИНЦИПЫ МОРФЕМНОГО АНАЛИЗА И ПОНЯТИЕ МОРФЕМЫ 13
1.3. ОСНОВНЫЕ ПОНЯТИЯ ДЕРИВАЦИИ 20
ВЫВОДЫ ПО ГЛАВЕ 1 27
ГЛАВА 2. ТЕМА-РЕМАТИЧЕСКАЯ ОРГАНИЗАЦИЯ ТЕКСТА 29
2.1 ВЗГЛЯДЫ НА КОММУНИКАТИВНОЕ ЧЛЕНЕНИЕ ТЕКСТА 29
2.1.1 Традиционное членение высказывания на тему и рему 29
2.1.2 Нетривиальные взгляды на функциональную перспективу сообщения 37
ВЫВОДЫ ПО ГЛАВЕ 2 40
ГЛАВА 3 ПОДХОДЫ К АВТОМАТИЧЕСКОМУ ОПРЕДЕЛЕНИЮ ТЕМЫ 42
3.1 СТАТИСТИЧЕСКИЕ МЕТОДЫ ОПРЕДЕЛЕНИЯ ТЕМЫ 42
3.2 ТЕРМИН И ТЕРМИН-КАНДИДАТ В КАЧЕСТВЕ МАРКЕРОВ ТЕМЫ 46
3.3 ПОДХОДЫ К ВЫДЕЛЕНИЮ ТЕРМИНОВ И ТЕРМИНОЭЛЕМЕНТОВ 49
ВЫВОДЫ ПО ГЛАВЕ 3 53
ГЛАВА 4. ПРОЦЕДУРА ТЕМАТИЧЕСКОЙ АТРИБУЦИИ С
ИСПОЛЬЗОВАНИЕМ ДЕРИВАЦИОННОГО АНАЛИЗА 54
4.1. ВЫЯВЛЕНИЕ ТЕМАТИЧЕСКИ МАРКИРОВАННЫХ СЛОВ 54
4.1.1 Статистический способ тематического моделирования 54
4.2.2 Лингвистический способ тематического моделирования 62
4.2. ПОЛУЧЕНИЕ ОСНОВ ТЕМАТИЧЕСКИ МАРКИРОВАННЫХ СЛОВ С ПОМОЩЬЮ
ДЕРИВАЦИОННОГО АНАЛИЗА 75
4.2.1 Метод отсечения суффиксов и флексий 75
4.2.2 Анализ результатов тематической атрибуции 80
Количественная оценка полученных результатов 94
Качественная оценка полученных результатов 98
ВЫВОДЫ 99
ЗАКЛЮЧЕНИЕ 101
СПИСОК ЛИТЕРАТУРЫ: 102
ПРИЛОЖЕНИЕ 1 106
ПРИЛОЖЕНИЕ 2 112
Тематическая атрибуция текста - это нетривиальная задача обработки естественного языка. Она представляет собой некоторый параметр, который находит себе применение в задачах информационного поиска, фильтрации документов, определения тематических рубрик для электронных ресурсов. Тематическая атрибуция (тематическое моделирование) используется для поиска информации по смыслу, а не по ключевым словам, для построения профилей интересов пользователя и для аннотирования изображений.
В нашем видении проблему тематической атрибуции текста можно решить путем нахождения слов-дериватов, несущих в себе основную смысловую нагрузку. Общепринятым методом выявления темы текста является поиск ключевых выражений. Как правило, они частотны и представляют собой номинативные части речи. Соответственно, ключевые слова в структуре текста занимают определенные синтаксические позиции и регулярно повторяются. На этой идее основано наше представление о подходе к нахождению темы текста. Мы считаем, что повторяются в тексте те самые слова дериваты, поэтому нахождение общей основы-представителя упростило бы задачу тематического моделирования.
В связи с этим мы сталкиваемся с еще одной проблемой - морфемной сегментацией текста. На сегодняшний день стемминг (иначе выделение основы слова) - не только необходимая часть обработки любого естественного языка, но и способ нахождения тематически маркированной лексики. Основа слова - это его семантическое ядро, но, как правило, значимые для темы слова всегда имеют в тексте множество производных с той же основой, то есть являются ключевыми элементами текста. Даже в информационном поиске ключевыми терминами для запроса являются именно стеммы (или основы слова), а не исходные слова. Таким образом, для современной лингвистики очень важны исследования в области автоматического морфемного членения, и в данной работе осуществляется попытка разработать формальный подход к нахождению темы текста посредством деривационного анализа.
Итак, наша гипотеза заключается в том, что слова-дериваты, объединенные в классы эквивалентности на основании их принадлежности к одному словообразовательному гнезду, занимающие в тексте разные синтаксические позиции, но регулярно повторяющиеся, отражают тему данного текста. Включение поиска таких слов в существующие алгоритмы тематического моделирования позволит улучшить эффективность этих алгоритмов.
Актуальность исследования обусловлена малым количеством работ по тематической атрибуции, основанной на комбинированном подходе к поиску тематически важных слов.
Предметом исследования являются тематически маркированные слова в тематическом корпусе текстов.
Объектом изучения становятся слова-дериваты, которые составляют единое словообразовательное ядро и являются тематическими маркерами.
Материалом исследования является собранный тематический корпус текстов объемом 2000 словоформ.
Научная новизна данного исследования состоит в разработке подхода к определению темы текста, для которого на второй план уходит частеречная принадлежность «тематичного» слова, поскольку все синтаксические позиции в тексте заняты одной основой-представителем.
Целью исследования становится разработка алгоритма тематической атрибуции текстов определенной предметной области с опорой на правила синтаксической (транспозиционной) деривации.
Задачи:
1. Дать определение тематической атрибуции.
2. Изучить теоретические основы деривационного анализа с акцентом на словах-дериватах, для которых в процессе словообразовательного анализа не происходит изменения значения.
3. Рассмотреть существующие подходы к проблеме актуального членения, разграничить понятия темы и ремы.
4. Разработать процедуру транспозиционного деривационного анализа для
получения основ (стемм), объединяющих элементы словообразовательного гнезда.
5. Оценить эффективность метода в определении темы.
Данная работа состоит из введения, трех глав, тридцати двух таблиц, десяти иллюстраций, заключения, списка литературы и двух приложений. В первой главе рассматриваются теоретические вопросы, связанные теорией словообразования, на которую мы опирались при реализации алгоритма. Вторая глава посвящена описанию тема-рематической организации текста и основным статистическим методам определения темы. В третьей главе рассматриваются алгоритмы, направленные на выделение ключевых слов и терминов, а также статистические алгоритмы выделения темы документа. В четвертой главе описан эксперимент по присвоению темы на основании синтаксической деривации, представлены результаты и их оценка
В нашем видении проблему тематической атрибуции текста можно решить путем нахождения слов-дериватов, несущих в себе основную смысловую нагрузку. Общепринятым методом выявления темы текста является поиск ключевых выражений. Как правило, они частотны и представляют собой номинативные части речи. Соответственно, ключевые слова в структуре текста занимают определенные синтаксические позиции и регулярно повторяются. На этой идее основано наше представление о подходе к нахождению темы текста. Мы считаем, что повторяются в тексте те самые слова дериваты, поэтому нахождение общей основы-представителя упростило бы задачу тематического моделирования.
В связи с этим мы сталкиваемся с еще одной проблемой - морфемной сегментацией текста. На сегодняшний день стемминг (иначе выделение основы слова) - не только необходимая часть обработки любого естественного языка, но и способ нахождения тематически маркированной лексики. Основа слова - это его семантическое ядро, но, как правило, значимые для темы слова всегда имеют в тексте множество производных с той же основой, то есть являются ключевыми элементами текста. Даже в информационном поиске ключевыми терминами для запроса являются именно стеммы (или основы слова), а не исходные слова. Таким образом, для современной лингвистики очень важны исследования в области автоматического морфемного членения, и в данной работе осуществляется попытка разработать формальный подход к нахождению темы текста посредством деривационного анализа.
Итак, наша гипотеза заключается в том, что слова-дериваты, объединенные в классы эквивалентности на основании их принадлежности к одному словообразовательному гнезду, занимающие в тексте разные синтаксические позиции, но регулярно повторяющиеся, отражают тему данного текста. Включение поиска таких слов в существующие алгоритмы тематического моделирования позволит улучшить эффективность этих алгоритмов.
Актуальность исследования обусловлена малым количеством работ по тематической атрибуции, основанной на комбинированном подходе к поиску тематически важных слов.
Предметом исследования являются тематически маркированные слова в тематическом корпусе текстов.
Объектом изучения становятся слова-дериваты, которые составляют единое словообразовательное ядро и являются тематическими маркерами.
Материалом исследования является собранный тематический корпус текстов объемом 2000 словоформ.
Научная новизна данного исследования состоит в разработке подхода к определению темы текста, для которого на второй план уходит частеречная принадлежность «тематичного» слова, поскольку все синтаксические позиции в тексте заняты одной основой-представителем.
Целью исследования становится разработка алгоритма тематической атрибуции текстов определенной предметной области с опорой на правила синтаксической (транспозиционной) деривации.
Задачи:
1. Дать определение тематической атрибуции.
2. Изучить теоретические основы деривационного анализа с акцентом на словах-дериватах, для которых в процессе словообразовательного анализа не происходит изменения значения.
3. Рассмотреть существующие подходы к проблеме актуального членения, разграничить понятия темы и ремы.
4. Разработать процедуру транспозиционного деривационного анализа для
получения основ (стемм), объединяющих элементы словообразовательного гнезда.
5. Оценить эффективность метода в определении темы.
Данная работа состоит из введения, трех глав, тридцати двух таблиц, десяти иллюстраций, заключения, списка литературы и двух приложений. В первой главе рассматриваются теоретические вопросы, связанные теорией словообразования, на которую мы опирались при реализации алгоритма. Вторая глава посвящена описанию тема-рематической организации текста и основным статистическим методам определения темы. В третьей главе рассматриваются алгоритмы, направленные на выделение ключевых слов и терминов, а также статистические алгоритмы выделения темы документа. В четвертой главе описан эксперимент по присвоению темы на основании синтаксической деривации, представлены результаты и их оценка
Данная работа посвящена актуальной проблеме поиска оптимального метода определения темы текста. Среди множества подходов нелегко найти универсальный алгоритм, применимый к любому типу текста.
В данном исследовании была предпринята попытка решения данной проблемы с помощью деривационного анализа. Результаты работы алгоритма показали необходимость доработки. Во-первых, перерассмотрения требует коэффициент тематичности, для расчета которого необходимо будет учесть регулярность появления конкретного слова, чтобы высокое значение получали не только низкочастотные слова. Во-вторых, данная работа предполагает нахождение полной основы слова, следовательно, в перспективе дальнейшего исследования и попыток улучшения эффективности метода автор данной работы намерен учитывать не только суффиксы и флексии, но и префиксы. Эта задача осложнена малой дифференцируемостью префиксов для отдельных частей речи. К тому же, данная методика потребует составления списка слов исключений из-за наличия в языке слов, у которых префикс неотделим от корня.
В целом, примененные в данной работе методы могут послужить основой для разработки полноценного алгоритма тематической атрибуции.
В данном исследовании была предпринята попытка решения данной проблемы с помощью деривационного анализа. Результаты работы алгоритма показали необходимость доработки. Во-первых, перерассмотрения требует коэффициент тематичности, для расчета которого необходимо будет учесть регулярность появления конкретного слова, чтобы высокое значение получали не только низкочастотные слова. Во-вторых, данная работа предполагает нахождение полной основы слова, следовательно, в перспективе дальнейшего исследования и попыток улучшения эффективности метода автор данной работы намерен учитывать не только суффиксы и флексии, но и префиксы. Эта задача осложнена малой дифференцируемостью префиксов для отдельных частей речи. К тому же, данная методика потребует составления списка слов исключений из-за наличия в языке слов, у которых префикс неотделим от корня.
В целом, примененные в данной работе методы могут послужить основой для разработки полноценного алгоритма тематической атрибуции.



