Аннотация
ВВЕДЕНИЕ 4
ГЛАВА 1. ДЕРИВАЦИОННЫЙ АНАЛИЗ 7
1.1 Словообразование как компонент языковой структуры 7
1.2. Принципы морфемного анализа и понятие морфемы 13
1.3. Основные понятия деривации 20
Выводы по главе 1 27
ГЛАВА 2. ТЕМА-РЕМАТИЧЕСКАЯ ОРГАНИЗАЦИЯ ТЕКСТА 29
2.1 Взгляды на коммуникативное членение текста 29
2.1.1 Традиционное членение высказывания на тему и рему 29
2.1.2 Нетривиальные взгляды на функциональную перспективу сообщения 37
Выводы по главе 2 40
ГЛАВА 3 ПОДХОДЫ К АВТОМАТИЧЕСКОМУ ОПРЕДЕЛЕНИЮ
ТЕМЫ 42
3.1 Статистические методы определения темы 42
3.2 Термин и термин-кандидат в качестве маркеров темы 46
3.3 Подходы к выделению терминов и терминоэлементов 49
Выводы по главе 3 53
ГЛАВА 4. ПРОЦЕДУРА ТЕМАТИЧЕСКОЙ АТРИБУЦИИ С
ИСПОЛЬЗОВАНИЕМ ДЕРИВАЦИОННОГО АНАЛИЗА 54
4.1. Выявление тематически маркированных слов 54
4.1.1 Статистический способ тематического моделирования 54
4.2.2 Лингвистический способ тематического моделирования 62
4.2. Получение основ тематически маркированных слов с помощью
ДЕРИВАЦИОННОГО АНАЛИЗА 75
4.2.1 Метод отсечения суффиксов и флексий 75
4.2.2 Анализ результатов тематической атрибуции 80
Количественная оценка полученных результатов 94
Качественная оценка полученных результатов 98
ВЫВОДЫ 99
ЗАКЛЮЧЕНИЕ 101
СПИСОК ЛИТЕРАТУРЫ: 102
ПРИЛОЖЕНИЕ 1 106
ПРИЛОЖЕНИЕ 2 112
Тематическая атрибуция текста - это нетривиальная задача обработки естественного языка. Она представляет собой некоторый параметр, который находит себе применение в задачах информационного поиска, фильтрации документов, определения тематических рубрик для электронных ресурсов. Тематическая атрибуция (тематическое моделирование) используется для поиска информации по смыслу, а не по ключевым словам, для построения профилей интересов пользователя и для аннотирования изображений.
В нашем видении проблему тематической атрибуции текста можно решить путем нахождения слов-дериватов, несущих в себе основную смысловую нагрузку. Общепринятым методом выявления темы текста является поиск ключевых выражений. Как правило, они частотны и представляют собой номинативные части речи. Соответственно, ключевые слова в структуре текста занимают определенные синтаксические позиции и регулярно повторяются. На этой идее основано наше представление о подходе к нахождению темы текста. Мы считаем, что повторяются в тексте те самые слова дериваты, поэтому нахождение общей основы-представителя упростило бы задачу тематического моделирования.
В связи с этим мы сталкиваемся с еще одной проблемой - морфемной сегментацией текста. На сегодняшний день стемминг (иначе выделение основы слова) - не только необходимая часть обработки любого естественного языка, но и способ нахождения тематически маркированной лексики. Основа слова - это его семантическое ядро, но, как правило, значимые для темы слова всегда имеют в тексте множество производных с той же основой, то есть являются ключевыми элементами текста. Даже в информационном поиске ключевыми терминами для запроса являются именно стеммы (или основы слова), а не исходные слова. Таким образом, для современной лингвистики очень важны исследования в области автоматического морфемного членения, и в данной работе осуществляется попытка разработать формальный подход к нахождению темы текста посредством деривационного анализа.
Итак, наша гипотеза заключается в том, что слова-дериваты, объединенные в классы эквивалентности на основании их принадлежности к одному словообразовательному гнезду, занимающие в тексте разные синтаксические позиции, но регулярно повторяющиеся, отражают тему данного текста. Включение поиска таких слов в существующие алгоритмы тематического моделирования позволит улучшить эффективность этих алгоритмов.
Актуальность исследования обусловлена малым количеством работ по тематической атрибуции, основанной на комбинированном подходе к поиску тематически важных слов.
Предметом исследования являются тематически маркированные слова в тематическом корпусе текстов.
Объектом изучения становятся слова-дериваты, которые составляют единое словообразовательное ядро и являются тематическими маркерами.
Материалом исследования является собранный тематический корпус текстов объемом 2000 словоформ.
Научная новизна данного исследования состоит в разработке подхода к определению темы текста, для которого на второй план уходит частеречная принадлежность «тематичного» слова, поскольку все синтаксические позиции в тексте заняты одной основой-представителем.
Целью исследования становится разработка алгоритма тематической атрибуции текстов определенной предметной области с опорой на правила синтаксической (транспозиционной) деривации.
Задачи:
1. Дать определение тематической атрибуции.
2. Изучить теоретические основы деривационного анализа с акцентом на словах-дериватах, для которых в процессе словообразовательного анализа не происходит изменения значения.
3. Рассмотреть существующие подходы к проблеме актуального членения, разграничить понятия темы и ремы.
4. Разработать процедуру транспозиционного деривационного анализа для
получения основ (стемм), объединяющих элементы
словообразовательного гнезда.
5. Оценить эффективность метода в определении темы....
Данная работа посвящена актуальной проблеме поиска оптимального метода определения темы текста. Среди множества подходов нелегко найти универсальный алгоритм, применимый к любому типу текста.
В данном исследовании была предпринята попытка решения данной проблемы с помощью деривационного анализа. Результаты работы алгоритма показали необходимость доработки. Во-первых, перерассмотрения требует коэффициент тематичности, для рассчета которого необходимо будет учесть регулярность появления конкретного слова, чтобы высокое значение получали не только низкочастотные слова. Во-вторых, данная работа предполагает нахождение полной основы слова, следовательно, в перспективе дальнейшего исследования и попыток улучшения эффективности метода автор данной работы намерен учитывать не только суффиксы и флексии, но и префиксы. Эта задача осложнена малой дифференцируемостью префиксов для отдельных частей речи. К тому же, данная методика потребует составления списка слов исключений из-за наличия в языке слов, у которых префикс неотделим от корня.
В целом, примененные в данной работе методы могут послужить основой для разработки полноценного алгоритма тематической атрибуции.
1. Гринев-Гриневич С.В. Терминоведение. - М., 2008. - С. 304
2. Бодуэн де Куртенэ И.А. «Об отношении русского письма к русскому языку» / И.А.Бодуэн де Куртенэ // Избранные труды по общему языкознанию. - Т. 2. - М.: Изд-во АН СССР, 1963
3. Головин Б.Н. Лингвистические основы учения о терминах. - М., 1987. - C. 103
4. Крушевский Н.В. Избранные работы по языкознанию. - М., 1998.
5. Адамец, П. Порядок слов в современном русском языке / П. Адамец. - Прага: Academia, 1966 - С. 20-39.
6. Адамец, П. Порядок слов в современном русском языке / П. Адамец. - Прага: Academia, 1966 - С. 20-39.
7. Виноградов В.В. Избранные труды. Исследования по русской грамматике. — М.: Наука, 1975.
8. Винокур Г. О. О некоторых явлениях словообразования в русской технической терминологии // Труды Московского института истории, философии и литературы. М.: ЛИТЕРА, 1939. Т. 5. Сборник статей по языковедению. С. 3-54.
9. Винокур Г.О. Заметки по русскому словообразованию, 1959
10. Воронцов К. В. Вероятностное тематическое моделирование. 2013.
[Электронный ресурс URL:
http://www.machinelearning.rU/wiki/images/2/22/Voron-2013-ptm.pdf]
11.Земская Е. А., Кубрякова Е. С., Проблемы словообразования на современном этапе, «Вопросы языкознания», 1978, No 6;
12. И.В.Евсеева, Т.А.Лузгина, И.А.Славкина, Ф.В.Степанова. Современный русский язык: Курс лекций / И.В.Евсеева, Т.А.Лузгина, И.А.Славкина, Ф.В.Степанова; Под ред. И.А.Славкиной; Сибирский федеральный ун-т. - Красноярск,2007. - C. 642
13. Ковтунова, И.И. Современный русский язык. Порядок слов и актуальное членение предложения / И.И.Ковтунова - М.: Просвещение, 1976 - C. 239
14. Кольцов С.Н., Кольцова О.Ю., Митрофанова О.А., Шиморина А.С. Интерпретация семантических связей в текстах русскоязычного сегмента Живого Журнала на основе тематической модели LDA // Технологии информационного общества в науке, образовании и культуре: сборник научных статей. Материалы XVII Всероссийской объединенной конференции «Интернет и современное общество» IMS-2014, Санкт- Петербург, 19 - 20 ноября 2014 г. СПб., 2014. С. 135-142
15. Крушельницкая, К.Г. К вопросу о смысловом членении предложения / К.Г.Крушельницкая // Вопросы языкознания. - 1956 - №5. - С. 55-67....41