Введение 4
Цели и задачи 6
Обзор литературы 8
Кластеризация 8
Метод Краскала 8
Классификация 9
Решающие деревья 9
Случайный лес 10
Множественная линейная регрессия 11
Байесовский классификатор 12
Глава 1. Постановка задачи 15
1.1. Шкала CEFR 15
1.2. Математическая постановка задачи 17
Глава 2. Работа с текстом 19
2.1. Лемматизация и морфологическая разметка 19
2.2. Описание характеристических функций 20
2.3. Описание экспериментов 23
2.4. Реализация серверной части приложения 26
2.5. Настройка удаленного сервера 28
Глава 3. Результаты 30
3.1. Оценка качества классификации 30
3.2. Демонстрация работы приложения 34
Выводы 37
Заключение 38
Список литературы
Как всем известно, английский язык принято считать международным. Возможно, поэтому в России постоянно растет число желающих выучить его. Среди существующего множества методик освоения иностранной речи для носителей русского языка значимую роль играет чтение.
Чтение — один из важнейших аспектов в рамках изучения английского языка, как иностранного. Согласно исследованиям [2] примерно треть всех книг мира издана на английском. Но как осознать, что текст не является слишком сложным для читателя? Способен ли будет человек с определенным уровнем знания понять его? Чтобы ответить на эти вопросы, необходимо ввести шкалу сложности текстов. За нее можно принять соответствие общепринятым в методике CEFR уровням владения иностранным языком.
В данной работе было исследовано 4 уровня: Elementary(Beginner), Pre-intermediate, Intermediate, Advanced.
Elementary(Beginner) — умение читать и понимать небольшие тексты с простой лексикой, элементарные предложения (не более 7-9 слов), словарный запас менее 1000 слов.
Pre-intermediate — способность читать и понимать тексты с небольшим количеством незнакомой лексики, которая не мешает общему пониманию текста, словарный запас до 2000 слов, понимание несложных грамматических конструкций.
Intermediate — знание более 3000 слов, навык чтения любых текстов без специальной тематики, понимание сложной грамматики.
Advanced — чтение без усилий любого текста, будь то отрывок из художественного произведения или научная статья.
Подбор текстов для учебных пособий, обучающих сайтов, поиск интересных адаптированных текстов для занятий отнимает много времени как у преподавателей, так и у людей, занимающихся самостоятельно. Кроме того, не всегда можно с легкостью определить сложность найденного в интернете текста или отрывка из книги. Вследствие чего, перед автором данной работы была поставлена задача облегчить деятельность лингвистов и обучающихся путем автоматизирования определения сложности текста.
Цели и задачи
Целью данной работы является создание программного продукта, позволяющего автоматически определить сложность английского текста в соответствии с общепринятой шкалой CEFR. Основные задачи, необходимые для достижения поставленной цели:
1. Изучить существующие методы классификации и кластеризации текстов.
2. Подобрать обучающую выборку текстов на английском языке, каждый экземпляр которой подходит для чтения русскоязычному пользователю с определенным уровнем знания английского.
3. Проанализировать тексты различной сложности и выявить признаки, характерные для каждого из уровней.
4. Произвести кластеризацию имеющихся текстов, используя выявленные признаки, таким образом отсеяв не влияющие на результат или увеличивающие ошибку свойства.
5. Для оставшихся признаков подсчитать их весовые коэффициенты. Затем исключить свойства, имеющие веса, близкие к нулю.
6. Обучить классификаторы.
7. Введение “взвешенной” точности.
8. Достичь полноты классификации >70%, точности >70%, взвешенной точности > 85%.
9. Установить и настроить удаленный сервер, на котором будет производиться основная обработка текстов.
10. Разработать графический интерфейс клиентской части приложения:
(a) Реализация возможности вставлять скопированный текст или открывать из файла на компьютере.
(b) Установка соединения с удаленным сервером.
В ходе работы реализовано клиент-серверное приложение для автоматической классификации английских текстов по уровням сложности. Приложение обладает удобным графическим интерфейсом, с помощью которого пользователь с легкостью может определить сложность английского текста. Реализовано взаимодействие между клиентским приложением и удаленной вычислительной машиной, выполняющей всю работу по анализу текстов. Проведен анализ существующих методов классификации и их сравнение между собой. В ходе проверки классификатора получены оптимальные и достаточно большие значения метрик качества: точность, полнота, F-мера.