Тип работы:	Предмет:	Язык работы:

Автоматическое определение сложности английского текста по шкале CEFR

Работа №	129599
Тип работы	Магистерская диссертация
Предмет	информатика
Объем работы	42
Год сдачи	2019
Стоимость	4290 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено	24

Не подходит работа?

Узнай цену на написание

Содержание

Введение 4
Цели и задачи 6
Обзор литературы 8
Кластеризация 8
Метод Краскала 8
Классификация 9
Решающие деревья 9
Случайный лес 10
Множественная линейная регрессия 11
Байесовский классификатор 12
Глава 1. Постановка задачи 15
1.1. Шкала CEFR 15
1.2. Математическая постановка задачи 17
Глава 2. Работа с текстом 19
2.1. Лемматизация и морфологическая разметка 19
2.2. Описание характеристических функций 20
2.3. Описание экспериментов 23
2.4. Реализация серверной части приложения 26
2.5. Настройка удаленного сервера 28
Глава 3. Результаты 30
3.1. Оценка качества классификации 30
3.2. Демонстрация работы приложения 34
Выводы 37
Заключение 38
Список литературы

Введение

Как всем известно, английский язык принято считать международным. Возможно, поэтому в России постоянно растет число желающих выучить его. Среди существующего множества методик освоения иностранной речи для носителей русского языка значимую роль играет чтение.
Чтение — один из важнейших аспектов в рамках изучения английского языка, как иностранного. Согласно исследованиям [2] примерно треть всех книг мира издана на английском. Но как осознать, что текст не является слишком сложным для читателя? Способен ли будет человек с определенным уровнем знания понять его? Чтобы ответить на эти вопросы, необходимо ввести шкалу сложности текстов. За нее можно принять соответствие общепринятым в методике CEFR уровням владения иностранным языком.
В данной работе было исследовано 4 уровня: Elementary(Beginner), Pre-intermediate, Intermediate, Advanced.
Elementary(Beginner) — умение читать и понимать небольшие тексты с простой лексикой, элементарные предложения (не более 7-9 слов), словарный запас менее 1000 слов.
Pre-intermediate — способность читать и понимать тексты с небольшим количеством незнакомой лексики, которая не мешает общему пониманию текста, словарный запас до 2000 слов, понимание несложных грамматических конструкций.
Intermediate — знание более 3000 слов, навык чтения любых текстов без специальной тематики, понимание сложной грамматики.
Advanced — чтение без усилий любого текста, будь то отрывок из художественного произведения или научная статья.
Подбор текстов для учебных пособий, обучающих сайтов, поиск интересных адаптированных текстов для занятий отнимает много времени как у преподавателей, так и у людей, занимающихся самостоятельно. Кроме того, не всегда можно с легкостью определить сложность найденного в интернете текста или отрывка из книги. Вследствие чего, перед автором данной работы была поставлена задача облегчить деятельность лингвистов и обучающихся путем автоматизирования определения сложности текста.
Цели и задачи
Целью данной работы является создание программного продукта, позволяющего автоматически определить сложность английского текста в соответствии с общепринятой шкалой CEFR. Основные задачи, необходимые для достижения поставленной цели:
1. Изучить существующие методы классификации и кластеризации текстов.
2. Подобрать обучающую выборку текстов на английском языке, каждый экземпляр которой подходит для чтения русскоязычному пользователю с определенным уровнем знания английского.
3. Проанализировать тексты различной сложности и выявить признаки, характерные для каждого из уровней.
4. Произвести кластеризацию имеющихся текстов, используя выявленные признаки, таким образом отсеяв не влияющие на результат или увеличивающие ошибку свойства.
5. Для оставшихся признаков подсчитать их весовые коэффициенты. Затем исключить свойства, имеющие веса, близкие к нулю.
6. Обучить классификаторы.
7. Введение “взвешенной” точности.
8. Достичь полноты классификации >70%, точности >70%, взвешенной точности > 85%.
9. Установить и настроить удаленный сервер, на котором будет производиться основная обработка текстов.
10. Разработать графический интерфейс клиентской части приложения:
(a) Реализация возможности вставлять скопированный текст или открывать из файла на компьютере.
(b) Установка соединения с удаленным сервером.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

Курсовые Статьи Диплом Рязань

Заключение

В ходе работы реализовано клиент-серверное приложение для автоматической классификации английских текстов по уровням сложности. Приложение обладает удобным графическим интерфейсом, с помощью которого пользователь с легкостью может определить сложность английского текста. Реализовано взаимодействие между клиентским приложением и удаленной вычислительной машиной, выполняющей всю работу по анализу текстов. Проведен анализ существующих методов классификации и их сравнение между собой. В ходе проверки классификатора получены оптимальные и достаточно большие значения метрик качества: точность, полнота, F-мера.

Литература

1. Алексеев В. Е., Таланов В. А. Графы. Модели вычислений. Структуры данных. 1 изд. Н. Новгород.: Издательство Нижегородского госуниверситета, 2005. 307 с.
2. Английский язык в цифрах и фактах [Электронный ресурс] // URL: https://englex.ru/english-in-numbers-and-facts(дата обращения: 10.02.19).
3. Брюс Э. Философия Java. 4 изд. СПб.: Питер, 2016. 1168 с.
4. Ветренников И. С., Карташев Е. А, Царегородцев А. Л. Оценка качества классификации текстовых материалов с использованием алгоритма машинного обучения “Случайный лес” // Известия алтайского государственного университета. 2017. No 4. С. 78-83.
5. Воевода Е. В, Тимченко М. В. Курс английского языка. Учебник. В 2 частях. Часть 2. 2 изд. М.: МГИМО-Университет. 2016. 178 с.
6. Голицынский Ю. Б. Английский язык. Грамматика. 7 изд. Спб.: КАРО, 2011. 577 с.
7. Гмурман В. Е. Теория вероятностей и математическая статистика: учебное пособие для вузов. 11 изд. М.: Высшая школа, 2005. 479 с.
8. Калиткин Н. Н. Численные методы. 2 изд. СПб: БХВ-Петербург, 2011. 592 с.
9. Куликов Л. М. Основы экономической теории. 3 изд. Москва: Юрайт, 2018. 371 с.
10. Кульчева О. А. Компьютерная программа для проверки уровня владения лексикой по заданной тематике // Ульяновский государственный педагогический университет имени И. Н. Ульянова. 2009. С. 192-196.
11. Мандель И. Д. Кластерный анализ. М.: Финансы и статистика, 1988. 176 с.
12. Оборнева И. В. Автоматизированная оценка сложности учебных текстов на основе статистических параметров: дис. ... к.п.н.: 13.00.02 // И. В. Оборнева. - Москва, 2006. 132 с.
13. Фальк В. Н., Бочаров И. А., Шаграев А. Г. Трансдуктивное обучение логистической регрессии в задаче классификации текстов // Программные продукты и системы. 2014. No 2 (106). С. 115-118.
14. Холл М. Комбинаторика. Москва: МИР, 1970. 421 с.ЫЬйет1 Яцко В. А. Алгоритмы и программы автоматической обработки текста // Вестник Иркутского государственного лингвистического университета. 2012. No 1. С. 150-161.
15. Яцко В. А. Алгоритмы и программы автоматической обработки текста // Вестник Иркутского государственного лингвистического университета. 2012. No 1. С. 150-161.
16. Acklam R., Crace A. New Total English: Upper Intermediate 1 ed. London: Pearson Education Limited, 2014. 176 p.
17. Breiman L., Friedman J., Olshen R., Stone C. Classification and regression trees. 1 ed. Chapman and Hall // CRC. 1984. 368 p.
18. Breiman L. Random Forests //Machine Learning. 2001. No 45. P. 5432.
19. British Council [Электронный ресурс] //
URL: https://learnenglish.britishcouncil.org(дата обращения: 13.10.18).
20. Browne C. The New General Service List Version 1.01: Getting Better All the Time // Korea TESOL Journal. 2014. No 11. P. 35-50.
21. Dale L. Next Generation SSH2 Implementation. 1 ed. Rockland: Syngress, 2008. 336 p.
22. Dellar H., Hocking D.. Innovations Intermediate: A Course in Natural English. 1 ed. Boston: Thomson Heinle. 2004. 176 p.
23. Doff A. English Unlimited: Level A1. 1 ed. Cambridge: Cambridge university press. 2013. 128 p.
24. Dolch E. W. Problems in Reading. 1Ed. NY: Garrard Press, 1948, 373 p.
25. Erkan A. ITiCSE best paper: the educational insights and opportunities afforded by the nuances of Prim’s and Kruskal’s MST algorithms // ACM inroads, 2019. No 10. P. 57-63.
26. English vocabulary profile [Электронный ресурс] // URL: http://vocabulary.englishprofile.org/dictionary(дата обращения: 09.12.18).
27. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd ed. Springer-Verlag, 2009. 746 p.
28. Heilman M., Collins-Thompson K., Callan J., Eskenazi M. Combining Lexical and Grammatical Features to Improve Readability Measures for First and Second Language Texts // Proceedings of HLT-NAACL. 2007. P. 460-467
29. Interactive Reading Practice [Электронный ресурс] // URL: https://http://www.ngllife.com(дата обращения: 13.10.18).
30. Manning C., Raghavan P., Sch?tze M. Introduction to Information Retrieval, NY: Cambridge University Press, 2008. 569 p.
31. OpenCV [Электронный ресурс] // URL: https://opencv.org(дата обращения: 25.01.19).
32. Quinlan J. R. Induction of Decision Trees // Machine Learning 1986. С. 81¬106.
33. Swan M., Walter C. Oxford English Grammar Course: Intermediate. 1ed. London: Oxford University Press. 2011. 400 p.
34. Tolosi L., Lengauer T. Classification with correlated features: unreliability of feature ranking and solutions // Bioinformatics. 2011, No 27. P. 1986¬1994.
35. Weka wiki [Электронный ресурс] // URL: https://waikato.github.io/weka- wiki(дата обращения: 01.02.19).
36. Xin Y., Xiao G. Linera regression analysis. Singapore: WorldScientific, 2009. 328 p.