Тема: Автоматическое определение сложности английского текста по шкале CEFR
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Цели и задачи 6
Обзор литературы 8
Кластеризация 8
Метод Краскала 8
Классификация 9
Решающие деревья 9
Случайный лес 10
Множественная линейная регрессия 11
Байесовский классификатор 12
Глава 1. Постановка задачи 15
1.1. Шкала CEFR 15
1.2. Математическая постановка задачи 17
Глава 2. Работа с текстом 19
2.1. Лемматизация и морфологическая разметка 19
2.2. Описание характеристических функций 20
2.3. Описание экспериментов 23
2.4. Реализация серверной части приложения 26
2.5. Настройка удаленного сервера 28
Глава 3. Результаты 30
3.1. Оценка качества классификации 30
3.2. Демонстрация работы приложения 34
Выводы 37
Заключение 38
Список литературы
📖 Введение
Чтение — один из важнейших аспектов в рамках изучения английского языка, как иностранного. Согласно исследованиям [2] примерно треть всех книг мира издана на английском. Но как осознать, что текст не является слишком сложным для читателя? Способен ли будет человек с определенным уровнем знания понять его? Чтобы ответить на эти вопросы, необходимо ввести шкалу сложности текстов. За нее можно принять соответствие общепринятым в методике CEFR уровням владения иностранным языком.
В данной работе было исследовано 4 уровня: Elementary(Beginner), Pre-intermediate, Intermediate, Advanced.
Elementary(Beginner) — умение читать и понимать небольшие тексты с простой лексикой, элементарные предложения (не более 7-9 слов), словарный запас менее 1000 слов.
Pre-intermediate — способность читать и понимать тексты с небольшим количеством незнакомой лексики, которая не мешает общему пониманию текста, словарный запас до 2000 слов, понимание несложных грамматических конструкций.
Intermediate — знание более 3000 слов, навык чтения любых текстов без специальной тематики, понимание сложной грамматики.
Advanced — чтение без усилий любого текста, будь то отрывок из художественного произведения или научная статья.
Подбор текстов для учебных пособий, обучающих сайтов, поиск интересных адаптированных текстов для занятий отнимает много времени как у преподавателей, так и у людей, занимающихся самостоятельно. Кроме того, не всегда можно с легкостью определить сложность найденного в интернете текста или отрывка из книги. Вследствие чего, перед автором данной работы была поставлена задача облегчить деятельность лингвистов и обучающихся путем автоматизирования определения сложности текста.
Цели и задачи
Целью данной работы является создание программного продукта, позволяющего автоматически определить сложность английского текста в соответствии с общепринятой шкалой CEFR. Основные задачи, необходимые для достижения поставленной цели:
1. Изучить существующие методы классификации и кластеризации текстов.
2. Подобрать обучающую выборку текстов на английском языке, каждый экземпляр которой подходит для чтения русскоязычному пользователю с определенным уровнем знания английского.
3. Проанализировать тексты различной сложности и выявить признаки, характерные для каждого из уровней.
4. Произвести кластеризацию имеющихся текстов, используя выявленные признаки, таким образом отсеяв не влияющие на результат или увеличивающие ошибку свойства.
5. Для оставшихся признаков подсчитать их весовые коэффициенты. Затем исключить свойства, имеющие веса, близкие к нулю.
6. Обучить классификаторы.
7. Введение “взвешенной” точности.
8. Достичь полноты классификации >70%, точности >70%, взвешенной точности > 85%.
9. Установить и настроить удаленный сервер, на котором будет производиться основная обработка текстов.
10. Разработать графический интерфейс клиентской части приложения:
(a) Реализация возможности вставлять скопированный текст или открывать из файла на компьютере.
(b) Установка соединения с удаленным сервером.



