ВВЕДЕНИЕ 2
ГЛАВА 1. ОПИСАНИЕ ЗАДАЧИ ОПРЕДЕЛЕНИЯ СЛОЖНОСТИ ТЕКСТОВ4
1.1. ПОДХОДЫ К ОПРЕДЕЛЕНИЮ СЛОЖНОСТИ ТЕКСТОВ 4
1.2. СЛОЖНОСТЬ ТЕКСТОВ ПЕСЕН НА АНГЛИЙСКОМ ЯЗЫКЕ 7
1.3. ПОИСК НАБОРА ТЕКСТОВ ПЕСЕН 9
1.4. СРЕДСТВА РАБОТЫ С ТЕКСТОВЫМИ ДАННЫМИ 10
1.5. ПРИЗНАКИ ТЕКСТОВ ПЕСЕН НА АНГЛИЙСКОМ ЯЗЫКЕ 13
ГЛАВА 2.РАЗРАБОТКА РЕКОМЕНДАТЕЛЬНОЙ СИСТЕМЫ ПО ПОДБОРУ
ПЕСЕН ПО СЛОЖНОСТИ 16
2.1. ПРИЗНАКИ НАБОРА ТЕКСТОВ ПЕСЕН 16
2.2. КЛАСТЕРИЗАЦИЯ НАБОРА ТЕКСТОВ ПЕСЕН ПО СЛОЖНОСТИ. 20
2.3. КЛАССИФИКАЦИЯ ТЕКСТОВ ПЕСЕН ПО СЛОЖНОСТИ 27
2.4. РАЗРАБОТКА ПРИЛОЖЕНИЯ 29
ЗАКЛЮЧЕНИЕ 35
СПИСОК ЛИТЕРАТУРЫ 37
ПРИЛОЖЕНИЕ 1. ВЫДЕЛЕНИЕ ПРИЗНАКОВ ТЕКСТОВ 39
ПРИЛОЖЕНИЕ 2. КОД КЛАССИФИКАТОРА НОВЫХ ТЕКСТОВ ПЕСЕН41
ПРИЛОЖЕНИЕ 3. КОД ПОИСКА РЕКОМЕНДАЦИЙ
В настоящее время существует потребность в определении сложности текстов в различных областях, связанных с лингвистикой.
Оценка сложности текстов может использоваться в процессе обучения иностранному языку: зная уровень текстов можно их подбирать под конкретный уровень знания ученика, что дает более гибкую систему обучения. Создание программных продуктов, которые определяют уровень знания языка ученика и выдают соответствующие рекомендации, способствует формированию индивидуальной образовательной траектории обучения.
Переводчик текстов с иностранного языка может использовать определение сложности текстов, например, для определения времени на перевод, установления цены за перевод и т.д.
Определение сложности текстов может применяться в документообороте. Длинные предложения, сложные конструкции внутри предложений затрудняют восприятие текста.
Однако проблема определения сложности состоит в том, что человеку самостоятельно объективно трудно это сделать.
Во-первых, текстов может быть очень много, как в документообороте, что может существенно замедлять прохождение документов, или как в обучении, при изучении большого количества текстов (корпуса текстов).
Во-вторых, не совсем понятно, по каким критериям оценивать тексты.
Существуют различные параметры оценки, для человека вручную проверять их все будет затруднительно. Поэтому идеей данной работы стала разработка кластеризатора текстов по сложности.
В качестве корпуса текстов используются тексты песен на английском языке. Способ изучения языка с помощью песен будет полезен в основном для молодежи, так как они часто слушают музыку и такой способ будет практичен, потому что для этого понадобится лишь смартфон. К тому же существуют исследования, которые показывают эффективность метода обучения иностранному языку при помощи разбора текстов песен. Сервис, который мог бы предлагать порядок изучения песен, был бы полезен преподавателям.
Целью данной выпускной квалификационной работы является разработка рекомендательной системы по подбору текстов песен по их сложности. Для достижения этой цели необходимо выполнить следующие задачи:
1. Изучить информацию о том, какие уровни владения языка есть в английском языке, какие исследования в области сложности текстов на английском языке проводились, и определить признаки текстов песен для определения сложности.
2. Провести работу с данными: найти подходящий по критериям набор, провести обработку и извлечение признаков.
3. Подобрать методы кластеризации и классификации по выделенным признакам. Кластеризовать полученный набор данных.
4. Разработать приложение, классифицирующее плейлист
пользователя и подбирающее новые песни по жанрам плейлиста.
В результате выполнения выпускной квалификационной работы были выполнены поставленные задачи. Была изучена информация о подходах к определению сложности текста. В английском языке существует шкала уровней владения языком, которая отражает словарный запас на каждом уровне. В изученных публикациях для определения сложности текстов были предложены формулы удобочитаемости, различные традиционные метрики текстов, лексические, грамматические и семантические признаки.
В результате сравнения был выбран один набор текстов песен. Данный набор состоит из ~238000 текстов песен от 18 тысяч исполнителей и относящихся к 12 жанрам. В качестве признаков были выделены следующие признаки:
• Средняя частота слов в тексте.
• Средняя и медианная длины слов в тексте.
• Общее количество слов в тексте.
• Число общеупотребимых слов в тексте.
• Доли имен существительных, прилагательных, местоимений, числительных, глаголов, наречий.
В качестве алгоритма кластеризации текстов по сложности был выбран алгоритм KMeans, так как он единственный справился с большим объемом данных. Метод KMeans разделил данные на 7 классов: в младшем классе оказалось тексты, которые обладают меньшим количеством слов, но количество общеупотребимых слов может быть высоким, а в старшем - наоборот.
В качестве классификатора для новых текстов был выбран алгоритм k- ближайших соседей, так как он показал один из наилучших результатов.
В результате было разработан приложение на языках C# и Python, которое позволяет:
• Загружать плейлист.
• Разбивать плейлист по сложности текстов песен.
• Подбирать новые песни на основе жанрового состава плейлиста.
Подобный сервис мог бы помочь преподавателям английского языка составлять рекомендации по песням для изучения языка.
1. Иванов К. В. Автоматизация оценки благозвучия текстов/К. В. Иванов //Новые информационные технологии в автоматизированных системах. - Москва, 2013. - С. 253-256.
2. Солнышкина С. И. Сложность текста: этапы изучения в отечественном прикладном языкознании /С. И. Солнышкина, А. С. Кисельников //Вестник Томского государственного университета. Филология. - Томск, 2015. - №6 - С. 86-99.
3. Мизернов И. Ю. Анализ методов оценки сложности текста/И. Ю. Мизернов, Л. А. Гращенко//Новые информационные технологии в автоматизированных системах. - Москва, 2015. - С. 572-580.
4. Лапошина А. Н. Анализ релевантных признаков для автоматического определения сложности русского текста как иностранного/А. Н. Лапошина// Proceedings of the International Conference on Computational Linguistics and Intellectual Technologies "DIALOGUE". - Москва, 2018.
5. Валгина Н. С. Теория текста: учебное пособие/Н. С. Валгина. - Москва: Логос, 2003. - 173 с.
6. Langdetect. URL: https://pypi. org/project/langdetect/ (дата последнего
обращения 9.04.2020)
7. David Hirsh. What vocabulary size is needed to read unsimplified texts for pleasure?/ David Hirsh, Paul Nation// Reading in foreign language. 1992. №8(2) - С. 689-696
8. 1000 популярных слов на английском языке. URL:https://puzzle-english. com/directory/1000-popular-words(дата последнего обращения 9.04.2020)
9. 5000 часто используемых английских слов (список).
URL:https:// studynow. ru/ dicta/ allwords (дата последнего обращения
9.04.2020)
10. Categorizing and tagging words. URL:https://www.nltk.org/book/ch05.html(дата последнего обращения 9.04.2020)
11. Alphabetical list of part-of-speech tags used in the Penn Treebank Project. URL:https://www.ling.upenn.edu/courses/Fall 2003/ling001/penn treebank pos.html(дата последнего обращения 9.04.2020)
12.Частотный словарь из 12527 слов (англо-русский) URL: https://www.memrise.com/course/332202/12527/ (дата последнего
обращения 09.12.2020).
13.Vocabulary Word Lists According to the CEFR URL: https://www.toe.gr/course/view.php?id=27 (дата последнего
обращения 09.12.2020).
14.Части речи в английском языке. URL:https://engblog.ru/parts-of-speech(дата последнего обращения 9.04.2020)
15. Clustering URL:https://scikit-learn. org/stable/modules/clustering. html
16. P recision-Recall URL: https://scikit-
learn.org/stable/auto examples/model selection/plot precision recall.html(дата последнего обращения 20.05.2020)
17. TagLib# URL: https://github.com/mono/taglib-sharp (дата последнего
обращения 20.05.2020)
18. Список ID3 жанров URL: https://ru.qwe.wiki/wiki/List of ID3v1 Genres
(дата последнего обращения 20.05.2020