Аннотация
ВВЕДЕНИЕ 4
Глава 1. Оценка сложности текста 10
1.1 Понятие сложности текста 10
1.2 Метрики сложности текста 14
1.2.1 Формулы читабельности текста 14
1.2.2 Оценка качественных параметров текста 21
1.2.3 Оценка лексического разнообразия текста 23
1.2.4 Частеречный анализ текста 24
1.2.5 Энтропия текста 26
1.2.6 Оценка синтаксической структуры текста 28
ВЫВОДЫ ПО ГЛАВЕ 1 30
Глава 2. Статистический анализ показателей метрик сложности текстов ЕГЭ по русскому языку 31
2.1 Задания 22-27 ЕГЭ по русскому языку: формулировки, требования к
выполнению, критерии оценивания 31
2.2 Сбор корпуса текстов ЕГЭ по русскому языку 35
2.3 Формирование матрицы сложности текстов ЕГЭ по русскому языку ... 38
2.3.1 Лексические характеристики сложности текстов ЕГЭ по русскому
языку 38
2.3.2 Синтаксические характеристики сложности текстов ЕГЭ по русскому
языку 44
2.3.3 Метрики энтропии 46
2.3.4 Индексы читабельности текстов ЕГЭ по русскому языку 48
2.4 Статистический анализ данных матрицы сложности текстов ЕГЭ по
русскому языку 50
2.4.1 Дисперсионный анализ данных матрицы сложности текстов ЕГЭ по русскому языку 51
2.4.2 Оценка связи показателей метрик сложности текстов ЕГЭ по
русскому языку со средними оценками учащихся 64
2.4.3 Корреляционный анализ данных матрицы сложности текстов ЕГЭ по
русскому языку 73
ВЫВОД ПО ГЛАВЕ II 88
ЗАКЛЮЧЕНИЕ 90
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 93
ПРИЛОЖЕНИЕ А. Листинг кода для автоматизированного сбора текстов ЕГЭ по русскому языку 104
ПРИЛОЖЕНИЕ Б. Листинг кода для токкенизации и лемматизации текстов ЕГЭ по русскому языку 105
ПРИЛОЖЕНИЕ В. Листинг кода для определения доли высокочастотных слов в текстах ЕГЭ по русскому языку 106
ПРИЛОЖЕНИЕ Г. Листинг кода для расчета количества предложений в текстах ЕГЭ по русскому языку 107
ПРИЛОЖЕНИЕ Д. Листинг кода функции MyStem 108
ПРИЛОЖЕНИЕ Ж. Листинг кода для расчета индексов читабельности текстов ЕГЭ по русскому языку 109
Одной из основных целей современной российской образовательной системы является обеспечение равных условий получения образования для всех обучающихся, что проявляется не только в организации учебного процесса, но и в организации выпускных экзаменов [46]. Именно поэтому с 2001 года начался эксперимент по проведению единого государственного экзамена (ЕГЭ), который с 2009 года является единственной формой выпускных экзаменов в среднеобразовательных учреждениях и основной формой вступительных испытаний в высших учебных заведениях. Основная цель ЕГЭ - получение объективного уровня подготовки выпускников и обеспечение равных условий при поступлении в университеты.
ЕГЭ по русскому языку является обязательным экзаменом для всех выпускников и единственным экзаменом, сдача которого требуется для поступления в любое высшее учебное заведение. Контрольно-измерительные материалы (КИМ) по русскому языку содержат однотипные задания: двадцать шесть тестовых вопросов (часть из которых является заданиями закрытого типа, а другая часть - открытого) и одно задание повышенной сложности, требующее развернутого ответа - написания сочинения [38]. При этом задания ЕГЭ проверяют не только грамотность учащихся, но и умение работать с текстовой информацией: анализировать текст, определять функционально-смысловые типы речи и лексические значения слов в определенном контексте, а также устанавливать логико-смысловые отношения между фрагментами текста.
Данная магистерская диссертация посвящена анализу текстов ЕГЭ по русскому языку с точки зрения их сложности, оцениваемой с помощью объективных характеристик текста, которые были разделены на четыре группы:
1) лексические характеристики сложности (лексическая сложность (доля инвариантных лемм), доля глаголов, доля существительных, доля прилагательных, доля наречий, доля числительных, доля местоимений, доля сочинительных союзов, доля подчинительных союзов, доля слов в переносном значении, доля высокочастотных слов, доля низкочастотных слов, абстрактность, нарративность (отношение общего количества существительных к общему количеству глаголов);
2) метрики энтропии (энтропия текста по знакам, энтропия текста с разметкой MyStem, энтропия POS);
3) индексы читабельности текста (индекс Флеша-Кинкейда, индекс Колман-Лиау, индекс Дейла-Чейл, индекс SMOG, автоматический индекс удобочитаемости);
4) синтаксические характеристики сложности (средняя длина предложения в словах, доля запятых, доля сложных предложений, доля простых предложений, доля сложносочиненных предложений, доля сложноподчиненных предложений, доля бессоюзных сложных предложений, доля предложений с однородными членами, доля причастных оборотов, доля деепричастных оборотов).
В результате сложность каждого текста была оценена в соответствии с тридцатью двумя метриками сложности. Также в рамках данного исследования была оценена корреляция метрик сложности текста в заданиях ЕГЭ по русскому языку и проверено влияние этих метрик на средние оценки учащихся. В данной магистерской диссертации анализировались только тексты, предлагаемые участникам экзамена для выполнения заданий 22-27 ЕГЭ по русскому языку в 2018-2023 гг. Все взятые тексты представляют собой отрывки из произведений художественной или публицистической литературы .
Актуальность выбранной темы обусловлена определением релевантности использования математических моделей и автоматизированных систем оценки сложности текста по отношению к текстам контрольно-измерительных материалов ЕГЭ по русскому языку, а также поиском объективных критериев сложности для русскоязычных текстов.
Оценка сложности учебных текстов необходима в первую очередь для того, чтобы понять, соответствует ли тот или иной текст возрастным особенностям школьников или студентов. На сегодняшний день разработано более двухсот математических формул оценки читабельности текста, однако большинство из них предназначено для английского языка [58, с. 87]. В связи с этим вопрос об адаптации этих метрик для русскоязычных текстов стоит особо остро. Часть исследователей разрабатывает собственные формулы читабельности для русскоязычных текстов [30], другая же часть пытается адаптировать метрики, предназначенные для работы с англоязычными текстами [47].
Формулы читабельности - это не единственный способ оценки сложности текста, существуют и другие методы (частеречный анализ, анализ лексических единиц, оценка синтаксической простоты), однако в отечественной лингвистике пока что нет единого мнения относительно того, какие именно характеристики текста можно рассматривать в качестве показателей его сложности [82].
Объектом исследования является сложность текста.
Предметом исследования являются методы оценки сложности текста.
Целью исследования является оценка корреляции метрик сложности текста в заданиях ЕГЭ по русскому языку и оценка связи показателей этих метрик со средними оценками учащихся.
Для достижения этой цели были поставлены следующие задачи:
1) ознакомиться с основными метриками и автоматизированными системами оценки сложности текста;
2) собрать корпус текстов ЕГЭ по русскому языку 2018-2023 гг.;
3) выбрать метрики сложности текста для работы с текстами ЕГЭ по русскому языку и составить матрицу сложности текстов ЕГЭ;
4) провести статистический анализ полученных данных и оценить связь показателей метрик сложности текстов ЕГЭ со средними оценками учащихся;
5) выявить незакоррелированные метрики сложности, которые будут нести дополнительную лингвостатистическую информацию о тексте и отражать разные аспекты сложности текста.
Для решения поставленных задач были использованы следующие методы исследования:
1) сплошная выборка;
2) лексико-грамматическая разметка текстов;
3) вычисление метрик сложности и читабельности текста;
4) дисперсионный анализ;
5) корреляционный анализ.
Научная новизна исследования состоит в том, что в работе были применены различные метрики сложности текста для текстов ЕГЭ по русскому языку, а также бала дана оценка зависимости между средними процентами выполнения заданий 22-27 ЕГЭ и сложностью текстов. Кроме того, в рамках данного исследования была разработана и проверена новая метрика сложности текста, которая, безусловно, нуждается в дальнейших проверках на разных текстовых корпусах, - энтропия частей речи (POS). Специфика энтропии частей речи (POS) заключается в том, что каждому слову приписывается одно значение, соответствующее его части речи. В нашем исследовании выдвигается и проверяется методологический подход и лингвостатистическая гипотеза о том, что допустимо любую лексическую или семантическую разметку текста рассматривать в корпусной лингвистике как некий алфавит знаков, для последовательности которых в любом тексте мы можем измерить информационную энтропию по формуле Шеннона.
Инструменты оценки сложности текста применялись для анализа русского текста как иностранного [24], анализа текстов ЕГЭ [54] и ОГЭ по английскому языку [2] и текстов школьных учебников по английскому языку [16, 17], биологии [25] и обществознанию [29]. Тексты КИМов ЕГЭ по русскому языку прежде также были оценены с помощью метрик сложности текста [61], однако в рамках данной магистерской диссертации были добавлены дополнительные метрики сложности, проведены лексические и синтаксические анализы текстов ЕГЭ, а также была дана оценка зависимости средних процентов выполнения задания 22-27 ЕГЭ по русскому языку от средних показателей метрик сложности. Предполагается, что использование метрик сложности текста может повысить объективность результатов ЕГЭ, так как тексты, предлагаемые учащимся для выполнения заданий, будут иметь примерно одинаковый уровень сложности.
Материалом исследования послужил датасет, состоящий из 140 текстов, которые в полном или сокращенном виде использовались на ЕГЭ по русскому языку в 2018-2023 гг. для выполнения заданий 22-27 ЕГЭ.
Источниками текстов стали сайты «Рустьюторс», «Могу писать», открытый банк тестовых заданий ФИПИ, а также методические материалы для председателей и членов предметных комиссий субъектов Российской Федерации по проверке заданий с развернутым ответом экзаменационных работ ЕГЭ по русскому языку и методические рекомендации для учителей, подготовленные на основе анализа типичных ошибок ЕГЭ по русскому языку.
Теоретической основой исследования послужили работы отечественных и зарубежных ученых, касающиеся определения понятия «сложность текста» и разграничения его с другими характеристиками текста (трудностью, читабельностью, понятностью), а также работы в области разработки и применения метрик сложности текста: О. В. Блиновой, Ч. Р. Зиганшиной, А. С. Кисель- никова, А. Н. Лапошиной, И. Ю. Мизернова, И. В. Оборневой, С. И. Солныш- киной, Ю. А. Томиной, А. А. Чуруниной, Е. В. Шелестюк, E. Estevez-Rams, D. A. Morozov, L. B. Ribeiro и других.
Теоретическая значимость исследования заключается в рассмотрении перспективы применения различных метрик сложности текста для тексов ЕГЭ по русскому языку.
Практическая значимость заключается в возможности использования результатов исследования для составления экзаменационных заданий, направленных на работу с текстами художественной и публицистической литературы.
Структура работы обусловлена целью и задачами исследования. Работа состоит из введения, двух глав, заключения, списка литературы и шести приложений.
Во ведении раскрывается актуальность выбранной темы, определяются объект, предмет, цель, задачи и методы исследования, раскрывается теоретическая значимость, практическая ценность и научная новизна, а также описывается структура работы.
В первой главе дается определение термина «сложность текста», а также перечисляются различные методы оценки сложности текста.
Во второй главе рассматриваются формулировки и критерии оценивания заданий Tl-ll ЕГЭ по русскому языку, подробно описываются процессы сбора корпуса текстов ЕГЭ, составления матрицы сложности и проведения статистического анализа, а также приводятся результаты статистического анализа и их интерпретация.
В заключении подводятся итоги проведенной работы, формируются окончательные выводы по рассматриваемой теме и намечаются перспективы дальнейшего исследования.
Список использованной литературы включает в себя 91 источник на русском и английском языках.
В приложениях представлен листинг программного кода на языках программирования Python и R, использованный для скачивания текстов ЕГЭ по русскому языку, расчета индексов читабельности, определения в текстах долей высокочастотных и низкочастотных слов, предобработки текстов и подсчета в них количества предложений, а также для проведения морфологической разметки MyStem.
В данной магистерской диссертации тексты ЕГЭ по русскому языку 2018-2023 гг. были проанализированы с точки зрения их сложности, оцениваемой с помощью количественных и качественных лингвистических параметров. Понятие «сложность текста» при этом разграничивалось с другими характеристиками текста (трудностью, понятностью, читабельностью). Сложность текста в данной работе рассматривалась как объективная характеристика текста, функция его качественных и количественных параметров.
С помощью парсера, написанного на языке программирования Python, был собран корпус из 140 реальных текстов ЕГЭ 2018-2023 гг. Далее все тексты были оценены с помощью 32 метрик сложности текста, которые были поделены на четыре группы:
• лексические характеристики сложности текстов ЕГЭ;
• метрики энтропии текстов ЕГЭ;
• индексы читабельности текстов ЕГЭ;
• синтаксические характеристики сложности текстов ЕГЭ.
Показатели метрик сложности текстов ЕГЭ по русскому языку были занесены в таблицу, а затем с ними был выполнен статистических анализ.
Дисперсионный анализ ANOVA показал отсутствие статистически значимых зависимостей между средними показателями метрик сложности текстов ЕГЭ и годом экзамена. Для выборок с ненормальным распределением данных дополнительно использовался непараметрический критерий Крас- кела-Уоллиса и сравнивались значения медиан. В результате было установлено, что ни средние показатели метрик сложности, ни значения медиан не различаются между собой в зависимости от года экзамена.
Для некоторых шкал сложности мы выделили подгруппы с самыми большими и самыми низкими значениями медиан и средними показателями метрик сложности текстов ЕГЭ. Именно эти подгруппы использовались для выявления связей между средними показателями метрик сложности текстов ЕГЭ и средними оценками учащихся. Было установлено, что средний процент выполнения задания 22 ЕГЭ по русскому языку может зависеть от среднего показателя нарративности (отношения общего количества существительных к общему количеству глаголов) и (так же, как и средний процент выполнения задания 24) от средней длины предложения в словах, а средний процент выполнения задания 23 может зависеть от средних показателей индексов читабельности, однако для однозначного ответа на вопрос о связи данных метрик со средними процентами выполнения заданий 22-24 требуется больше текстовых материалов. На наш взгляд, средние проценты выполнения заданий ЕГЭ по русскому языку могут быть обусловлены не показателями метрик сложности текстов, а формулировками самих заданий и критериями их оценивания.
Также во второй главе подробно описаны результаты корреляционного анализа для шкал сложности текстов ЕГЭ по русскому языку. Коэффициент Спирмен вычислялся как для показателей метрик, принадлежащих к одной из четырех выделенных нами групп, так и для показателей метрик, относящихся к разным группам. Между шкалами «Энтропия POS» и «Энтропия текста с разметкой MyStem» наблюдался относительно высокий коэффициент корреляции, при этом обе шкалы не демонстрировали статистически значимой зависимости со шкалой «Энтропия текста по знакам». Такие результаты корреляционного анализа для шкал энтропии могут свидетельствовать о том, что энтропия частей речи может использоваться как еще один метод оценки сложности, который, конечно, нуждается в дальнейших проверках и подтверждении на различных массивах текстовых данных.
Так как корреляционный анализ проводился на относительно небольшом корпусе текстов художественной и публицистической литературы, для однозначного ответа на вопрос о наличии статистически значимых зависимостей между разными метриками сложности требуется больше текстов разных объемов, стилей и жанров. Кроме того, в данной магистерской диссертации доминирует статистический подход к интерпретации сложности текста. Между тем, существует функциональный подход, связанный с функциональной лингвистикой и функционалистской парадигмой. Если при статистическом подходе учитывается частота встречаемости определенных языковых единиц в тексте, то при функциональном подходе рассматриваются функциональные зависимости, связанные с этими языковыми единицами.
1. Аматов А. М. Информационная энтропия и естественный язык // Лингвистические и методические аспекты преподавания иностранных языков : сб. материалов междунар. конф., Белгород, 19-20 нояб. 2007 г. - Белгород, 2007. - С. 16-23.
2. Бегаева М. Анализ параметров сложности текстов разных стилей (на примере текстов ОГЭ и PET) / М. Н. Бегаева, Д. Ю. Гизатулина // Филология и культура. - 2022. - №1(67). - С. 39-46.
3. Бегтин И. В. Что такое «Понятный русский язык» с точки зрения технологий. Заглянем в метрики удобочитаемости текстов. - [Б.м.], 2014. - URL: https://habr.com/ru/companies/infoculture/articles/238875/ (дата обращения: 10.01.2024).
4. Бекман И. Н. Нелинейная динамика сложных систем: теория и практика. Метанаука. Эволюция систем : материалы к курсу лекций и учебнику / И. Н. Бекман. - М. : Изд-во Московского университета, 2018. — 613 с.
5. Блинова О. В. Метрики сложности русских правовых текстов: отбор, использование, первичная оценка эффективности / О. В. Блинова, Н. М. Тарасов // Компьютерная лингвистика и интеллектуальные технологии : материалы международной конференции «Диалог 2022», Москва, 15-18 июня 2022 г. - М., 2022. - С. 1017-1028.
6. Блинова О. В. Оценка сложности русских правовых текстов: архитектура модели // Мир русского слова. - 2022. - №2. - С. 4-13.
7. Г азизулина Л. Р. Сложность и читабельность как критерии оценки учебного текста при обучении иностранному языку в неязыковом вузе // Мир науки, культуры, образования. - 2019. - №1(71). - С. 372-374.
8. Галь Н. Слово живое и мёртвое. - М. : Эсмо, 2023. - 352 с.
9. Гизатулина Д. Ю. Проблема читабельности текста и её изучение в языкознании // Вестник науки. - 2020. - Т. 4, № 5(26). - С. 13-18.
10. Демонстрационный вариант контрольных измерительных материалов единого государственного экзамена 2023 года по РУССКОМУ ЯЗЫКУ // ФИПИ. - [Б. м.], 2024. - URL: https://fipi.ru/ege/demoversii-specifikacii-kodi- fikatory (дата обращения: 05.04.2024).
11. Дружкин К. Ю. Метрики удобочитаемости для русского языка : маги
стерская дис. / К. Ю. Дружкин. - М., 2016. - 69 с. - URL: https://www.hse.ru/ma/ling/students/diplomas/184791276 (дата обращения:
12.03.2024).
12. Евтушенко Т. Г. Исследование влияния параметров морфологической сложности на трудность восприятия медиатекста с использованием методов статистического анализа данных / Т. Г. Евтушенко, Е. С. Клочкова, А. В. Ла- путенко, Н. В. Евтушенко // Terra Linguistica. - 2023. - Т. 14, № 1. - С. 30-40.
13. Зиганшина Ч. Р. «Качественные» параметры сложности текста (на материале художественных и научно-популярных текстов PIRLS) // Мир науки, культуры, образования. - 2020. - №5(84) - С. 388-391.
14. Иванов В. В. К вопросу о возможности использования лингвистических характеристик сложности текста при исследовании окуломоторной активности при чтении у подростков // Новые исследования. - 2013. - № 1 (34). - С. 42-50.
15. Казачкова М. Б. Лексическое разнообразие как параметр сложности текстов учебников английского языка (на примере учебников «Spotlight», «Starlight») / М. Б. Казачкова, Х. Н. Галимова // Ученые записки Крымского федерального университета имени В. И. Вернадского. Филологические науки.
- 2023. - Т. 9 (75), № 4. - С. 178-186...91