АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТОВ: МОРФОЛОГИЧЕСКИЙ AHAЛИЗ (НА ПРИМЕРЕ УЧЕБНЫХ ТЕКСТОВ)
|
Введение 3
ГЛАВА 1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ОЦЕНКИ СЛОЖНОСТИ ТЕКСТОВОЙ ИНФОРМАЦИИ 6
1.1. Сложность текста как лингвистическое понятие 6
1.2. Жанровая классификация учебных текстов 13
1.3. Формулы определения сложности текстовой информации 15
1.4 Методы морфологической автоматической обработки текстов 21
Выводы по Главе 1 26
ГЛАВА 2. МОРФОЛОГИЧЕСКИЙ АНАЛИЗ КОРПУСА ТЕКСТОВ 28
2.1 Морфологический анализ как лингвистический метод 28
2.2 Анализ читабельности учебных текстов 34
2.3 Анализ взаимосвязи жанра текста, частей речи и удобочитаемости 36
Выводы по Главе 2 43
Заключение 44
Список литературы 46
Приложение 1 52
Приложение 2 63
Приложение 3
ГЛАВА 1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ОЦЕНКИ СЛОЖНОСТИ ТЕКСТОВОЙ ИНФОРМАЦИИ 6
1.1. Сложность текста как лингвистическое понятие 6
1.2. Жанровая классификация учебных текстов 13
1.3. Формулы определения сложности текстовой информации 15
1.4 Методы морфологической автоматической обработки текстов 21
Выводы по Главе 1 26
ГЛАВА 2. МОРФОЛОГИЧЕСКИЙ АНАЛИЗ КОРПУСА ТЕКСТОВ 28
2.1 Морфологический анализ как лингвистический метод 28
2.2 Анализ читабельности учебных текстов 34
2.3 Анализ взаимосвязи жанра текста, частей речи и удобочитаемости 36
Выводы по Главе 2 43
Заключение 44
Список литературы 46
Приложение 1 52
Приложение 2 63
Приложение 3
Несмотря на глобальное использование современных технологий, текст по-прежнему остается одним из основных видов хранения и передачи информации. Разработка эффективных подходов к обработке текстов с целью фильтрации, навигации по базе текстов является одним из наиболее актуальных направлений современных информационных технологий. В условиях глобализации образования все чаще встает вопрос о необходимости стандартизации его процессов, требуемой для обеспечения валидности получаемых результатов. Используемые в качестве образовательного материала тексты проходят недостаточный анализ на предмет сложности для чтения и понимания. Результатом становится неравные условия, в которые помещаются обучающиеся при обучении и проверке их языковых умений и навыков. Используя такую отрасль науки, как компьютерную, прикладную лингвистику, которая занимается созданием разнообразных систем по обработке языка, современные лингвисты смогут определить валидность результатов. Но эта обработка невозможна без наличия лингвистических информационных ресурсов.
Данная проблема рассматривалась как отечественными, так и зарубежными учеными-исследователями: Карповым Н. В., Оборневой И. В., Солнышкиной М. И., Усталовым Д. А., Филиповой А. М., Callan J, Chall J.S., Chissom B.S., Collins-Thompson K., Flesch R., Kincaid J.P., Mcnamara T., Rogers R.L., Schwarm S.E.
Актуальность исследования обуславливается необходимостью изучения учебных текстов для определения их соответствия уровню знаний и способностей обучающихся.
Объектом исследования является процесс морфологического анализа корпуса текстов Spotlight для 8 класса.
Предметом исследования являются автоматическая обработка учебных текстов, метод морфологического анализа словоформ.
Целью данной дипломной работы является определение соответствия уровня сложности учебника стандартному уровню лингвистического и когнитивного уровня обучающихся.
Достижение поставленной цели предполагает решение следующих задач:
1. Проанализировать современные методы автоматической обработки текста.
2. Рассмотреть и определить понятие «сложность текстов».
3. Создать корпус текстов 8 класса учебника Spotlight.
4. Провести морфологический анализ текстов учебника Spotlight и выявить соотношение частей речи в учебных текстах.
5. Сравнить результаты морфологического анализа и сложности текстов.
Материалом исследования послужили тексты учебника Spotlight для 8 класса. Общий объем рассматриваемого языкового корпуса составил 38 текстов суммарным объемом 7539 словоупотреблений.
В работе использовались такие методы и приемы анализа как логический, дискурсивный, метод корпусной лингвистики, а также автоматизированный анализ, осуществляемый при помощи программ Parts- of-speech.Info и Coh-Metrix.
В ходе исследования была осуществлена верификация следующей гипотезы:
Научная новизна работы определяется тем, что был впервые осуществлен морфологический анализ текстов для чтения учебника Spotlight.
Теоретическая значимость работы состоит в том, что полученные в ходе исследования выводы вносят определённый вклад в развитие компьютерной и корпусной лингвистики.
Практическая значимость данной работы состоит в возможности использования полученных результатов в вузах, компьютерной лингвистике, при автоматической обработке текста, в лексикологии, лексикографии, а также в преподавании английского языка как иностранного.
Цель и задачи исследования определили структуру и объем работы, которая состоит из 2 глав - теоретической и практической, заключения, списка литературы, приложений.
Во введении представлена актуальность выбранной темы, ставятся цели, указываются объект и предмет исследования, перечисляются основные задачи, выдвигается гипотеза, анализируется теоретическая значимость, научная новизна, указывается практическая ценность данной работы, разбирается структура данной работы.
В первой главе «ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ОЦЕНКИ СЛОЖНОСТИ ТЕКСТОВОЙ ИНФОРМАЦИИ» сообщается о методах автоматической обработки текста, в том числе морфологического анализа, рассматривается понятие «сложности текстов».
Во второй главе «МОРФОЛОГИЧЕСКИЙ АНАЛИЗ КОРПУСА ТЕКСТОВ» проводится морфологический анализ корпуса текстов, а также сравнение результатов морфологического анализа.
В заключение представлены выводы, подтверждающие гипотезу.
Данная проблема рассматривалась как отечественными, так и зарубежными учеными-исследователями: Карповым Н. В., Оборневой И. В., Солнышкиной М. И., Усталовым Д. А., Филиповой А. М., Callan J, Chall J.S., Chissom B.S., Collins-Thompson K., Flesch R., Kincaid J.P., Mcnamara T., Rogers R.L., Schwarm S.E.
Актуальность исследования обуславливается необходимостью изучения учебных текстов для определения их соответствия уровню знаний и способностей обучающихся.
Объектом исследования является процесс морфологического анализа корпуса текстов Spotlight для 8 класса.
Предметом исследования являются автоматическая обработка учебных текстов, метод морфологического анализа словоформ.
Целью данной дипломной работы является определение соответствия уровня сложности учебника стандартному уровню лингвистического и когнитивного уровня обучающихся.
Достижение поставленной цели предполагает решение следующих задач:
1. Проанализировать современные методы автоматической обработки текста.
2. Рассмотреть и определить понятие «сложность текстов».
3. Создать корпус текстов 8 класса учебника Spotlight.
4. Провести морфологический анализ текстов учебника Spotlight и выявить соотношение частей речи в учебных текстах.
5. Сравнить результаты морфологического анализа и сложности текстов.
Материалом исследования послужили тексты учебника Spotlight для 8 класса. Общий объем рассматриваемого языкового корпуса составил 38 текстов суммарным объемом 7539 словоупотреблений.
В работе использовались такие методы и приемы анализа как логический, дискурсивный, метод корпусной лингвистики, а также автоматизированный анализ, осуществляемый при помощи программ Parts- of-speech.Info и Coh-Metrix.
В ходе исследования была осуществлена верификация следующей гипотезы:
Научная новизна работы определяется тем, что был впервые осуществлен морфологический анализ текстов для чтения учебника Spotlight.
Теоретическая значимость работы состоит в том, что полученные в ходе исследования выводы вносят определённый вклад в развитие компьютерной и корпусной лингвистики.
Практическая значимость данной работы состоит в возможности использования полученных результатов в вузах, компьютерной лингвистике, при автоматической обработке текста, в лексикологии, лексикографии, а также в преподавании английского языка как иностранного.
Цель и задачи исследования определили структуру и объем работы, которая состоит из 2 глав - теоретической и практической, заключения, списка литературы, приложений.
Во введении представлена актуальность выбранной темы, ставятся цели, указываются объект и предмет исследования, перечисляются основные задачи, выдвигается гипотеза, анализируется теоретическая значимость, научная новизна, указывается практическая ценность данной работы, разбирается структура данной работы.
В первой главе «ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ОЦЕНКИ СЛОЖНОСТИ ТЕКСТОВОЙ ИНФОРМАЦИИ» сообщается о методах автоматической обработки текста, в том числе морфологического анализа, рассматривается понятие «сложности текстов».
Во второй главе «МОРФОЛОГИЧЕСКИЙ АНАЛИЗ КОРПУСА ТЕКСТОВ» проводится морфологический анализ корпуса текстов, а также сравнение результатов морфологического анализа.
В заключение представлены выводы, подтверждающие гипотезу.
В рамках исследования были определены основные лингвистические понятия сложности текста, изучена жанровая классификация текстов. Также были проанализированы формулы определения сложности текстовой информации, их удобство и точность, изучены различные методы морфологической автоматической обработки текста.
В данном исследовании была произведена попытка изучить значимость и влияние автоматической обработки текста, а именно морфологического анализа и сложности текстов. Были обнаружены различия в стилях, жанрах текста. Анализ научной литературы привел к выводу о доминирующем положении стандартных формул удобочитаемости, формальности текстов, измеряющих исключительно статистические характеристики текста и не учитывающих иные формы воздействия на читателя.
Разработчикам учебных текстов стоит обращать внимание на жанры текста и количество содержащихся в них различных частей речи, в особенности существительных, прилагательных и глаголов.
В ходе исследования нами были выполнены все поставленные теоретические и практические задачи и цели, результатом которых стало доказательство важности изучения частей речи в текстах различных жанров и их сложности, которые может поспособствовать правильному выбору учебных текстов для обучающихся.
Дальнейшие перспективы научного исследования заключаются в попытке усовершенствовать требования к составлению текстов, используемых в обучении иностранным языкам. Самостоятельная ценность исследования заключается в возможности использования полученных результатов в вузах, компьютерной лингвистике, при автоматической обработке текста, в лексикологии, лексикографии, а также английского языка как иностранного.
В данном исследовании была произведена попытка изучить значимость и влияние автоматической обработки текста, а именно морфологического анализа и сложности текстов. Были обнаружены различия в стилях, жанрах текста. Анализ научной литературы привел к выводу о доминирующем положении стандартных формул удобочитаемости, формальности текстов, измеряющих исключительно статистические характеристики текста и не учитывающих иные формы воздействия на читателя.
Разработчикам учебных текстов стоит обращать внимание на жанры текста и количество содержащихся в них различных частей речи, в особенности существительных, прилагательных и глаголов.
В ходе исследования нами были выполнены все поставленные теоретические и практические задачи и цели, результатом которых стало доказательство важности изучения частей речи в текстах различных жанров и их сложности, которые может поспособствовать правильному выбору учебных текстов для обучающихся.
Дальнейшие перспективы научного исследования заключаются в попытке усовершенствовать требования к составлению текстов, используемых в обучении иностранным языкам. Самостоятельная ценность исследования заключается в возможности использования полученных результатов в вузах, компьютерной лингвистике, при автоматической обработке текста, в лексикологии, лексикографии, а также английского языка как иностранного.



