Тема: АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТОВ: ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТЕКСТОВ (НА МАТЕРИАЛЕ УЧЕБНЫХ ТЕКСТОВ)
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Учебный текст: понятие и характеристики 8
1.1. Текст как лингвистическая категория 8
1.2. Измерение сложности текста: приемы, подходы, инструменты 14
1.3. Алгоритм автоматической обработки текстов 16
1.3.1. Программное обеспечение при извлечении информации из текстов.... 19
1.3.2. Программа WebFX как инструмент извлечения лингвистических
параметров текста 26
Выводы по Главе 1 29
Глава 2. Количественные и качественные параметры учебных текстов 30
2.1. Сложность текстов: параметр читабельности по Флеш-Кинкейду 30
2.2. Оценка сложности текстов в зависимости от типа чтения 40
2.3. Извлечение лингвистических параметров текстов на основе УМК
Spotlight для 9 класса 47
Выводы по Главе 2 55
Заключение 56
Список литературы 58
Приложение 1 64
Приложение 2 68
Приложение 3 72
Приложение 4 77
Приложение 5 81
Приложение 6 86
Приложение 7 91
Приложение 9 101
📖 Введение
Развитие Интернета и вместе тем увеличение количество доступной текстовой информации способствовало развитию такой научной области, как автоматическая обработка текстов (Natural Language Processing) и компьютерная лингвистика (Computational Linguistics), в рамках которой были разработаны приложения и программы, помогающие оценить тексты по различным параметрам.
В области автоматической обработки текстов в качестве объекта обработки используются тексты естественного языка. Для осуществления качественной обработки базовые знания лингвистики являются необходимостью. Кроме того, лингвистика включает такие области, как фонология, морфология, синтаксис, семантика и прагматика, лексикография, поэтому обработка текстов проходит на разных уровнях лингвистики.
Однако, помимо обработки текстов на основных уровнях лингвистики, используются различные формулы читабельности, которые извлекают количественные и качественные параметры текстов. С помощью этих формул читабельности можно оценить уровень сложности текстов, предлагаемых в отечественных УМК. А именно то, что это важно для методической науки, т.к. с каждым годом требования к уровню владения иностранным языком повышаются.
Актуальность работы заключается в необходимости оценки и выявления параметров сложности текстов, представленных в учебно- методическом комплексе по обучению иностранного (английского) языка, на основе которых отбираются и адаптируются текстовые учебные материалы при организации учебного процесса.
Целью работы является определение соответствия текстов учебников по английскому языку (УМК ‘Spotlight 9’) когнитивным и лингвистическим способностям учащихся.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Изучить теоретические основы понятий текста, сложности и трудности.
2. Осуществить выборку текстов из выбранного учебно - методического комплекса.
3. Проанализировать выбранные тексты по различным параметрам, используя программы автоматического анализа (Coh-Metrix, Text Inspector, WebFX).
4. Установить соответствие лингвистических параметров с метриками применяемых формул и программ.
5. Проанализировать изменения уровня сложности текстов в УМК, выявить основные тенденции изменения сложности.
Объектом исследования являются количественные и качественные параметры учебного текста УМК ‘Spotlight’ для 9-го класса.
Предметом исследования являются общее и различное количественных и качественных параметров учебных текстов УМК на различных этапах изучения данного курса.
В ходе исследования были применены следующие приемы и методы исследования: метод сплошной выборки, метод статистического анализа, сравнительно-сопоставительный метод, а также автоматизированный анализ, осуществляемый при помощи программ Text Inspector, WebFX, Coh-Metrix.
Проведенное исследование проводилось на материале текстов из УМК Spotlight для 9-го класса. Общий объем рассматриваемого языкового корпуса составил 47 текстов суммарным объемом 13486 словоупотреблений.
В ходе исследования были выведены следующие гипотезы:
1. Специфика любого учебного текста определяется такими параметрами как, повествовательность, конкретность и абстрактность словарного состава, синтаксическая простота, референциальная и глубинная связность.
2. Тексты, предлагаемые в УМК, усложняются от начального текста до конечного, т.е. по мере изучения учебного материала, и соответствуют языковой компетенции обучающихся;
3. В отечественных УМК используются более объемные академические тексты, характеризующиеся менее плавным изменением уровня сложности текстов.
Научная новизна определяется, в первую очередь, доказательством влияния качественных параметров текста, таких как нарративность, конкретность слов, референциальная и глубинная связности, синтаксическая простота, на сложность учебного текста.
Теоретическая значимость работы заключается в том, что разработанный алгоритм анализа определения сложности текста и извлечение количественных и качественных параметров в дальнейшем может применяться в оценке текстов различных жанров и видов, в том числе, способствовать их систематизации и адаптации.
Практическая значимость результатов исследования состоит в их дальнейшем использовании в области языкознания, теории языка, а также при составлении УМК по изучению иностранного языка.
Структура работы: введение, две главы, выводы по главам, заключение, список литературы, приложения, включающие 47 текстов, объединенные по модулям, и упражнения к этим текстам.
Во введении говорится об актуальности выбранной темы, указываются цели, объект и предмет исследования, намечаются основные задачи, анализируется теоретическая значимость, указывается практическая ценность данной работы, разбирается структура данной работы.
В теоретической главе «Учебный текст: понятие и его характеристики» определяются теоретические основы сложности текста, описывается понятие и сущность текста и его сложность, рассматриваются лингвистические параметры извлечения информации из текста.
В практической главе «Количественные и качественные параметры учебных текстов» разбираются виды автоматического анализа текстов, проводится анализ сложности текстов УМК по обучению английскому языку Spotlight для 9-го класса.
В заключение предложены выводы, подтверждающие выведенные к защите гипотезы, а именно, наличие тенденции к усложнению текстов от первого текста УМК до последнего, выявленные в результате осуществленного исследования.
✅ Заключение
В ходе систематизации теоретических основ сложности текста и проведения собственной экспериментальной работы выделяется необходимость более широкого анализа извлечения информации из учебных текстов перед их использованием на уроках английского языка на средней ступени обучения. Крайне важно соотносить тексты с такими понятиями, как «сложность текста», «читабельность текста».
В рамках исследования были определены основные лингвистические и прагматические категории текста, его количественные и качественные параметры; были установлены характеристики, выявленные после автоматических анализов сложности и извлечения информации учебных текстов.
Стоит отметить, что результаты оценивания уровня сложности и извлечение информации можно получить быстро с помощью определенных автоматизированных программ, однако для качественной оценки мы прибегли к сравнительно-сопоставительному анализу и выборке определенных параметров различных программ, что важно для качественного анализа.
В ходе исследования выявленные ранее гипотезы были подтверждены: важно учитывать максимальное количество параметров текста для детального анализа, в отечественном УМК Spotlight для 9-го класса есть тенденция к увеличению сложности тексты от начального до конечного текстов, что соответствует требуемым стандартам. Однако, судя по полученным результатам, количественные и качественные параметры относительно удовлетворяют предполагаемому для 9-го класса уровню сложности, но индекс Флеша-Кинкейда выявил, что большинство текстов не обладают высокими показателями сложности, хотя результаты оценки количественных параметров сложности текстов удовлетворяют ступени обучения, и тексты имеют разные уровни сложности.
Полученные в результате исследования данные можно использовать как основу для создания УМК, полностью соответствующего под требования читабельности, сложности учебных текстов по английскому языку в рамках педагогического процесса. Или поспособствует к заимствованию зарубежного опыта, предусмотренного в учебных заведениях США. Американские лингвисты с помощью формул читабельности установили уровень сложности учебников для того, чтобы учителя сами могли выбрать учебные материалы, доступные для восприятия учениками на определенной этапе обучения. Таким образом, зарубежный опыт наводит на такое решение проблем использования УМК: необязательно каждая школа должна обучаться при помощи конкретного УМК, как, например, Spotlight. Важно учитывать не сам УМК, его организацию, сложность и доступность, а то, насколько он будет эффективен во время процесса обучения иностранному языку.
Таким образом, компьютерная лингвистика помогает развитию академического обучения, облегчая работу лингвистам, так как автоматизированные программы дают результаты максимально приближенные к действительности и занимают меньше времени оценки сложности текстов.



