Тема: Зависимость реализации процедур контекстной предсказуемости от жанровых и стилевых характеристик текста
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1. Анализ литературы 9
1.1 Исследование контекстной предсказуемости с помощью cloze-теста . 9
1.2. Основные математические модели контекстной предсказуемости ... 11
1.2.1. Информационная энтропия 13
1.2.3. Метрика MI (Mutual Information) 14
1.2.4. Метрика t-score 16
1.2.5. Метрика Dice 16
1.2.6. Метрика surprise 18
1.2.7. Метрика salience 18
2. Методика и материалы исследования 19
2.1. Выбор методик для дальнейшего исследования 19
2.2. Обоснование материала. Формирование корпусов текстов 20
2.3. Выбор программных средств для построения модели 23
3. Написание модульной программы 26
3.1. Постановка задачи 26
3.2. Токенизация 28
3.3. Лемматизация 30
3.4. Генерация множества биграмм 32
3.5. Вычисление признаков и метрик 33
3.5.1. Энтропийная характеристика 33
3.5.2. Условная вероятность 34
3.5.3. Метрика Dice 35
3.5.4. Метрика surprisal 35
3.6. Генерация модели текста 36
3.7. Структурированный вывод 38
3.8 Выделение сильно связанных сегментов текста 39
4. Анализ результатов вычислительного эксперимента 42
4.1. Сравнение значений признаков контекстной предсказуемости 42
4.2. Практическое применение построенной модели. Исправление
опечаток и снятие неоднозначности 44
4.3 Анализ выделенных цепочек слов 45
5. Оценка выбранных признаков с помощью эксперимента с
информантами 47
5.1. Подготовка и проведение эксперимента 47
5.2. Анализ полученных результатов 50
Заключение 53
Список использованных источников 55
Приложение А. Среднее значение признаков контекстной предсказуемости по каждому из исследуемых текстов 60
Приложение Б. Инструкция по прохождению теста 61
Приложение В. Бланк теста, предложенный информантам 62
Приложение Г. Сводные таблицы ответов информантов
📖 Введение
С вопросом об избыточности текста тесно связано понятие контекстной предсказуемости, т.е. предугадывания слова на основе контекста. Эффект контекстной предсказуемости по сути является противопоставлением информационной избыточности, демонстрируя, что для восприятия и понимания текста не все его слова являются равнозначными.
В данной работе производится анализ различных вычислительных методов исследования контекстной предсказуемости, выделяются наиболее адекватные метрики и признаки для дальнейшей проверки в ходе построения модели текста и оценки ее работы по каждому из признаков, производится составление корпусов текстов художественного и научного стилей. Исследование, проведенное в рамках выпускной квалификационной работы, предполагает проведение вычислительного анализа на основе корпусов научных и художественных текстов и эксперимента с информантами.
Основной целью проведения исследования является выявление зависимости реализации процедур контекстной предсказуемости от жанровых и стилевых характеристик текста.
Решаются следующие задачи:
• Анализ литературы, позволяющий выбрать наиболее адекватные методы исследования контекстной предсказуемости;
• Подбор и обоснование материала для будущего исследования;
• Формирование корпусов текстов различных стилей и жанров;
• Выбор и обоснование основных методик исследования;
• Написание программы, реализующей такие модули как :
о препроцессинг (токенизация, ламатизация),
о модули, реализующие признаки контекстной предсказуемости
(энтропийные признаки, различные меры связности и т.д.)
• Проведение эксперимента с информантами
• Оценка эффективности модели по каждому из признаков.
Изучение контекстной предсказуемости предполагает учет многих аспектов, так как эта тема является междисциплинарной. Один из них - психологический аспект. Существует много различных исследований зависимости контекстной предсказуемости и скорости чтения человека, его движении глаз при чтении [2] и др.
С другой стоны, изучение контекстной предсказуемости необходимо непосредственно для лингвистики, психологии, восприятия и анализа текста. Такие методы исследования как проведение cloze-текстов, тестов направленных на восстановление недостающих элементов текста, позволяют оценить степень владения языком информантами, readability текста (например, решение вопроса о понятности текстов наподобие текстов инструкций) [3], а так же проанализировать особенности обучения данному языку [3, 4, 5, 6, 7].
Но особенно актуален вопрос контекстной предсказуемости в компьютерной лингвистике, при решении задач связанных с автоматической обработкой текстов [8].
В частности, для распознавания и исправления опечаток в тексте при решении различных задач, связанных с дальнейшей обработкой текста. Используя принципы контекстной предсказуемости, при невозможности распознать слово, можно предположить, что в нем допущена опечатка, и далее - восстановить правильное слово. В таком случае, восстановить исходное слово, то которое подразумевалось, возможно с помощью контекста. И после сравнения наиболее вероятных вариантов в этом контексте со словом с возможной опечаткой, сделать выводы.
Также контекстная предсказуемость может помочь в выделении ключевых слов в тексте и коллокаций [9]. Словосочетание, являющееся коллокацией, имеет признаки целостной семантической и синтаксической единицы, для него показатели контекстной предсказуемости будут велики. Ключевые слова, напротив, являются основным источником новой и значимой информации в тексте, следовательно, их контекстная предсказуемость будет невелика, особенно при первых их появлениях.
Таким образом, актуальность и практическая значимость исследования контекстной предсказуемости очень высоки для разнообразных областей, связанных с автоматической обработкой текста.
✅ Заключение
В рамках данного исследования были проанализированы различные методы изучения контекстной предсказуемости и выбраны наиболее адекватные метрики и признаки для дальнейшей проверки в ходе вычислительного эксперимента.
На втором этапе были сформированы корпуса разных стилей и жанров в соответствии с составленным списком признаков, выбранных методов и информационных технологий для дальнейшего исследования.
Подготовленные материалы - сформированные корпуса текстов художественного и научного стилей и список отобранных метрик - послужили основой для дальнейшей практической части исследования, в рамках которой был проведен вычислительный эксперимент.
Была написана модульная программа на языке Python, позволяющая построить модель текста, реализующую различные признаки контекстной предсказуемости и проведена оценка ее работы, в том числе с помощью проведения cloze-теста.
Эксперимент с информантами подтвердил эффективность и работоспособность построенной модели текстов, а также наметил возможные пути для дальнейшего развития исследования и совершенствования написанной программы.
По результатам построения моделей текстов подтвердилась гипотеза об ожидаемом более высоком показателе контекстной предсказуемости для корпуса научных текстов по сравнению с художественными.
Полученные результаты могут использоваться для решения различных практических задач, связанных с автоматической обработкой текстов.
Апробация данной работы прошла на заседании секции "Компьютерная лингвистика" Ежегодного научно-практического семинара "Новые информационные технологии в автоматизированных системах" (Институт прикладной математики им. М.В. Келдыша РАН, МИЭМ ВШЭ, Московский государственный технический университет им. Н.Э. Баумана). По материалам проведенного семинара была опубликована статья Крутченко О.В. Классификация ключевых слов для описания новостных кластеров (в соавторстве с Мартина В.С., Соколова Д.Ю., Флуд Д.В.), статья индексируема в базе РИНЦ [39].



