📄Работа №75815

Тема: Зависимость реализации процедур контекстной предсказуемости от жанровых и стилевых характеристик текста

📝

Тип работы Бакалаврская работа

📚

Предмет информатика

📄

Объем: 66 листов

📅

Год: 2016

👁️

4210 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 6
1. Анализ литературы 9
1.1 Исследование контекстной предсказуемости с помощью cloze-теста . 9
1.2. Основные математические модели контекстной предсказуемости ... 11
1.2.1. Информационная энтропия 13
1.2.3. Метрика MI (Mutual Information) 14
1.2.4. Метрика t-score 16
1.2.5. Метрика Dice 16
1.2.6. Метрика surprise 18
1.2.7. Метрика salience 18
2. Методика и материалы исследования 19
2.1. Выбор методик для дальнейшего исследования 19
2.2. Обоснование материала. Формирование корпусов текстов 20
2.3. Выбор программных средств для построения модели 23
3. Написание модульной программы 26
3.1. Постановка задачи 26
3.2. Токенизация 28
3.3. Лемматизация 30
3.4. Генерация множества биграмм 32
3.5. Вычисление признаков и метрик 33
3.5.1. Энтропийная характеристика 33
3.5.2. Условная вероятность 34
3.5.3. Метрика Dice 35
3.5.4. Метрика surprisal 35
3.6. Генерация модели текста 36
3.7. Структурированный вывод 38
3.8 Выделение сильно связанных сегментов текста 39
4. Анализ результатов вычислительного эксперимента 42
4.1. Сравнение значений признаков контекстной предсказуемости 42
4.2. Практическое применение построенной модели. Исправление
опечаток и снятие неоднозначности 44
4.3 Анализ выделенных цепочек слов 45
5. Оценка выбранных признаков с помощью эксперимента с
информантами 47
5.1. Подготовка и проведение эксперимента 47
5.2. Анализ полученных результатов 50
Заключение 53
Список использованных источников 55
Приложение А. Среднее значение признаков контекстной предсказуемости по каждому из исследуемых текстов 60
Приложение Б. Инструкция по прохождению теста 61
Приложение В. Бланк теста, предложенный информантам 62
Приложение Г. Сводные таблицы ответов информантов

📖 Введение

Информационная избыточность - это неотъемлемое свойство любого текста, особенно с точки зрения теории информации. И именно благодаря этому свойству человек успешно воспринимает и понимает как устный, так и письменный тексту. Избыточность является неотъемлемым свойством любого языка и поэтому присуща всем текстам без исключения, но в разной степени, в зависимости от функционального стиля текста [1].
С вопросом об избыточности текста тесно связано понятие контекстной предсказуемости, т.е. предугадывания слова на основе контекста. Эффект контекстной предсказуемости по сути является противопоставлением информационной избыточности, демонстрируя, что для восприятия и понимания текста не все его слова являются равнозначными.
В данной работе производится анализ различных вычислительных методов исследования контекстной предсказуемости, выделяются наиболее адекватные метрики и признаки для дальнейшей проверки в ходе построения модели текста и оценки ее работы по каждому из признаков, производится составление корпусов текстов художественного и научного стилей. Исследование, проведенное в рамках выпускной квалификационной работы, предполагает проведение вычислительного анализа на основе корпусов научных и художественных текстов и эксперимента с информантами.
Основной целью проведения исследования является выявление зависимости реализации процедур контекстной предсказуемости от жанровых и стилевых характеристик текста.
Решаются следующие задачи:
• Анализ литературы, позволяющий выбрать наиболее адекватные методы исследования контекстной предсказуемости;
• Подбор и обоснование материала для будущего исследования;
• Формирование корпусов текстов различных стилей и жанров;
• Выбор и обоснование основных методик исследования;
• Написание программы, реализующей такие модули как :
о препроцессинг (токенизация, ламатизация),
о модули, реализующие признаки контекстной предсказуемости
(энтропийные признаки, различные меры связности и т.д.)
• Проведение эксперимента с информантами
• Оценка эффективности модели по каждому из признаков.
Изучение контекстной предсказуемости предполагает учет многих аспектов, так как эта тема является междисциплинарной. Один из них - психологический аспект. Существует много различных исследований зависимости контекстной предсказуемости и скорости чтения человека, его движении глаз при чтении [2] и др.
С другой стоны, изучение контекстной предсказуемости необходимо непосредственно для лингвистики, психологии, восприятия и анализа текста. Такие методы исследования как проведение cloze-текстов, тестов направленных на восстановление недостающих элементов текста, позволяют оценить степень владения языком информантами, readability текста (например, решение вопроса о понятности текстов наподобие текстов инструкций) [3], а так же проанализировать особенности обучения данному языку [3, 4, 5, 6, 7].
Но особенно актуален вопрос контекстной предсказуемости в компьютерной лингвистике, при решении задач связанных с автоматической обработкой текстов [8].
В частности, для распознавания и исправления опечаток в тексте при решении различных задач, связанных с дальнейшей обработкой текста. Используя принципы контекстной предсказуемости, при невозможности распознать слово, можно предположить, что в нем допущена опечатка, и далее - восстановить правильное слово. В таком случае, восстановить исходное слово, то которое подразумевалось, возможно с помощью контекста. И после сравнения наиболее вероятных вариантов в этом контексте со словом с возможной опечаткой, сделать выводы.
Также контекстная предсказуемость может помочь в выделении ключевых слов в тексте и коллокаций [9]. Словосочетание, являющееся коллокацией, имеет признаки целостной семантической и синтаксической единицы, для него показатели контекстной предсказуемости будут велики. Ключевые слова, напротив, являются основным источником новой и значимой информации в тексте, следовательно, их контекстная предсказуемость будет невелика, особенно при первых их появлениях.
Таким образом, актуальность и практическая значимость исследования контекстной предсказуемости очень высоки для разнообразных областей, связанных с автоматической обработкой текста.

✅ Заключение

Вопрос исследования контекстной предсказуемости в современной компьютерной лингвистике является актуальным и практически значимым для решения различных задач связанных с автоматической обработкой текста. Данная тема является интересной в силу своей междисциплинарности и многоплановости возможных исследований. Научная новизна исследования заключается в сопоставлении признаков контекстной предсказуемости для различных функциональных стилей.
В рамках данного исследования были проанализированы различные методы изучения контекстной предсказуемости и выбраны наиболее адекватные метрики и признаки для дальнейшей проверки в ходе вычислительного эксперимента.
На втором этапе были сформированы корпуса разных стилей и жанров в соответствии с составленным списком признаков, выбранных методов и информационных технологий для дальнейшего исследования.
Подготовленные материалы - сформированные корпуса текстов художественного и научного стилей и список отобранных метрик - послужили основой для дальнейшей практической части исследования, в рамках которой был проведен вычислительный эксперимент.
Была написана модульная программа на языке Python, позволяющая построить модель текста, реализующую различные признаки контекстной предсказуемости и проведена оценка ее работы, в том числе с помощью проведения cloze-теста.
Эксперимент с информантами подтвердил эффективность и работоспособность построенной модели текстов, а также наметил возможные пути для дальнейшего развития исследования и совершенствования написанной программы.
По результатам построения моделей текстов подтвердилась гипотеза об ожидаемом более высоком показателе контекстной предсказуемости для корпуса научных текстов по сравнению с художественными.
Полученные результаты могут использоваться для решения различных практических задач, связанных с автоматической обработкой текстов.
Апробация данной работы прошла на заседании секции "Компьютерная лингвистика" Ежегодного научно-практического семинара "Новые информационные технологии в автоматизированных системах" (Институт прикладной математики им. М.В. Келдыша РАН, МИЭМ ВШЭ, Московский государственный технический университет им. Н.Э. Баумана). По материалам проведенного семинара была опубликована статья Крутченко О.В. Классификация ключевых слов для описания новостных кластеров (в соавторстве с Мартина В.С., Соколова Д.Ю., Флуд Д.В.), статья индексируема в базе РИНЦ [39].

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Ягунова Е.В. Основы теоретической, вычислительной и экспериментальной лингвистики, или Размышления о месте лингвиста в компьютерной лингвистике // Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. — М.: МИЭМ, 2011.
2. Biemann Ch., Remus St. and Hofmann М. J. Predicting word ’predictability’ in cloze completion, electroencephalographic and eye movement data // Natural Language Processing and Cognitive Science / Bernadette Sharp, Wieslaw Lubaszewski and Rodolfo Delmonte (eds). Libreria Editrice Cafoscarina, Venezia. P.83-95.
3. Owens M., O'Boyle P., Mcmahon J., Ming J., Smith Fj. A comparison of human and statistical language model performance using missing-word tests // Language and speech, 1997, vol. 40, №4. - P. 377-389.
4. Richard D. Robinson. The Cloze Procedure: a New Tool for Adult Education // Adult Education Qarterly. 1973 - P. 23, 97-98.
5. Taylor W. L. Cloze procedure: a new tool for measuring readability // Journalism Quarterly, 1953. - P. 415-433.
6. Oller J. W., Jr., Grover Kh Yii, Greenberg L.A., Hurtado R. The learning effect from textual coherence measured with cloze // Cloze and coherence / J.
W. Oller, Jr., J. Jonz (Eds). - Cranbury, NJ, 1994. - P. 247-268.
7. Nusbaum H. C. et al. Why cloze procedure? // Cloze and coherence / J.W. Oller, Jr., J. Jonz (Eds) - Cranbury, NJ, 1994. - P. 1-20.
8. Ягунова Е.В. Исследование контекстной предсказуемости единиц текста с помощью корпусных ресурсов // Труды международной конференции "Корпусная лингвистика- 2008". - СПб. : СПбГУ, 20086. - С. 396-403
9. Ягунова Е.В., Пивоварова Л.М. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов // Сб. НТИ, Сер.2, №6. М., 2010.
10. Ягунова Е.В. Вариативность стратегий восприятия звучащего текста (экспериментальное исследование на материале русскоязычных текстов разных функциональных стилей) / СПбГУ - Пермь, 2008.
11. Ягунова Е.В. Исследование избыточности русского звучащего текста // Избыточность в грамматическом строе языка / Отв. ред. М. Д. Воейкова. СПб.: Наука, 2010. — 462 с.
12. Markov Models for Text Analysis [Электронный ресурс] // Purdue University, Department of Statistics. 2009. Режим доступа: http://www.stat.purdue.edu/~mdw/CSOI/MarkovLab.html(дата обращения: 15.04.2016).
13. Хохлова М.В. Исследование лексико-семантической сочетаемости в русском языке с помощью статистических методов (на базе корпусов текстов). // Санкт-Петербург, 2010.
14. Ягунова Е.В., Пивоварова Л.М. Исследование структуры новостного текста как последовательности связных сегментов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 25-29 мая 2011 г.). Вып. 10 (17).- М.: Изд-во РГГУ, 2011.
15. Ягунова Е.В. Исследование контекстной предсказуемости единиц текста с помощью корпусных ресурсов // Труды международной конференции "Корпусная лингвистика- 2008". - СПб. : СПбГУ, 2008. - С. 396-403
16. J. McWhorter. The world’s simplest grammars are creole grammars // Linguistic typology. 2001. 5(2-3).
17. W. Kusters. Linguistic complexity: the infl uence of social change on verbal infl ection. Utrecht, 2003.
18. O. Dahl. The growth and maintenance of linguistic complexity. Amsterdam, 2004
19. P. Trudgill. Sociolinguistic typology: social determinants of linguistic complexity. Oxford, 2011.
20. Y. Sun, H. Deng, J. Han. Probabilistic Models for Text Mining // Mining Text Data. 2012. - Р 259-295.
21. Бердичевский А. Языковая сложность (Language complexity) // Вопросы языкознания. 2012. №5.
22. Пиотровский Р. Г. Лингвистический автомат (в исследовании и непрерывном обучении). СПб., 1999.
23. Пиотровский Р. Г. Информационные измерения языка. Л., 1968.
24. D. MacKay. Information Theory, Inference, and Learning Algorithms. // Cambridge University Press, 2003.
25. V. Daudaravicius. Automatic Identification of Lexical Units. // Computational Linguistics and Intelligent text processing CICling, 2009.
26. Decision Trees: Entropy, Information Gain, Gain Ratio. Marina Santini [Электронный ресурс] / Режим доступа:
http://www.slideshare.net/marinasantini1/lecture-4-decision-trees-2-entropy- information-gain-gain-ratio-55241087?related=1(дата обращения:
18.03.2016).
27. Myslin, Mark, &Roger Levy. Codeswitching and predictability of meaning in discourse. // Language 91(4), 2015.
28. Бабайлова А.Э. Текст как продукт, средство и объект коммуникации при обучении неродному языку. // Изд. Саратовского университета, 1987.
29. IntelliText [Электронный ресурс] / Режим доступа: http://corpus.leeds.ac.uk/(дата обращения: 19.04.2016).
30. Sketch Engine [Электронный ресурс] / Режим доступа: https://sketchengine.co.uk/(дата обращения: 19.04.2016).
31. Laurence Anthony’s Website. Sowfware [Электронный ресурс] / Режим доступа: http://laurenceanthony.net/software.html(дата обращения: 19.04.2016).
32. Python [Электронный ресурс] / Режим доступа: https://python.org(дата обращения: 25.01.2016).
33. Python. Documentation. The Python Standard Library. [Электронный ресурс] / Режим доступа: https://docs.python.org/2/library/math.html(дата обращения: 25.01.2016).
34. М.Лутц. Программирование на Python. 4-е издание. // Изд. O’Reilly, 2011.
35. PyCharm [Электронный ресурс] / Режим доступа: https://www.jetbrains.com/pycharm/(дата обращения: 25.10.2015).
36. NLTK 3.0 documentation. [Электронный ресурс] / Режим доступа: http://www.nltk.org/(дата обращения: 19.04.2016).
37. Морфологический анализатор PyMorphy2. [Электронный ресурс] / Режим доступа: https://pymorphy2.readthedocs.org(дата обращения: 19.04.2016).
38. Миллер Дж. А. Магическое число семь плюс или минус два. О некоторых пределах нашей способности перерабатывать информацию / Ред. Ю.Б. Гиппенрейтер, В.Я. Романов. - Москва : ЧеРо, 1998. - С. 564¬582.
39. Мартина В.С., Соколова Д.Ю., Флуд Д.В, Крутченко О.В. Классификация ключевых слов для описания новостных кластеров // Новые информационные технологии в автоматизированных системах: материалы девятнадцатого научно-практического семинара. - М.: ИПМ им. М.В. Келдыша, 2016. - С. 94 - 100.

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Тип работы *

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (209042)

Статьи

»» Все статьи

Вход в личный кабинет