Введение
1. Анализ литературы
1.1 Исследование контекстной предсказуемости с помощью cloze-теста .9
1.2. Основные математические модели контекстной предсказуемости ...11
1.2.1. Информационная энтропия.
1.2.3. Метрика MI (Mutual Information)
1.2.4. Метрика t-score
1.2.5. Метрика Dice
1.2.6. Метрика surprise
1.2.7. Метрика salience
2. Методика и материалы исследования
2.1. Выбор методик для дальнейшего исследования..................................19
2.2. Обоснование материала. Формирование корпусов текстов ...............20
2.3. Выбор программных средств для построения модели........................23
3. Написание модульной программы..
3.1. Постановка задачи
3.2. Токенизация
3.3. Лемматизация
3.4. Генерация множества биграмм.
3.5. Вычисление признаков и метрик.
3.5.1. Энтропийная характеристика.
3.5.2. Условная вероятность.
3.5.3. Метрика Dice
3.5.4. Метрика surprisal
3.6. Генерация модели текста
3.7. Структурированный вывод
3.8 Выделение сильно связанных сегментов текста...................................39
4. Анализ результатов вычислительного эксперимента ...............................42
4.1. Сравнение значений признаков контекстной предсказуемости.........42
4.2. Практическое применение построенной модели. Исправление
опечаток и снятие неоднозначности
4.3 Анализ выделенных цепочек слов
5. Оценка выбранных признаков с помощью эксперимента с
информантами.
5.1. Подготовка и проведение эксперимента
5.2. Анализ полученных результатов.
Заключение
Список использованных источников
Приложение А. Среднее значение признаков контекстной предсказуемости
по каждому из исследуемых текстов
Приложение Б. Инструкция по прохождению теста.....................................61
Приложение В. Бланк теста, предложенный информантам .........................62
Приложение Г. Сводные таблицы ответов информантов..
Информационная избыточность – это неотъемлемое свойство любого текста, особенно с точки зрения теории информации. И именно благодаря этому свойству человек успешно воспринимает и понимает как устный,
так и письменный тексту. Избыточность является неотъемлемым свойством любого языка и поэтому присуща всем текстам без исключения, но в разной степени, в зависимости от функционального стиля текста [1].
С вопросом об избыточности текста тесно связано понятие контекстной предсказуемости, т.е. предугадывания слова на основе контекста. Эффект контекстной предсказуемости по сути является противопоставлением информационной избыточности, демонстрируя, что для восприятия и понимания текста не все его слова являются равнозначными.
В данной работе производится анализ различных вычислительных методов исследования контекстной предсказуемости, выделяются наиболее адекватные метрики и признаки для дальнейшей проверки в ходе построения модели текста и оценки ее работы по каждому из признаков, производится составление корпусов текстов художественного и научного стилей. Исследование, проведенное в рамках выпускной квалификационной работы, предполагает проведение вычислительного анализа на основе корпусов научных и художественных текстов и эксперимента с информантами.
Основной целью проведения исследования является выявление зависимости реализации процедур контекстной предсказуемости от жанровых и стилевых характеристик текста.
Решаются следующие задачи:
•! Анализ литературы, позволяющий выбрать наиболее адекватные
методы исследования контекстной предсказуемости;
•! Подбор и обоснование материала для будущего исследования;7
•! Формирование корпусов текстов различных стилей и жанров;
•! Выбор и обоснование основных методик исследования;
•! Написание программы, реализующей такие модули как :
o! препроцессинг (токенизация, ламатизация),
o! модули, реализующие признаки контекстной предсказуемости
(энтропийные признаки, различные меры связности и т.д.)
•! Проведение эксперимента с информантами
•! Оценка эффективности модели по каждому из признаков.
Изучение контекстной предсказуемости предполагает учет многих аспектов, так как эта тема является междисциплинарной. Один из них – психологический аспект. Существует много различных исследований зависимости контекстной предсказуемости и скорости чтения человека, его движении глаз при чтении [2] и др.
С другой стоны, изучение контекстной предсказуемости необходимо непосредственно для лингвистики, психологии, восприятия и анализа текста. Такие методы исследования как проведение cloze-текстов, тестов направленных на восстановление недостающих элементов текста, позволяют оценить степень владения языком информантами, readability текста (например, решение вопроса о понятности текстов наподобие текстов инструкций) [3], а так же проанализировать особенности обучения данному языку [3, 4, 5, 6, 7].
Но особенно актуален вопрос контекстной предсказуемости в компьютерной лингвистике, при решении задач связанных с автоматической обработкой текстов [8].
В частности, для распознавания и исправления опечаток в тексте при решении различных задач, связанных с дальнейшей обработкой текста.
Используя принципы контекстной предсказуемости, при невозможности распознать слово, можно предположить, что в нем допущена опечатка, и8 далее – восстановить правильное слово. В таком случае, восстановить исходное слово, то которое подразумевалось, возможно с помощью контекста. И после сравнения наиболее вероятных вариантов в этом контексте со словом с возможной опечаткой, сделать выводы.
Также контекстная предсказуемость может помочь в выделении ключевых
слов в тексте и коллокаций [9]. Словосочетание, являющееся коллокацией, имеет признаки целостной семантической и синтаксической единицы, для него показатели контекстной предсказуемости будут велики. Ключевые слова, напротив, являются основным источником новой и значимой информации в тексте, следовательно, их контекстная предсказуемость будет невелика, особенно при первых их появлениях.
Таким образом, актуальность и практическая значимость исследования контекстной предсказуемости очень высоки для разнообразных областей, связанных с автоматической обработкой текста
Вопрос исследования контекстной предсказуемости в современной компьютерной лингвистике является актуальным и практически значимым для решения различных задач связанных с автоматической обработкой текста. Данная тема является интересной в силу своей междисциплинарности и многоплановости возможных исследований.
Научная новизна исследования заключается в сопоставлении признаков контекстной предсказуемости для различных функциональных стилей.
В рамках данного исследования были проанализированы различные методы изучения контекстной предсказуемости и выбраны наиболее адекватные метрики и признаки для дальнейшей проверки в ходе вычислительного эксперимента.
На втором этапе были сформированы корпуса разных стилей и жанров в соответствии с составленным списком признаков, выбранных методов и информационных технологий для дальнейшего исследования.
Подготовленные материалы – сформированные корпуса текстов художественного и научного стилей и список отобранных метрик – послужили основой для дальнейшей практической части исследования, в рамках которой был проведен вычислительный эксперимент.
Была написана модульная программа на языке Python, позволяющая построить модель текста, реализующую различные признаки контекстной предсказуемости и проведена оценка ее работы, в том числе с помощью проведения cloze-теста.
Эксперимент с информантами подтвердил эффективность и работоспособность построенной модели текстов, а также наметил возможные пути для дальнейшего развития исследования и совершенствования написанной программы.
По результатам построения моделей текстов подтвердилась гипотеза об ожидаемом более высоком показателе контекстной предсказуемости для корпуса научных текстов по сравнению с художественными.
Полученные результаты могут использоваться для решения различных практических задач, связанных с автоматической обработкой текстов.
Апробация данной работы прошла на заседании секции "Компьютерная лингвистика" Ежегодного научно-практического семинара "Новые информационные технологии в автоматизированных системах" (Институт прикладной математики им. М.В. Келдыша РАН, МИЭМ ВШЭ, Московский государственный технический университет им. Н.Э. Баумана).
По материалам проведенного семинара была опубликована статья Крутченко О.В. Классификация ключевых слов для описания новостных кластеров (в соавторстве с Мартина В.С., Соколова Д.Ю., Флуд Д.В.), статья индексируема в базе РИНЦ [39]
1. Ягунова Е.В. Основы теоретической, вычислительной и
экспериментальной лингвистики, или Размышления о месте лингвиста в
компьютерной лингвистике // Автоматическая обработка текстов на
естественном языке и компьютерная лингвистика: учеб. пособие /
Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова
О.В., Ягунова Е.В. — М.: МИЭМ, 2011.
2. Biemann Ch., Remus St. and Hofmann М. J. Predicting word
’predictability’ in cloze completion, electroencephalographic and eye movement
data // Natural Language Processing and Cognitive Science / Bernadette Sharp,
Wiesław Lubaszewski and Rodolfo Delmonte (eds). Libreria Editrice
Cafoscarina, Venezia. P.83-95.
3. Owens M., O'Boyle P., Mcmahon J., Ming J., Smith Fj. A comparison of
human and statistical language model performance using missing-word tests //
Language and speech, 1997, vol. 40, №4. – P. 377-389.
4. Richard D. Robinson. The Cloze Procedure: a New Tool for Adult
Education // Adult Education Qarterly. 1973 – P. 23, 97-98.
5. Taylor W. L. Cloze procedure: a new tool for measuring readability //
Journalism Quarterly, 1953. – P. 415-433.
6. Oller J. W., Jr., Grover Kh Yii, Greenberg L.A., Hurtado R. The learning
effect from textual coherence measured with cloze // Cloze and coherence / J.
W. Oller, Jr., J. Jonz (Eds). – Cranbury, NJ, 1994. – P. 247-268.
7. Nusbaum H. C. et al. Why cloze procedure? // Cloze and coherence / J.W.
Oller, Jr., J. Jonz (Eds) – Cranbury, NJ, 1994. – P. 1-20.
8. Ягунова Е.В. Исследование контекстной предсказуемости единиц
текста с помощью корпусных ресурсов // Труды международной56
конференции "Корпусная лингвистика– 2008". – СПб. : СПбГУ, 2008б. – С.
396-403
9. Ягунова Е.В., Пивоварова Л.М. Природа коллокаций в русском
языке. Опыт автоматического извлечения и классификации на материале
новостных текстов // Сб. НТИ, Сер.2, №6. М., 2010.
10. Ягунова Е.В. Вариативность стратегий восприятия звучащего текста
(экспериментальное исследование на материале русскоязычных текстов
разных функциональных стилей) / СПбГУ – Пермь, 2008.
11. Ягунова Е.В. Исследование избыточности русского звучащего текста
// Избыточность в грамматическом строе языка / Отв. ред. М. Д. Воейкова.
СПб.: Наука, 2010. — 462 с.
12. Markov Models for Text Analysis [Электронный ресурс] // Purdue
University, Department of Statistics. 2009. Режим доступа:
http://www.stat.purdue.edu/~mdw/CSOI/MarkovLab.html (дата обращения:
15.04.2016).
13. Хохлова М.В. Исследование лексико-семантической сочетаемости в
русском языке с помощью статистических методов (на базе корпусов
текстов). // Санкт-Петербург, 2010.
14. Ягунова Е.В., Пивоварова Л.М. Исследование структуры новостного
текста как последовательности связных сегментов // Компьютерная
лингвистика и интеллектуальные технологии: По материалам ежегодной
Международной конференции «Диалог» (Бекасово, 25-29 мая 2011 г.).
Вып. 10 (17).- М.: Изд-во РГГУ, 2011.
15. Ягунова Е.В. Исследование контекстной предсказуемости единиц
текста с помощью корпусных ресурсов // Труды международной
конференции "Корпусная лингвистика– 2008". – СПб. : СПбГУ, 2008. – С.
396-40357
16. J. McWhorter. The world’s simplest grammars are creole grammars //
Linguistic typology. 2001. 5(2–3).
17. W. Kusters. Linguistic complexity: the infl uence of social change on
verbal infl ection. Utrecht, 2003.
18. Ö. Dahl. The growth and maintenance of linguistic complexity.
Amsterdam, 2004
19. P. Trudgill. Sociolinguistic typology: social determinants of linguistic
complexity. Oxford, 2011.
20. Y. Sun, H. Deng, J. Han. Probabilistic Models for Text Mining // Mining
Text Data. 2012. - Р 259-295.
21. Бердичевский А. Языковая сложность (Language complexity) //
Вопросы языкознания. 2012. №5.
22. Пиотровский Р. Г. Лингвистический автомат (в исследовании и
непрерывном обучении). СПб., 1999.
23. Пиотровский Р. Г. Информационные измерения языка. Л., 1968.
24. D. MacKay. Information Theory, Inference, and Learning Algorithms. //
Cambridge University Press, 2003.
25. V. Daudaravicius. Automatic Identification of Lexical Units. //
Computational Linguistics and Intelligent text processing CICling, 2009.
26. Decision Trees: Entropy, Information Gain, Gain Ratio. Marina Santini
[Электронный ресурс] / Режим доступа:
http://www.slideshare.net/marinasantini1/lecture-4-decision-trees-2-entropyinformation-gain-gain-ratio-55241087?related=1 (дата обращения:
18.03.2016).
27. Myslín, Mark, & Roger Levy. Codeswitching and predictability of
meaning in discourse. // Language 91(4), 2015.58
28. Бабайлова А.Э. Текст как продукт, средство и объект коммуникации
при обучении неродному языку. // Изд. Саратовского университета, 1987.
29. IntelliText [Электронный ресурс] / Режим доступа:
http://corpus.leeds.ac.uk/ (дата обращения: 19.04.2016).
30. Sketch Engine [Электронный ресурс] / Режим доступа:
https://sketchengine.co.uk/ (дата обращения: 19.04.2016).
31. Laurence Anthony’s Website. Sowfware [Электронный ресурс] / Режим
доступа: http://laurenceanthony.net/software.html (дата обращения:
19.04.2016).
32. Python [Электронный ресурс] / Режим доступа: https://python.org
(дата обращения: 25.01.2016).
33. Python. Documentation. The Python Standard Library. [Электронный
ресурс] / Режим доступа: https://docs.python.org/2/library/math.html (дата
обращения: 25.01.2016).
34. М.Лутц. Программирование на Python. 4-е издание. // Изд. O’Reilly,
2011.
35. PyCharm [Электронный ресурс] / Режим доступа:
https://www.jetbrains.com/pycharm/ (дата обращения: 25.10.2015).
36. NLTK 3.0 documentation. [Электронный ресурс] / Режим доступа:
http://www.nltk.org/ (дата обращения: 19.04.2016).
37. Морфологический анализатор PyMorphy2. [Электронный ресурс] /
Режим доступа: https://pymorphy2.readthedocs.org (дата обращения:
19.04.2016).
38. Миллер Дж. А. Магическое число семь плюс или минус два. О
некоторых пределах нашей способности перерабатывать информацию /
Ред. Ю.Б. Гиппенрейтер, В.Я. Романов. – Москва : ЧеРо, 1998. – С. 564-
582.59
39. Мартина В.С., Соколова Д.Ю., Флуд Д.В, Крутченко О.В.
Классификация ключевых слов для описания новостных кластеров //
Новые информационные технологии в автоматизированных системах:
материалы девятнадцатого научно-практического семинара. – М.: ИПМ
им. М.В. Келдыша, 2016. – С. 94 – 100