Введение 3
ГЛАВА 1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ОЦЕНКИ СЛОЖНОСТИ ТЕКСТОВОЙ ИНФОРМАЦИИ 6
1.1. Сложность текста как лингвистическое понятие 6
1.2. Жанровая классификация учебных текстов 13
1.3. Формулы определения сложности текстовой информации 15
1.4 Методы морфологической автоматической обработки текстов 21
Выводы по Главе 1 26
ГЛАВА 2. МОРФОЛОГИЧЕСКИЙ АНАЛИЗ КОРПУСА ТЕКСТОВ 28
2.1 Морфологический анализ как лингвистический метод 28
2.2 Анализ читабельности учебных текстов 34
2.3 Анализ взаимосвязи жанра текста, частей речи и удобочитаемости 36
Выводы по Главе 2 43
Заключение 44
Список литературы 46
Приложение 1 52
Приложение 2 63
Приложение 3
Несмотря на глобальное использование современных технологий, текст по-прежнему остается одним из основных видов хранения и передачи информации. Разработка эффективных подходов к обработке текстов с целью фильтрации, навигации по базе текстов является одним из наиболее актуальных направлений современных информационных технологий. В условиях глобализации образования все чаще встает вопрос о необходимости стандартизации его процессов, требуемой для обеспечения валидности получаемых результатов. Используемые в качестве образовательного материала тексты проходят недостаточный анализ на предмет сложности для чтения и понимания. Результатом становится неравные условия, в которые помещаются обучающиеся при обучении и проверке их языковых умений и навыков. Используя такую отрасль науки, как компьютерную, прикладную лингвистику, которая занимается созданием разнообразных систем по обработке языка, современные лингвисты смогут определить валидность результатов. Но эта обработка невозможна без наличия лингвистических информационных ресурсов.
Данная проблема рассматривалась как отечественными, так и зарубежными учеными-исследователями: Карповым Н. В., Оборневой И. В., Солнышкиной М. И., Усталовым Д. А., Филиповой А. М., Callan J, Chall J.S., Chissom B.S., Collins-Thompson K., Flesch R., Kincaid J.P., Mcnamara T., Rogers R.L., Schwarm S.E.
Актуальность исследования обуславливается необходимостью изучения учебных текстов для определения их соответствия уровню знаний и способностей обучающихся.
Объектом исследования является процесс морфологического анализа корпуса текстов Spotlight для 8 класса.
Предметом исследования являются автоматическая обработка учебных текстов, метод морфологического анализа словоформ.
Целью данной дипломной работы является определение соответствия уровня сложности учебника стандартному уровню лингвистического и когнитивного уровня обучающихся.
Достижение поставленной цели предполагает решение следующих задач:
1. Проанализировать современные методы автоматической обработки текста.
2. Рассмотреть и определить понятие «сложность текстов».
3. Создать корпус текстов 8 класса учебника Spotlight.
4. Провести морфологический анализ текстов учебника Spotlight и выявить соотношение частей речи в учебных текстах.
5. Сравнить результаты морфологического анализа и сложности текстов.
Материалом исследования послужили тексты учебника Spotlight для 8 класса. Общий объем рассматриваемого языкового корпуса составил 38 текстов суммарным объемом 7539 словоупотреблений.
В работе использовались такие методы и приемы анализа как логический, дискурсивный, метод корпусной лингвистики, а также автоматизированный анализ, осуществляемый при помощи программ Parts- of-speech.Info и Coh-Metrix.
В ходе исследования была осуществлена верификация следующей гипотезы:
Научная новизна работы определяется тем, что был впервые осуществлен морфологический анализ текстов для чтения учебника Spotlight.
Теоретическая значимость работы состоит в том, что полученные в ходе исследования выводы вносят определённый вклад в развитие компьютерной и корпусной лингвистики.
Практическая значимость данной работы состоит в возможности использования полученных результатов в вузах, компьютерной лингвистике, при автоматической обработке текста, в лексикологии, лексикографии, а также в преподавании английского языка как иностранного.
Цель и задачи исследования определили структуру и объем работы, которая состоит из 2 глав - теоретической и практической, заключения, списка литературы, приложений.
Во введении представлена актуальность выбранной темы, ставятся цели, указываются объект и предмет исследования, перечисляются основные задачи, выдвигается гипотеза, анализируется теоретическая значимость, научная новизна, указывается практическая ценность данной работы, разбирается структура данной работы.
В первой главе «ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ОЦЕНКИ СЛОЖНОСТИ ТЕКСТОВОЙ ИНФОРМАЦИИ» сообщается о методах автоматической обработки текста, в том числе морфологического анализа, рассматривается понятие «сложности текстов».
Во второй главе «МОРФОЛОГИЧЕСКИЙ АНАЛИЗ КОРПУСА ТЕКСТОВ» проводится морфологический анализ корпуса текстов, а также сравнение результатов морфологического анализа.
В заключение представлены выводы, подтверждающие гипотезу.
В рамках исследования были определены основные лингвистические понятия сложности текста, изучена жанровая классификация текстов. Также были проанализированы формулы определения сложности текстовой информации, их удобство и точность, изучены различные методы морфологической автоматической обработки текста.
В данном исследовании была произведена попытка изучить значимость и влияние автоматической обработки текста, а именно морфологического анализа и сложности текстов. Были обнаружены различия в стилях, жанрах текста. Анализ научной литературы привел к выводу о доминирующем положении стандартных формул удобочитаемости, формальности текстов, измеряющих исключительно статистические характеристики текста и не учитывающих иные формы воздействия на читателя.
Разработчикам учебных текстов стоит обращать внимание на жанры текста и количество содержащихся в них различных частей речи, в особенности существительных, прилагательных и глаголов.
В ходе исследования нами были выполнены все поставленные теоретические и практические задачи и цели, результатом которых стало доказательство важности изучения частей речи в текстах различных жанров и их сложности, которые может поспособствовать правильному выбору учебных текстов для обучающихся.
Дальнейшие перспективы научного исследования заключаются в попытке усовершенствовать требования к составлению текстов, используемых в обучении иностранным языкам. Самостоятельная ценность исследования заключается в возможности использования полученных результатов в вузах, компьютерной лингвистике, при автоматической обработке текста, в лексикологии, лексикографии, а также английского языка как иностранного.
1. Автоматическая обработка текстов на естественном языке и анализ данных : учеб. пособие / Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. — М.: Изд-во НИУ ВШЭ, 2017. — 269 с.
2. Автоматическая обработка текстов на естественном языке и
компьютерная лингвистика: учеб. пособие / Большакова Е.И.,
Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. - М.: МИЭМ, 2011. - 272 с.
3. Английский язык. 8 класс : учеб. для общеобразоват. учреждений / Ю.Е. Ваулина, В. Эванс, Дж. Дули, О.Е. Подоляко. - 2-изд., доп. и перераб. - М.
: Express Publishing : Просвещение, 2012. 216 с.: ил. - (Английский в фокусе).
4. Бабайлова А. Э. Текст как продукт, средство и объект коммуникации при обучении неродному языку - Саратов: Изд-во Саратовского университета, 1987. - 130 с.
5. Васильев В. Г., Кривенко М. П. Методы автоматизированной обработки текстов. — М.: ИПИ РАН, 2008. - 305 с.
6. Гальперин, И. Р. Текст как объект лингвистического исследования [Текст] / И. Р. Гальперин. - изд. 5-е, стереотипное. М. : Ком Книга, 2007. - 144 с. с. 18.
7. Глушань, В.М. Компьютерный анализ сложности текстов учебнометодических разработок как средство повышения качества обучения / В.М. Глушань // Вестник Таганрогского института имени А.П. Чехова. -
2016. - С. 71-76.
8. Компьютерная лингвистика и интеллектуальные технологии: По
материалам ежегодной Международной конференции «Диалог» (Бекасово, 25-29 мая 2011 г.). / Bocharov V., Bichineva S., Granovsky D.,
Ostapuk N., Stepanova M. Quality assurance tools in the OpenCorpora project // Вып. 10 (17). — М.: РГГУ, 2011.
9. Лернер И.Я. Критерии сложности некоторых элементов учебника: Проблемы школьного учебника. / И.Я. Лернер. - М.: Просвещение, 1974. Вып. 1. - С. 47-58.
10. О понятии сложности // Логика и методология науки: материалы IV Всесоюз. симпоз. (Москва, 1967) / Бирюков Б.В., Тюхтин B.C. - С. 219231.
11. Пруцков А. В. Генерация и определения форм слов естественных языков на основе их последовательных преобразований// Вестник Рязанского государственного радиотехнического университета. — 2009. — № 27. —
С. 51-58.
12. Пушкина Е.С. Теоретико-экспериментальное исследование структурносемантических параметров текста: автореф. дис. ... канд. филол. наук / Е.
С. Пушкина. - Кемерово, 2004. - 155 с.
13. Сокирко А.В. Морфологические модули на сайте www.aot.ru // Труды международной конференции «Диалог-2004. Компьютерная лингвистика и интеллектуальные технологии». М.: Наука, 2004. — С. 559.
14. Солнышкина С. И., Кисельников А. С. Сложность текста: этапы изучения в отечественном прикладном языкознании / С. И. Солнышкина, А. С. Кисельников // Вестник ТГУ. Филология. - №6 (38). - 2015. - с.86-100.
15. Томина, Ю.А. Объективная оценка языковой трудности текстов (описание, повествование, рассуждение, доказательство) : авторев.дис. ... канд. пед. наук / Томина Юлия Алексеевна. - М., 1985. - 21с.
16. Тураева З. Я. Лингвистика текста. Текст: структура и семантика: учеб. пособие. Изд-е 2-е, доп. М.: Книжный дом "ЛИБРОКОМ", 2009. 144 с.]
17. Ушаков К.М. О критериях сложности учебного материала школьных предметов // Новые исследования в педагогических науках. № 2 (36) / сост. И.К. Журавлев, B.C. Шубинский. - М.,1980. - С. 33-35.
18. Шпаковский, Ю. Ф. Оценка трудности восприятия текста / Ю. Ф. Шпаковский // Труды БГТУ. Серия 4: Принт- и медиатехнологии. - 2012.
- С. 72-75.
19. Яцко, В.А. Алгоритмы и программы автоматической обработки текста / В.А. Яцко // Вестник Иркутского государственного лингвистического университета. - 2012. - С. 150-161.
20. Biber D. Using register-diversified corpora for general language studies / D. Biber. - Computational Linguistics. - vol. 19 no. 2. - 1993. - p.219-242.
21. Crossley S. A. Computational assessment of lexical differences in L1 and L2 writing. / S. A. Crossley, & D. S. McNamara // Journal of Second Language Writing, 18(2). - 2009. - p. 119-135.
22. Crossley, S.A. / Interlanguage Talk: A computational analysis of non-native speakers’ lexical production and exposure. / S. A. Crossley, & D. S. McNamara // In P.M. McCarthy & C. Boonthum-Denecke (Ed.), Applied natural language processing and content analysis: Identification, investigation, and resolution. -
2012. - p. 425-437.
23. Crossley S.A., The role of lexical cohesive devices in triggering negotiations for meaning. / S. A. Crossley, Scott, T.L. Salsbury & D.S. McNamara // Issues in Applied Linguistics, 18(1) - 2010.
24. Fielding G. Language and Interpersonal Relations. / G.Fielding, C. Fraser// In
I. Markova (ed.), The Social Context of Language, Chichester: Wile, 1978. - p. 217-232.
25. Flesch R. A new readability yardstick / R. Flesch - Journal of Applied Psychology, 32, 1948. — С. 221—233.
26. Gorfein, D.S. ed. 1989. Resolving Semantic Ambiguity. / New York: Springer Verla.
27. Hasan, R. Ways of saying: ways of meaning. In R. P. Fawcett, M.A.K. Halliday, S.M. Lamb, A. Makkai (eds.), The semiotics of Culture and Language. Vol. 1 Language as Social Semiotic, London & Dover: Pinter, 1984,
- p. 105-162.
28. Halliday M.A.K. Spoken and written language. / Oxford: Oxford University Press, 1985.
29. Heylighen F. Formality of Language: Definition, Measurement and Behavioral Determinants / F. Heylighen and J.M. Dewaele // Technical Report. - Free University of Brussels. - Brussels, Belgium. - 1999.
30. Heylighen F. Variation in the Contextuality of Language: An Empirical Measure. / F. Heylighen and J.M. Dewaele // Foundations of Science 7. - 2002.
- p. 293-340.
31. Iyer R. Relevance weighting for combining multi-domain data for n-gram language modeling / R. Iyer, M. Ostendorf // Computer Speech and Language
- vol. 13, no. 3. - 1999. - p. 267-282.
32. Lahiri S. Informality judgment at sentence level and experiments with formality score. / S. Lahiri, P. Mitra, X. Lu. // Computational Linguistics and Intelligent Text Processing. - 2011. - p. 446-457.
33. Leckie-Tarry H. Language and context. A functional linguistic theory of register. / London-New York: Pinter, 1995.
34. Lim C. S., Automatic genre detection of web documents / C.S. Lim, K. J. Lee, and G. C. Kim // in IJCNLP - 2004.
35. McNamara Linguistic features of writing quality. / McNamara, S. Danielle, S.
A. Crossley, & P. M. McCarthy // Written Communication, 27(1), 2010. - p. 57-86.
36. McNamara Natural language processing in an intelligent writing strategy tutoring system. / McNamara, S. Danielle, S.A. Crossley, R. Roscoe // Behavior Research Methods, 45(2), 2013. - p. 499-515.
37. McNamara World knowledge driving young readers’ comprehension difficulties. / McNamara, S. Danielle, R.G. Floyd, R. Best, M. Louwerse.// In Proceedings of the 6th international conference on Learning sciences. 2004. - p. 326-333.
38. Porter M.F. An algorithm for suffix stripping / M.F. Porter // Program, 14(3),
p. 130-137.
39. Santini M. A shallow approach to syntactic feature extraction for genre classification / CLUK 7: The UK special-interest group for computational linguistics. - 2004.
40. Schmid H. Probabilistic part-of-speech tagging using decision trees. / In.: Proceedings of the international conference on new methods in language processing, 1994. — p. 44-49.
41. Schwarm S. I. Adaptive language modeling with varied sources to cover new vocabulary items / S.Schwarm, I. Bulyko, M. Ostendorf // IEEE Trans. Speech and Audio - vol. 12, no. 3 - 2004 - p. 334-342.
42. Segalovich I. A Fast Morphological Algorithm with Unknown Word Guessing Induced by a Dictionary for a Web Search Engine // I. Segalovich. — MLMTA. — 2003. — С. 273-280.
43. Teddiman L. Contextuality and Beyond: Investigating an online Diary Corpus. / In Proceedings of the Third International ICWSM conference, p. 331-333. San Jose, Calif: Third International AAAI Conference on Weblogs and Social Media. - 2009.
44. Tweissi Adel I. Reading in a Foreign Language / Adel I. Tweissi. - 1998 - Vol.11.- p. 191-204.
45. Индексы Флеша-Кинкейда [Электронный ресурс] - Режим доступа: http://www.cpanel.stpaulsscience.org/gceict/skills/pi/pi01/accuracy/readability/ fkg.htm
46. Морфологический анализатор Mystem 3.0 [Электронный ресурс]. Режим доступа: https://events.yandex.ru/lib/talks/2427/].
47. Национальный корпус русского языка [Электронный ресурс]. Режим доступа: http://ruscorpora.ru/
48. Открытый корпус OpenCorpora [Электронный ресурс]. Режим доступа: http: //opencorpora. org/
49. Coh-Metrix [Электронный ресурс]. Режим доступа: http: //tea. cohmetrix.com/
50. Parts-of-speech.Info [Электронный ресурс]. Режим доступа: https://parts-of- speech.info/
51. Pymorphy2 [Электронный ресурс]. Режим доступа: https: //pymorphy2.readthedocs. io/en/latest/