Введение 4
Глава 1. Аудиовизуальная интеграция и эффект Мак-Гурка 7
1.1. Объединение информации из разных каналов восприятия 7
1.2. Многомодальное объединение в сфере образования и когнитивная теория мультимедийного обучения 10
1.3. Аудиовизуальная интеграция 14
1.4. Влияние фактора родного языка на восприятие кросс-модальных данных 20
1.5. Другие факторы, влияющие на проявление эффекта Мак-Гурка 26
1.6. Аудиовизуальная интеграция у детей 29
1.7. Исследования на материале русского языка 32
1.8. Выводы по главе 36
Глава 2. Восприятие аудиовизуальных стимулов носителями русского языка 39
2.1. Эксперимент 1 39
2.1.1. Цель 39
2.1.2. Стимулы 39
2.1.3. Процедура эксперимента 40
2.1.4. Участники 42
2.1.5. Принципы обработки данных, аналитика 42
2.1.6. Результаты: различия по группам 43
2.1.7. Результаты: анализ количества ошибок 45
2.1.8. Выводы по ошибкам 47
2.1.9. Результаты: влияние предпочтительной модальности восприятия 48
2.1.10. Общие выводы по Эксперименту 1 49
2.2. Эксперимент 2 51
2.2.1. Цель 51
2.2.2. Стимулы 51
2.2.3. Процедура эксперимента 52
2.2.4. Участники 53
2.2.5. Принципы обработки данных, аналитика 53
2.2.6. Результаты 54
2.2.7. Выводы по Эксперименту 2 56
2.3. Эксперимент 3 56
2.3.1. Цель 56
2.3.2. Процедура 57
2.3.3. Участники 57
2.3.4. Принципы обработки данных, аналитика 58
2.3.5. Результаты 58
2.3.6. Выводы 60
Заключение 62
Список литературы 66
Восприятие информации является процессом, влияющим на всю жизнь человека и во многом определяющим успех коммуникации. С раннего возраста мы учимся познавать мир через каналы восприятия с помощью органов чувств. Сегодня учёные активно изучают способы обработки различной информации человеком, а новейшие разработки влияют на медицину, образование, развитие систем синтеза и распознавания речи, которые облегчают пользователю работу, которая ранее подразумевала бы ввод информации вручную. Несомненно, методы получения, обработки и вывода информации рассматриваются многими науками с самых разных точек зрения и по сей день. Психолингвистика не стала исключением.
Это исследование рассматривает некоторые принципы работы познавательных процессов и их связь с ведущими каналами восприятия. Речь идёт в том числе о различных аспектах восприятия, или перцепции, то есть процесса обработки сенсорной информации, в результате которой мы интерпретируем окружающий мир как совокупность предметов и событий, формируя идеальную модель (субъективный образ) объективно существующей действительности.
В работе рассматривается такой феномен восприятия, как эффект Мак-Гурка, а также интерференция, многомодальное объединение и аудиовизуальная интеграция, связанные с ним. Первоочередной вопрос, поставленный нами, состоит в определении того, что оказывает влияние на силу и частоту проявлений этого эффекта. Гипотеза, выдвинутая в работе, заключается в том, что существуют определённые факторы (например, возраст и пол слушающего или диктора, а также определённые сочетания слогов), которые провоцируют наиболее сильные проявления эффекта Мак-Гурка.
Актуальность исследования обусловлена важностью изучения вопросов, связанных с мышлением и восприятием как для описания познавательных процессов человека, так и для развития современных речевых технологий, а также активным развитием этой области в последние годы. Несмотря на большое количество работ, посвящённых проявлению эффекта Мак-Гурка у носителей разных языков, до недавнего времени подобных исследований на материале русского языка не существовало. Целью данного исследования является изучение эффекта Мак-Гурка и выявление факторов, влияющих на его проявление.
Для её достижения необходимо решить следующие задачи:
• описать феномен аудиовизуальной интеграции и эффект Мак-Гурка как одно из его проявлений;
• изучить исследования эффекта Мак-Гурка, проведенные на материале разных языков;
• провести экспериментальное исследование восприятия неконгруэнтных аудиовизуальных стимулов носителями русского языка;
• выявить факторы, оказывающие влияние на проявление эффекта Мак-Гурка у носителей русского языка.
Объектом исследования является проявление эффекта Мак-Гурка у носителей русского языка, а предметом –факторы, влияющие на его проявление.
Основным методом исследования является психолингвистический эксперимент, включающий в себя задание на восприятие аудиовизуальных стимулов. Следовательно, материалом работы являются данные, полученные в ходе эксперимента.
Новизна работы в первую очередь обусловлена практически полным отсутствием подобных исследований на материале русского языка. В будущем данное исследование могло бы дополнить знания о процессах мультимодальной обработки в целом и эффекте Мак-Гурка в частности как в кросс-языковой, так и в сугубо русскоязычной среде, что определяет теоретическую значимость работы, и внести практический вклад в такие сферы, как дубляж фильмов и распознавание речи человека компьютером.
Промежуточные результаты исследования обсуждались на семинарах исследовательской группы «Спектр» (руководитель – Е.И. Риехакайнен), а также были представлены на XXIVмеждународной конференции SPECOMв докладе «Shouldwebelieveoureyesorourears? ProcessingincongruentaudiovisualstimulibyRussianlisteners»инаXВсероссийской научно-практической конференции «Центральные механизмы речи» имени проф. Н.Н. Трауготт в докладе «Проявление эффекта Мак-Гурка при восприятии речи носителями русского языка». Исследование выполняется при поддержке гранта №21-18-00429 Российского научного фонда (рук. – Т.В. Черниговская).
Аудиовизуальная интеграция является частным случаем объединения многомодальных данных, при котором задействуется одновременно аудиальная и визуальная информация. Существуют исследования, которые доказывают, что восприятие устной речи напрямую зависит не только от того, что человек слышит, но и от того, что он видит. Эффект Мак-Гурка – это феномен, при котором тот, кто воспринимает речь, не может правильно определить, что слышит, если движения губ говорящего не совпадают со звуковым сигналом. Учёные по всему миру изучают проявления этого эффекта. Существуют данные о корреляции между интерференцией, возникающей при восприятии неконгруэнтных стимулов, и возрастом и полом слушающего, а также о влиянии конкретных сочетаний слогов, при которых аудиовизуальные стимулы чаще воспринимаются неверно.
Однако восприятие речи лингвоспецифично, и данные для каждого языка уникальны. Подобных исследований на базе русского практически нет. Опираясь на опыт иностранных коллег, мы предположили, что существует ряд факторов, которые могут влиять на то, как эффект выражается у русскоговорящих слушателей. Чтобы проверить это, был проведён ряд экспериментов, направленных на выявление того, от чего зависят проявления эффекта Мак-Гурка. Мы также хотели узнать, повлияет ли так называемая ведущая перцептивная модальность на успешность прохождения экспериментов и можно ли изучаемый в рамках исследования эффект использовать для диагностики предпочтительного канала восприятия.
Для всех трёх экспериментов были созданы специальные стимулы. Для этого носители русского языка проговаривали на камеру определённые наборы слогов. Затем видеодорожка одного стимула накладывалась на звуковую дорожку другого, и таким образом получались неконгруэнтные стимулы, т.е. такие, визуальная и аудиальная информация которых не совпадала. Поскольку традиционно для подобного рода экспериментов используются слоги с гласным /a/, мы также выбрали слоги только с этим гласным. При создании стимулов звонкие согласные объединялись только со звонкими, а глухие – с глухими. Это было сделано для того, чтобы проверить, влияет ли фактор звонкости/глухости согласного в слоге-стимуле на результат его интерпретации. Верными во всех случаях признавались такие ответы, которые совпадали со звуковой составляющей аудиовизуального стимула.
В первом эксперименте 60 школьникам и 60 взрослым, проходившим эксперимент онлайн, предлагались различные комбинации слогов /ba/, /va/, /da/, /pa/, /ta/ и /fa/ (из них было составлено 18 стимулов). Результаты эксперимента показали, что у школьников эффект был выражен не так сильно, как у взрослых, однако различия между группами были относительно небольшими и достаточно условными. Для выявления ведущего канала восприятия был использован опросник С. Ефремцева, который состоит из 48 вопросов, предполагающих ответы «да»/«нет». Данные эксперимента показали, что ведущая перцептивная модальность не влияла на то, как участники интерпретировали стимулы Мак-Гурка. Таким образом, гипотеза о значимой роли когнитивных стилей в процессе аудиовизуальной обработки речи не подтвердилась.
Во втором и третьем экспериментах использовались одни и те же стимулы, записанные на профессиональном оборудовании. Было выбрано восемь слогов: /ba/, /va/, /ga/, /da/, /ka/, /pa/, /ta/ и /fa/, из которых были составлены 32 сочетания.
Поскольку контролировать следование участником инструкций в прошлый раз было невозможно, было принято решение запрограммировать второй эксперимент с помощью ПО PsychoPy и собирать ответы для каждого участника по отдельности и в присутствии экспериментатора. В третьем эксперименте участники для прохождения эксперимента объединялись в группы по 8–15 человек. Каждой группе предлагалось одновременно посмотреть видео с последовательностью стимулов и записать свой ответ на бумаге. Целью обоих экспериментов была проверка того, как изменение условий восприятия (например, использование более качественных видео и наушников или прохождение эксперимента в составе группы) повлияет на проявление эффекта Мак-Гурка.
Данные 32 человек в возрасте от 18 до 31 года во втором эксперименте и 40 человек в возрасте от 18 до 22 лет в третьем эксперименте показали, во-первых, существенно меньшее количество ошибок среди участников (около 90% всех ответов в обоих экспериментах были верными). Что касается неверных ответов, то здесь интересно сравнить результаты всех трёх экспериментов: в первом из них большая часть ошибочных ответов совпадала с визуальной составляющей стимула. Анализ данных второго и третьего экспериментов показал иной результат: даже ошибаясь, визуальную составляющую участники идентифицировали реже всего.
Все три эксперимента показали, что фактор звонкости/глухости согласного в слогах-стимулах не влияет на количество условно «верных» ответов на неконгруэнтные стимулы. Стимулом, спровоцировавшим наибольшее количество ошибок во всех трёх экспериментах, оказался vaBA, где первый слог обозначает артикуляцию, а второй – звук. Это означает, что наибольшее количество неверных ответов встречается при произнесении губного смычного согласного и артикуляции губно-зубного щелевого.
Хотя и во втором, и в третьем эксперименте женщины давали больше неверных ответов, чем мужчины, только во втором эксперименте этот фактор оказался статистически значимым, что говорит о перспективах дальнейшего изучения влияния гендерного фактора на количество правильных ответов у участников.
Таким образом, нами были выявлены некоторые закономерности в проявлении эффекта Мак-Гурка у носителей русского языка. Однако существует множество пока не изученных вопросов, которые требуют дальнейшего рассмотрения. Ведь, помимо теоретического вклада в науку, подобные работы могут найти практическое применение. Например, в сфере дубляжа, где чёткое совпадение артикуляции и звука могло бы привести к лучшему пониманию и большему погружению в фильм или сериал. К тому же эффект Мак-Гурка активно изучается как один из важных феноменов, связанных с распознаванием речи компьютером. В будущем, опираясь на эти данные, люди смогут улучшить и синтез, и распознавание речи и «научить» машину лучше понимать человека.
. Аллахвердов В.М., Аллахвердов М.В. Феномен Струпа: интерференция как логический парадокс // Вестник СПбГУ. Серия 16: Психология. Педагогика. 2014. №4. С. 90–102.
2. Басов О.О., Карпов А.А. Анализ стратегий и методов объединения многомодальной информации // Информационно-управляющие системы. 2015. №2 (75). С. 7–14.
3. Горбунова Т.С., Фахрутдинова А.В. Применение аудиовизуальных средств обучения иностранному языку в неязыковом вузе // Ученые записки КГАВМ им. Н.Э. Баумана. 2014. С. 64–69.
4. Дружинин В.Н. Психология общих способностей: учебное пособие для бакалавриата, специалитета и магистратуры. М.: Издательство Юрайт, 2019. 349 с.
5. Затевалова Е.С., Зубов В.И., Риехакайнен Е.И., Прокаева В.О. Смотреть или слушать: о методах изучения аудиовизуальной интеграции. Психология познания / отв.ред. И.Ю. Владимиров, С.Ю. Коровкин. Ярославль: Филигрань, 2023. С. 109–113.
6. Иванько Д.В., Кипяткова И.С., Карпов А.А. Анализ методов многомодального объединения информации для аудиовизуального распознавания речи // Научно-технический вестник информационных технологий, механики и оптики. 2016. С. 387–417.
7. Система аудиовизуального синтеза русской речи / Лобанов Б.М. [и др.] // Информатика. 2008. С. 67–78.
8. Animated virtual characters to explore audio-visual speech in controlled and naturalistic environments / Thézé R. [et al.] // Scientific Reports. 2020. №10(1). P. 1–12.
9. Atrey P.K., Hossain M.A., Kankanhalli M.S. Multimodal Fusion for Multimedia Analysis: a survey // Multimedia Systems. 2010. №16(6). P. 345–389.
10. Audiovisual events in sensory memory / Besle J. [et al.] // Journal of Psychophysiology. 2007. №21. P. 231–240.
11. Audiovisual perception of congruent and incongruent Dutch front vowels / Valkenier B. [et al.] // Journal of Speech, Language, and Hearing Research. 2012. №55(6). P. 1788–1801.
12. Audiovisual semantic interference and attention: evidence from the attentional blink paradigm / Van der Burg E. [et al.] // Acta Psychologica. 2010. №134(2). P. 198–205.
13. Baddeley A.D., Hitch G.J. Working memory // Recent advances in learning and motivation. New York: Academic Press. 1974. №8. P. 47–115.
14. Brown V.A., Strand J.F. “Paying” attention to audiovisual speech: Do incongruent stimuli incur greater costs? // Attention, Perception & Psychophysics. 2019. №81. P. 1800–1856.
15. Burnham D., Dodd B. Auditory–visual speech integration by prelinguistic infants: Perception of an emergent consonant in the McGurk effect // Developmental Psychobiology: The Journal of the International Society for Developmental Psychobiology. 2004. №45(4). P. 198–224.
16. Changes in the McGurk effect across phonetic contexts / Hampson M. [et al.]. Technical Report. Boston University. 2003.
17. Cuevas J., Dawson B.L. A test of two alternative cognitive processing models: Learning styles and dual coding // Theory and Research in Education.2018. №16(1). P. 40–64.
18. Designing and deploying an interaction modality for articulatory-based audiovisual speech synthesis / Almeida N. [et al.] // SPECOM 2021. 2021. P. 36–49.
19. Desjardins R.N., Werker, J.F. 4-month-old female infants influenced by visible speech // Infant Behavior and Development. 1996. №19. P. 421–437.
20. Developmental shifts in children’s sensitivity to visual speech: A new multimodal picture–word task / Jerger S. [et al.] // Journal of Experimental Child Psychology. 2009. №102(1). P. 40–59.
21. Dodd B. Lip reading in infants: Attention to speech presented in-and out-of synchrony // Cognitive Psychology. 1979. №11(4). P. 478–484.
22. Dupont S., Aubin J., Ménard L. A study of the McGurk effect in 4 and 5-year-old French Canadian children // ZAS Papers in Linguistics. 2005. №40. P. 1–17.
23. Enhancing speech intelligibility: Interactions among context, modality, speech style, and masker / Van Engen K.J. [et al.] // Journal of Speech, Language, and Hearing Research: JSLHR. 2014. №57(5). P. 1908–1921.
24. Erber N. P. Interaction of audition and vision in the recognition of oral speech stimuli // /Journal of Speech & Hearing Research. 1969. №12(2). P. 423–425.
25. Gottfried J.A., Dolan, R.J. The nose smells what the eye sees: Crossmodal visual facilitation of human olfactory perception. Neuron. 2003. P. 375–386.
26. Grant K.W., Walden B.E., Seitz P.F. Auditory-visual speech recognition by hearing-impaired subjects: Consonant recognition, sentence recognition, and auditory-visual integration // The Journal of the Acoustical Society of America, 1998. №103(5). P. 2677–2690.
27. Green K. P., Kuhl P. K. Integral processing of visual place and auditory voicing information during phonetic perception // Journal of Experimental Psychology: Human Perception and Performance. 1991. №17. P. 278–288.
28. Green K.P., Gerdeman A. Cross-Modal discrepancies in coarticulation and the integration of speech information: The McGurk effect with mismatched vowels // Journal of Experiment Psychology: Human Perception and Performance. 1995. №21(6), P. 1409–1426.
29. Hollich G., Newman R.S., Jusczyk P.W. Infants’ use of synchronized visual information to separate streams of speech // Child Development. 2005. №76(3). P. 598–613.
30. Inter-language differences in the McGurk effects for Dutch and Cantonese listeners / de Gelder B. [et al.] // Eurospeech 1995: Proceedings of the Fourth European Conference on Speech Communication and Technology. 1995. №18(21). P. 1699–1702.
31. Karpov A.A. An Automatic Multimodal Speech Recognition System with Audio and Video Information // Automatic Remote Control. 2014. №75(12). P. 2190–2217.
32. Kelly S.D., Kravitz C., Hopkins M. Neural correlates of bimodal speech and gesture comprehension // Brain Lang. 2004. №89(1). P. 253–260.
33. Kuhl P. K., Meltzoff A.N. The bimodal perception of speech in infancy // Science. 1982. №218. P. 1138–1141.
34. Lipreading and audiovisual speech recognition across the adult lifespan: Implications for audiovisual integration / Tye-Murray N. [et al.] // Psychology and Aging. 2016. №31(4). P. 380–389.
35. Massa L.J., Mayer R.E. Testing the ATI hypothesis: Should multimedia instruction accommodate verbalizer-visualizer cognitive style? // Learning and Individual Differences. 2006. №16(4). P. 321–335.
36. Massaro D.W., Cohen M.M., Smeele P.M. Cross-linguistic comparisons in the integration of visual and auditory speech // Memory & Cognition. 1995. №23(1). P. 113–131.
37. Mayer R.E. Cognitive Theory of Multimedia Learning // Cambridge Handbook of Multimedia Learning. New York: Cambridge University Press. 2010. P. 31–48.
38. McGurk H., MacDonald J. Hearing lips and seeing voices // Nature. 1976. P. 746–748.
39. Mismatch negativity evoked by the McGurk–MacDonald effect: A phonetic representation within short-term memory / Colin C. [et al.] // Clinical Neurophysiology: Official Journal of the International Federation of Clinical Neurophysiology. 2002. №113. P. 495–506.
40. Oldakowski T. A multimodal assignment that enriches literacy learning: the problem // Insight A Journal of Scholarly Teaching. 2014. №9. P. 70–77.
41. Petrova T. Text presentation and information processing in Russian // 12th International Conference of Experimental Linguistics. International Society of Experimental Linguistics. 2021. P. 164–167.
42. Riekhakaynen E., Skorobagatko L. Written, not spoken or too much to read: How to present information more effectively? // Neurobiology of Speech and Language. Proceedings of the 5th International Conference on Neurobiology of Speech and Language. 2021. P. 15–16.
43. Riekhakaynen E., Zatevalova E. Should we believe our eyes or our ears? Processing incongruent audiovisual stimuli by Russian listeners // Speech and Computer. SPECOM 2022. Lecture Notes in Computer Science, 13721. Springer, Cham, 2022. P. 604–615.
44. Rosenblum L.D., Schmuckler M.A., Johnson J.A. The McGurk effect in infants // Perception & Psychophysics. 1997. №59(3). P. 347–357.
45. Sekiyama K. Cultural and linguistic factors in audiovisual speech processing: The McGurk effect in Chinese subjects // Perception & Psychophysics. 1997. №59(1). P. 73–89.
46. Sekiyama K., Burnham D. Impact of language on development of auditory-visual speech perception // Developmental Science. 2008. №11(2). P. 306–320.
47. Sekiyama K., Burnham D. Issues in the development of auditory-visual speech perception: Adults, infants, and children // Eighth International Conference on Spoken Language Processing INTERSPEECH-2004. 2004. P. 1137–1140.
48. Sekiyama K., Tohkura Y.I. Inter-language differences in the influence of visual cues in speech perception // Journal of Phonetics. 1993. №21(4). P. 427–444.
49. Shigeno S. Influence of vowel context on the audio‐visual speech perception of voiced stop consonants // Japanese Psychological Research. 2000. №42(3). P. 155–167.
50. Similar frequency of the McGurk effect in large samples of native Mandarin Chinese and American English speakers / Magnotti J.F. [et al.] // Experimental Brain Research. 2015. №233(9). P. 2581–2586.
51. Soto-Faraco S., Navarra J., Alsius A. Assessing automaticity in audiovisual speech integration: evidence from the speeded classification task // Cognition. 2004. №92(3). P. 13–23.
52. Speaker-Dependent Visual Command Recognition in Vehicle Cabin: Methodology and Evaluation / Ivanko D. [et al.] // SPECOM 2021. 2021. P. 291–302.
53. Speech and non-speech audio-visual illusions: a developmental study / Tremblay C. [et al.] // PLOS ONE. 2007. №2(8). P. 742.
54. Summerfield Q. Some preliminaries to a comprehensive account of audiovisual speech perception // Hearing by eye: Psychology of lipreading Hillsdale. 1987. P. 3–51.
55. Svärdemo Åberg E., Åkerfeldt A. Design and recognition of multimodal texts: Selection of digital tools and modes on the basis of social and material premises? // Journal of Computers in Education. 2017. №4(3). P. 283–306.
56. Temporal constraints on the McGurk effect / Munhall K.G. [et al] // Perception & psychophysics. 1996. P. 351–362.
57. The influence of color and label information on flavor perception / Shankar M.U. [et al.] // Chemosensory Perception. 2009. P. 53–58.
58. The intermodal representation of speech in newborns / Aldridge M.A. [et al.] // Developmental Science. 1999. №2(1). P. 42–46.
59. Traunmüller H., Öhrström N. Audiovisual perception of openness and lip rounding in front vowels // Journal of Phonetics. 2007. №35(2). P. 244–258.
60. Wang R. Audiovisual perception of Mandarin lexical tones. Doctoral dissertation, Bournemouth University. 2018. 210 p.
61. Wu J. Speech perception and the McGurk effect: A cross cultural study using event-related potentials. 2009. 102 p.
62. Yang Z. A cross-linguistic examination on the McGurk effect in different developmental states. Master’s Thesis in Linguistics. Utrecht: Utrecht University, 2021. 73 p.
63. Zampini M., Spence, C. The role of auditory cues in modulating the perceived crispness and staleness of potato chips // Journal of Sensory Studies. 2004. P. 347–363.