Тип работы:
Предмет:
Язык работы:


Исследование значимых лингвистических характеристик в задаче автоматического определения типа автора

Работа №68786

Тип работы

Бакалаврская работа

Предмет

математика

Объем работы99
Год сдачи2017
Стоимость3850 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
544
Не подходит работа?

Узнай цену на написание


Введение 6
Глава I. Теоретические предпосылки исследования 9
Язык Интернета как объект лингвистического исследования 9
2. Лингвистические особенности языка Интернета 10
2.1. Фонологические особенности 11
2.2. Морфемные и словообразовательные особенности 11
2.3. Лексические и семантические особенности 12
3. Определение понятия «блог» 13
4. Анализ тональности 15
5. Автоматическое определение типа автора 18
Выводы к Главе I 21
Глава II. Инструменты исследования 24
Sketch Engine 24
2.2. Веб-ресурс Linis Crowd 2221
2.3. SentiStrength 28
Выводы к Главе II 30
Глава III. Исследование лингвистических характеристик 32
3.1. Общая характеристика практической части 32
3.2. Сравнение частотных списков со словарем тональности 33
3.3. Анализ тональности текста с помощью программы SentiStrength 34
3.4. Анализ средств выражения экспрессивности текстов о волонтерских стажировках 38
3.4.1. Эмотиконы 39
3.4.2. Смайлики 40
3.4.3. Другие средства выражения эмоций 40
3.5. Анализ средств выражения экспрессивности в текстах о профессиональных стажировках 42
3.6. Сравнение типичных n-грамм текстов блогов волонтерских и профессиональных стажировок 43
3.7. Сравнение типичных синтаксических структур предложений текстов блогов волонтерских и профессиональных стажировок 2243
Выводы к Главе III 53
Заключение 56
Список литературы 61
Приложение 1. Список тэгов, заменяющих смайлики 67
Приложение 2. Список стоп-слов 68
Приложение 3. Список эмоционально окрашенных слов текстов о волонтерских стажировках 70
Приложение 4. Список эмоционально окрашенных слов текстов о профессиональных стажировках 84
Приложение 5. Частотный список средств выражения эмоциональности в текстах волонтерских блогов 87
Приложение 6. Поисковые запросы для нахождения словосочетаний с помощью языка регулярных выражений 88
Приложение 7. Пример частотного списка именных (субстантивных) словосочетаний текстов блогов профессиональных стажировок (первые 100 словосочетаний) 89
Приложение 8. Поисковые запросы для нахождения структурных схем простого предложения с помощью языка регулярных выражений 94
Приложение 9. Пример частотного списка структурной схемы простого предложений N1 - N1 текстов блогов профессиональных стажировок 98


В настоящее время все больше людей — а число таких стремится к абсолютному большинству — используют социальные сети для выражения своего мнения и своих эмоций с помощью написания текстов, называемых блогами. При этом возникает такое удивительное явление, как язык Интернета, который сочетает в себе характеристики разговорного языка и чего-то нового, что не используется при письменном и устном общении: хэштеги, смайлики, ненормативная пунктуация.
Отмечается воздействие компьютеров и глобальной сети на русский язык с двух сторон: во-первых, происходит одновременное усложнение одних и упрощение других средств сравнительно с аналогичными в русском языке, не подвергшимися воздействию глобальной сети, а во-вторых, видна конкуренция норм письменного устного языков. В целом же, можно констатировать тот факт, что язык Интернета пока остается недо статочно изученным в современной лингвистике и находится под пристальным вниманием лингвистов [Селютин 2009].
В качестве материала для исследования были рассмотрены тексты блогов стажеров, которые участвовали в программах международных обменов от организации AIESEC. Стажеры выбирают волонтерскую программу по одному из семнадцати направлений, соответствующих целям устойчивого развития ООН, либо стажировку в профессиональной сфере (маркетинг или преподавание). В данной работе были использованы как раз такие блоги.
Выбор данного материала был продиктован следующими особенностями:
1. Стажировки по данным направлениям являются одинаковыми по времени (6-8 недель или 6 месяцев), а также абсолютное большинство стажеров ведут блоги для описания своего опыта, что позволяет собрать значительный объем текстов, в которых описаны самые разные ситуации.
2. Стажировки проходили в разных странах, а люди, участвовавшие в них, приезжали из разных городов России, что позволило исключить возможность преобладания определенного диалекта.
Цель научно-исследовательской работы состоит в изучении и сравнении лингвистических характеристик языка Интернета (тональности, типичных n- грамм и синтаксических структур) на основе анализа текстов интернет-блогов, которые помогут при автоматической обработке блогов и определении типа автора, написавшего блог.
В работе было произведено сравнение корпусов двух типов: 1) корпус, содержащий тексты стажировок волонтеров (370000 словоупотреблений); 2) корпус, содержащий тексты профессиональных стажировок (350000 словоупотреблений). С помощью лингвистических характеристик будет
проверена гипотеза, что между блогами определенного типа и группой авторов наблюдается корреляция, поэтому тексты различных типов отличатся между собой. Авторы, которые вели записи о волонтерских стажировках, в большинстве своем являются студентами 2-3 курсов бакалавриата, их возраст находится в пределах 19-23 лет, обычно они пока не получают профессионального опыта. Стажировки посвящены волонтерству и длятся 6-8 недель.
В стажировках профессионального плана принимают участие недавние выпускники высших учебных заведений, им около 23-27 лет, у них уже либо был опыт работы, либо они уже задумывались о нем и именно за этим выбрали стажировку для получения такого опыта. Стажировки проходят в определенных сферах — маркетинг и преподавание — и продолжаются в среднем 6 месяцев.
Таким образом, мы явно видим, что типы авторов, написавших блоги различных корпусов, отличаются между собой, поэтому мы и попытались выявить конкретные различия в тональности текстов и в употреблении определенных n- грамм и синтаксических структур предложений.
Научная новизна и теоретическая значимость данной работы состоят в расширении лингвистических знаний о компьютерной коммуникации и блога как ее жанра. В работе рассмотрены языковые особенности интернет-языка и типичные характеристики блогов в соответствии с текущим уровнем развития Глобальной сети. Блоги изучены с точки зрения тональности и особенностей n- грамм и синтаксических конструкций текстов, которые помогут при автоматическом определении типов авторов.
Задачи настоящей работы заключаются в следующем:
1. Создание корпусов блогов волонтерских и профессиональных стажировок с заменой всех эмотиконов на специально введенные хэштэги и составление частотного списка лексем.
2. Анализ тональности блогов с помощью словаря тональности проекта Linis Crowd, программы SentiStrength, а также оценки такого явления как использование эмотиконов и удлинения слов.
3. Извлечение п-грамм из текстов и исследование типичных слово сочетаний.
4. Извлечение типичных для данных текстов синтаксических структур предложений с помощью языка регулярных выражений и программы SketchEngine.
5. Сравнение полученных результатов для корпусов двух типов.
Методы исследования: в ходе эксперимента были использованы корпусный, статистический и дистрибутивный анализ.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Наше исследование было посвящено анализу текстов блогов волонтерских и профессиональных стажировок, которые были написаны участниками данных программ. Авторы этих текстов отличаются между собой по возрасту, образованию и опыту работы. Для того чтобы выявить определенные признаки, которые помогут в различении текстов, мы изучили теоретические вопросы, связанные с языком Интернета, определили жанр блогов Глобальной сети и рассмотрели способы применения анализа тональности к текстам блогов.
Мы подробно описывали фонетические, лексические, семантические и синтаксические особенности интернет-текстов, а также характерные черты блогов. Мы также рассмотрели способы выражения экспре ссивности в таких текстах и то, как они применяются при анализе тонально сти.
Мы также перечислили основные инструменты нашего исследования и их функции, которые мы использовали. В частности, мы рассказали о принципах работы программ Sketch Engine и SentiStrength, а также о свойствах краудсорсингового словаря тональности LinisCrowd.
Основные выводы были сделаны в результате ряда экспериментов по изучению тональности и синтаксических структур текстов блогов. Как мы уже упоминали, авторы текстов различаются по возрасту, образованию и опыту работы. С помощью программ Sketch Engine и SentiStrength и тонального словаря LinisCrowd мы провели анализ тонально сти наших текстов и сравнили синтаксические структуры словосочетания и предложений. Основные выводы нашего исследования следующие:
1. Анализ тональности текстов показал большой процент использования различных средств выражения экспрессивности в текстах блогов волонтерских стажировок (114219 вхождений при общем объеме корпуса 370000 вхождений), в частности, эмоционально окрашенных слов, предложения, эмотиконов, удлинений слов и т.д. В блогах профессиональных стажировок ситуация иная: было извлечено всего лишь 9575 вхождений средств выражения экспрессивности при объеме корпуса 350000 словоупотреблений. Таким образом, тексты блогов волонтерских стажировок наиболее насыщенны в эмоциональном плане: авторы блогов о волонтерских стажировках используют в 12 раз больше различных средств выражения экспрессивной окраски, чем авторы блогов о профессиональных стажировках.
2. Были описаны основные синтаксические структуры словосочетаний в русском языке, которые были найдены в текстах блогов с помощью регулярных выражений. Процент их распределения в текстах блогов одинаковый, таким образом можно сделать вывод о том, что в плане синтаксиса словосочетаний различий практически нет.
3. Синтаксис простых предложений представляет собой существенное различие в текстах блогов. Тексты волонтерских стажировок являются более образными за счет использования различных фразеологизированных структур и именных предложений, в то время как блоги профессиональных стажировок напротив более формальны и содержат множество глагольных структур.
Таким образом, нами были выявлены основные характеристики, которые в дальнейшем возможно использовать при определении авторства интернет-блогов. В ходе работы была подтверждена гипотеза о том, что способ построения предложений коррелирует с типом автора. Авторы текстов волонтерских стажировок пишут более эмоционально, в их блогах присутствует большее количество не только тонально окрашенной лексики, но и иных средств выражения экспрессивности, в том числе для передачи устной речи. Пишущие о профессиональных стажировках используют конструкции с глаголами и строят более формальные высказывания.
Стоит отметить, что существует не так много исследований, посвященных анализу тональности средств выражения эмоциональности, кроме эмоционально окрашенных слов и предложений, а также типичным синтаксическим структурам слово сочетаний и предложений.
В будущем можно продолжить исследование в данном направлении, используя дополненный ряд лингвистических характеристик, напр., морфологические и семантические признаки, а также в плане создания отдельных программ для определения авторства с применением данных признаков.



1. Арутюнова Н.Д. Дискурс [Текст] // Лингвистический энциклопедический словарь. М., 1990. С.136.
2. Ахманова, О.С. Словарь лингвистических терминов [Текст] // М.: Советская энциклопедия, 1966.
3. Бергельсон М.Б. Языковые аспекты виртуальной коммуникации (языковое поведение в сети Интернет) [Текст] // Вестн. МГУ. Сер. 19. Лингвистика и межкультурная коммуникация. 2002. №1. С.55-67.
4. В поисках потерянного автора: этюды атрибуции [Текст] / М. А. Марусенко, Б. Л. Бессонов, Л. М. Богданова и др. - СПб. : Филол. фак. С.- Петерб. гос. ун-та, 2001. - с. 209.
5. Горошко Е.И. Интернет-жанр и функционирование языка в Интернете: попытка рефлексии [Текст] / Е.И. Горошко // Жанры речи. - Саратов: Издательский центр «Наука», 2009. - Выпуск 6 «Жанр и язык». - C.11-127.
6. Горошко Е. И. Теоретический анализ Интернет-жанров [Текст] / Е.И. Горошко // Жанры речи. Выпуск 5 «Жанр и культура». - Саратов: Издательский центр «Наука», 2007.
7. Дюрдева П.С. Автоматическое определение автора текста на основе распределения частот буквосочетаний [Текст]: диплом. работа / Дюрдева Полина Сергеевна. — Санкт-Петербург, 2016. — с. 4-7.
8. Иванов Л. Ю. Язык Интернета: заметки лингвиста [Электронный ресурс] / Л. Ю. Иванов // Словарь и культура устной речи. - М.: Азбуковник, 2000. - С. 131-147. URL: www.ivanoff.ru/rus/ozhweb.htm. Дата обращения: 28.10.2016
9. Казаков В.П. Словосочетание. Аспекты характеристики словосочетания [Текст] / В.П. Казаков // Синтаксис современного русского языка. — СПбГУ, 2013. — с. 47-48.
10. Карнуп Е.В. Многоязычная коммуникация в сети Интернет как сфера реализации механизмов компрессии сообщений (на материале микроблогов
системы Твиттер) [Текст]: дис. ... канд. филол. наук: 10.02.21 / Карнуп Екатерина Владимировна. — Санкт-Петербург, 2014. — с. 36-67.
11. Кольцов С. Н., Павлова Ю., Кольцова О. Ю. Метод автоматического анализа тональности текста в применении к социологическим задачам [Электронный ресурс] // Методическое пособие. М., 2012. URL: http:// openbooks.ifmo.ru/ru/file/2203/2203.pdf. Дата обращения: 18.04.2017
12. Кувшинская Ю.М. Аббревиация в речи интернет-форумов [Текст] / Ю.М. Кувшинская // Современный русский язык в интернете. — М., 2014. — с. 23-38.
13. Кузнецова, Н. В. Фонетическое письмо в интернет-коммуникации в сопоставлении с другими типами текстов (по материалам национального корпуса русского языка, www.ruscorpora.ru) [Текст] / Н. В. Кузнецова // Духовные основы славянской культуры в народном сознании поколений. - Тюмень : Вектор бук, 2009. - С. 121-124.
14. Куликова А.В. Особенности Интернет-коммуникаций [Текст] / Куликова А.В. // Вестник Нижегородского университета им. Н.И. Лобачевского. Серия «Социальные науки», 2012, №4(28), с.19-24.
15. Лаборатория цифрового общества [Электронный ресурс]. URL: http:// digsolab.ru/. Дата обращения: 20.05.2017.
16. Марусенко М. А. Атрибуция анонимных и псевдонимных литературных произведений методами распознавания образов [Текст] / М. А. Марусенко. - Л.: Изд-во Ленингр. ун-та, 1990. - с. 164.
17. Мичурин, Д. С. Прецедентный поликодовый текст в вербально-изобразительной коммуникации интернет-сообществ (на материале русскоязычных имидж-форумов) [Текст]: дис. . канд. филол. наук : 10.02.19 / Мичурин Дмитрий Сергеевич. - Тверь, 2014. - 162 с.
18. Морослин П.В. Структурно-семантические параметры веб-блогов как особого речевого жанра [Текст] // Вестник Тамбовского университета. Серия: гуманитарные науки. — 2009. - №12, с.332-337.
19. Мощенкова Д.С., Кривицкая Д.А., Амосова Н.С. Обзор программных продуктов разработанных для атрибуции художественных текстов [Электронный ресурс] // Молодежь и наука: сборник материалов Х Юбилейной Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых с международным участием, посвященной 80-летию образования Красноярского края. — Красноярск: Сибирский федеральный ун-т, 2014. URL: http://elib.sfu-kras.ru/bitstream/handle/ 2311/17293/s43 010.pdf?sequence=1&isAllowed=y. Дата обращения: 15.05.2017.
20. Объяснительный словарь русского языка: Структурные слова: предлоги, союз, частицы, междометия, вводные слова, местоимения, числительные, связанные слова [Текст] // Гос. ин-т рус. яз. им. А. С. Пушкина; В. В. Морковкин, Н. М. Луцкая, Г. Ф. Богачёва и др.; Под ред. В. В. Морковкина. -2-е изд., испр. - М.: ООО «Издательство Астрель», 2003.
21. Ожегов С. И. Словарь русского языка [Текст]. — М., 1974.
22. Павлова Ю.В. Выявление социально значимых тем в блогах (на примере Живого Журнала) [Текст] // Магистерская диссертация, Высшая Школа Экономики, Санкт-Петербург, 2012.
23. Пазельская А.Г., Соловьев А.Н. Метод определения эмоций в текстах на русском языке [Электронный ресурс]. — М., 2011. URL: http:// www.dialog-21.ru/media/1451/50.pdf. Дата обращения: 25.04.2017.
24. Плисецкая А.Д. О языковых и риторических стратегиях выражения оценки у пользователей социальной сети Фейсбук [Текст] / А.Д. Плисецкая// Современный русский язык в интернете. — М., 2014. — с. 83-92.
25. Романов А.С. Методика и программный комплекс для идентификации автора неизвестного текста [Текст]: дис. ... канд. техн. наук : 05.13.18 / Романов Александр Сергеевич. - Томск, 2010. - с 5.
26. Русская грамматика [Текст] / Под ред. Н.Ю. Шведовой. Т.1. М., 1980. — c.262.
27. Русская грамматика [Текст] / Под ред. Н.Ю. Шведовой. Т.П. М., 1980. - с. 98-100.
28. Селютин А.А. Жанры как форма коммуникативного выражения онлайновой личности [Текст]/ А.А. Селютин// Вестник Челябинского государственного университета. - 2009. - №35 (173). - Филология. Искусствоведение. - Вып.37. - с. 138-141.
29. Синелева А. В. Атрибуция «Романа с кокаином»: лингвостатистическое исследование [Текст] : автореф. дис. ... канд. филол. наук : 10.02.21 / Синелева Анастасия Васильевна ; Санкт-Петербургский гос. ун-т. - СПб: изд-во СПбГУ, 2001. - с. 22.
30. Тональный словарь веб-ресурса Linis Crowd [Электронный ресурс]. URL: http://linis-crowd.org/. Дата обращения: 21.10.2016
31. Трофимова, Г. Н. К вопросу о специфике функционирования русского языка в Интернете (норма и узус) [Электронный ресурс] / Г. Н. Трофимова. - 198 2001. - URL: http://www.dialog-21.ru/archive/2001/ volume 1/1 39.htm. Дата обращения: 25.09.2016.
32. Argamon S., Koppel M., Fine J., Shimoni A. Gender, genre, and writing style in formal written texts [Текст]. — TEXT, 23, 2003. — pp.321-346.
33. Brody S., Diakopoulos N. Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs [Электронный ресурс]. — 2011. URL: http://www.nickdiakopoulos.com/wp-content/uploads/2007/05/ BrodyDiakopoulosEMNLP11pp.pdf. Дата обращения: 24.04.2017
34. Burger J., Henderson J., Kim G., Zarrella G.. Discriminating gender on twitter. In Proceedings of the Conference on Empirical Methods in Natural Language Processing [Текст]. — EMNLP ’11, Stroudsburg, PA, USA, 2011. — pp.1301-1309.
35. Chetviorkin I., Loukachevitch N. Extraction of Russian Sentiment Lexicon for Product Meta-Domain [Текст] // In Proceedings of COLING 2012: Technical Papers, 2012. pp. 593-610.
Goswami S., Sarkar S., Rustagi M. Stylometric analysis of bloggers’
age and gender [Текст]. — The AAAI Press, 2009. — pp. 214-217.
37. Hao Wang, Jorge A. Sentiment Expression via Emoticons on Social Media [Электронный ресурс]. — San Jose, USA, 2015. URL: https://arxiv.org/ftp/ arxiv/papers/1511/15U.02556.pdf Дата обращения: 20.04.2017
38. Holmes J., Meyerhoff M. The Handbook of Language and Gender [Текст]. — Blackwell Handbooks in Linguistics, Wiley, 2003. — pp. 43-47.
39. Kilgarriff Adam, Rychly Pavel, Smrz Pavel, Tugwell David. The Sketch Engine. In Proc EURALEX 2004, Lorient, France; Pp. 105-116.
40. Koltsova O.Y., Alexeeva S.V., Kolcov S.N. An Opinion Word Lexicon and a Training Dataset for Russian Sentiment Analysis of Social Media [Текст] // Компьютерная лингвистика и интеллектуальные технологии. 2016. — c. 277-287.
41. Koppel M., Argamon S., Shimoni A. Automatically categorizing written texts by author gender [Текст] / Literary and Linguistic Computing, 17 (4). — Amsterdam, 2003. — pp. 401-412.
42. Meina M., Brodzinska K., Celmer B., Czokow M., Patera, M., Pezacki J. et al. Ensemble-based classification for author profiling using various features notebook for PAN at CLEF 2013 [Электронный ресурс]. — 2013. URL: http:// www-users.mat.umk.pl/~mich/pub/clef 2013.pdf. Дата обращения: 17.05.2017.
43. Merriam-Webster Online [Электронный ресурс]. URL: http:// www.merriam-webster.com/. Дата обращения: 03.11.2016.
44. Nguyen D., Gravel R., Trieschnigg D., Meder T. “How Old Do You Think I Am?”: A Study of Language and Age in Twitter [Текст]. — Proceedings of the Seventh International AAAI Conference on Weblogs and Social Media, 2013. — pp. 439-447.
45. Novak P.K., Smailovic J., Sluban B., Mozetic I. Sentiment of Emojis [Электронный ресурс]. — 2015. URL: https://doi.org/ 10.1371/journal.pone. 0144296. Дата обращения: 17.04.2017.
46. Nowson S. The language of weblogs: a study of genre and individual differences. PhD Thesus (Unpublished manuscript) [Текст] // S. Nowson. — University of Edinburgh, 2006. — p. 279.
47. Peersman C., Daelemans W., Vaerenbergh L. Predicting age and gender in online social networks [Текст]. — In Proceedings of the 3rd international workshop on Search and mining user-generated contents, SMUC ’11, New York, NY, USA, 2011. — pp. 37-44.
48. Pennebaker J.W. The secret life of pronouns: What our words say about us [Текст] / Bloomsbury Press. — 2011. — pp. 154-157.
49. Rangel F., Rosso P., Koppel, M., Stamatatos, E., Inches, G. Overview of the author profiling task at PAN 2013 [Электронный ресурс]. — 2013. URL: http://ceur-ws.org/Vol-1179/CLEF2013wn-PAN-RangelEt2013.pdf. Дата обращения: 17.05.2017.
50. Rangel F., Rosso P On the impact of emotions on author profiling [Текст] // Information Processing & Management, Volume 52, Issue 1. — 2016.
— pp.73-92.
51. Schler J., Koppel M., Argamon S., Pennebaker J. Effects of age and gender on blogging [Текст]. — In AAAI Spring Symposium: Computational Approaches to Analyzing Weblogs, AAAI, 2006. — pp. 199-205.
52. SentiStrength [Электронный ресурс]. URL: http: //
sentistrength.wlv.ac.uk/index.html. Дата обращения: 11.04.2017.
53. Sketch Engine [Электронный ресурс]. URL: https:// the .sketchengine .co.uk/auth/corpora/. Дата обращения: 05.05.2016.
54. Thelwall M., Buckley K., Paltoglou G., Cai D., Kappas A. Sentiment strength detection in short informal text [Текст] // Journal of the American Society for Information Science and Technology, 61(12), 2010. — pp. 2544-2558.
55. WAN2TLK?: ltle bk of txt msgs [Текст] / editor Gabrielle Mander. — London: Michael O'Mara Books, 2000. — p. 96.
56. Zhang C., Zhang P Predicting gender from blog posts [Электронный ресурс]. — Technical report, Technical Report. University of Massachusetts Amherst, USA, 2010. URL: http://web.stanford.edu/~pyzhang/papers/ gender prediction.pdf Дата обращения: 18.05.2017


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ