Тема: Исследование значимых лингвистических характеристик в задаче автоматического определения типа автора
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава I. Теоретические предпосылки исследования 9
Язык Интернета как объект лингвистического исследования 9
2. Лингвистические особенности языка Интернета 10
2.1. Фонологические особенности 11
2.2. Морфемные и словообразовательные особенности 11
2.3. Лексические и семантические особенности 12
3. Определение понятия «блог» 13
4. Анализ тональности 15
5. Автоматическое определение типа автора 18
Выводы к Главе I 21
Глава II. Инструменты исследования 24
Sketch Engine 24
2.2. Веб-ресурс Linis Crowd 2221
2.3. SentiStrength 28
Выводы к Главе II 30
Глава III. Исследование лингвистических характеристик 32
3.1. Общая характеристика практической части 32
3.2. Сравнение частотных списков со словарем тональности 33
3.3. Анализ тональности текста с помощью программы SentiStrength 34
3.4. Анализ средств выражения экспрессивности текстов о волонтерских стажировках 38
3.4.1. Эмотиконы 39
3.4.2. Смайлики 40
3.4.3. Другие средства выражения эмоций 40
3.5. Анализ средств выражения экспрессивности в текстах о профессиональных стажировках 42
3.6. Сравнение типичных n-грамм текстов блогов волонтерских и профессиональных стажировок 43
3.7. Сравнение типичных синтаксических структур предложений текстов блогов волонтерских и профессиональных стажировок 2243
Выводы к Главе III 53
Заключение 56
Список литературы 61
Приложение 1. Список тэгов, заменяющих смайлики 67
Приложение 2. Список стоп-слов 68
Приложение 3. Список эмоционально окрашенных слов текстов о волонтерских стажировках 70
Приложение 4. Список эмоционально окрашенных слов текстов о профессиональных стажировках 84
Приложение 5. Частотный список средств выражения эмоциональности в текстах волонтерских блогов 87
Приложение 6. Поисковые запросы для нахождения словосочетаний с помощью языка регулярных выражений 88
Приложение 7. Пример частотного списка именных (субстантивных) словосочетаний текстов блогов профессиональных стажировок (первые 100 словосочетаний) 89
Приложение 8. Поисковые запросы для нахождения структурных схем простого предложения с помощью языка регулярных выражений 94
Приложение 9. Пример частотного списка структурной схемы простого предложений N1 - N1 текстов блогов профессиональных стажировок 98
📖 Введение
Отмечается воздействие компьютеров и глобальной сети на русский язык с двух сторон: во-первых, происходит одновременное усложнение одних и упрощение других средств сравнительно с аналогичными в русском языке, не подвергшимися воздействию глобальной сети, а во-вторых, видна конкуренция норм письменного устного языков. В целом же, можно констатировать тот факт, что язык Интернета пока остается недо статочно изученным в современной лингвистике и находится под пристальным вниманием лингвистов [Селютин 2009].
В качестве материала для исследования были рассмотрены тексты блогов стажеров, которые участвовали в программах международных обменов от организации AIESEC. Стажеры выбирают волонтерскую программу по одному из семнадцати направлений, соответствующих целям устойчивого развития ООН, либо стажировку в профессиональной сфере (маркетинг или преподавание). В данной работе были использованы как раз такие блоги.
Выбор данного материала был продиктован следующими особенностями:
1. Стажировки по данным направлениям являются одинаковыми по времени (6-8 недель или 6 месяцев), а также абсолютное большинство стажеров ведут блоги для описания своего опыта, что позволяет собрать значительный объем текстов, в которых описаны самые разные ситуации.
2. Стажировки проходили в разных странах, а люди, участвовавшие в них, приезжали из разных городов России, что позволило исключить возможность преобладания определенного диалекта.
Цель научно-исследовательской работы состоит в изучении и сравнении лингвистических характеристик языка Интернета (тональности, типичных n- грамм и синтаксических структур) на основе анализа текстов интернет-блогов, которые помогут при автоматической обработке блогов и определении типа автора, написавшего блог.
В работе было произведено сравнение корпусов двух типов: 1) корпус, содержащий тексты стажировок волонтеров (370000 словоупотреблений); 2) корпус, содержащий тексты профессиональных стажировок (350000 словоупотреблений). С помощью лингвистических характеристик будет
проверена гипотеза, что между блогами определенного типа и группой авторов наблюдается корреляция, поэтому тексты различных типов отличатся между собой. Авторы, которые вели записи о волонтерских стажировках, в большинстве своем являются студентами 2-3 курсов бакалавриата, их возраст находится в пределах 19-23 лет, обычно они пока не получают профессионального опыта. Стажировки посвящены волонтерству и длятся 6-8 недель.
В стажировках профессионального плана принимают участие недавние выпускники высших учебных заведений, им около 23-27 лет, у них уже либо был опыт работы, либо они уже задумывались о нем и именно за этим выбрали стажировку для получения такого опыта. Стажировки проходят в определенных сферах — маркетинг и преподавание — и продолжаются в среднем 6 месяцев.
Таким образом, мы явно видим, что типы авторов, написавших блоги различных корпусов, отличаются между собой, поэтому мы и попытались выявить конкретные различия в тональности текстов и в употреблении определенных n- грамм и синтаксических структур предложений.
Научная новизна и теоретическая значимость данной работы состоят в расширении лингвистических знаний о компьютерной коммуникации и блога как ее жанра. В работе рассмотрены языковые особенности интернет-языка и типичные характеристики блогов в соответствии с текущим уровнем развития Глобальной сети. Блоги изучены с точки зрения тональности и особенностей n- грамм и синтаксических конструкций текстов, которые помогут при автоматическом определении типов авторов.
Задачи настоящей работы заключаются в следующем:
1. Создание корпусов блогов волонтерских и профессиональных стажировок с заменой всех эмотиконов на специально введенные хэштэги и составление частотного списка лексем.
2. Анализ тональности блогов с помощью словаря тональности проекта Linis Crowd, программы SentiStrength, а также оценки такого явления как использование эмотиконов и удлинения слов.
3. Извлечение п-грамм из текстов и исследование типичных слово сочетаний.
4. Извлечение типичных для данных текстов синтаксических структур предложений с помощью языка регулярных выражений и программы SketchEngine.
5. Сравнение полученных результатов для корпусов двух типов.
Методы исследования: в ходе эксперимента были использованы корпусный, статистический и дистрибутивный анализ.
✅ Заключение
Мы подробно описывали фонетические, лексические, семантические и синтаксические особенности интернет-текстов, а также характерные черты блогов. Мы также рассмотрели способы выражения экспре ссивности в таких текстах и то, как они применяются при анализе тонально сти.
Мы также перечислили основные инструменты нашего исследования и их функции, которые мы использовали. В частности, мы рассказали о принципах работы программ Sketch Engine и SentiStrength, а также о свойствах краудсорсингового словаря тональности LinisCrowd.
Основные выводы были сделаны в результате ряда экспериментов по изучению тональности и синтаксических структур текстов блогов. Как мы уже упоминали, авторы текстов различаются по возрасту, образованию и опыту работы. С помощью программ Sketch Engine и SentiStrength и тонального словаря LinisCrowd мы провели анализ тонально сти наших текстов и сравнили синтаксические структуры словосочетания и предложений. Основные выводы нашего исследования следующие:
1. Анализ тональности текстов показал большой процент использования различных средств выражения экспрессивности в текстах блогов волонтерских стажировок (114219 вхождений при общем объеме корпуса 370000 вхождений), в частности, эмоционально окрашенных слов, предложения, эмотиконов, удлинений слов и т.д. В блогах профессиональных стажировок ситуация иная: было извлечено всего лишь 9575 вхождений средств выражения экспрессивности при объеме корпуса 350000 словоупотреблений. Таким образом, тексты блогов волонтерских стажировок наиболее насыщенны в эмоциональном плане: авторы блогов о волонтерских стажировках используют в 12 раз больше различных средств выражения экспрессивной окраски, чем авторы блогов о профессиональных стажировках.
2. Были описаны основные синтаксические структуры словосочетаний в русском языке, которые были найдены в текстах блогов с помощью регулярных выражений. Процент их распределения в текстах блогов одинаковый, таким образом можно сделать вывод о том, что в плане синтаксиса словосочетаний различий практически нет.
3. Синтаксис простых предложений представляет собой существенное различие в текстах блогов. Тексты волонтерских стажировок являются более образными за счет использования различных фразеологизированных структур и именных предложений, в то время как блоги профессиональных стажировок напротив более формальны и содержат множество глагольных структур.
Таким образом, нами были выявлены основные характеристики, которые в дальнейшем возможно использовать при определении авторства интернет-блогов. В ходе работы была подтверждена гипотеза о том, что способ построения предложений коррелирует с типом автора. Авторы текстов волонтерских стажировок пишут более эмоционально, в их блогах присутствует большее количество не только тонально окрашенной лексики, но и иных средств выражения экспрессивности, в том числе для передачи устной речи. Пишущие о профессиональных стажировках используют конструкции с глаголами и строят более формальные высказывания.
Стоит отметить, что существует не так много исследований, посвященных анализу тональности средств выражения эмоциональности, кроме эмоционально окрашенных слов и предложений, а также типичным синтаксическим структурам слово сочетаний и предложений.
В будущем можно продолжить исследование в данном направлении, используя дополненный ряд лингвистических характеристик, напр., морфологические и семантические признаки, а также в плане создания отдельных программ для определения авторства с применением данных признаков.



