COVID-19: Анализ эмоциональной окраски сообщений в социальных сетях (на материале сети «Twitter»)
|
Введение 3
Глава 1. Теоретические и методологические вопросы анализа тональности текстов 9
1.1. Понятие Sentiment Analysisи подходы к классификации тональности
текстов 9
1.2. Байесовский классификатор в задачах классификации текстов 16
1.3. Анализ тональности текстов в социальных сетях во время эпидемий и
вспышек болезней 18
1.4. Процедура и алгоритм анализа тональности текста 22
1.5. Анализ тональности текстов в Python с помощью TextBlob 24
1.6. Анализ тональности текстов с помощью онлайн-приложений 28
Глава 2. Анализ тональности COVID-19 сообщений 31
2.1. Построение выборок для анализа 33
2.2. Анализ тональности твитов с помощью Brand24 60
2.3. Анализ тональности Twitter в Python с помощью Textblob 83
Заключение 89
Список использованной литературы
Глава 1. Теоретические и методологические вопросы анализа тональности текстов 9
1.1. Понятие Sentiment Analysisи подходы к классификации тональности
текстов 9
1.2. Байесовский классификатор в задачах классификации текстов 16
1.3. Анализ тональности текстов в социальных сетях во время эпидемий и
вспышек болезней 18
1.4. Процедура и алгоритм анализа тональности текста 22
1.5. Анализ тональности текстов в Python с помощью TextBlob 24
1.6. Анализ тональности текстов с помощью онлайн-приложений 28
Глава 2. Анализ тональности COVID-19 сообщений 31
2.1. Построение выборок для анализа 33
2.2. Анализ тональности твитов с помощью Brand24 60
2.3. Анализ тональности Twitter в Python с помощью Textblob 83
Заключение 89
Список использованной литературы
Коронавирусная инфекция COVID-19, вызываемая вирусом SARS-CoV-2, в настоящее время стремительно распространяется по всему миру и приводит к резкому росту новых случаев инфицирования, а также смертей среди населения [Liu et al. 2020]. SARS-CoV-2 был обнаружен в Китае в конце 2019 года, и миллионы людей, в конечном итоге, были заражены [Velavan &Meyer 2020: 278-280]. Статистика отчетов Всемирной организации здравоохранения (ВОЗ) о ситуации на 10 января 2021 года показала 88 383 771 подтвержденных случая, включая число смертей 1 919 126 во всем мире [ВОЗ 2020]. Точные данные о COVID-19 могут быть получены только тогда, когда пандемия закончится, поскольку из-за постоянно меняющейся статистики обновление данных практически невозможно [Hamzah et al. 2020]. Из-за высоких рисков распространения заболевания 28 февраля 2020 года ВОЗ запустила протоколы экстренной помощи во всех медицинских системах [Epidemiol 2020: 139-144]. COVID-19 - не первая глобальная пандемия: в прошлом врачи и медицинские исследователи серьезно занимались различными вирусами, такими как Эбола [McMullan 2020], Mers-Cov и SARS; и их усилия не были напрасными [Elder et al. 2020]. Тем не менее, следует учитывать текущие тенденции развития технологий, которые показали свой вклад в принятие медицинских решений, связанных с инфекционными заболеваниями и их вспышками [Bhat et al. 2020, Soliman et al. 2020: 92-97]. В этом процессе используются исторические данные, и возможность к их доступу позволяет исследователям принимать более обоснованные решения и выводы [Pan et al. 2020: 86-91].
Одними из самых доступных и существующих в настоящее время источников получения данных можно выделить платформы социальных сетей, такие как Twitter, Facebook и YouTube [Tyagi & Tripathi 2019]. В то время как в социальных сетях люди свободно обсуждают и высказывают свои мнения о событиях, происходящих в повседневной жизни, или выражают эмоции, связанные с пандемией, многие исследователи и медицинские работники получают возможность анализировать появляющиеся данные, что помогает 3 медицинскому персоналу и государственным организациям понимать реакцию населения на происходящие события, извлекая пользу в интересах общества [Alsaeedi &Khan 2019]. Таким образом, социальные данные служат основой для анализа мнений и эмоционального отношения (тональности) автора текста к некоторым объектам, процессам или событиям, что привело к множеству исследований в области обработки текстов на естественном языке.
Повышенный интерес к тональному анализу и анализу субъективных мнений в пользовательских текстах относится к началу 2000-х гг. [Pang &Lee 2008]. С тех пор сложилось поле исследований тональности англоязычных текстов разного происхождения [Kan 2012]. Развитию конкурентных методов тонального анализа способствовали международные воркшопы. Так, команда под руководством Накова и Розенталя в рамках воркшопов SensEval и SemEval предложила для развития методов тонального анализа пять больших заданий (tasks), в которых разные группы ученых со всего мира применяли различные методики сентимент-анализа для решения одной и той же задачи [Nakov et al. 2016: 35-65]. Проводились подобные воркшопы и в России. Анализ тональности текста был изучен в трудах многих отечественных и зарубежных ученых и исследователей, таких как Д. Усталов [2012], И. Четверкин [2012], Н. Лукачевич [2012], А. Пазельская [2011], А. Соловьев [2011], И. Меньшиков [2012], М. Клековкина [2012], Е. Котельников [2012], Д. Яровски [1995], К. Страппарава [2004], А. Валитутти [2004], Б. Снайдер [2007], Р. Барзилай [2007], Н. Пономарева [2012], М. Телуолл [2012], Бо Панг [2002, 2004, 2005], Б. Маньини [2010], Г. Кавалья [2010], Б. Лю [2010], Н. Кобаяши [2006], Э. Голдберг [2006], Э. Камбрия [2009], В. Бобичев [2010], В. Ангелуш [2010], С. Баччанелла [2010], Э. Контопулос [2013], А. Хогенбум [2014], К. Шуанг [2018], П. Шарма [2020], Э. Камбрия [2020], К. Сингх [2020]. Так как речь идет об обработке текста на естественном языке, необходимо отметить, что большая часть литературы написана с целью обработки англоязычных текстов.
В книге «Sentiment Analysis and Opinion Mining» [Liu 2012: 10-108] показана важность применения данного анализа во всех сферах бизнеса и 4 социальной сферы, описана задача автоматического определения тональности текса, а также проблемы, c которыми чаще всего сталкиваются исследователи. Также интересной является книга «Прикладная и компьютерная лингвистика» на русском языке, которая дает возможность найти ответы на общие вопросы, связанные с компьютерной лингвистикой [Митренина и др. 2017].
Таким образом, анализ тональности текста сегодня можно считать одной из самых популярных тем исследований в области обработки естественного язка [Sailunaz &Alhajji 2019], и много молодых ученых работают над анализом тональности текстов из социальных сетей, например, касающихся болезни COVID-19. Так, Кор и Шарма анализируют тональность сообщений - твитов в социальной сети Twitter и определяют отношение людей к коронавирусной болезни COVID-19 [Kaur &Sharma 2020]. Кайла занимается сбором данных, подходящих для применения в экспериментах о новых вспышках COVID-2019 [Kaila 2020]. Мэдфорд составил список связанных с COVID-19 хэштегов - меток, которые использовались для распределения сообщений в социальных сетях и блогах, после чего был выполнен анализ их тональности для определения эмоциональной значимости каждого сообщения и выявления преобладающей эмоции [Medford 2020]. Под хештегом понимается начинающееся со знака решётки ключевое слово или несколько слов сообщения в микроблогах и социальных сетях, что облегчает поиск сообщений по теме или содержанию. Сайлуназ и Аль-Хадж проводят анализ тональности арабских твитов - записей в Twitter, содержащих хэштеги, относящиеся к введенными правительством мерам общественного здравоохранения, и измеряют количество положительных и отрицательных сообщений [Sailunaz &Alhajj 2019]. Пастор изучает отношение филиппинцев к карантину, вызванного пандемией COVID-19 [Pastor 2020]. Исследователь также анализирует влияние карантина на сообщества и изучает влияние пандемии на личный образ жизни на основе твитов пользователей. Гровер и Рати в своей работе собрали данные, относящиеся к твитам, и заявили, что количество сообщений в Твиттере, посвященных коронавирусу, постоянно растет [Grover &Rathi 2020]. Также 5
было выявлено очень много повторяющихся слов, таких как COVID-19 и Coronavirus. Ра при анализе тональности твитов определяет влияние коронавируса (COVID-19) на Землю, таким образом выявляя положительные и отрицательные мнения широкой общественности [Ra et al. 2020]. Дубей целью этого анализа ставит узнать, как люди в разных странах реагируют на вспышки болезни [Dubey 2020].
В перечисленных выше работах исследуется вопрос взаимосвязи социальных сетей и поведения людей во время пандемии GOVID-19, подчеркивается практическая значимость анализа тональности текстов в решении поставленных задач.
Анализ тональности текстов находит свое применение, начиная с оценки качества товаров и услуг и заканчивая составлением текстов с заранее заданными эмоциональными характеристиками. Объектом эмоционального оценивания может быть имя собственное, название продукта, организации, услуги или профессии, по отношению к которым выражается мнение. Однако ежедневное количество публикуемых отзывов в социальных сетях достигает огромного количества, поэтому обработка отзывов вручную оказывается невозможной и требует автоматизации. Поэтому анализ тональности текстов с каждым годом становится все более актуальной задачей как с теоретической, так и с практической точек зрения. Это преимущественно связано с развитием интернета и с изменением в формате коммуникаций между людьми.
Целью данной работы является анализ тональности сообщений в социальных сетях на примере сети Twitter в острый пандемийный период с 21.12.20 по 21.01.21. Под тональностью мы понимаем эмоционально окрашенную лексику и эмоциональную оценку, выраженную автором относительно болезни COVID-19.
Это исследование не нацелено на конкретный континент, страну или город для сбора данных, потому что коронавирус - это почти повсеместная проблема, угрожающая здоровью людей.
Для достижения поставленной цели в исследовании были поставлены следующие задачи и подзадачи:
1) изучение одного из направлений обработки естественного языка - Sentiment analysis - анализ тональности текста:
• исследование существующих инструментов и подходов для обработки текстов и автоматического определения их эмоциональной составляющей;
• исследование особенностей сообщений в социальной сети Twitter;
2) сбор данных из социальной сети Twitter:
• используя программный интерфейс приложения (Twitter API), позволяющий одной компьютерной программе взаимодействовать с другой, загрузить библиотеку данных Tweepy;
3) извлечение необходимой информации по ключевым словам:
• определить новые слова 2020 года, связанные с изучаемой тематикой;
• проанализировать динамику и частоту их использования; выделить наиболее часто употребляемые;
• извлечь основанные на ключевых словах данные из социальной сети Twitter: a) через язык программирования Python, используя библиотеку Tweepy; б) с помощью инструмента аналитики социальных данных - Brand24;
4) применение обработанных данных по назначению: для анализа тексов на субъективность и определение их полярности (обычно «положительной» или «отрицательной») :
• использовать библиотеку Textblob и метод машинного обучения - наивный Байевский классификатор;
5) графическое представление и объяснение полученных результатов.
Объектом данного исследования являются сообщения-твиты из специальной сети Twitter. Предметом исследования является тональность (т^. эмоциональный окрас) анализируемых сообщений.
Для достижения цели и поставленных задач использованы 2 основные методологии:
1) основана на анализе массовых данных социальной сети Twitter: сбор, обработка и анализ данных;
2) на базе извлеченных твитов обработка естественного языка (далее NLP - Natural language processing) для определения тональности настроений пользователей.
Методология, основанная на анализе массовых данных, заключается в использовании интерфейса прикладного программирования Twitter API для доступа через язык программирования Python к библиотеке Tweepy, которая позволяет извлечь соответствующие данные с помощью поиска по ключевым словам и хэштегам (#). В методологии на базе извлеченных твитов используется TextBlob - библиотеки для обработки текста, написанной на Python, а также метод машинного обучения - классификатор Наивного Байеса. Английский является доминирующим языком, используемым в исследованиях по анализу тональности текстов.
Новизна исследования заключается не только в понимании взаимосвязи между полученными из социальных сетей данными и поведением людей в период вспышки коронавируса, известного как COVID-19, но также мы показываем, как люди, государственные организации и информационные агентства транслируют подобные ситуации. Практическая значимость исследования заключается в том, что данная работа может быть использована в качестве модели для определения эмоционального состояния интернет- пользователей в различных ситуациях. Следует учесть, что исследование проводилось непосредственно во время глобального кризиса, и всего за несколько месяцев многое изменилось с момента развития событий начала 2020 года. Это означает, что полученные результаты, вероятно, могут быть пересмотрены и изменены.
Структура работы. Данная магистерская диссертация состоит из введения, двух глав, заключения и списка использованной литературы.
Одними из самых доступных и существующих в настоящее время источников получения данных можно выделить платформы социальных сетей, такие как Twitter, Facebook и YouTube [Tyagi & Tripathi 2019]. В то время как в социальных сетях люди свободно обсуждают и высказывают свои мнения о событиях, происходящих в повседневной жизни, или выражают эмоции, связанные с пандемией, многие исследователи и медицинские работники получают возможность анализировать появляющиеся данные, что помогает 3 медицинскому персоналу и государственным организациям понимать реакцию населения на происходящие события, извлекая пользу в интересах общества [Alsaeedi &Khan 2019]. Таким образом, социальные данные служат основой для анализа мнений и эмоционального отношения (тональности) автора текста к некоторым объектам, процессам или событиям, что привело к множеству исследований в области обработки текстов на естественном языке.
Повышенный интерес к тональному анализу и анализу субъективных мнений в пользовательских текстах относится к началу 2000-х гг. [Pang &Lee 2008]. С тех пор сложилось поле исследований тональности англоязычных текстов разного происхождения [Kan 2012]. Развитию конкурентных методов тонального анализа способствовали международные воркшопы. Так, команда под руководством Накова и Розенталя в рамках воркшопов SensEval и SemEval предложила для развития методов тонального анализа пять больших заданий (tasks), в которых разные группы ученых со всего мира применяли различные методики сентимент-анализа для решения одной и той же задачи [Nakov et al. 2016: 35-65]. Проводились подобные воркшопы и в России. Анализ тональности текста был изучен в трудах многих отечественных и зарубежных ученых и исследователей, таких как Д. Усталов [2012], И. Четверкин [2012], Н. Лукачевич [2012], А. Пазельская [2011], А. Соловьев [2011], И. Меньшиков [2012], М. Клековкина [2012], Е. Котельников [2012], Д. Яровски [1995], К. Страппарава [2004], А. Валитутти [2004], Б. Снайдер [2007], Р. Барзилай [2007], Н. Пономарева [2012], М. Телуолл [2012], Бо Панг [2002, 2004, 2005], Б. Маньини [2010], Г. Кавалья [2010], Б. Лю [2010], Н. Кобаяши [2006], Э. Голдберг [2006], Э. Камбрия [2009], В. Бобичев [2010], В. Ангелуш [2010], С. Баччанелла [2010], Э. Контопулос [2013], А. Хогенбум [2014], К. Шуанг [2018], П. Шарма [2020], Э. Камбрия [2020], К. Сингх [2020]. Так как речь идет об обработке текста на естественном языке, необходимо отметить, что большая часть литературы написана с целью обработки англоязычных текстов.
В книге «Sentiment Analysis and Opinion Mining» [Liu 2012: 10-108] показана важность применения данного анализа во всех сферах бизнеса и 4 социальной сферы, описана задача автоматического определения тональности текса, а также проблемы, c которыми чаще всего сталкиваются исследователи. Также интересной является книга «Прикладная и компьютерная лингвистика» на русском языке, которая дает возможность найти ответы на общие вопросы, связанные с компьютерной лингвистикой [Митренина и др. 2017].
Таким образом, анализ тональности текста сегодня можно считать одной из самых популярных тем исследований в области обработки естественного язка [Sailunaz &Alhajji 2019], и много молодых ученых работают над анализом тональности текстов из социальных сетей, например, касающихся болезни COVID-19. Так, Кор и Шарма анализируют тональность сообщений - твитов в социальной сети Twitter и определяют отношение людей к коронавирусной болезни COVID-19 [Kaur &Sharma 2020]. Кайла занимается сбором данных, подходящих для применения в экспериментах о новых вспышках COVID-2019 [Kaila 2020]. Мэдфорд составил список связанных с COVID-19 хэштегов - меток, которые использовались для распределения сообщений в социальных сетях и блогах, после чего был выполнен анализ их тональности для определения эмоциональной значимости каждого сообщения и выявления преобладающей эмоции [Medford 2020]. Под хештегом понимается начинающееся со знака решётки ключевое слово или несколько слов сообщения в микроблогах и социальных сетях, что облегчает поиск сообщений по теме или содержанию. Сайлуназ и Аль-Хадж проводят анализ тональности арабских твитов - записей в Twitter, содержащих хэштеги, относящиеся к введенными правительством мерам общественного здравоохранения, и измеряют количество положительных и отрицательных сообщений [Sailunaz &Alhajj 2019]. Пастор изучает отношение филиппинцев к карантину, вызванного пандемией COVID-19 [Pastor 2020]. Исследователь также анализирует влияние карантина на сообщества и изучает влияние пандемии на личный образ жизни на основе твитов пользователей. Гровер и Рати в своей работе собрали данные, относящиеся к твитам, и заявили, что количество сообщений в Твиттере, посвященных коронавирусу, постоянно растет [Grover &Rathi 2020]. Также 5
было выявлено очень много повторяющихся слов, таких как COVID-19 и Coronavirus. Ра при анализе тональности твитов определяет влияние коронавируса (COVID-19) на Землю, таким образом выявляя положительные и отрицательные мнения широкой общественности [Ra et al. 2020]. Дубей целью этого анализа ставит узнать, как люди в разных странах реагируют на вспышки болезни [Dubey 2020].
В перечисленных выше работах исследуется вопрос взаимосвязи социальных сетей и поведения людей во время пандемии GOVID-19, подчеркивается практическая значимость анализа тональности текстов в решении поставленных задач.
Анализ тональности текстов находит свое применение, начиная с оценки качества товаров и услуг и заканчивая составлением текстов с заранее заданными эмоциональными характеристиками. Объектом эмоционального оценивания может быть имя собственное, название продукта, организации, услуги или профессии, по отношению к которым выражается мнение. Однако ежедневное количество публикуемых отзывов в социальных сетях достигает огромного количества, поэтому обработка отзывов вручную оказывается невозможной и требует автоматизации. Поэтому анализ тональности текстов с каждым годом становится все более актуальной задачей как с теоретической, так и с практической точек зрения. Это преимущественно связано с развитием интернета и с изменением в формате коммуникаций между людьми.
Целью данной работы является анализ тональности сообщений в социальных сетях на примере сети Twitter в острый пандемийный период с 21.12.20 по 21.01.21. Под тональностью мы понимаем эмоционально окрашенную лексику и эмоциональную оценку, выраженную автором относительно болезни COVID-19.
Это исследование не нацелено на конкретный континент, страну или город для сбора данных, потому что коронавирус - это почти повсеместная проблема, угрожающая здоровью людей.
Для достижения поставленной цели в исследовании были поставлены следующие задачи и подзадачи:
1) изучение одного из направлений обработки естественного языка - Sentiment analysis - анализ тональности текста:
• исследование существующих инструментов и подходов для обработки текстов и автоматического определения их эмоциональной составляющей;
• исследование особенностей сообщений в социальной сети Twitter;
2) сбор данных из социальной сети Twitter:
• используя программный интерфейс приложения (Twitter API), позволяющий одной компьютерной программе взаимодействовать с другой, загрузить библиотеку данных Tweepy;
3) извлечение необходимой информации по ключевым словам:
• определить новые слова 2020 года, связанные с изучаемой тематикой;
• проанализировать динамику и частоту их использования; выделить наиболее часто употребляемые;
• извлечь основанные на ключевых словах данные из социальной сети Twitter: a) через язык программирования Python, используя библиотеку Tweepy; б) с помощью инструмента аналитики социальных данных - Brand24;
4) применение обработанных данных по назначению: для анализа тексов на субъективность и определение их полярности (обычно «положительной» или «отрицательной») :
• использовать библиотеку Textblob и метод машинного обучения - наивный Байевский классификатор;
5) графическое представление и объяснение полученных результатов.
Объектом данного исследования являются сообщения-твиты из специальной сети Twitter. Предметом исследования является тональность (т^. эмоциональный окрас) анализируемых сообщений.
Для достижения цели и поставленных задач использованы 2 основные методологии:
1) основана на анализе массовых данных социальной сети Twitter: сбор, обработка и анализ данных;
2) на базе извлеченных твитов обработка естественного языка (далее NLP - Natural language processing) для определения тональности настроений пользователей.
Методология, основанная на анализе массовых данных, заключается в использовании интерфейса прикладного программирования Twitter API для доступа через язык программирования Python к библиотеке Tweepy, которая позволяет извлечь соответствующие данные с помощью поиска по ключевым словам и хэштегам (#). В методологии на базе извлеченных твитов используется TextBlob - библиотеки для обработки текста, написанной на Python, а также метод машинного обучения - классификатор Наивного Байеса. Английский является доминирующим языком, используемым в исследованиях по анализу тональности текстов.
Новизна исследования заключается не только в понимании взаимосвязи между полученными из социальных сетей данными и поведением людей в период вспышки коронавируса, известного как COVID-19, но также мы показываем, как люди, государственные организации и информационные агентства транслируют подобные ситуации. Практическая значимость исследования заключается в том, что данная работа может быть использована в качестве модели для определения эмоционального состояния интернет- пользователей в различных ситуациях. Следует учесть, что исследование проводилось непосредственно во время глобального кризиса, и всего за несколько месяцев многое изменилось с момента развития событий начала 2020 года. Это означает, что полученные результаты, вероятно, могут быть пересмотрены и изменены.
Структура работы. Данная магистерская диссертация состоит из введения, двух глав, заключения и списка использованной литературы.
В настоящем исследовании применен анализ тональности по теме COVID-19, собранных их базы данных социальной сети Twitter. 818 224 сообщений по коронавирусной тематике, из которых 89 025 содержали слова «COVID-19» и «Coronavirus», были собраны в острый период пандемии с 22 декабря 2020 года по 22 января и проанализированы с помощью онлайн- сервиса для анализа социальных данных Brand24. 530 232 твитов, в которых упоминается хотя бы один из двух вышеупомянутых хэштегов, были собраны в течение недели с 1 по 7 января 2021. Для этого с помощью Twitter API и гибкой библиотеки Python Tweepy были выбраны два ключевых слова для поиска твитов #Ooronovirus и #COVID-19 и определения их полярности и субъективности. TextBlob библиотека методов анализа тональности текстов Python была применена для собранных твитов. Результаты показали нейтральность в отношении большинства твитов, значительная часть записей была объективной, что составляло примерно 64 процента. Однако тональность остальной части сообщений - отрицательная. Из этого исследования мы можем сказать, что реакция людей менялась день ото дня в зависимости от изменяющихся событий. Эти данные о вспышке коронавируса, известного как COVID-19, показывали нам, как люди, государственные организации и информационные агентства транслировали ситуации.
Данное исследование показывает обсуждения и отношение пользователей Twitter к COVID-19. Полученные результаты помогают быстро и в реальном времени понять общественные настроения по поводу вспышки COVID-19, способствуя тем самым пониманию развивающейся ситуации. Исследование преодолевает ограничения традиционного подхода социальных наук, который полагается на трудоемкие, ретроспективные, отсроченные по времени мелкомасштабные опросы и интервью. Выявленные закономерности и эмоции в публичных твитах можно использовать для руководства целевыми программами вмешательства. Во-первых, раннее выявление случаев COVID-19 были выявлены среди огромного количества твитов, что свидетельствует о том, 89 что сообщество Twitter признало серьезность заболевания. Быстрое выявление и использование сообщений в социальных сетях может помочь общественности и властям отреагировать на распространение болезни на ранних стадиях. У исследования есть несколько ограничений. Во-первых, мы отбираем только 2 хэштега в качестве поисковых запросов для сбора данных Twitter. Некоторые новые хэштеги стали новым модным термином для пользователей Твиттера с течением времени. Во-вторых, пользователи Твиттера не являются репрезентативными для всего населения и лишь указывают мнения и реакцию онлайн-пользователей на COVID-19. Тем не менее, набор данных Twitter является ценным источником для понимания создаваемого в реальном времени пользовательского контента Twitter, связанного с деятельностью по заболеванию COVID-19. В-третьих, неанглоязычные твиты удаляются из анализа, а результаты ограничиваются определенной группой. В будущих исследованиях рекомендуется включить итальянский, немецкий и испанский языки для анализа COVID-19. Данные Twitter могут предоставить полезную информацию об эпидемических заболеваниях (например, H1N1, лихорадке Эбола), включая отслеживание быстро меняющихся настроений общественности, измерение общественных интересов и озабоченностей, оценку активности и тенденций заболеваний в реальном времени, а также отслеживание зарегистрированных уровней заболеваний. Однако у этих исследований есть ограничения: только качественное ручное кодирование очень небольшого количества твитов. Им требуются более совершенные методы для повышения точности изучения общественного мнения и настроений. Кроме того, остается неизвестным реакция общественности на COVID в сети.
В рамках работы было проанализировано 818 224 сообщения по 17-ти ключевым словам, из которых 89 025 сообщений содержали слова «COVID-19» и «Goronavirus». Было найдено сходство между результатами анализа тональности текста с помощью онлайн-сервиса Brand24 и результатами, полученными в Python с помощью библиотеки Textblob: большая часть 90
сообщений имела отрицательную тональность, т.е. высказывания по поводу коронавируса были негативными; но стоит отметить, что более 50% твитов являлись нейтральными, не выражающими никаких мнений, таким образом, не обладающих эмоциональной окраски.
Из-за нехватки времени и вычислительного процесса многие аспекты оставлены на будущую работу. Было бы интересно принять во внимание следующую область исследований:
1. Исследовать надежность социальной сети Twitter как источника информации и сравнить с другими социальными сетями, такими как Facebook, Wechat, Instagram. Однако очень важно изучить другие социальные сети с
Что касается анализа тональности текстов:.
2. В своем сообщении мы выбрали Textblob, который использует в качестве классификатора модель Наивного Байеса. Но есть и другие модели, которые могут дать интересные результаты, например алгоритмы на основе лексики;
3. Это исследовательское приложение может также быть принятым в качестве модели для выявления эмоциональных чувств для будущих подобных случаев.
Данное исследование показывает обсуждения и отношение пользователей Twitter к COVID-19. Полученные результаты помогают быстро и в реальном времени понять общественные настроения по поводу вспышки COVID-19, способствуя тем самым пониманию развивающейся ситуации. Исследование преодолевает ограничения традиционного подхода социальных наук, который полагается на трудоемкие, ретроспективные, отсроченные по времени мелкомасштабные опросы и интервью. Выявленные закономерности и эмоции в публичных твитах можно использовать для руководства целевыми программами вмешательства. Во-первых, раннее выявление случаев COVID-19 были выявлены среди огромного количества твитов, что свидетельствует о том, 89 что сообщество Twitter признало серьезность заболевания. Быстрое выявление и использование сообщений в социальных сетях может помочь общественности и властям отреагировать на распространение болезни на ранних стадиях. У исследования есть несколько ограничений. Во-первых, мы отбираем только 2 хэштега в качестве поисковых запросов для сбора данных Twitter. Некоторые новые хэштеги стали новым модным термином для пользователей Твиттера с течением времени. Во-вторых, пользователи Твиттера не являются репрезентативными для всего населения и лишь указывают мнения и реакцию онлайн-пользователей на COVID-19. Тем не менее, набор данных Twitter является ценным источником для понимания создаваемого в реальном времени пользовательского контента Twitter, связанного с деятельностью по заболеванию COVID-19. В-третьих, неанглоязычные твиты удаляются из анализа, а результаты ограничиваются определенной группой. В будущих исследованиях рекомендуется включить итальянский, немецкий и испанский языки для анализа COVID-19. Данные Twitter могут предоставить полезную информацию об эпидемических заболеваниях (например, H1N1, лихорадке Эбола), включая отслеживание быстро меняющихся настроений общественности, измерение общественных интересов и озабоченностей, оценку активности и тенденций заболеваний в реальном времени, а также отслеживание зарегистрированных уровней заболеваний. Однако у этих исследований есть ограничения: только качественное ручное кодирование очень небольшого количества твитов. Им требуются более совершенные методы для повышения точности изучения общественного мнения и настроений. Кроме того, остается неизвестным реакция общественности на COVID в сети.
В рамках работы было проанализировано 818 224 сообщения по 17-ти ключевым словам, из которых 89 025 сообщений содержали слова «COVID-19» и «Goronavirus». Было найдено сходство между результатами анализа тональности текста с помощью онлайн-сервиса Brand24 и результатами, полученными в Python с помощью библиотеки Textblob: большая часть 90
сообщений имела отрицательную тональность, т.е. высказывания по поводу коронавируса были негативными; но стоит отметить, что более 50% твитов являлись нейтральными, не выражающими никаких мнений, таким образом, не обладающих эмоциональной окраски.
Из-за нехватки времени и вычислительного процесса многие аспекты оставлены на будущую работу. Было бы интересно принять во внимание следующую область исследований:
1. Исследовать надежность социальной сети Twitter как источника информации и сравнить с другими социальными сетями, такими как Facebook, Wechat, Instagram. Однако очень важно изучить другие социальные сети с
Что касается анализа тональности текстов:.
2. В своем сообщении мы выбрали Textblob, который использует в качестве классификатора модель Наивного Байеса. Но есть и другие модели, которые могут дать интересные результаты, например алгоритмы на основе лексики;
3. Это исследовательское приложение может также быть принятым в качестве модели для выявления эмоциональных чувств для будущих подобных случаев.
Подобные работы
- Формирование образа мусульман в СМИ Германии
Магистерская диссертация, международные отношения. Язык работы: Русский. Цена: 4990 р. Год сдачи: 2021



