Нейросетевые подходы выявления проблем маркетинговой стратегии компаний на основе анализа пользовательских дискуссий в социальных сетях
|
1 Введение 3
1.1 Актуальность работы 3
1.2 Практическая значимость работы 3
1.3 Цель работы 3
1.4 Задачи работы 4
2 Обзор существующих методов и инструментов анализа социальных сетей 6
2.1 Обзор существующих методов 6
2.2 Обзор используемых инструментов 7
2.3 Обзор метрик оценки качества 8
3 Разработка инструментов и методов для выявления проблем маркетинговой стратегии компаний на основе анализа пользовательских дискуссий в социальных сетях 10
3.1 Разработка нейросетевого подхода 10
3.2 Препроцессинг данных, выделение аспектов 12
3.3 Обучение модели для выделения аспектов 14
3.4 Обучение модели для анализа тональности 14
4 Тестирование и оценка качества разработанного решения 16
4.1 Постановка эксперимента 16
4.2 Описание датасета 16
4.3 Результаты обучения и анализа для задачи выделения аспектов 19
4.4 Результаты обучения и анализа для задачи анализа тональности 20
4.5 Проверка мультиязычности 21
4.6 Общие результаты тестирования на реальном кейсе 22
5 Заключение 24
5.1 Результаты работы 24
5.2 Перспективы развития 24
6 Список литературы 25
1.1 Актуальность работы 3
1.2 Практическая значимость работы 3
1.3 Цель работы 3
1.4 Задачи работы 4
2 Обзор существующих методов и инструментов анализа социальных сетей 6
2.1 Обзор существующих методов 6
2.2 Обзор используемых инструментов 7
2.3 Обзор метрик оценки качества 8
3 Разработка инструментов и методов для выявления проблем маркетинговой стратегии компаний на основе анализа пользовательских дискуссий в социальных сетях 10
3.1 Разработка нейросетевого подхода 10
3.2 Препроцессинг данных, выделение аспектов 12
3.3 Обучение модели для выделения аспектов 14
3.4 Обучение модели для анализа тональности 14
4 Тестирование и оценка качества разработанного решения 16
4.1 Постановка эксперимента 16
4.2 Описание датасета 16
4.3 Результаты обучения и анализа для задачи выделения аспектов 19
4.4 Результаты обучения и анализа для задачи анализа тональности 20
4.5 Проверка мультиязычности 21
4.6 Общие результаты тестирования на реальном кейсе 22
5 Заключение 24
5.1 Результаты работы 24
5.2 Перспективы развития 24
6 Список литературы 25
1.1 Актуальность работы
Социальные сети прочно вошли в повседневную жизнь и теперь очень многие события и явления нашей жизни так или иначе связаны с ними. С помощью анализа социальных сетей можно узнать очень многое об их пользователях, об их мнениях, предпочтениях и реакции на то или иное явление или событие. Такой анализ возможен по причине того, что в различных соцсетях сейчас присутствует более половины населения Земли.
Согласно последним данным население Земли составляет около 7,75 млрд. человек. Из них около 4.54 млрд являются пользователями интернета. Из этих 4.54 млрд. около 3.8 млрд являются активными пользователями различных социальных сетей, проводя в них в среднем около 2 часов 24 минут в день.[22]
1.2 Практическая значимость работы
Благодаря такому охвату, социальные сети становятся важным фактором для многих сфер жизни, в том числе и для бизнеса. Существует множество исследований на тему влияния социальных сетей на отельный[7], рекламный бизнес[14], на производство одежды[11] и др. Известные случаи когда после публикаций в “Twitter” акции компании Илона Маска падали на 10% [1] также можно отнести к влиянию социальных сетей на состояние фондового рынка. Очевидно, что объём информации имеющий такое влияние на все сферы жизни должен заинтересовать исследователей, специализирующихся на анализе мнений и настроений в обществе. В основном подобные исследования представляют собой изыскания на тему “анализа мнений”(ортюп mining) или анализа тематик. Такую возможность исследователям предоставляют сами пользователи, активно делящиеся в соцсетях своим мнением по тому или иному вопросу.
Поэтому довольно интересной становится задача оценки привлекательности продукта для пользователя с использованием информации, полученной из социальных сетей.
1.3 Цель работы
Целью работы является создание механизма, позволяющего производить анализ и выявлять проблемы в маркетинговой стратегии компаний на основе пользовательских публикаций в социальных сетях(в частности в “Twitter”).
1.4 Задачи работы
Однако поиск решения для такой задачи сопряжён с рядом сложностей. Основная из которых - большая “зашумлённость” данных, т.к мы работаем с пользовательским контентом, который подразумевает ошибки, сленговые выражения, рекламные сообщения, выдаваемые за пользовательские и другие виды информационного “шума”. Также сложности добавляют краткость контента(пользователи реже развёрнуто выражают свою мысль, чаще используя короткую форму, а некоторые соцсети, например “Twitter” намеренно ограничивают длину одного сообщения для пользователя) и его мультиязычность(проблема особенно характерна для анализа глобального явления или продукта, выпускаемого транснациональной корпорацией, мнение о котором могут публиковать представители разных стран).
Ещё более сложной задачей является не просто оценка удовлетворённости пользователей некоторым продуктом, а оценка удовлетворённости пользователя конкретными аспектами данного продукта, так называемый Aspect-Based Sentiment Analysis. Он позволяет оценить отношение пользователя к некоторому конкретному аспекту продукта и может быть полезен в случае, если потребитель удовлетворён одним аспектом, однако недоволен другим. Например, рассмотрим такой отзыв: “Phone’s sharge stands quite well, touch screen sensitivity is great, but it’s web browsing speed is not satisfactory”. Данный отзыв вполне может быть отнесён к позитивным, однако о скорости веб-браузера пользователь высказался в негативном ключе. Для того, чтобы извлечь такую, более точную информацию об отношении пользователя к продукту нужно определять тональность пользователя по отношению к каждому упомянутому им аспекту.
Поиску решения такой задачи и преодоления указанных сложностей посвящена в том числе и данная работа.
Для достижения данной цели необходимо решить следующие задачи:
• Анализ литературы по данной тематике(статьи, другие публикации)
• Анализ технологических решений, применяемых при решении схожих задач
• Разработка архитектуры
• Разработка методов
• Тестирование
Оценка качества решения
В конечном итоге результатом данного исследования является механизм, позволяющий производить мониторинг трендов, появляющихся в социальных сетях и интересующих ту или иную бизнес-структуру. Кроме того он позволит мониторить удовлетворённость пользователей продуктом, причём удовлетворённость конкретными аспектами продукта, которые интересуют производителя.
Социальные сети прочно вошли в повседневную жизнь и теперь очень многие события и явления нашей жизни так или иначе связаны с ними. С помощью анализа социальных сетей можно узнать очень многое об их пользователях, об их мнениях, предпочтениях и реакции на то или иное явление или событие. Такой анализ возможен по причине того, что в различных соцсетях сейчас присутствует более половины населения Земли.
Согласно последним данным население Земли составляет около 7,75 млрд. человек. Из них около 4.54 млрд являются пользователями интернета. Из этих 4.54 млрд. около 3.8 млрд являются активными пользователями различных социальных сетей, проводя в них в среднем около 2 часов 24 минут в день.[22]
1.2 Практическая значимость работы
Благодаря такому охвату, социальные сети становятся важным фактором для многих сфер жизни, в том числе и для бизнеса. Существует множество исследований на тему влияния социальных сетей на отельный[7], рекламный бизнес[14], на производство одежды[11] и др. Известные случаи когда после публикаций в “Twitter” акции компании Илона Маска падали на 10% [1] также можно отнести к влиянию социальных сетей на состояние фондового рынка. Очевидно, что объём информации имеющий такое влияние на все сферы жизни должен заинтересовать исследователей, специализирующихся на анализе мнений и настроений в обществе. В основном подобные исследования представляют собой изыскания на тему “анализа мнений”(ортюп mining) или анализа тематик. Такую возможность исследователям предоставляют сами пользователи, активно делящиеся в соцсетях своим мнением по тому или иному вопросу.
Поэтому довольно интересной становится задача оценки привлекательности продукта для пользователя с использованием информации, полученной из социальных сетей.
1.3 Цель работы
Целью работы является создание механизма, позволяющего производить анализ и выявлять проблемы в маркетинговой стратегии компаний на основе пользовательских публикаций в социальных сетях(в частности в “Twitter”).
1.4 Задачи работы
Однако поиск решения для такой задачи сопряжён с рядом сложностей. Основная из которых - большая “зашумлённость” данных, т.к мы работаем с пользовательским контентом, который подразумевает ошибки, сленговые выражения, рекламные сообщения, выдаваемые за пользовательские и другие виды информационного “шума”. Также сложности добавляют краткость контента(пользователи реже развёрнуто выражают свою мысль, чаще используя короткую форму, а некоторые соцсети, например “Twitter” намеренно ограничивают длину одного сообщения для пользователя) и его мультиязычность(проблема особенно характерна для анализа глобального явления или продукта, выпускаемого транснациональной корпорацией, мнение о котором могут публиковать представители разных стран).
Ещё более сложной задачей является не просто оценка удовлетворённости пользователей некоторым продуктом, а оценка удовлетворённости пользователя конкретными аспектами данного продукта, так называемый Aspect-Based Sentiment Analysis. Он позволяет оценить отношение пользователя к некоторому конкретному аспекту продукта и может быть полезен в случае, если потребитель удовлетворён одним аспектом, однако недоволен другим. Например, рассмотрим такой отзыв: “Phone’s sharge stands quite well, touch screen sensitivity is great, but it’s web browsing speed is not satisfactory”. Данный отзыв вполне может быть отнесён к позитивным, однако о скорости веб-браузера пользователь высказался в негативном ключе. Для того, чтобы извлечь такую, более точную информацию об отношении пользователя к продукту нужно определять тональность пользователя по отношению к каждому упомянутому им аспекту.
Поиску решения такой задачи и преодоления указанных сложностей посвящена в том числе и данная работа.
Для достижения данной цели необходимо решить следующие задачи:
• Анализ литературы по данной тематике(статьи, другие публикации)
• Анализ технологических решений, применяемых при решении схожих задач
• Разработка архитектуры
• Разработка методов
• Тестирование
Оценка качества решения
В конечном итоге результатом данного исследования является механизм, позволяющий производить мониторинг трендов, появляющихся в социальных сетях и интересующих ту или иную бизнес-структуру. Кроме того он позволит мониторить удовлетворённость пользователей продуктом, причём удовлетворённость конкретными аспектами продукта, которые интересуют производителя.
5.1 Результаты работы
В ходе работы был разработан механизм, позволяющий анализировать большие объёмы пользовательских публикаций на тему какого-либо товара с целью анализа маркетинговой стратегии компаний в частности и мониторинга отношения пользователей к брендам, находящимся в данный момент на рынке в целом. Для решения данной задачи были применены нейросетевые методы анализа текстовой информации.
Механизм был обучен и протестирован на реальных данных(публикациях, сделанных в социальной сети “Twitter”), относящихся к теме кроссовок. Результаты тестирования можно назвать успешными, т.к обе модели, присутствующие в алгоритме, показали довольно высокую точность. Также, благодаря использованию Universe Sentence Encoder-а была решена задача анализа публикаций на различных языках, что в ходе работы было также успешно протестировано.
Несмотря на привязку данного исследования к датасету, содержащему публикации по теме “sneakers”, в алгоритм в п.2 описан в общем виде, без каких-либо привязок к конкретным массивам данных, что означает, что он может быть применён и для анализа ситуации на любом другом рынке, где имеются пользователи, активно публикующие своё мнение о продуктах в социальных сетях.
5.2 Перспективы развития
Участком, требующим более детальной проработки остаётся определение аспектов, для которых впоследствии проводится анализ, т.к в данной работе аспекты были выделены из общего списка потенциальных аспектов эмпирическим путём. Это можно назвать возможной точкой приложения усилий для дальнейшего совершенствования алгоритма.
Однако в целом все задачи, поставленные в п.1 были выполнены в полном объёме.
В ходе работы был разработан механизм, позволяющий анализировать большие объёмы пользовательских публикаций на тему какого-либо товара с целью анализа маркетинговой стратегии компаний в частности и мониторинга отношения пользователей к брендам, находящимся в данный момент на рынке в целом. Для решения данной задачи были применены нейросетевые методы анализа текстовой информации.
Механизм был обучен и протестирован на реальных данных(публикациях, сделанных в социальной сети “Twitter”), относящихся к теме кроссовок. Результаты тестирования можно назвать успешными, т.к обе модели, присутствующие в алгоритме, показали довольно высокую точность. Также, благодаря использованию Universe Sentence Encoder-а была решена задача анализа публикаций на различных языках, что в ходе работы было также успешно протестировано.
Несмотря на привязку данного исследования к датасету, содержащему публикации по теме “sneakers”, в алгоритм в п.2 описан в общем виде, без каких-либо привязок к конкретным массивам данных, что означает, что он может быть применён и для анализа ситуации на любом другом рынке, где имеются пользователи, активно публикующие своё мнение о продуктах в социальных сетях.
5.2 Перспективы развития
Участком, требующим более детальной проработки остаётся определение аспектов, для которых впоследствии проводится анализ, т.к в данной работе аспекты были выделены из общего списка потенциальных аспектов эмпирическим путём. Это можно назвать возможной точкой приложения усилий для дальнейшего совершенствования алгоритма.
Однако в целом все задачи, поставленные в п.1 были выполнены в полном объёме.





