Введение
Глава 1. Применение методов интеллектуального анализа данных в бизнесе ...........6
1.1 Предпосылки для интеллектуального анализа данных
1.2 Бизнес-кейсы использования машинного обучения на текстовых
данных в сфере маркетинга
Глава 2. Методы машинного обучения для обработки естественного языка ...........21
2.1 Предварительная обработка текста
2.2 Извлечение признаков для классификации
2.3 Методы, основанные на деревьях
2.4 Модели классификации на основе искусственных нейронных сетей .............34
Глава 3. Практическое использование методов интеллектуального анализа
данных для обработки информации на естественном языке
3.1 Использование библиотек языков программирования для обработки текстов
3.2 Описание исходных данных для практической реализации методов..............43
3.2 Построение нейросетевых моделей для распознавания тональности текста
3.3 Построение моделей, основанных на деревьях
3.4 Word2Vec и сверточные нейронные сети
3.5 Применение полученных моделей для формирования маркетинговой стратегии
Заключение
Список использованных источников
Приложение 1. Пример используемых данных
Приложение 2. Реализация в Python
Приложение 3. Облака слов.
Приложение 4. Опрос
Список таблиц
Список рисунков..
Последние несколько лет большое внимание как в научных публикациях, так
и в СМИ уделяется интеллектуальному анализу данных. Теперь регулярно в заголовках статей и журналов фигурируют понятия: большие данные, машинное и глубокое обучение, искусственный интеллект. Если посмотреть на ученых с самым высоким индексом Хирша в области компьютерных наук, то работы первых 10 тем или иным образом связаны с разработкой методов интеллектуального анализа данных и
его применения в различных областях. [1] Наиболее популярной сферой применения, не считая IT, является биоинформатика. Что касается работ, связанных с экономикой, то их заметно меньше и наиболее развитой сферой являются финансы. Однако учитывая наличие большой базы инструментов для машинного обучения, исследования в сферах, связанных с экономикой выглядят очень перспективно. Еще одной
причиной так считать является стремительный рост информации, доступной для
анализа. Но большая ее часть формируется пользователями в виде текста в социальных сетях, форумах и блогах. Для ее изучения раньше было принято назначать специалистов из службы поддержки или работы с клиентами. Однако, если продукт
становится популярным, то упоминаний о нем становится так много, что просмотреть их все с помощью людей может стать невозможно или экономически невыгодно. Именно этим обусловлена актуальность данной работы.
Цель дипломной работы – разработка методики проведения маркетингового
исследования на основе интеллектуального анализа данных на примере модели обработки отзывов о ресторанах, определяющей эмоциональный окрас отзыва. Данные
были взяты из публичного датасета, предоставляемого компанией Yelp, для академических исследований. В нем содержится более 4 миллионов отзывов о различных
заведениях от более чем 1 миллиона пользователей. Помимо отзывов также предоставляются подробные сведения о каждой организации, включающие в себя более 90 характеристик, а также информация о пользователях.
Объектом исследования являются компании ресторанного бизнеса. Предметом – процесс формирования маркетинговой стратегии развития ресторана с учетом информации, содержащейся в отзывах клиентов.
Были поставлены следующие задачи:
• Поиск практических примеров использования анализа отзывов с помощью машинного и глубокого обучения;5
• Изучение методов интеллектуального анализа текстов;
• Подготовка данных для построения модели;
• Построение моделей;
• Анализ полученных результатов и выбор лучшей модели.
Данная работа включает в себя три главы. В первой изучается значимость интеллектуального анализа данных отзывов для компаний. Во второй рассматриваются
существующие на данный момент методы и подходы к определению тональности
текстов, а в третьей – изученные методы применяются на практике и сравниваются между собой.
В ходе данной работы были рассмотрены основные сферы применения методов обработки текстовых данных в бизнесе, а также найдены конкретные примеры
их применения в маркетинге. Были опробованы различные методы обработки текстов и определения их тональности. Лучший результат показали нейронные сети
прямого распространения, на вход которым подавался мешок слов с биграммами с
TF-IDF взвешиванием и размером словаря 10 000 слов, а также рекуррентные
нейронные сети с GRU нейронами. Также было установлено, что оценка по пятибалльной шкале довольно субъективна и каждый человек может оценить один и тот
же текст по-разному. В проведенном эксперименте нейронная сеть сработала даже
несколько точнее, чем участники опроса.
Результаты проведенного исследования позволяют сделать вывод, что с помощью машинного обучения возможно достичь приемлемой точности для задачи
распознавания тональности высказывания, что позволяет в реальном времени отслеживать реакцию пользователей на продукты и деятельность компании. Данные для
обучения моделей можно получить с помощью API крупных сервисов рекомендаций. Для заведений в России в частности может быть использован Foursquare API
или TripAdvisor API. В дальнейшем для более широкой картины можно брать комментарии и посты пользователей в социальных сетях. Чтобы получить представление о том, что именно нравится пользователям в какой-то сфере, а что вызывает у
них раздражение можно воспользоваться тематическим моделированием, облаками
слов и Word2Vec. Предложенные инструменты позволяют частично автоматизировать данный процесс и узнать мнение большего числа клиентов, нежели обычные
опросы. Но учитывая тренды поведения пользователей социальных сетей, для будущих исследований интерес представляет анализ тональности фотографий и видеозаписей пользователей, а также коротких текстовых сообщений, которые относятся к
этим фотографиям и видео. Так по результатам исследований в 2017 году доля видео
контента от всей информации в сети составит 74%, твитами с картинками делятся в
1,5 раза чаще, чем без картинок, в Facebook посты с картинками собирают просмотров больше в 2.3 раза, в декабре 2016 года Instagram, платформа, содержащая больше
всего фотографий и коротких видео, объявила о росте пользовательской базы на 100
миллионов за полгода, а на данный момент сервисом пользуется более 700 миллионов человек.[42][43] Таким образом, гораздо больше информации можно получить, анализируя не только тексты, но и фото и видео контент
1) Top H-Index for Computer Science and Electronics URL:
http://www.guide2research.com/scientists/ дата обращения:08.03.2017
2) Moore, Gordon E. (1965). "Cramming more components onto integrated circuits”
3) Top500 List - June 1997 URL: https://www.top500.org/list/1997/06/300/?page=3 дата обращения:12.03.2017
4) Yelp Case Study: https://aws.amazon.com/ru/solutions/case-studies/yelp/ дата обращения:12.03.2017
5) CS224d: Deep Learning for Natural Language Processing URL:
http://cs224d.stanford.edu/ дата обращения:12.03.2017
6) Deep Learning for Natural Language Processing URL: 2016-2017 URL:
https://www.cs.ox.ac.uk/teaching/courses/2016-2017/dl/ дата
обращения:12.03.2017
7) MIT OPEN COURSE WARE URL: 2016-2017 URL:
https://ocw.mit.edu/courses/find-by-department/ дата обращения:12.03.2017
8) Michele Chambers, Christine Doig, Ian Stokes-Rees. Breaking Data Science Open.
How Open Data Science Is Eating the World. 2017
9) CRISP-DM 1.0 Step-by-step data mining guide Pete Chapman (NCR), Julian Clinton
(SPSS), Randy Kerber (NCR), Thomas Khabaza (SPSS), Thomas Reinartz (DaimlerChrysler), Colin Shearer (SPSS) and Rüdiger Wirth (DaimlerChrysler)
10) AMA: Yann LeCun URL:
https://www.reddit.com/r/MachineLearning/comments/25lnbt/ama_yann_lecun/ дата
обращения 28.03.2017
11) Boosting Sales With Machine Learning. Xeneta Blog. URL:
https://medium.com/xeneta/boosting-sales-with-machine-learningfbcf2e618be3#.cr60ssq8w дата обращения 26.03.2017
12) Natural Language Processing Market by Type (Rule-Based, Statistical, and Hybrid),
Technologies (Recognition, IVR, OCR, Speech Recognition, Text Processing, Pattern
& Image Recognition), by Deployment Type, Vertical & by Region - Global Forecast
to 2021
13) HSE: Customer Satisfaction Index
https://www.hse.ru/data/2013/12/06/1336473230/%D0%9C%D0%B5%D1%82%D0
%BE%D0%B4%D0%B8%D0%BA%D0%B0%20CSI.pdf дата обращения
29.03.2017
14) Stewart Butterfield interview URL: http://firstround.com/review/From-0-to-1BSlacks-Founder-Shares-Their-Epic-Launch-Strategy/ дата обращения 26.03.2017
15) URL: https://techcrunch.com/2016/04/01/rocketship-emoji/ дата обращения
26.03.2017
16) Fornell, C., S. Mithas, F.V. Morgeson III, and M.S. Krishnan (2006). "Customer Satisfaction and Stock Prices: High Returns, Low Risk," Journal of Marketing, 70(1),
3−14.
17) The use of sentiment analysis tools in online reputation management process.
Borcan, A. Eindhoven University of Technology, 2013
18) Text Analytics as Commodity: обзор приложений текстовой аналитики URL:
https://habrahabr.ru/company/textocat/blog/259035/ Дата обращения 3.04.2017
19) Documentation is for scikit-learn. 4.2 Feature extraction. URL: http://scikitlearn.org/stable/modules/feature_extraction.html#text-feature-extraction Дата обращения 9.04.2017
20) TF-IDF URL: https://ru.wikipedia.org/wiki/TF-IDF Дата обращения 09.04.201764
21) Нугуманова А.Б., Бессмертный И.А., Байбурин Е.М., Пецина П. (2016). Обогащение модели Bag of words семантическими связями для повышения качества
классификации текстов предметной области.
22) Специализация “ Машинное обучение и анализ данных”. Математика и Python
для анализа данных. Матричные разложения. URL:
https://www.coursera.org/learn/mathematics-and-python/lecture/zuTEu/sviazsinghuliarnogho-razlozhieniia-i-priblizhieniia-matritsiei-mien-shiegho Дата обращения: 9.04.2017
23) CS 224D: Deep Learning for NLP. Lecture Notes: Part I. Spring 2016. Francois
Chaubard, Rohit, Mundra, Richard Socher.
24) Специализация “ Машинное обучение и анализ данных”. "Поиск структуры в
данных. Понижение размерности и матричные разложения. URL:
https://www.coursera.org/learn/unsupervised-learning/lecture/e72bH/mietodghlavnykh-komponient-rieshieniie Дата обращения 10.04.2017
25) Отношение Рэлея URL: https://ru.wikipedia.org/wiki/Отношение_Рэлея Дата обращения 10.04.2017
26) Google Open Source Blog URL:
https://opensource.googleblog.com/2013/08/learning-meaning-behind-words.html
Дата обращения: 10.04.2017
27) Facebook Research Github URL: https://github.com/facebookresearch/fastText Дата
обращения: 10.04.2017
28) T. Mikolov, I. Sutskever, K. Chen, G. Corrado, J. Dean. Distributed Representations
of Words and Phrases and their Compositionality. 2013
29) A. Joulin, E. Grave, P. Bojanowski, T. Mikolov. 2016. Bag of Tricks for Efficient
Text Classification
30) Faceook Research Github URL:
https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md дата
обращениия 10.04.2017
31) Word2Vec Tutorial - The Skip-Gram Model. URL:
http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/ дата
обращения 11.04.2017
32) Piotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov. FastText. URL:
https://research.fb.com/fasttext/ Дата обращения: 11.04.2017
33) Scikit-learn documentation. 1.10. Decision Tree URL: http://scikitlearn.org/stable/modules/tree.html дата обращения 11.04.2017
34) Condorcet's jury theorem URL:
https://en.wikipedia.org/wiki/Condorcet%27s_jury_theorem Дата обращения
12.04.2017.
35) P. Geurts, D. Ernst, L. Wehenkel. Extremely randomized trees. 2006.
36) N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, R. Salakhutdinov. Dropout: A
Simple Way to Prevent Neural Networks from Overfitting. 2013.
37) BaseGroup Labs. Алгоритм обратного распространения ошибки URL:
http://www.stgau.ru/company/personal/user/7684/files/lib/BackProp.pdf дата обращения 16.04.17
38) Методы оптимизации нейронных сетей URL: https://habrahabr.ru/post/318970/
Дата обращения 17.04.17
39) Семинары по выбору моделей. Выбор моделей и критерии качества. URL:
http://www.machinelearning.ru/wiki/images/1/1c/Sem06_metrics.pdf Дата обращения: 17.04.1765
40) Understanding LSTM Networks. URL: http://colah.github.io/posts/2015-08-
Understanding-LSTMs/ дата обращения 18.04.2017
41) Laurens van der Maaten. Visualizing Data using t-SNE. 2008
42) Visual Content Marketing Statistics You Should Know in 2017 URL:
https://blog.hubspot.com/marketing/visual-content-marketingstrategy#sm.0001s96l3kuv4emwukg1i1o7lqdyh Дата обращения: 02.05.2017
43) Instagram Blog. URL: http://blog.instagram.com/post/154506585127/161215-
600million Дата обращения 02.05.2017
44) Michael Luca. 2016. Reviews, Reputation, and Revenue: The Case of Yelp.com.
Working Paper 12-016
45) Schwartz’s . URL: https://en.wikipedia.org/wiki/Schwartz%27s Дата обращения
08.05.2017