Тип работы:
Предмет:
Язык работы:


Разработка методов интеллектуального анализа данных о курортных предпочтениях пользователей социальной сети Instagram

Работа №129194

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы32
Год сдачи2020
Стоимость4215 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
62
Не подходит работа?

Узнай цену на написание


Введение 4
Постановка задачи 6
Обзор литературы 7
Глава 1. Основные понятия 8
1.1. Взаимодействие с Instagram 8
1.2. Анализ тональности текста 10
1.2.1 Сбор данных, на которых обучается машинный классификатор 11
1.2.2 Выбор нейронной сети 12
1.2.3 Использование полученной модели для определения
тональности постов пользователей 15
1.2.4 Итог 17
1.3. Кластеризация пользователей Instagram 17
Глава 2. Метод определения курортных предпочтений пользователя Instagram на примере 19
Глава 3. Тестирование метода 21
3.1. Проведение опроса и сбор данных 21
3.2. Результаты работы метода 22
Глава 4. Программная реализация 24
4.1. Инструменты 24
4.2. Предварительный сбор, обработка данных, кластеризация 25
4.2.1 Сбор данных для кластеризациии 25
4.2.2 Обработка данных, определение тональности постов . 25
4.2.3 Кластеризация 26
4.3. Определение курортных предпочтений определенного пользователя 26
4.3.1 Сбор данных о пользователе 26
4.3.2 Выбор кластера 27
4.3.3 Поиск наиболее понравившихся стран в кластере . . . 28
Выводы 29
Заключение 30
Список литературы 31
Приложение 32

В настоящее время индустрия туризма является одной из наиболее динамично развивающихся сфер в мире. Популярность туризма с каждым годом растет, как и потребность людей в новых путешествиях и ощущениях.
Каждый человек, планируя отпуск, сталкивается с одной из основных проблем: куда именно отправиться в этот раз. Данная проблема имеет несколько причин.
Во-первых, красивых стран и мест - большое множество, поэтому не всегда удается быстро определиться с выбором, чтобы он соответствовал всем ожиданиям.
Во-вторых, опытным туристам, побывавшим во многих местах и повидавшим мир, сложнее выбрать новый пункт назначения.
На данный момент уже имеется несколько способов решения данной задачи, но привычные для нас подходы с каждым годом устаревают. В эпоху технологий и развития социальных сетей большая часть информации о человеке и его предпочтениях находится в интернете.
На 2019-2020 год социальная сеть Instagram входит в десятку популярнейших платформ по всему миру и в первую тройку по России. Instagram за время своего существования из приложения для обмена фотографиями и видеозаписями превратился в систему практически точно характеризующую любого ее пользователя, его пожелания и предпочтения. Это касается и туристических взглядов человека.
В данной работе поставлена цель найти метод решения этой задачи посредством анализа страниц пользователей социальной сети Instagram и разработать общедоступный программный продукт, который сможет рекомендовать страны отдыха для определенного человека, у которого имеется активная страница в Instagram.
При разработке данного метода были использованы данные с веб-приложения Instagram: собирался датасет из 50 000 пользователей с от-крытыми аккаунтами и минимум с 5 публикациями из разных стран. Полученные данные обрабатывались языком программирования Python и ис-пользовались в качестве обучающих данных.
С помощью полученной выборки, программа выполняет заложенные в нее алгоритмы анализа, а именно определяет эмоциональную окраску каждого поста и кластеризует пользователей по курортным предпочтениям.
Используя готовые модели кластеризации и определения тональности постов, программа способна обрабатывать новых пользователей, определять, к какому кластеру они относятся. Будем считать, что в каждом кластере находятся пользователи с одинаковыми курортными предпочтениями. После нахождения группы, к которой принадлежит пользователь, программа выдает список популярных в данном кластере стран, которые еще не посещал пользователь.
Постановка задачи
Основной задачей данной работы является создание программного обеспечения и инструментария для обработки и анализа данных пользователя социальной сети Instagram.
Цель анализа состоит в выявлении курортных предпочтений на основе публикаций с геолокациями посещенных мест отдыха.
Основная задача делится на следующие подзадачи:
1. Сбор данных о 50 000 пользователей Instagram без использования стандартного API.
2. Предобработка полученных данных, которая включает в себя удаление пустых аккаунтов и постов.
3. Сбор размеченных данных с сайта Tripadvisor, а именно получение 500 000 отзывов с оценками о различных местах отдыха. Данные понадобятся для обучения нейронной сети.
4. Создание и обучение нейронной сети, определение тональности текста публикаций, разделение на 5 классов: отлично ( т.е. очень понравилось); хорошо (ничего плохого нет, но и не отлично); нейтрально (посты информационного характера); плохо (в целом, не понравилось, но есть положительные моменты); отвратительно (агрессивные посты с призывом не посещать данное место).
5. Кластеризация 50 000 пользователей по курортным предпочтениям.
После решения всех подзадач мы можем обрабатывать новых пользователей, выявлять их курортные предпочтения и рекомендовать страны отдыха, в которых им с большей вероятностью понравится.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В результате с помощью разработанного метода интеллектуального анализа курортных предпочтений удалось создать общедоступный сервис [10], который на основе публикаций пользователя в социальной сети Instagram рекомендует ему новые страны для путешествий.
В работе используются размеченные отзывы с веб-платформы Tripadvisor для обучения нейронной сети, а также данные о 50 000 пользователях, их публикации с отмеченными геолокациями и тексты постов для кластеризации людей по курортным предпочтениям.
Для определения качества работы созданного метода интеллектуального анализа данных о курортных предпочтениях пользователей Instagram был проведен опрос среди пользователей с открытыми аккаунтами, в котором приняло участие 48 человек. Созданное программное обеспечение верно определило интересы 95% пользователей, участвовавших в опросе.
В дальнейшем планируется улучшение работы системы и создание адаптивного инструмента для ее использования.



[1] Петин. В.А., «API Яндекс, Google и других популярных веб-сервисов.», 2012. 480 с.
[2] Satya Avasaral, «Selenium WebDriver Practical Guide.», 2014. 264 с.
[3] Harry J.W. Percival, «Test-Driven Web Development with Python.», 2017. 613 с.
[4] Бен Хеник, «HTML и CSS путь к совершенству», 2011. 240 с.
[5] Охеда Тони, Билбро Ребекка, Бенгфорт Бенджамин, «Прикладной анализ текстовых данных на Python», 2019. 368 с.
[6] Официальный сайт документации API Instagram. URL:https://www.instagram.com/developer/.
[7] Официальный сайт документации API Yandex Translate. URL:https://yandex.ru/dev/translate/doc/dg/concepts/about-docpage/.
[8] Официальный сайт документации Tensorflow. URL:https://www.tensorflow.org/api_docs.
[9] Официальный сайт документации Sklearn. URL:https://scikit-learn.org/stable/.
[10] Сервис представленный в данной работе. URL:https://insta-resorts.herokuapp.com/.
[11] Программная реализация метода. GitHub URL:https://github.com/GrigorKhachatryan/instagram_parser_without_api.


Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ