Тема: Разработка методов интеллектуального анализа данных о курортных предпочтениях пользователей социальной сети Instagram
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 6
Обзор литературы 7
Глава 1. Основные понятия 8
1.1. Взаимодействие с Instagram 8
1.2. Анализ тональности текста 10
1.2.1 Сбор данных, на которых обучается машинный классификатор 11
1.2.2 Выбор нейронной сети 12
1.2.3 Использование полученной модели для определения
тональности постов пользователей 15
1.2.4 Итог 17
1.3. Кластеризация пользователей Instagram 17
Глава 2. Метод определения курортных предпочтений пользователя Instagram на примере 19
Глава 3. Тестирование метода 21
3.1. Проведение опроса и сбор данных 21
3.2. Результаты работы метода 22
Глава 4. Программная реализация 24
4.1. Инструменты 24
4.2. Предварительный сбор, обработка данных, кластеризация 25
4.2.1 Сбор данных для кластеризациии 25
4.2.2 Обработка данных, определение тональности постов . 25
4.2.3 Кластеризация 26
4.3. Определение курортных предпочтений определенного пользователя 26
4.3.1 Сбор данных о пользователе 26
4.3.2 Выбор кластера 27
4.3.3 Поиск наиболее понравившихся стран в кластере . . . 28
Выводы 29
Заключение 30
Список литературы 31
Приложение 32
📖 Введение
Каждый человек, планируя отпуск, сталкивается с одной из основных проблем: куда именно отправиться в этот раз. Данная проблема имеет несколько причин.
Во-первых, красивых стран и мест - большое множество, поэтому не всегда удается быстро определиться с выбором, чтобы он соответствовал всем ожиданиям.
Во-вторых, опытным туристам, побывавшим во многих местах и повидавшим мир, сложнее выбрать новый пункт назначения.
На данный момент уже имеется несколько способов решения данной задачи, но привычные для нас подходы с каждым годом устаревают. В эпоху технологий и развития социальных сетей большая часть информации о человеке и его предпочтениях находится в интернете.
На 2019-2020 год социальная сеть Instagram входит в десятку популярнейших платформ по всему миру и в первую тройку по России. Instagram за время своего существования из приложения для обмена фотографиями и видеозаписями превратился в систему практически точно характеризующую любого ее пользователя, его пожелания и предпочтения. Это касается и туристических взглядов человека.
В данной работе поставлена цель найти метод решения этой задачи посредством анализа страниц пользователей социальной сети Instagram и разработать общедоступный программный продукт, который сможет рекомендовать страны отдыха для определенного человека, у которого имеется активная страница в Instagram.
При разработке данного метода были использованы данные с веб-приложения Instagram: собирался датасет из 50 000 пользователей с от-крытыми аккаунтами и минимум с 5 публикациями из разных стран. Полученные данные обрабатывались языком программирования Python и ис-пользовались в качестве обучающих данных.
С помощью полученной выборки, программа выполняет заложенные в нее алгоритмы анализа, а именно определяет эмоциональную окраску каждого поста и кластеризует пользователей по курортным предпочтениям.
Используя готовые модели кластеризации и определения тональности постов, программа способна обрабатывать новых пользователей, определять, к какому кластеру они относятся. Будем считать, что в каждом кластере находятся пользователи с одинаковыми курортными предпочтениями. После нахождения группы, к которой принадлежит пользователь, программа выдает список популярных в данном кластере стран, которые еще не посещал пользователь.
Постановка задачи
Основной задачей данной работы является создание программного обеспечения и инструментария для обработки и анализа данных пользователя социальной сети Instagram.
Цель анализа состоит в выявлении курортных предпочтений на основе публикаций с геолокациями посещенных мест отдыха.
Основная задача делится на следующие подзадачи:
1. Сбор данных о 50 000 пользователей Instagram без использования стандартного API.
2. Предобработка полученных данных, которая включает в себя удаление пустых аккаунтов и постов.
3. Сбор размеченных данных с сайта Tripadvisor, а именно получение 500 000 отзывов с оценками о различных местах отдыха. Данные понадобятся для обучения нейронной сети.
4. Создание и обучение нейронной сети, определение тональности текста публикаций, разделение на 5 классов: отлично ( т.е. очень понравилось); хорошо (ничего плохого нет, но и не отлично); нейтрально (посты информационного характера); плохо (в целом, не понравилось, но есть положительные моменты); отвратительно (агрессивные посты с призывом не посещать данное место).
5. Кластеризация 50 000 пользователей по курортным предпочтениям.
После решения всех подзадач мы можем обрабатывать новых пользователей, выявлять их курортные предпочтения и рекомендовать страны отдыха, в которых им с большей вероятностью понравится.
✅ Заключение
В работе используются размеченные отзывы с веб-платформы Tripadvisor для обучения нейронной сети, а также данные о 50 000 пользователях, их публикации с отмеченными геолокациями и тексты постов для кластеризации людей по курортным предпочтениям.
Для определения качества работы созданного метода интеллектуального анализа данных о курортных предпочтениях пользователей Instagram был проведен опрос среди пользователей с открытыми аккаунтами, в котором приняло участие 48 человек. Созданное программное обеспечение верно определило интересы 95% пользователей, участвовавших в опросе.
В дальнейшем планируется улучшение работы системы и создание адаптивного инструмента для ее использования.



