Тема: АНАЛИЗ ВЗАИМОСВЯЗИ ЛИЧНОСТНЫХ ХАРАКТЕРИСТИК ПОЛЬЗОВАТЕЛЕЙ СОЦИАЛЬНОЙ СЕТИ И ПОТРЕБЛЯЕМОГО ИМИ КОНТЕНТА
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Введение 7
1 Описание данных 10
2 Предобработка текста 13
3 Тематическое моделирование 15
4 Основные примененные методы и алгоритмы 17
4.1 Метрики для оценки работы алгоритмов 17
4.2 Обзор алгоритмов для задачи классификации 18
5 Практическая часть 22
5.1 Предобработка данных 22
5.2 Тематическое моделирование 24
5.3 Выбор пороговых значений 25
5.4 Реализация алгоритмов классификации 29
6 Анализ результатов алгоритмов 32
Заключение 38
Список использованных источников и литературы 40
📖 Введение
Для большинства этих задач необходимо анализировать текст. Методы обработки естественного языка сейчас активно развиваются [1]. NLP на сегодняшний день становится одним из самых популярных областей науки о больших данных. Существует множество подзадач NLP. И одним из самых базовых типов таких подзадач является классификация текста.
Одним из наиболее популярных инструментов оценки личностных характеристик и текущего психоэмоционального состояния людей являются различные виды анкетирования и опроса. Однако, принять участие в них может только ограниченное количество людей. В то же время большое количество информации о поведении человека содержит аккаунт в социальной сети, существует взаимосвязь поведения человека в онлайне и его личностными характеристиками [3].
В данной работе объектом исследования представлена взаимосвязь личностных характеристик с потребляемым контентом студентов Томского Государственного Университета в социальной сети «ВКонтакте». Лаборатория больших данных ТГУ собрала набор данных с результатами психологического тестирования, которые представлены в виде 5 разных характеристик.
Новизна данной работы состоит в уникальности собранных данных, их анализе и построенных на основании их модели. В дальнейшем это может использоваться в работе психологов для лечения пациентов. Также это будет полезным для hr-менеджеров при приеме на работу сотрудников, чтобы автоматизировать проверку на стрессоустойчивость и некоторые soft-скиллы кандидатов, тем самым выбирая более подходящие кандидатуры. Кроме вышеперечисленных вариантов это может использоваться для устранения проблем или поддержания психического уровня страны или конкретного региона в норме.
Перед началом работы был проведен литературный обзор. Было осуществлено ознакомление с исследованиями и статьями, связанными с похожими задачами. Таким образом, было сформировано представление о проблеме и вариантах ее решения.
В отечественной литературе встречается множество исследований о работе с текстовыми данными. Существует огромное количество статей, посвященных предобработке текста для задач NLP. Например, в работе Акжолова, Р. К., Верига А. В. «Предобработка текста для решения задач NLP» [4] описываются различные методы предварительной обработки текстов.
А работа Желябина Д. В. «Применение методов машинного обучения для решения задачи NLP классификации текста на основе анализа семантики естественного языка» [5] посвящена анализу основных методов машинного обучения основанные на анализе семантики естественного языка для классификации наименований доходных закупок.
В зарубежной литературе встречается еще больше работ о классификации текста для задач NLP. Например, в статье Su D., Li Q., Zhang T., Veliz P., Chen Y., He K., Mahajan P., Zhang X. «Prediction of acute appendicitis among patients with undifferentiated abdominal pain at emergency department» [6] описан анализ взаимосвязи диагноза «острый аппендицит» пациентов с их симптомами. Результаты исследования же были улучшены за счет включения текстовых данных из национального опроса.
В ходе изучения различных исследований был сделан вывод о том, что тема машинного обучения достаточно распространена и широко используется во многих сферах. Несмотря на этот факт, нужно подчеркнуть, что многие аспекты в данной теме только предстоит изучить. Не все алгоритмы машинного обучения опробованы, и не все результаты их работы являются положительными. Во многом их успех зависит от предварительной обработки данных. Поэтому очень важно знать основные принципы и приемы предобработки, так как разные данные с одной и той же предобработкой могут показывать абсолютно разные результаты. Также главным вопросом в сфере машинного обучения является то, какие алгоритмы необходимо использовать, чтобы получить максимально положительные результаты. Ведь не существует идеального алгоритма, который подходил всем задачам. Например, не всегда логистическая регрессия лучше нейронных сетей, и наоборот. Поэтому очень важно подобрать для определенной задачи свой алгоритм, на выходе из которого мы будем получать максимально положительные значения.
✅ Заключение
В данной дипломной работе было предложено на рассмотрение несколько алгоритмов бинарной классификации для определения эффективности их работы на исследуемых данных.
В результате экспериментов можно составить следующий вывод: при сравнении работы алгоритмов лучше всех справился алгоритм логистическая регрессия, который показал наивысшие показатели метрик качества. Помимо этого, был проведен сравнительный анализ работы алгоритмов на данных без привлечения текстовых данных и с их добавлением, чтобы определить взаимосвязь личностных характеристик пользователей и потребляемым ими контентом, и насколько эта взаимосвязь является глубокой. Как показывают результаты, при привлечении текстовых данных показатели метрик качества алгоритмов намного улучшились. Из этого делается вывод о том, что то, что «лайкают» пользователи в социальной сети, является важным признаком при определении личностных характеристик человека.
В дополнение к изучению данных методов в работе был изучен вопрос об использовании тематического моделирования в качестве укрупнения признаков, которые выделялись из текстовых данных. Данный метод было решено применить, так как извлечение отдельных слов в качестве признаков для обучения модели является нецелесообразным, и модель будет показывать высокие результаты только на исследуемом наборе данных.
Таким образом, в рамках данной дипломной работы был проведен литературный обзор, реализованы 5 алгоритмов для задачи бинарной классификации, проведена предварительная обработка данных, и использовался метод тематического моделирования с целью повышения эффективности работы классификации пользователей социальной сети.
По результатам работы был представлен доклад на 9-ой Международной молодежной научной конференции «Математическое и программное обеспечение информационных, технических и экономических систем» - 26 мая 2022 года.





