Тип работы:
Предмет:
Язык работы:


АНАЛИЗ ВЗАИМОСВЯЗИ ЛИЧНОСТНЫХ ХАРАКТЕРИСТИК ПОЛЬЗОВАТЕЛЕЙ СОЦИАЛЬНОЙ СЕТИ И ПОТРЕБЛЯЕМОГО ИМИ КОНТЕНТА

Работа №188008

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы43
Год сдачи2022
Стоимость4430 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
19
Не подходит работа?

Узнай цену на написание


АННОТАЦИЯ 3
Введение 7
1 Описание данных 10
2 Предобработка текста 13
3 Тематическое моделирование 15
4 Основные примененные методы и алгоритмы 17
4.1 Метрики для оценки работы алгоритмов 17
4.2 Обзор алгоритмов для задачи классификации 18
5 Практическая часть 22
5.1 Предобработка данных 22
5.2 Тематическое моделирование 24
5.3 Выбор пороговых значений 25
5.4 Реализация алгоритмов классификации 29
6 Анализ результатов алгоритмов 32
Заключение 38
Список использованных источников и литературы 40

В настоящее время все чаще в разных человеческих сферах появляется такой раздел искусственного интеллекта, как машинное обучение. С его помощью можно решить большой перечень различных интеллектуальных задач, которые раньше мог решить только человек [7]. Существует множество различных алгоритмов машинного обучения, которые являются крайне популярными. Многие из них находят применения в различных областях, где генерируется большое количество информации, требующей автоматической обработки, методы NLP. И, в частности, это активно применяется в анализе социальных сетей и личностных характеристик пользователей. Социальные сети стали неотъемлемой частью нашего времяпрепровождения. Из-за быстрого развития интернета в свободном доступе появилось большое количество информации: фотографии и видео человека, записи его размышлений, подписки на группы разных тематик. Также многое можно узнать исходя из постов и новостей, которые человек «лайкает». Изучая эту информацию, можно проанализировать личностные характеристики пользователя.
Для большинства этих задач необходимо анализировать текст. Методы обработки естественного языка сейчас активно развиваются [1]. NLP на сегодняшний день становится одним из самых популярных областей науки о больших данных. Существует множество подзадач NLP. И одним из самых базовых типов таких подзадач является классификация текста.
Одним из наиболее популярных инструментов оценки личностных характеристик и текущего психоэмоционального состояния людей являются различные виды анкетирования и опроса. Однако, принять участие в них может только ограниченное количество людей. В то же время большое количество информации о поведении человека содержит аккаунт в социальной сети, существует взаимосвязь поведения человека в онлайне и его личностными характеристиками [3].
В данной работе объектом исследования представлена взаимосвязь личностных характеристик с потребляемым контентом студентов Томского Государственного Университета в социальной сети «ВКонтакте». Лаборатория больших данных ТГУ собрала набор данных с результатами психологического тестирования, которые представлены в виде 5 разных характеристик.
Новизна данной работы состоит в уникальности собранных данных, их анализе и построенных на основании их модели. В дальнейшем это может использоваться в работе психологов для лечения пациентов. Также это будет полезным для hr-менеджеров при приеме на работу сотрудников, чтобы автоматизировать проверку на стрессоустойчивость и некоторые soft-скиллы кандидатов, тем самым выбирая более подходящие кандидатуры. Кроме вышеперечисленных вариантов это может использоваться для устранения проблем или поддержания психического уровня страны или конкретного региона в норме.
Перед началом работы был проведен литературный обзор. Было осуществлено ознакомление с исследованиями и статьями, связанными с похожими задачами. Таким образом, было сформировано представление о проблеме и вариантах ее решения.
В отечественной литературе встречается множество исследований о работе с текстовыми данными. Существует огромное количество статей, посвященных предобработке текста для задач NLP. Например, в работе Акжолова, Р. К., Верига А. В. «Предобработка текста для решения задач NLP» [4] описываются различные методы предварительной обработки текстов.
А работа Желябина Д. В. «Применение методов машинного обучения для решения задачи NLP классификации текста на основе анализа семантики естественного языка» [5] посвящена анализу основных методов машинного обучения основанные на анализе семантики естественного языка для классификации наименований доходных закупок.
В зарубежной литературе встречается еще больше работ о классификации текста для задач NLP. Например, в статье Su D., Li Q., Zhang T., Veliz P., Chen Y., He K., Mahajan P., Zhang X. «Prediction of acute appendicitis among patients with undifferentiated abdominal pain at emergency department» [6] описан анализ взаимосвязи диагноза «острый аппендицит» пациентов с их симптомами. Результаты исследования же были улучшены за счет включения текстовых данных из национального опроса.
В ходе изучения различных исследований был сделан вывод о том, что тема машинного обучения достаточно распространена и широко используется во многих сферах. Несмотря на этот факт, нужно подчеркнуть, что многие аспекты в данной теме только предстоит изучить. Не все алгоритмы машинного обучения опробованы, и не все результаты их работы являются положительными. Во многом их успех зависит от предварительной обработки данных. Поэтому очень важно знать основные принципы и приемы предобработки, так как разные данные с одной и той же предобработкой могут показывать абсолютно разные результаты. Также главным вопросом в сфере машинного обучения является то, какие алгоритмы необходимо использовать, чтобы получить максимально положительные результаты. Ведь не существует идеального алгоритма, который подходил всем задачам. Например, не всегда логистическая регрессия лучше нейронных сетей, и наоборот. Поэтому очень важно подобрать для определенной задачи свой алгоритм, на выходе из которого мы будем получать максимально положительные значения.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках литературного обзора был прочитан ряд статей и исследований. Целью литературного обзора было определить, какие методы предобработки текстовой информации и алгоритмы классификации используются в подобных задачах. В результате обзора не было выявлено единого мнения о применении конкретного алгоритма бинарной классификации, однако из большинства прочитанных работ можно сделать вывод о том, что часто применяют следующие алгоритмы: логистическая регрессия, решающие деревья и метод опорных векторов.
В данной дипломной работе было предложено на рассмотрение несколько алгоритмов бинарной классификации для определения эффективности их работы на исследуемых данных.
В результате экспериментов можно составить следующий вывод: при сравнении работы алгоритмов лучше всех справился алгоритм логистическая регрессия, который показал наивысшие показатели метрик качества. Помимо этого, был проведен сравнительный анализ работы алгоритмов на данных без привлечения текстовых данных и с их добавлением, чтобы определить взаимосвязь личностных характеристик пользователей и потребляемым ими контентом, и насколько эта взаимосвязь является глубокой. Как показывают результаты, при привлечении текстовых данных показатели метрик качества алгоритмов намного улучшились. Из этого делается вывод о том, что то, что «лайкают» пользователи в социальной сети, является важным признаком при определении личностных характеристик человека.
В дополнение к изучению данных методов в работе был изучен вопрос об использовании тематического моделирования в качестве укрупнения признаков, которые выделялись из текстовых данных. Данный метод было решено применить, так как извлечение отдельных слов в качестве признаков для обучения модели является нецелесообразным, и модель будет показывать высокие результаты только на исследуемом наборе данных.
Таким образом, в рамках данной дипломной работы был проведен литературный обзор, реализованы 5 алгоритмов для задачи бинарной классификации, проведена предварительная обработка данных, и использовался метод тематического моделирования с целью повышения эффективности работы классификации пользователей социальной сети.
По результатам работы был представлен доклад на 9-ой Международной молодежной научной конференции «Математическое и программное обеспечение информационных, технических и экономических систем» - 26 мая 2022 года.



1. Черкасов Е.И. Сравнение алгоритмов тематического моделирования при определении тематик постов людей в социальной сети «Вконтакте». // Евразийский союз ученых. - 2020. - №6-2 - С.45-49.
2. Бондаренко, В. И. Классификация научных текстов с помощью методов глубокого машинного обучения / В. И. Бондаренко // Вестник Донецкого национального университета. Серия Г: Технические науки. - 2021. - № 3. - С. 69-77.
3. Interrelation between academic performance of students and their personal learning environment in a social network / A. Feshhenko, V. Kashpur, V. Gojko [et al.] // EDULEARN20 12th International Conference on Education and New Learning Technologies : Conference proceedings, Palma de Mallorca, 06-07 июля 2020 года. - Palma de Mallorca: IATED Academy, 2020. - P. 4170-4176.
4. Акжолов, Р. К. Предобработка текста для решения задач NLP / Р. К. Акжолов, А. В. Верига // Вестник науки. - 2020. - Т. 1. - № 3(24). - С. 66-68.
5. Желябин, Д. В. Применение методов машинного обучения для решения задачи NLP классификации текста на основе анализа семантики естественного языка / Д. В. Желябин // Вестник Алтайской академии экономики и права. - 2020. - № 6-2. - С. 229-235.
- DOI 10.17513/vaael.1187.
6. Prediction of acute appendicitis among patients with undifferentiated abdominal pain at emergency department D. Su, Q. Li, T. Zhang [et al.]. (2022) BMC Medical Research Methodology, 22 (1), art. no. 18.
7. Левченко, И. В. Модуль "Машинное обучение систем искусственного интеллекта" в общеобразовательном курсе информатики / И. В. Левченко, Д. Б. Абушкин, Л. И. Карташова // Вестник Московского городского педагогического университета. Серия: Информатика и информатизация образования. - 2020. - № 4(54). - С. 27-38.
8. Qader W. A., Ameen M. M., Ahmed B. I. An overview of bag of words; importance, implementation, applications, and challenges //2019 International Engineering Conference (IEC).
- IEEE, 2019. - С. 200-204.
9. Blei, D.M. Latent Dirichlet Allocation / D.M. Blei, A.Y. Ng, M.I. Jordan // Journal of Machine Learning Research. — 2003. —Vol. 3. — pp. 993 — 1022.
10. Коляда, А. С. Применение латентного размещения Дирихле для анализа публикаций из наукометрических баз данных / А. С. Коляда, В. А. Яковенко, В. Д. Гогунский // Труды Одесского политехнического университета. - 2014. - № 1. - С. 186191.
11. Вершинин, Е. В. Применение логистической регрессии для задачи бинарной классификации текстов / Е. В. Вершинин, И. В. Лаковщиков, А. С. Никулин // Известия Института инженерной физики. - 2021. - № 1(59). - С. 53-55.
12. Дюкова Е.В., Песков Н.В. Об алгоритме классификации на основе полного решающего дерева // Математические методы распознавания образов. - 2007. С.125-126.
13. Burges C.J.C. A tutorial on support vector machines for pattern recognition // Knowledge Discovery and Data Mining. 1998. V. 2. < 4. P. 121-167.
14. Бабурова Т.О. Применение наивного байесовского классификатора для предсказания интересов интернет-пользователей. // Актуальные вопросы образования и науки. - 2018. С.14-16.
15. Пальмов С.В., Денискова А.О. Случайный лес: основные особенности. // Наука сегодня: теоретические и практические аспекты. - 2017. С.51-53.
..25


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ