Аннотация 2
Введение 3
Глава 1 Технологии анализа текстовых данных 6
1.1 Сферы использования технологий анализа текстовых данных 6
1.2 Моделирование метода выявления интересов пользователя 11
Глава 2 Разработка системы анализа поисковой активности в социальных
сетях 15
2.1 Методика исследования поисковых запросов 15
2.2 Подробное описание алгоритма обработки текстовых данных из
поисковых запросов 19
Глава 3 Создание приложения для исследования поисковых запросов 23
3.1 Особенности выполнения программного блока 23
3.2. Результаты тестирования приложения 33
3.3. Расчет экономической эффективности 36
Заключение 38
Список используемой литературы и используемых источников 39
Технологии text mining растут из-за необходимости в анализе естественных языков. Они используются для чат-ботов, обработки текстов, определения темы и эмоций. В бакалаврской работе представлена система, анализирующая запросы пользователя в соцсетях с применением text mining.
Выбор темы обусловлен ростом популярности соцмедиа. По статистике Вконтакте, ее ежедневно посещает 54% россиян. Чтобы удерживать интерес, важно понимать предпочтения пользователей.
Для определения интересов пользователя можно использовать как информацию, указанную им в своем профиле (например, место проживания, хобби и т.д.), так и статистические данные о страницах, которые он просматривал в социальных сетях (вроде тематических сообществ и групп).
В этом исследовании предлагается дополнить перечень источников данных о предпочтениях пользователя, включив в него информацию, извлеченную из анализа его поисковых запросов.
Одним из трудностей использования поисковых запросов для выявления интересов пользователя является их частое представление в текстовой форме без определенной структуры. Для получения нужной информации из такого текста требуется применение методов text mining.
Цель работы - создать систему анализа запросов для определения интересов пользователя.
Чтобы достичь поставленной цели, следует решить ряд задач:
• разработать модель процесса выявления интересов пользователя;
• спроектировать систему анализа поисковых запросов в социальных сетях;
• осуществить реализацию и провести тестирование созданной системы;
Используемые методы исследования включают в себя технологии анализа текстов (text mining), методы проектирования информационных систем и программные технологии.
Практическое значение этой бакалаврской работы связано с созданием программного решения для определения интересов пользователя, исходя из анализа его текстовых поисковых запросов. Работа включает в себя введение, три главы, заключение, список литературы и приложения.
В первой главе работы представлен обзор актуальных исследований в области text mining, рассматриваются вопросы удержания внимания пользователей социальных медиа, также проводится моделирование процесса выявления интересов пользователей с использованием нотации IDEF0.
Во второй главе акцент делается на дизайне системы анализа поисковых запросов в социальных сетях. Здесь представлена схема работы предлагаемого программного решения и детализирован алгоритм обработки текстовой информации.
Третья глава охватывает этапы создания программного продукта. В ней также демонстрируются исходы тестирования программного модуля на основе реальных поисковых запросов автора.
В заключении изложены итоги проведенной выпускной квалификационной работы.
В рамках бакалаврской работы будет разработано приложение на языке Python, обеспечивающее анализ текстовых поисковых запросов. Оно включает в себя функции: импорт и просмотр данных запросов, их первичную обработку, удаление стоп-слов, приведение слов к их основной форме, частотный анализ и визуализацию наиболее употребляемых слов в форме "облака тегов". Проведено тестирование программы на актуальных текстовых запросах.
Бакалаврская работа состоит из 40 страниц текста, 26 рисунков, и 20 источников.
В заключении рассмотрим итоги бакалаврской работы:
• изучение литературы показало, что важной целью для компаний, управляющих социальными сетями, является удержание аудитории на своих ресурсах;
• чтобы привлекать внимание пользователей, платформам нужно выявлять их интересы, чтобы предлагать актуальный контент;
• в данной работе предложен способ определения интересов посетителей на основе их текстовых запросов, анализируемых методами text mining;
• литературный обзор выделил ключевые этапы text mining: сбор информации, обработка текста, его фильтрация, преобразование признаков и анализ данных;
• используя методологию IDEF0, было проведено моделирование процесса "Определение интересов пользователя", что выделило ключевые компоненты процесса и определило функциональную роль планируемой информационной системы;
• раскрыта последовательность программы, которая включает сбор информации о пользователях, создание списка запросов и выявление интересов путем анализа частотности встречаемости текстовых элементов;
• предложен алгоритм анализа запросов интересующих тем. Этот алгоритм обрабатывает и анализирует текстовые запросы, создание графиков популярности слов и облаков слов;
• на Python создано приложение для анализа запросов, включая этапы обработки, очистки от лишних слов, приведение слов к их основной форме и визуализацию результатов;
• Программа была протестирована на реальных текстовых запросах, что подтвердило ее эффективность и корректную работу.
1. Агеев М. С. Автоматическая рубрикация текстов: методы и проблемы / М.С. Агеев, Б.В. Доброе, Н.В. Лукашевич // Ученые записки казанского государственного университета, 2011. - №5. - с. 26-40
2. Григорьев Е.А. Разведочный анализ данных с помощью Python /
Григорьев Е.А., Климов Н.С. // E-Scio. 2021. №3 (42). URL:
https://cyberleninka.rU/article/n/razvedochnyy-analiz-dannyh-s-pomoschyu-python (дата обращения: 22.09.2023).
3. Гришков, Д.Ю. Язык высокого уровня программирования Python
/ Гришков Данила Юрьевич, Аусилова Назерке Мырзабековна // HHP/S&R. 2023. №1 (9). URL: https://cyberleninka.ru/article/n/yazyk-vysokogo-urovnya-
programmirovaniya-python (дата обращения: 22.09.2023).
4. а Ершов, В.Е. Тенденции развития рекламной деятельности в
социальных сетях / Ершов Вадим Евгеньевич // Вестник евразийской науки. 2017. №4 (31). URL: https://cyberleninka.ru/article/n/tendentsii-razvitiya-
reklamnoy-deyatelnosti-v-sotsialnyh-setyah (дата обращения: 22.09.2023).
5. Корелов, С.В. Предобработка текстов электронных писем в задаче обнаружения спама / С.В. Корелов, А.М. Петров, Л.Ю. Ротков, А.А. Горбунов // Труды учебных заведений связи, 2021. - №5. - с. 81-92
6. Леоненков А. В. Объектно-ориентированный анализ и проектирование с использованием UML и IBM Rational Rose [Электронный ресурс] : учебное пособие. М. : Интернет-Университет Информационных Технологий (ИНТУИТ), Ай Пи Ар Медиа, 2021. 218 c. [Электронный ресурс]. URL: https://www.iprbookshop.ru/97554.html (дата обращения: 06.09.2023).
7. Маннинг, К.Д. Введение в информационный поиск / Г Кристофер Д. Маннинг, Прабхакар Рагхаван, Хайнрих Шютце. : Пер. с англ. - М. : ООО “И.Д. Вильямс”, 2016 - 438c.
8. Мкртычев С.В., Гущина О.М., Очеповский А.В. Прикладная информатика. Бакалаврская работа [Электронный ресурс] : электрон. учеб- метод. пособие. Тольятти. ТГУ: Изд-во ТГУ, 2020. 2 оптический диск.
9. Тарасова А.Н. Сентиментальный анализ постов в социальных
сетях посредством Python / Тарасова А.Н., Иванов К.О. // Символ науки. 2023. №4-1. URL: https:ZZcyberleninka.ru/articleZn/sentimentalnyy-analiz-postov-v-
sotsialnyh-setyah-posredstvom-python (дата обращения: 22.09.2023).
10. Чибирова, М.Э. Анализ данных и регрессионное моделирование с
применением языков программирования Python и R / Чибирова Марина Эльбрусовна // Научные записки молодых исследователей. 2020. №3. URL: https:ZZcyberleninka.ru/articleZn/analiz-dannyh-i-regressionnoe-modelirovanie-s- primeneniem-yazykov-programmirovaniya-python-i-r (дата обращения:
22.09.2023).
11. Amasaki, S. The Effects of Vectorization Methods on Non-Functional Requirements Classification Z Sousuke Amasaki, Pattara Leelaprute ZZ 2019 46th Euromicro Conference on Software Engineering and Advanced Applications (SEAA), 2019. - IEEE, Prague, Czech Republic, 2019. - pp.56-76.
12. Bird, S. Natural Language Processing with Python Z Steven Bird, Ewan Klein, Edward Loper. - Published by O’Reilly Media, Inc., 2015. - 452p.
13. Bugueno, М. Learning to combine classifiers outputs with the transformer for text classification Z Margarita Bugueno, Marcelo Mendoza ZZ Intelligent Data Analysis, 2020 - № 24. - pp. 15-41
14. Business Process Model and Notation [Электронный ресурс]. URL:
https:ZZwww.omg.org/specZBPMNZ3.0ZAbout-BPMN/ (дата обращения:
22.09.2023).
15. Gao, G. Research on Routing Selection Algorithm Based on Genetic Algorithm Z Guohong Gao, Baojian Zhang, Xueyong Li, Jinna Lv ZZ International Conference on Intelligent Computing and Information Science - International Conference, ICICIS 2011, Chongqing, China, January 19-20, 2014. Proceedings, Part II: Intelligent Computing and Information Science. - Springer-Verlag Berlin Heidelberg 2014. - pp. 253-258
... всего 20 источников