📄Работа №128205

Тема: Применение методов машинного обучения в задаче агрегации новостных статей

📝

Тип работы Бакалаврская работа

📚

Предмет Информатика и вычислительная техника

📄

Объем: 38 листов

📅

Год: 2021

👁️

4355 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

Содержание 2
Введение 3
Постановка задачи 4
Обзор литературы 5
1 Анализ предметной области 7
1.1 Анализ существующих решений 7
2 Классификация текста 11
2.1 Предобработка и векторизация текста 12
2.2 Разметка и балансировка данных для обучения 18
2.3 Методы классификации 19
3 Процесс разработки 23
3.1 Создание датасета 23
3.2 Предобработка текста 24
3.3 Векторизация текста 25
3.4 Классификация текста 29
4 Результаты исследования 33
Выводы 36
Заключение 36
Список литературы 37

📖 Введение

В настоящее время существует множество новостных сайтов, генерирующих содержимое разностороннего характера. Для объединения всей информации в одном удобном пользователю месте, были созданы новостные агрегаторы. Однако для разделения новостей по темам они либо используют ручной подход, либо ориентируются на то, к какой теме принадлежит новость в оригинальном источнике. В первом случае разметка будет весьма субъективна, к тому же могут допускаться ошибки. Также наличие большого объема источников пропорционально увеличивает необходимый штат сотрудников. Во втором случае необходимо настраивать точную сеть тематического соответствия между новостным агрегатором и каждым сайтом в отдельности. А также исключается возможность использования ресурсов, на которых отсутствует тематическая разметка.
Актуальность работы заключается в исследовании методов автоматического разделения коллекции новостей на заранее заданные тематики. Это поможет автоматизировать новостные агрегаторы и позволит им пользоваться новостными ресурсами без предварительной разметки.
Объект исследования - применение методов классификации для предоставления пользователю средств навигации по коллекции документов.
Предмет исследования - разбиение новостных документов на темы при помощи классификации и векторных моделей.
Цель работы - сравнение методов машинного обучения в задаче классификации и векторизации новостных статей.

✅ Заключение

В данной работе были исследованы и применены на практике ряд методов по предобработке, векторизации и классификации текстовых документов. В ходе сравнения алгоритмов векторизации был выявлен один - TF-IDF, при котором достигались высокие результаты при любом из представленных методов классификации. Был найден самый оптимальный классификатор для задачи агрегации новостных статей - Bert_base. Однако классические методы машинного обучения также показали высокие результаты.
Данное исследование имеет перспективы в дальнейшей работе. Существует множество методов машинного обучения, нейросетевых архитектур и векторизаторов, которые можно рассмотреть в данной задаче, а также каждый год появляются новые, более инновационные и прорывные решения.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

[1] Bird, Steven, Ewan Klein, Edward Loper. Natural Language Processing with Python - O'Reilly Media Inc, 2009. - 502c.
[2] Kamran Kowsari, Kiana Jafari Meimandi, Mojtaba Heidarysafa, Sanjana Mendu, Laura Barnes, Donald Brown. Text Classification Algorithms: A Survey - 2019
[3] Chi Sun, Xipeng Qiu, Yige Xu, Xuanjing Huang. How to Fine-Tune BERT for Text Classification? - 2020
[4] Г Кристофер Д. Маннинг, Прабхакар Рагхаван, Хайнрих Шютце. Введение в информационный поиск. : Пер. с англ. - М. : ООО “И.Д. Вильямс”, 2014 - 528c
[5] Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
[6] Sousuke Amasaki, Pattara Leelaprute. The Effects of Vectorization Methods on Non-Functional Requirements Classification - 2018
[7] Margarita Bugueno, Marcelo Mendoza. Learning to combine classifiers outputs with the transformer for text classification - 2020
[8] Jurafsky, Daniel; H. James, Martin. Vector Semantics and Embeddings - 2000
[9] V. Srividhya, R. Anitha. Evaluating Preprocessing Techniques in Text Categorization - 2010
[10] С.В. Корелов, А.М. Петров, Л.Ю. Ротков, А.А. Горбунов. Предобработка текстов электронных писем в задаче обнаружения спама - 2020
[11] Малахов Д. П. Методы автоматической рубрикации текстовых документов предметной области // Научный семинар Института системного программирования РАН, 2015
[12] Daniel Cera, Yinfei Yanga, Sheng-yi Konga, Nan Huaa, Nicole Limtiacob, Rhomni St. Johna, Noah Constanta, Mario Guajardo-Cespedes, Steve Yuanc, Chris Tara, Yun-Hsuan Sunga, Brian Stropea, Ray Kurzweila. Universal Sentence Encoder - 2018
[13] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding - 2019

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (210005)

Статьи

»» Все статьи

Вход в личный кабинет