Тема: Применение методов машинного обучения в задачах анализа новостных медиа
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1. ПОСТАНОВКА ЗАДАЧИ 5
2. ЭТАПЫ ВЫПОЛНЕНИЯ ПОСТАВЛЕННОЙ ЗАДАЧИ 6
2.1. Поиск и формирование базы текстов 6
2.2. Предварительная обработка документов 8
2.3. Использованные методы машинного обучения 9
2.3.1. Описание использованных методов машинного обучения 9
2.3.2. Общая постановка задачи обучения по прецедентам 11
2.3.3. Математическая постановка задачи обучения по прецедентам 12
3. ВЫБОР СРЕДСТВ РЕАЛИЗАЦИИ 14
3.1. Выбор языка программирования и среды разработки 14
3.2. Используемые пакеты 15
4. РЕАЛИЗАЦИЯ АЛГОРИТМОВ В СРЕДЕ R 16
4.1. Создание объекта «корпус» 17
4.2. Предварительная обработка 19
4.3. «Стемминг» 20
4.3.1. Стеммер Портера 21
4.3.2. Стеммер Яндекса 23
4.4. Матрица терминов-документов (документов-терминов) 26
4.3.1. «Мешок слов» (англ. bag of words) 26
4.3.2. Матрица TF-IDF (Term Frequency-Inverse Document Frequency) 31
4.3.2.I. Метод обработки информации LSA (англ. Latent semantic analysis) 33
4.5. Применение методов машинного обучения 35
4.5.1. Классификация 36
4.5.2. Кластеризация 43
ЗАКЛЮЧЕНИЕ 59
СПИСОК ЛИТЕРАТУРЫ 60
ПРИЛОЖЕНИЕ - ЛИСТИНГ ПРОГРАММЫ 62
📖 Введение
Интеллектуальный анализ текстов (англ.: text mining) - направление в искусственном интеллекте, набор технологий и методов, предназначенных для извлечения информации из текстов. Цель text mining - обрабатывать неструктурированную текстовую информацию, извлекать структурированные данные из текста и, таким образом, делать информацию, содержащуюся в тексте, доступной для различных алгоритмов интеллектуального анализа данных.
Для обработки текстов обычно применяются такие методы машинного обучения, как кластеризация, классификация, ассоциативные правила и интеллектуальное моделирование. С помощью этих методов появляется возможность извлекать информацию из данных и использовать её для автоматизации процессов, которые в противном случае выполнялись бы вручную, и разрабатывать продукты, которые лучше отвечают потребностям клиентов.
Данная работа посвящена изучению технологий text mining, и применению методов машинного обучения к обработанным текстам. С помощью технологии интеллектуального анализа текста происходит классификация и кластеризация статей российских медиа по заданным категориям. Классификация документов является одной из основных задач для разрабатываемой системы в рамках данной научной работы, что в дальнейшем может позволить перейти от ручной обработки документов к автоматизированной.
Разница между общим интеллектуальным анализом данных (data mining) и текстовым интеллектуальным анализом (text mining) заключается в том, что в текстовом режиме информативные данные извлекаются из текста естественного языка, а не из структурированных баз данных. Базы данных предназначены для автоматической обработки программами, в то время как текст написан для чтения людьми. Насколько нам известно, в настоящее время не существует программ, которые могут «читать» текст и осмысливать его наравне с человеком: скорее всего, в обозримом будущем такие программы не появятся. Многие исследователи считают, что разработки в этой области потребуют полного моделирования того, как работает мозг человека, прежде чем появится возможность написать программы, которые читают текст и осмысливают прочитанное так же, как это делают люди.
✅ Заключение
1. Задача категоризации текстовых документов допускает постановку в виде задачи классификации и кластеризации и, как следствие, допускает применение методов машинного обучения.
2. Для решения задач классификации и кластеризации предварительная обработка текстовых данных является одним из основных этапов, который оказывает большое влияние на точность работы алгоритмов машинного обучения.
3. Для базы статей, полученной из новостных порталов РИА Новости и КП (Комсомольская правда) методы классификации дали более высокую степень качества, чем методы кластеризации.
4. Наиболее точным методом классификации оказался метод максимальной энтропии при использованием матрицы типа «bag of words» и стеммера Портера с 86% точностью.
5. Кластеризация полученных объектов в рамках задачи четкой кластеризации оказалась невозможной, так как содержимое статей медиа порталов сложно однозначно отнести к какой либо теме.



