Тема: Определение характеристик автора сообщений сетевых диалогов
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 4
Обзор литературы 5
Глава 1. Концепция машинного обучения с учителем 6
1.1. Формальная постановка задачи обучения по прецедентам
(обучения с учителем) 6
1.2. Признаковое описание объектов 6
1.3. Виды обучения с учителем 7
1.4. Предсказательная модель 8
1.5. Этапы обучения и применения модели 8
1.6. Функционал качества 8
1.7. Сведение задачи обучения к задаче оптимизации 9
Глава 2. Работа с данными 10
2.1. Источник данных 10
2.2. Хранение данных 11
2.3. Предобработка данных и создание признаков 11
Глава 3. Методы машинного обучения 14
3.1. Метод опорных векторов 14
3.2. Градиентный бустинг 19
3.3. Наивный байесовский классификатор 22
Глава 4. Настройка гиперпараметров методов машинного обучения . 24
Глава 5. Тестирование алгоритмов 25
Выводы 29
Заключение 30
Список литературы 31
Приложение
📖 Введение
Задача данной работы состоит в том, чтобы научиться определять автора сообщения или нескольких сообщений в сетевых диалогах из конкретного множества авторов, основываясь на предыдущих сообщениях с уже известными авторами, с помощью методов машинного обучения. Этот подраздел искусственного интеллекта является самостоятельной математической дисциплиной, находящейся на стыке прикладной статистики, численных методов оптимизации и дискретного анализа. Его главной задачей является извлечение знаний из данных.
✅ Заключение
В дальнейшем, для улучшения качества классификации можно попробовать увеличить количество объектов каждого класса и объединять большее количество сообщений одного автора. Также для практической применимости нужно значительно расширить количество классов. Работа с таким количеством классов и объектов потребует большего количества вычислительных ресурсов и памяти. Для решения этой проблемы можно воспользоваться алгоритмами обучения вне ядра (out-of-core learning), которые позволяют несколько раз "доучивать" классификатор на частях выборки, если вся выборка не может сразу поместиться в оперативную память. Также можно попробовать использовать методы обучения, основанные на искусственных нейронных сетях. Эти методы во многих случаях позволяют восстановить достаточно сложные зависимости.



