📄Работа №61999

Тема: Определение характеристик автора сообщений сетевых диалогов

📝
Тип работы Дипломные работы, ВКР
📚
Предмет Информатика и вычислительная техника
📄
Объем: 33 листов
📅
Год: 2016
👁️
Просмотров: 97
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

Введение 3
Постановка задачи 4
Обзор литературы 5
Глава 1. Концепция машинного обучения с учителем 6
1.1. Формальная постановка задачи обучения по прецедентам
(обучения с учителем) 6
1.2. Признаковое описание объектов 6
1.3. Виды обучения с учителем 7
1.4. Предсказательная модель 8
1.5. Этапы обучения и применения модели 8
1.6. Функционал качества 8
1.7. Сведение задачи обучения к задаче оптимизации 9
Глава 2. Работа с данными 10
2.1. Источник данных 10
2.2. Хранение данных 11
2.3. Предобработка данных и создание признаков 11
Глава 3. Методы машинного обучения 14
3.1. Метод опорных векторов 14
3.2. Градиентный бустинг 19
3.3. Наивный байесовский классификатор 22
Глава 4. Настройка гиперпараметров методов машинного обучения . 24
Глава 5. Тестирование алгоритмов 25
Выводы 29
Заключение 30
Список литературы 31
Приложение

📖 Введение

В наш век информационных технологий, всё больше и больше людей взаимодействуют друг с другом посредством социальных сетей, форумов и мессенджеров. Люди делятся мыслями, новостями, общаются, знакомятся. Как и в любой другой сфере деятельности человека, здесь тоже есть свои злоумышленники. Прикрываясь чужими именами они могут пропагандировать антигуманистические взгляды, клеветать других людей, угрожать им и т. д. Эти злоумышленники также скорее всего взаимодействуют с другими людьми в интернете от своего имени, не сильно меняя при этом стиль своего общения.
Задача данной работы состоит в том, чтобы научиться определять автора сообщения или нескольких сообщений в сетевых диалогах из конкретного множества авторов, основываясь на предыдущих сообщениях с уже известными авторами, с помощью методов машинного обучения. Этот подраздел искусственного интеллекта является самостоятельной математической дисциплиной, находящейся на стыке прикладной статистики, численных методов оптимизации и дискретного анализа. Его главной задачей является извлечение знаний из данных.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

Точность классификации самого оптимального метода превысила baseline на 21%, это значит, что зависимость между объектами и классами может быть установлена, то есть автор сообщений может быть идентифицирован по ним с приемлемой точностью.
В дальнейшем, для улучшения качества классификации можно попробовать увеличить количество объектов каждого класса и объединять большее количество сообщений одного автора. Также для практической применимости нужно значительно расширить количество классов. Работа с таким количеством классов и объектов потребует большего количества вычислительных ресурсов и памяти. Для решения этой проблемы можно воспользоваться алгоритмами обучения вне ядра (out-of-core learning), которые позволяют несколько раз "доучивать" классификатор на частях выборки, если вся выборка не может сразу поместиться в оперативную память. Также можно попробовать использовать методы обучения, основанные на искусственных нейронных сетях. Эти методы во многих случаях позволяют восстановить достаточно сложные зависимости.

Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

[1] Corney M., Anderson A., Mohay G., De Vel O. Identifying the Authors of Suspect E-mail [Электронный ресурс] // Computers and Security, 2001. https://core.ac.uk/download/files/310/10878359.pdf
[2] Diedercih J., Kindermann J., Leopold E., Paass G. 2003. Authorship attribution with support vector machines. Appl. Intell. 19, С.109-123
[3] Chaski C. E. Who’s at the keyboard: Authorship attribution in digital evidence investigations // International Journal of Digital Evidence, vol. 4, no. 1
[4] Романов А. С., Мещеряков Р. В. Идентификация авторства коротких текстов методами машинного обучения [Электронный ресурс] http: //www.dialog-21.ru/digests/dialog2010/materials/pdf/62.pdf
[5] Признаковое описание [Электронный ресурс] URL:http://www. machinelearning.ru/wiki/index.php?title=Признаковое_описание
(дата обращения: 16.03.16).
[6] Машинное обучение (курс лекций, Воронцова К. В.) [Электронный ресурс] URL:http://www.machinelearning.ru/wiki/index.php?title= Машинное_обучение (дата обращения: 16.03.16).
[7] Тематическое моделирование [Электронный ресурс] URL:http: //www.machinelearning.ru/wiki/index.php?title=Тематическое_ моделирование (дата обращения: 16.03.16).
[8] Машина опорных векторов [Электронный ресурс] URL:http: //www.machinelearning.ru/wiki/index.php?title=SVM (дата обращения: 16.03.16).
[9] Скользящий контроль [Электронный ресурс] URL:http://www. machinelearning.ru/wiki/index.php?title=Скользящий_контроль
(дата обращения: 16.03.16).
[10] Rifkin R. Multiclass Classification [Электронный ресурс] URL:http:// www.mit.edu/~9.520/spring08/Classes/multiclass.pdf (дата обращения: 16.03.16).
[11] Алгоритм AnyBoost [Электронный курс] URL:http://www.
machinelearning.ru/wiki/index.php?title=Градиентный_бустинг
(дата обращения: 16.03.16).
[12] Feature Selection [Электронный ресурс] URL:http:// scikit-learn.org/stable/modules/feature_selection.html# univariate-feature-selection (дата обращения: 20.03.16).

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.

©2026 Cервис помощи студентам в выполнении работ