Тип работы:
Предмет:
Язык работы:


Определение характеристик автора сообщений сетевых диалогов

Работа №132070

Тип работы

Бакалаврская работа

Предмет

математика и информатика

Объем работы33
Год сдачи2016
Стоимость4750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
30
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 4
Обзор литературы 5
Глава 1. Концепция машинного обучения с учителем 6
1.1. Формальная постановка задачи обучения по прецедентам (обучения с учителем) 6
1.2. Признаковое описание объектов 6
1.3. Виды обучения с учителем 7
1.4. Предсказательная модель 8
1.5. Этапы обучения и применения модели 8
1.6. Функционал качества 8
1.7. Сведение задачи обучения к задаче оптимизации 9
Глава 2. Работа с данными 10
2.1. Источник данных 10
2.2. Хранение данных 11
2.3. Предобработка данных и создание признаков 11
Глава 3. Методы машинного обучения 14
3.1. Метод опорных векторов 14
3.2. Градиентный бустинг 19
3.3. Наивный байесовский классификатор 22
Глава 4. Настройка гиперпараметров методов машинного обучения 24
Глава 5. Тестирование алгоритмов 25
Выводы 29
Заключение 30
Список литературы 31
Приложение 32

В наш век информационных технологий, всё больше и больше людей взаимодействуют друг с другом посредством социальных сетей, форумов и мессенджеров. Люди делятся мыслями, новостями, общаются, знакомятся. Как и в любой другой сфере деятельности человека, здесь тоже есть свои злоумышленники. Прикрываясь чужими именами они могут пропаганди­ровать антигуманистические взгляды, клеветать других людей, угрожать им и т. д. Эти злоумышленники также скорее всего взаимодействуют с дру­гими людьми в интернете от своего имени, не сильно меняя при этом стиль своего общения.
Задача данной работы состоит в том, чтобы научиться определять автора сообщения или нескольких сообщений в сетевых диалогах из кон­кретного множества авторов, основываясь на предыдущих сообщениях с уже известными авторами, с помощью методов машинного обучения. Этот подраздел искусственного интеллекта является самостоятельной математи­ческой дисциплиной, находящейся на стыке прикладной статистики, чис­ленных методов оптимизации и дискретного анализа. Его главной задачей является извлечение знаний из данных.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Точность классификации самого оптимального метода превысила ba­seline на 21%, это значит, что зависимость между объектами и классами может быть установлена, то есть автор сообщений может быть идентифи­цирован по ним с приемлемой точностью.
В дальнейшем, для улучшения качества классификации можно по­пробовать увеличить количество объектов каждого класса и объединять большее количество сообщений одного автора. Также для практической применимости нужно значительно расширить количество классов. Работа с таким количеством классов и объектов потребует большего количества вычислительных ресурсов и памяти. Для решения этой проблемы мож­но воспользоваться алгоритмами обучения вне ядра (out-of-core learning), которые позволяют несколько раз "доучивать" классификатор на частях выборки, если вся выборка не может сразу поместиться в оперативную память. Также можно попробовать использовать методы обучения, осно­ванные на искусственных нейронных сетях. Эти методы во многих случаях позволяют восстановить достаточно сложные зависимости.


[1] Corney M., Anderson A., Mohay G., De Vel O. Identifying the Authors of Suspect E-mail [Электронный ресурс] // Computers and Security, 2001. https://core.ac.uk/download/files/310/10878359.pdf
[2] Diedercih J., Kindermann J., Leopold E., Paass G. 2003. Authorship attribution with support vector machines. Appl. Intell. 19, С.109-123
[3] Chaski C. E. Who’s at the keyboard: Authorship attribution in digital evidence investigations // International Journal of Digital Evidence, vol. 4, no. 1
[4] Романов А. С., Мещеряков Р. В. Идентификация авторства коротких текстов методами машинного обучения [Электронный ресурс] http: //www.dialog-21.ru/digests/dialog2010/materials/pdf/62.pdf
[5] Признаковое описание [Электронный ресурс] URL:http://www. machinelearning.ru/wiki/index.php?title=Признаковое_описание (дата обращения: 16.03.16).
[6] Машинное обучение (курс лекций, Воронцова К. В.) [Электронный ресурс] URL:http://www.machinelearning.ru/wiki/index.php?title= Машинное_обучение (дата обращения: 16.03.16).
[7] Тематическое моделирование [Электронный ресурс] URL:http: //www.machinelearning.ru/wiki/index.php?title=Тематическое_ моделирование (дата обращения: 16.03.16).
[8] Машина опорных векторов [Электронный ресурс] URL:http: //www.machinelearning.ru/wiki/index.php?title=SVM (дата об­ращения: 16.03.16).
[9] Скользящий контроль [Электронный ресурс] URL:http://www. machinelearning.ru/wiki/index.php?title=Скользящий_контроль (дата обращения: 16.03.16).
[10] Rifkin R. Multiclass dassification [Электронный ресурс] URL:http:// www.mit.edu/~9.520/spring08/Classes/multiclass.pdf (дата обра­щения: 16.03.16).
[11] Алгоритм AnyBoost [Электронный курс] URL:http://www. machinelearning.ru/wiki/index.php?title=Градиентный_бустинг (дата обращения: 16.03.16).
[12] Feature Selection [Электронный ресурс] URL:http:// scikit-learn.org/stable/modules/feature_selection.html# univariate-feature-selection (дата обращения: 20.03.16).


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ