Тип работы:
Предмет:
Язык работы:


Определение характеристик автора сообщений сетевых диалогов

Работа №61999

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы33
Год сдачи2016
Стоимость4260 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
41
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 4
Обзор литературы 5
Глава 1. Концепция машинного обучения с учителем 6
1.1. Формальная постановка задачи обучения по прецедентам
(обучения с учителем) 6
1.2. Признаковое описание объектов 6
1.3. Виды обучения с учителем 7
1.4. Предсказательная модель 8
1.5. Этапы обучения и применения модели 8
1.6. Функционал качества 8
1.7. Сведение задачи обучения к задаче оптимизации 9
Глава 2. Работа с данными 10
2.1. Источник данных 10
2.2. Хранение данных 11
2.3. Предобработка данных и создание признаков 11
Глава 3. Методы машинного обучения 14
3.1. Метод опорных векторов 14
3.2. Градиентный бустинг 19
3.3. Наивный байесовский классификатор 22
Глава 4. Настройка гиперпараметров методов машинного обучения . 24
Глава 5. Тестирование алгоритмов 25
Выводы 29
Заключение 30
Список литературы 31
Приложение


В наш век информационных технологий, всё больше и больше людей взаимодействуют друг с другом посредством социальных сетей, форумов и мессенджеров. Люди делятся мыслями, новостями, общаются, знакомятся. Как и в любой другой сфере деятельности человека, здесь тоже есть свои злоумышленники. Прикрываясь чужими именами они могут пропагандировать антигуманистические взгляды, клеветать других людей, угрожать им и т. д. Эти злоумышленники также скорее всего взаимодействуют с другими людьми в интернете от своего имени, не сильно меняя при этом стиль своего общения.
Задача данной работы состоит в том, чтобы научиться определять автора сообщения или нескольких сообщений в сетевых диалогах из конкретного множества авторов, основываясь на предыдущих сообщениях с уже известными авторами, с помощью методов машинного обучения. Этот подраздел искусственного интеллекта является самостоятельной математической дисциплиной, находящейся на стыке прикладной статистики, численных методов оптимизации и дискретного анализа. Его главной задачей является извлечение знаний из данных.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Точность классификации самого оптимального метода превысила baseline на 21%, это значит, что зависимость между объектами и классами может быть установлена, то есть автор сообщений может быть идентифицирован по ним с приемлемой точностью.
В дальнейшем, для улучшения качества классификации можно попробовать увеличить количество объектов каждого класса и объединять большее количество сообщений одного автора. Также для практической применимости нужно значительно расширить количество классов. Работа с таким количеством классов и объектов потребует большего количества вычислительных ресурсов и памяти. Для решения этой проблемы можно воспользоваться алгоритмами обучения вне ядра (out-of-core learning), которые позволяют несколько раз "доучивать" классификатор на частях выборки, если вся выборка не может сразу поместиться в оперативную память. Также можно попробовать использовать методы обучения, основанные на искусственных нейронных сетях. Эти методы во многих случаях позволяют восстановить достаточно сложные зависимости.



[1] Corney M., Anderson A., Mohay G., De Vel O. Identifying the Authors of Suspect E-mail [Электронный ресурс] // Computers and Security, 2001. https://core.ac.uk/download/files/310/10878359.pdf
[2] Diedercih J., Kindermann J., Leopold E., Paass G. 2003. Authorship attribution with support vector machines. Appl. Intell. 19, С.109-123
[3] Chaski C. E. Who’s at the keyboard: Authorship attribution in digital evidence investigations // International Journal of Digital Evidence, vol. 4, no. 1
[4] Романов А. С., Мещеряков Р. В. Идентификация авторства коротких текстов методами машинного обучения [Электронный ресурс] http: //www.dialog-21.ru/digests/dialog2010/materials/pdf/62.pdf
[5] Признаковое описание [Электронный ресурс] URL:http://www. machinelearning.ru/wiki/index.php?title=Признаковое_описание
(дата обращения: 16.03.16).
[6] Машинное обучение (курс лекций, Воронцова К. В.) [Электронный ресурс] URL:http://www.machinelearning.ru/wiki/index.php?title= Машинное_обучение (дата обращения: 16.03.16).
[7] Тематическое моделирование [Электронный ресурс] URL:http: //www.machinelearning.ru/wiki/index.php?title=Тематическое_ моделирование (дата обращения: 16.03.16).
[8] Машина опорных векторов [Электронный ресурс] URL:http: //www.machinelearning.ru/wiki/index.php?title=SVM (дата обращения: 16.03.16).
[9] Скользящий контроль [Электронный ресурс] URL:http://www. machinelearning.ru/wiki/index.php?title=Скользящий_контроль
(дата обращения: 16.03.16).
[10] Rifkin R. Multiclass Classification [Электронный ресурс] URL:http:// www.mit.edu/~9.520/spring08/Classes/multiclass.pdf (дата обращения: 16.03.16).
[11] Алгоритм AnyBoost [Электронный курс] URL:http://www.
machinelearning.ru/wiki/index.php?title=Градиентный_бустинг
(дата обращения: 16.03.16).
[12] Feature Selection [Электронный ресурс] URL:http:// scikit-learn.org/stable/modules/feature_selection.html# univariate-feature-selection (дата обращения: 20.03.16).


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ