📄Работа №77059

Тема: РЕАЛИЗАЦИЯ И АНАЛИЗ МЕТОДОВ КЛАССИФИКАЦИИ В ЗАДАЧАХ ФИЛЬТРАЦИИ БАНКОВСКОГО СПАМА СРЕДИ SMS-СООБЩЕНИЙ

📝

Тип работы Бакалаврская работа

📚

Предмет информационная безопасность

📄

Объем: 45 листов

📅

Год: 2017

👁️

4380 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

ВВЕДЕНИЕ 5
1 Сущность Спам-сообщений 6
1.1 Определение понятия спам-сообщений 6
1.1.1 Классификация спама 6
1.1.2 Способы распространения спама 8
1.2 Методы борьбы со спамом 11
2 Методы автоматической классификации спама 13
2.1 Классификатор Байеса 13
2.2 Метод опорных векторов 14
2.3 Метод k-средних 16
2.4 Классификатор Роше 16
2.5 Методы определения семантической близости текстов 17
2.5.1 Латентно-семантический анализ 17
2.5.2 Поточечная взаимная информация 18
2.5.3 Непосредственный семантический анализ 19
2.6 Стемминг 19
2.6.1 Сущность стемминга 19
2.6.2 Стеммер Портера 20
2.6.3 Алгоритм «Stemka» 21
2.6.4 Алгоритм «MyStem» 22
3 ВЕБ-ПРИЛОЖЕНИЕ ДЛЯ ФИЛЬТРАЦИИ БАНКОВСКОГО СПАМА 24
3.1 Описание работы программы 24
3.2 Определение признаков 27
3.2.1 Выявление признаков текста на основе метода Байеса 27
3.2.2 Выявления признаков текста на основе латентно-семантического анализа 29
3.3 Обучение фильтров 31
3.4 Расчет ошибок первого и второго рода 34
3.5 Тестирование работы программы 36
Заключение 38
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 40

📖 Введение

Сегодня многие банки своим клиентам предоставляют различные услуги для управления счетами. Одной, из популярных является мобильный банкинг, который является не только удобным при использовании, но и зачастую является мишенью для мошенников. Злоумышленники при помощи спам рассылок отправляют различные сообщения от имени банка. Например, в подобных сообщениях может содержаться ссылка на фишинговый сайт, посредством функционала которого злоумышленник может получить реквизиты банковской карты.
Одним из способов борьбы с этой проблемой является создания мобильного приложения для автоматической фильтрации банковского спама. В данной работе рассматривается автоматическая фильтрация сообщений с применением наивного байесовского классификатора, метода опорных векторов и латентно-семантического анализа.
Целью работы является создание алгоритмов фильтрации банковского спама и разработка на их основе мобильного приложения для ОС Android.
Задачи:
1) изучить основные методы фильтрации спама;
2) создать базу данных банковского спама и легитимных сообщений;
3) создать алгоритмы для классификации сообщений;
4) изучить среду разработки мобильных приложений Android-Studio;
5) реализовать функцию, обрабатывающий текст сообщения;
6) разработать мобильное приложение для фильтрации спама на основе созданных алгоритмов;
7) провести сравнительный анализ методов классификации;
8) оценить вероятность ошибки для полученных результатов фильтрации.

✅ Заключение

Обзор существующих угроз безопасности со стороны спам-рассылок показал, что определение спама в банковской сфере имеет большую значимость. Анализ возможностей методов фильтрации, применяемых для определения спама показал, что чаще всего в системах преобладает распознавание наивным Байесовским методом. Один из лучших результатов по распознаванию спама в текстовых сообщениях показывает ЛСА. Для классификации необходимо знание порогового значения, которое наиболее быстро и эффективно находится при помощи метода SVM.
На основе выбранных методов разработано приложение для фильтрации мобильного спама на основе метода Байеса и латентно-семантического анализа под ПО Android версии 4.0.1 и выше.
Для оптимизации фильтра была создана функция для обработки текста входящих сообщений и обещающей выборки, которая реализует замену заглавных букв строчными, удаление стоп-слов, чисел и знаков препинаний и выявляет основу слова на основании алгоритма Портера.
Для обучения классификатора на основе Байеса использовались 105 единиц банковского спама, сформированных на основе сообщений с сайта banki.ru, и 125 легитимных сообщений. Из выборки была сформирована база данных для частотного словаря, включающая частотные словари ключевых лексем. В качестве БД выбрана инструмента для реализации SQLite 3.
Было изучено для Байесовского классификатора влияние порога на вероятность появления ошибок первого и второго рода. Для этого потребовалось 20 банковского спама и 25 легитимных сообщений. Для данного эксперимента был найден порог с помощью метода опорных векторов, его значение составил 0,72.
Преимущества классификатора Байеса в быстродействие и в эффективности выявления спама. Общая ошибка определения спама для него составила не более 10%.
Для обучения второго классификатора, основанного на ЛСА, из обучающей выборки, в состав которой входило 114 спам и 142 легитимных сообщений, была составлена частотная матрица индексируемых слов. При помощи реализации метода ЛСА были выявлены значения признаков, характеризующие латентную зависимость внутри множества сообщений. На основании данных признаков была найдена методом опорных векторов оптимальная гиперплоскость, позволяющая в дальнейшем детектировать спам сообщения. Значение порога составило -0,026. Общая ошибка определения спама для фильтра методом ЛСА составила не более 15%.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1 Федеральный закон от 7 июля 2003 года № 126-ФЗ «О связи».
2 Спам [Электронный ресурс] / Википедия - свободная
энциклопедия, 2015. - Режим доступа:
ййрз://ги.’Мк1реФа.огд/’Мк1/Спам, свободный. Заглавие с экрана (дата обращения 05.05.2017).
3 Анатомия спама [Электронный ресурс] / Тенденция™, 2006-2016. - Режим доступа: https://www.tendence.ru/articles/anatomiya-spama, свободный. Заглавие с экрана (дата обращения 05.05.2017).
4 Федеральный закон от 13.03.2006 № 38-ФЗ (ред. от 08.03.2015) «О рекламе» (с изм. и доп., вступ. в силу с 01.10.2015).
5 Спам и фишинг в первом квартале 2017 [Электронный ресурс] /АО
«Лаборатория Касперского», 2017. - Режим доступа:
https://securelist.ru/spam-and-phishing-in-q1-2017/30565/, свободный. Заглавие с экрана (дата обращения 05.06.2017).
6 О вирусах: Виды известных угроз [Электронный ресурс] / АО
«Лаборатория Касперского», 2017. - Режим доступа:
http://support.kaspersky.ru/614?_ga=1.135865265.1263883542.146297 6372, свободный. Заглавие с экрана (дата обращения 05.03.2017).
7 Фишинг // Сбербанк - 2016, 51 стр. 8 Мобильное воровство
[Электронный ресурс] / «Доктор Веб», 2013-2016. - Режим
доступа: http://antifraud.drweb.ru/android_theft/, свободный.
Заглавие с экрана (дата обращения 08.05.2017).
8 Мобильное воровство [Электронный ресурс] / «Доктор Веб», 2013-2017. - Режим доступа: http://antifraud.drweb.ru/android_theft/, свободный. Заглавие с экрана (дата обращения 05.03.2017).
9 Спам [Электронный ресурс] / Ресурс необходимых знаний, 2012-2017. - Режим доступа: http://gitak.ru/spravochnik-
vebmastera/poiskovayaoptimizatsiya/506-spam.html, свободный.
Заглавие с экрана (дата обращения 08.05.2017).
10 Распространенные виды спама и борьба с ним [Электронный
ресурс] / Кодомаза, Режим доступа:
http://codomaza.com/article/rasprostranjonnye-vidy-spama-i-borba-s- nim, свободный. Заглавие с экрана (дата обращения 08.04.2017).
11 Спам ним [Электронный ресурс] / молодежный портал
«Dviger.com», 2009-2016. - Режим доступа:
http://spam.abuse.net/overview/whatisspam.shtml, Заглавие с экрана (дата обращения 15.05.2016).
12 Блоги, вики, форумы, доски объявлений [Электронный ресурс] / http://spam-fighter.ru/articlematerial9, свободный. Заглавие с экрана (дата обращения 15.05.2017).
13 Мошенничества и аферы с сотовыми телефонами [Электронный
ресурс] / Copyright А. Захаров, 2000-2016. - Режим доступа:
http://www.aferizm.ru/moshen/m_sotovye.htm, свободный. Заглавие с экрана (дата обращения 08.05.2017).
14 Семенова, М.А. Метод автоматической фильтрации при борьбе со «спамом» / М.А. Семенова, В.А. Семенов. - Изв. ВУЗОВ. Приборостроение, 2009. - Т. 52. - № 9 - С. 32-34.
15 Настройка фильтров в Google Analytics [Электронный ресурс] /
Веб-аналитик Даниил Азовских, 2008-2016. - Режим доступа:
http://webanalytic.ru/nastrojka-filtrov-v-google- analytics/#.V0qwZvmLTIU, свободный. Заглавие с экрана (дата обращения 08.05.2017).
16 Методы борьбы со спамом [Электронный ресурс] / HiTex
Technologies. 2009-2017. - Режим доступа:
http://support.hitex.by/index.php?_m=knowledgebase&_a=viewarticle&kbarticleid =149, свободный. Заглавие с экрана (дата обращения 10.05.2017).
17 Наивный байесовский классификатор [Электронный ресурс] /
Disqus, 2012. - Режим доступа:
http://bazhenov.me/blog/2012/06/11/naivebayes.html, свободный.
Заглавие с экрана (дата обращения 08.05.2017).
18 Детекция поискового спама [Электронный ресурс] / Компания
«SEO константа», 2009-2014. - Режим доступа:
http://wseob.ru/seo/searchengine-spam-part15, свободный. Заглавие с экрана (дата обращения 09.05.2017).
19 Классификация нейронных сетей [Электронный ресурс] / Проект
www.AIportal.ru, 2009-2014. - Режим доступа:
http://www.aiportal.ru/articles/neural-networks/classification, свободный. Заглавие с экрана (дата обращения 01.03.2017).
20 Ларионова А.В., Хорев П.Б. Оценка эффективности метода
фильтрации спама на основе искусственной нейронной сети / Интернет журнал «Науковедение», 2017 №8 (2) [Электронный ресурс]. - М.: Науковедение, 2011. - Режим доступа:
htmlhttp: //naukovedenie.ru/PDF/134TVN216.pdf, свободный.
Заглавие с экрана. (дата обращения 21.04.2017).
21 Машина опорных векторов [Электронный ресурс]
/MachineLearning.ru Режим доступа:
http://www.machinelearning.ru/wiki/index.php?title=SVM, свободный. Заглавие с экрана. (дата обращения 11.04.2017).
22 Классификация данных методом опорных векторов [Электронный
ресурс] / «TM», 2006 - 2017 - Режим доступа:
https://habrahabr.ru/post/105220/, свободный. Заглавие с экрана. (дата обращения 17.03.2017).
23 Кластеризация: алгоритмы k-means и c-means векторов
[Электронный ресурс] / «TM», 2006 - 2017. - Режим доступа: https://habrahabr.ru/post/67078/, свободный. Заглавие с экрана. (дата обращения 17.03.2017).
24 Метод k-средних [Электронный ресурс] / ООО «Аналитические
технологии», 2007. - Режим доступа:
https://basegroup.ru/community/glossary/k-means , свободный.
Заглавие с экрана. (дата обращения 17.03.2017).
25 Методы Машинного обучения (Data Mining) [Электронный
ресурс] / SMART-LABS. - Режим доступа: http://smart-
lab.ru/blog/38323.php , свободный. Заглавие с экрана. (дата
обращения 17.03.2017).
26 Классификация текстов на основе оценки семантической
близости терминов [Электронный ресурс] / ООО «НАУЧНАЯ электронная библиотека», 200-2017. - Режим доступа:
https://elibrary.ru/item.asp7idM7805774 , свободный. Заглавие с
экрана. (дата обращения 17.03.2017).
27 Латентно-семантический анализ [Электронный ресурс] / «TM», 2006 - 2017. . - Режим доступа: https://habrahabr.ru/post/110078/, свободный. Заглавие с экрана. (дата обращения 02.03.2017).
28 Латентно-семантический анализ [Электронный ресурс] / Википедия - свободная энциклопедия, 2015. - Режим доступа: https://ru.wikipedia.org/wiki/Латентно-семантический_анализ , свободный. Заглавие с экрана. (дата обращения 07.04.2017).
29 Стемминг [Электронный ресурс] / Википедия - свободная
энциклопедия, 2015. - Режим доступа:
https://ru.wikipedia.org/wiki/Стемминг , свободный. Заглавие с экрана. (дата обращения 23.05.2017).
30 М.В. Губин А.Б. Морозов. Влияние морфологического анализа на качество информационного поиск. / Консорциум «Кодекс» , 2006г. - С. 1-6 , 2017 №8 (2) [Электронный ресурс]. - Электронные библиотеки: Перспективные Методы и Технологии, 1999-2013 - Режим доступа: http://rcdl.ru/doc/2006/paper_67_v2.pdf, свободный. Заглавие с экрана. (дата обращения 17.03.2017).
31 Отзывы о банках [Электронный ресурс] /
http://www.banki.ru/services/responses/list/
32 JAMA: a Java Matrix Package [Электронный ресурс] /
http: //math. nist. gov/j avanumerics/j ama/.

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Тип работы *

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (208326)

Статьи

»» Все статьи

Вход в личный кабинет