ВВЕДЕНИЕ 5
1 Сущность Спам-сообщений 6
1.1 Определение понятия спам-сообщений 6
1.1.1 Классификация спама 6
1.1.2 Способы распространения спама 8
1.2 Методы борьбы со спамом 11
2 Методы автоматической классификации спама 13
2.1 Классификатор Байеса 13
2.2 Метод опорных векторов 14
2.3 Метод k-средних 16
2.4 Классификатор Роше 16
2.5 Методы определения семантической близости текстов 17
2.5.1 Латентно-семантический анализ 17
2.5.2 Поточечная взаимная информация 18
2.5.3 Непосредственный семантический анализ 19
2.6 Стемминг 19
2.6.1 Сущность стемминга 19
2.6.2 Стеммер Портера 20
2.6.3 Алгоритм «Stemka» 21
2.6.4 Алгоритм «MyStem» 22
3 ВЕБ-ПРИЛОЖЕНИЕ ДЛЯ ФИЛЬТРАЦИИ БАНКОВСКОГО СПАМА 24
3.1 Описание работы программы 24
3.2 Определение признаков 27
3.2.1 Выявление признаков текста на основе метода Байеса 27
3.2.2 Выявления признаков текста на основе латентно-семантического анализа 29
3.3 Обучение фильтров 31
3.4 Расчет ошибок первого и второго рода 34
3.5 Тестирование работы программы 36
Заключение 38
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 40
Сегодня многие банки своим клиентам предоставляют различные услуги для управления счетами. Одной, из популярных является мобильный банкинг, который является не только удобным при использовании, но и зачастую является мишенью для мошенников. Злоумышленники при помощи спам рассылок отправляют различные сообщения от имени банка. Например, в подобных сообщениях может содержаться ссылка на фишинговый сайт, посредством функционала которого злоумышленник может получить реквизиты банковской карты.
Одним из способов борьбы с этой проблемой является создания мобильного приложения для автоматической фильтрации банковского спама. В данной работе рассматривается автоматическая фильтрация сообщений с применением наивного байесовского классификатора, метода опорных векторов и латентно-семантического анализа.
Целью работы является создание алгоритмов фильтрации банковского спама и разработка на их основе мобильного приложения для ОС Android.
Задачи:
1) изучить основные методы фильтрации спама;
2) создать базу данных банковского спама и легитимных сообщений;
3) создать алгоритмы для классификации сообщений;
4) изучить среду разработки мобильных приложений Android-Studio;
5) реализовать функцию, обрабатывающий текст сообщения;
6) разработать мобильное приложение для фильтрации спама на основе созданных алгоритмов;
7) провести сравнительный анализ методов классификации;
8) оценить вероятность ошибки для полученных результатов фильтрации.
Обзор существующих угроз безопасности со стороны спам-рассылок показал, что определение спама в банковской сфере имеет большую значимость. Анализ возможностей методов фильтрации, применяемых для определения спама показал, что чаще всего в системах преобладает распознавание наивным Байесовским методом. Один из лучших результатов по распознаванию спама в текстовых сообщениях показывает ЛСА. Для классификации необходимо знание порогового значения, которое наиболее быстро и эффективно находится при помощи метода SVM.
На основе выбранных методов разработано приложение для фильтрации мобильного спама на основе метода Байеса и латентно-семантического анализа под ПО Android версии 4.0.1 и выше.
Для оптимизации фильтра была создана функция для обработки текста входящих сообщений и обещающей выборки, которая реализует замену заглавных букв строчными, удаление стоп-слов, чисел и знаков препинаний и выявляет основу слова на основании алгоритма Портера.
Для обучения классификатора на основе Байеса использовались 105 единиц банковского спама, сформированных на основе сообщений с сайта banki.ru, и 125 легитимных сообщений. Из выборки была сформирована база данных для частотного словаря, включающая частотные словари ключевых лексем. В качестве БД выбрана инструмента для реализации SQLite 3.
Было изучено для Байесовского классификатора влияние порога на вероятность появления ошибок первого и второго рода. Для этого потребовалось 20 банковского спама и 25 легитимных сообщений. Для данного эксперимента был найден порог с помощью метода опорных векторов, его значение составил 0,72.
Преимущества классификатора Байеса в быстродействие и в эффективности выявления спама. Общая ошибка определения спама для него составила не более 10%.
Для обучения второго классификатора, основанного на ЛСА, из обучающей выборки, в состав которой входило 114 спам и 142 легитимных сообщений, была составлена частотная матрица индексируемых слов. При помощи реализации метода ЛСА были выявлены значения признаков, характеризующие латентную зависимость внутри множества сообщений. На основании данных признаков была найдена методом опорных векторов оптимальная гиперплоскость, позволяющая в дальнейшем детектировать спам сообщения. Значение порога составило -0,026. Общая ошибка определения спама для фильтра методом ЛСА составила не более 15%.
1 Федеральный закон от 7 июля 2003 года № 126-ФЗ «О связи».
2 Спам [Электронный ресурс] / Википедия - свободная
энциклопедия, 2015. - Режим доступа:
ййрз://ги.’Мк1реФа.огд/’Мк1/Спам, свободный. Заглавие с экрана (дата обращения 05.05.2017).
3 Анатомия спама [Электронный ресурс] / Тенденция™, 2006-2016. - Режим доступа: https://www.tendence.ru/articles/anatomiya-spama, свободный. Заглавие с экрана (дата обращения 05.05.2017).
4 Федеральный закон от 13.03.2006 № 38-ФЗ (ред. от 08.03.2015) «О рекламе» (с изм. и доп., вступ. в силу с 01.10.2015).
5 Спам и фишинг в первом квартале 2017 [Электронный ресурс] /АО
«Лаборатория Касперского», 2017. - Режим доступа:
https://securelist.ru/spam-and-phishing-in-q1-2017/30565/, свободный. Заглавие с экрана (дата обращения 05.06.2017).
6 О вирусах: Виды известных угроз [Электронный ресурс] / АО
«Лаборатория Касперского», 2017. - Режим доступа:
http://support.kaspersky.ru/614?_ga=1.135865265.1263883542.146297 6372, свободный. Заглавие с экрана (дата обращения 05.03.2017).
7 Фишинг // Сбербанк - 2016, 51 стр. 8 Мобильное воровство
[Электронный ресурс] / «Доктор Веб», 2013-2016. - Режим
доступа: http://antifraud.drweb.ru/android_theft/, свободный.
Заглавие с экрана (дата обращения 08.05.2017).
8 Мобильное воровство [Электронный ресурс] / «Доктор Веб», 2013-2017. - Режим доступа: http://antifraud.drweb.ru/android_theft/, свободный. Заглавие с экрана (дата обращения 05.03.2017).
9 Спам [Электронный ресурс] / Ресурс необходимых знаний, 2012-2017. - Режим доступа: http://gitak.ru/spravochnik-
vebmastera/poiskovayaoptimizatsiya/506-spam.html, свободный.
Заглавие с экрана (дата обращения 08.05.2017).
10 Распространенные виды спама и борьба с ним [Электронный
ресурс] / Кодомаза, Режим доступа:
http://codomaza.com/article/rasprostranjonnye-vidy-spama-i-borba-s- nim, свободный. Заглавие с экрана (дата обращения 08.04.2017).
11 Спам ним [Электронный ресурс] / молодежный портал
«Dviger.com», 2009-2016. - Режим доступа:
http://spam.abuse.net/overview/whatisspam.shtml, Заглавие с экрана (дата обращения 15.05.2016).
12 Блоги, вики, форумы, доски объявлений [Электронный ресурс] / http://spam-fighter.ru/articlematerial9, свободный. Заглавие с экрана (дата обращения 15.05.2017).
13 Мошенничества и аферы с сотовыми телефонами [Электронный
ресурс] / Copyright А. Захаров, 2000-2016. - Режим доступа:
http://www.aferizm.ru/moshen/m_sotovye.htm, свободный. Заглавие с экрана (дата обращения 08.05.2017).
14 Семенова, М.А. Метод автоматической фильтрации при борьбе со «спамом» / М.А. Семенова, В.А. Семенов. - Изв. ВУЗОВ. Приборостроение, 2009. - Т. 52. - № 9 - С. 32-34.
15 Настройка фильтров в Google Analytics [Электронный ресурс] /
Веб-аналитик Даниил Азовских, 2008-2016. - Режим доступа:
http://webanalytic.ru/nastrojka-filtrov-v-google- analytics/#.V0qwZvmLTIU, свободный. Заглавие с экрана (дата обращения 08.05.2017).
16 Методы борьбы со спамом [Электронный ресурс] / HiTex
Technologies. 2009-2017. - Режим доступа:
http://support.hitex.by/index.php?_m=knowledgebase&_a=viewarticle&kbarticleid =149, свободный. Заглавие с экрана (дата обращения 10.05.2017).
17 Наивный байесовский классификатор [Электронный ресурс] /
Disqus, 2012. - Режим доступа:
http://bazhenov.me/blog/2012/06/11/naivebayes.html, свободный.
Заглавие с экрана (дата обращения 08.05.2017).
18 Детекция поискового спама [Электронный ресурс] / Компания
«SEO константа», 2009-2014. - Режим доступа:
http://wseob.ru/seo/searchengine-spam-part15, свободный. Заглавие с экрана (дата обращения 09.05.2017).
19 Классификация нейронных сетей [Электронный ресурс] / Проект
www.AIportal.ru, 2009-2014. - Режим доступа:
http://www.aiportal.ru/articles/neural-networks/classification, свободный. Заглавие с экрана (дата обращения 01.03.2017).
20 Ларионова А.В., Хорев П.Б. Оценка эффективности метода
фильтрации спама на основе искусственной нейронной сети / Интернет журнал «Науковедение», 2017 №8 (2) [Электронный ресурс]. - М.: Науковедение, 2011. - Режим доступа:
htmlhttp: //naukovedenie.ru/PDF/134TVN216.pdf, свободный.
Заглавие с экрана. (дата обращения 21.04.2017).
21 Машина опорных векторов [Электронный ресурс]
/MachineLearning.ru Режим доступа:
http://www.machinelearning.ru/wiki/index.php?title=SVM, свободный. Заглавие с экрана. (дата обращения 11.04.2017).
22 Классификация данных методом опорных векторов [Электронный
ресурс] / «TM», 2006 - 2017 - Режим доступа:
https://habrahabr.ru/post/105220/, свободный. Заглавие с экрана. (дата обращения 17.03.2017).
23 Кластеризация: алгоритмы k-means и c-means векторов
[Электронный ресурс] / «TM», 2006 - 2017. - Режим доступа: https://habrahabr.ru/post/67078/, свободный. Заглавие с экрана. (дата обращения 17.03.2017).
24 Метод k-средних [Электронный ресурс] / ООО «Аналитические
технологии», 2007. - Режим доступа:
https://basegroup.ru/community/glossary/k-means , свободный.
Заглавие с экрана. (дата обращения 17.03.2017).
25 Методы Машинного обучения (Data Mining) [Электронный
ресурс] / SMART-LABS. - Режим доступа: http://smart-
lab.ru/blog/38323.php , свободный. Заглавие с экрана. (дата
обращения 17.03.2017).
26 Классификация текстов на основе оценки семантической
близости терминов [Электронный ресурс] / ООО «НАУЧНАЯ электронная библиотека», 200-2017. - Режим доступа:
https://elibrary.ru/item.asp7idM7805774 , свободный. Заглавие с
экрана. (дата обращения 17.03.2017).
27 Латентно-семантический анализ [Электронный ресурс] / «TM», 2006 - 2017. . - Режим доступа: https://habrahabr.ru/post/110078/, свободный. Заглавие с экрана. (дата обращения 02.03.2017).
28 Латентно-семантический анализ [Электронный ресурс] / Википедия - свободная энциклопедия, 2015. - Режим доступа: https://ru.wikipedia.org/wiki/Латентно-семантический_анализ , свободный. Заглавие с экрана. (дата обращения 07.04.2017).
29 Стемминг [Электронный ресурс] / Википедия - свободная
энциклопедия, 2015. - Режим доступа:
https://ru.wikipedia.org/wiki/Стемминг , свободный. Заглавие с экрана. (дата обращения 23.05.2017).
30 М.В. Губин А.Б. Морозов. Влияние морфологического анализа на качество информационного поиск. / Консорциум «Кодекс» , 2006г. - С. 1-6 , 2017 №8 (2) [Электронный ресурс]. - Электронные библиотеки: Перспективные Методы и Технологии, 1999-2013 - Режим доступа: http://rcdl.ru/doc/2006/paper_67_v2.pdf, свободный. Заглавие с экрана. (дата обращения 17.03.2017).
31 Отзывы о банках [Электронный ресурс] /
http://www.banki.ru/services/responses/list/
32 JAMA: a Java Matrix Package [Электронный ресурс] /
http: //math. nist. gov/j avanumerics/j ama/.