ВВЕДЕНИЕ 3
Глава 1. Обзор существующих методов идентификации нежелательного почтового траффика 5
1.1 Нежелательный почтовый траффик (спам) 5
1.2 Системы идентификации спам-писем на основе анализа отправителя
(черные списки) 7
1.3 Серые списки 8
1.4 Спам-фильтры на основе анализа содержания писем 10
1.4.1 Байесовская классификация писем 11
1.4.2 Классификация писем методами машинного обучения 13
1.5 Выводы 14
Глава 2 Развитие системы автоматического распознавания спам-писем с использованием искусственных нейронных сетей 15
2.1 Нейронные сети основные понятия 15
2.2 Система автоматического распознавания спам-писем с использованием
нейронной сети прямого распространения 17
Глава 3 Анализ эффективности нейросетевого метода идентификации спама
3.1 База данных, предварительная обработка писем 21
3.2 Обучение нейронной сети 25
3.3 Результаты работы нейросетевого спам-фильтра 28
3.3 Выводы 32
Глава 4 Сравнение результатов работы нейросетевого спам-фильтра с методом на основе опорных векторов 33
4.1 Применение метода опорных векторов к задаче распознавания спам-
писем 33
4.2 Реализация метода опорных векторов с нелинейным ядром в среде
MATLAB 36
4.3 Сравнение эффективности работы разных методов 39
4.4 Выводы 39
Заключение 40
Список литературы
Почтовый спам, также известный как нежелательная электронная почта, является типом электронного спама, в котором не запрошенные сообщения отправляются по электронной почте. Многие почтовые спам-сообщения являются коммерческими по своему характеру, но могут также содержать замаскированные ссылки, которые, приводят к фишинговым сайтам или сайтам, на которых размещается вредоносное ПО. Спам-адрес электронной почты также может включать вредоносное ПО в качестве скриптов или других исполняемых файлов. Спам электронной почты неуклонно растет с начала 1990-х годов. Ботнеты, сети зараженных вирусом компьютеров, используются для отправки около 80% спама. Спамеры собирают адреса электронной почты из чатов, веб-сайтов, списков клиентов, групп новостей и вирусов, которые собирают адресные книги пользователей. Эти собранные адреса электронной почты иногда также продаются другим спамерам. В первой половине 2010 года доля спам-почты составляла около 80% отправленных сообщений электронной почты.
За последние годы проблема спама (нежелательного почтового траффика) приобретает все большую актуальность. Во втором квартале 2016 года доля спама в мировом почтовом трафике превысила 60%. Согласно обобщенным данным Ассоциации документальной электросвязи, сотрудники, получающие в день по 10—20 писем, находят в своих электронных ящиках более сотни рекламных сообщений. Для борьбы с рекламной и вредоносной рассылкой писем потребуется около 5-7 часов в месяц, а это рабочее время, которое оплачивается работодателем. Кроме этого, спам-письма значительно увеличивают нагрузку на коммуникации, повышают трафик, снижают эффективность работы сервера.
Для эффективной борьбы со спам-рассылкой требуется не только взаимодействие различных субъектов, но и активная позиция всех участников. Сложность проблемы обусловливает относительно длительные сроки ее решения; однако в целях повышения общественной значимости борьбы со спамом необходимо уже в кратчайшие сроки обеспечить достижение «промежуточных побед». В рамках решения проблемы следует также широко использовать международный опыт, накопленный в этой области.
Актуальность данной темы обосновано тем, что сегодня каждый человек, имеющий электронный ящик и общающийся по электронной почте испытывает, мягко говоря определенные неудобства, когда на его адрес поступают «письма - спамы». Таким образом, необходимо искать пути разрешения данной проблемы, которая на руку только «теневым менеджерам» сетевого маркетинга.
Цель работы - развитие системы автоматической идентификации нежелательного почтового трафика (спама) с использованием искусственных нейронных сетей.
Для достижения данной цели были поставлены следующие задачи:
1) Провести обзор существующих систем и методов идентификации спама, выявить их ограничения;
2) Подготовить базу данных с размеченными письмами, реализовать блок предварительной обработки писем;
3) Спроектировать и реализовать метод распознавания спама с использованием искусственных нейронных сетей прямого распространения;
4) Оценить эффективность НС подхода к распознаванию спама, сравнить с методом опорных векторов.
1) Проведен обзор существующих систем и методов идентификации спама, выявлены их ограничения;
2) Подготовлена база данных для обучения НС, реализован обновленный блок предварительной обработки писем;
3) Реализован метод распознавания спама с использованием НС прямого распространения;
4) Система распознавания спам-писем по базе данных SpamAssassin Public Corpus с использованием НС и обновленного блока предобработки показала точность 91% (на тестовой выборке).
1. Yerazunis W. S. Seven Hypothesis about Spam Filtering // Proceedings of the 15 th Text REtrieval Conference [TeKCT] / (TREC 2006). - 2006.
2. J. Abernethy, O. Chapelle, and C. Castillo. WITCH: A New Approach to Web Spam Detection. In Proceedings of the 4th International Workshop on Adversarial Information Retrieval on the Web (AIRWeb), 2008.
3. Carlos Castillo , Debora Donato , Luca Becchetti , Paolo Boldi , Stefano Leonardi , Massimo Santini , Sebastiano Vigna, A reference collection for web spam [TeKCT] / ACM SIGIR Forum, v.40 n.2, p. 11-24, 2006
4. G. Cormack. Content-based Web Spam Detection. In Proceedings of the 3rd International Workshop on Adversarial Information Retrieval on the Web [TeKCT] / (AIRWeb), 2007
5. Almeida T. A., Yamakami A. Advances in spam filtering techniques // Computational Intelligence for Privacy and Security [TeKCT] / 2012. P. 199-214
6. Wang A. H. Machine Learning for the Detection of Spam in Twitter Networks // e-Business and Telecommunications [TeKCT] / 2012. P. 319-333
7. Cortes C., Vapnik V. Support-vector Networks // Machine Learning [TeKCT] / 1995 - № 3 - P.273-297
8. Drucker H., Wu D., Vapnik V. N. Support vector machines for spam categorization //IEEE Transactions on Neural networks [TeKCT] / 1999. - Vol.
10. - №. 5. - Pp. 1048-1054.
9. Nur M.M.S., Afrah A., Zuwairie I. Classification of Imbalanced Dataset Using Conventional Naive Bayes Classifier // Proceeding of the International Conference on ArtificialIntelligence in Computer Science and ICT [TeKCT] / 2013. P. 35-42.
10. Chhabra S., Yerazunis W. S., Siefkes C. Spam filtering using a markov random field model with variable weighting schemas [TeKCT] / Data Mining, 2004.
11. Wu C. H. Behavior-based spam detection using a hybrid method of rule-based techniques and neural networks //Expert Systems with Applications [TeKCT] / 2009. - Vol. 36. - №. 3. - Pp. 4321-4330.
12. M. Sahami S. Dumais D. Heckerman E. Horvitz. "A Bayesian approach to
filtering junk e-mail". AAAI'98 Workshop on Learning for Text Categorization [TeKCT] / 1998
13.3neKTpoHHHn pecypc http://spamassassin.apache. org/publiccorpus/
14.Осовский Станислав. I leiipoinibie cemn для обработки информации Sieci neuronowe do przetwarzania informacji [TeKCT] / 2004. - 344 c. - ISBN 5-279-02567-4.
15. Савeльeв А.В. На пути к обш£й тeopии нeйpoceтeй. К вопросу о сложности // Нeйpoкoмпьютepы: разработка, пpимeнeниe [TeKCT] / 2006 - №4-5. - С. 4-14.
16. Хайкин С. Нeйpoнныe ceти: полный курс = Neural Networks: A Comprehensive Foundation [TeKCT] / 2006. - 1104 с
ПЛур^ Д. Как остановить атаки спама и фишинга / Д. Нурье' [Элeктpoнный pecypc]: http://www. osp.ru/win2000/2006/07/3546202/ (дата oбpашeния: 25.10.2013).
18. Сидорин С. А. Сepыe списки: эффeктивная фильтрация спама / С. А. Сидорин
19. Guzella Thiago S. A review of machine learning approaches to Spam filtering / Thiago S. Guzella, Walmir M. Caminhas // Expert Systems with Applications [TeKCT] / 2009. Vol. 36, N 7. P. 10206-10222.