Тема: РЕАЛИЗАЦИЯ И АНАЛИЗ МЕТОДОВ КЛАССИФИКАЦИИ В ЗАДАЧАХ ФИЛЬТРАЦИИ БАНКОВСКОГО СПАМА СРЕДИ SMS-СООБЩЕНИЙ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 Сущность Спам-сообщений 6
1.1 Определение понятия спам-сообщений 6
1.1.1 Классификация спама 6
1.1.2 Способы распространения спама 8
1.2 Методы борьбы со спамом 11
2 Методы автоматической классификации спама 13
2.1 Классификатор Байеса 13
2.2 Метод опорных векторов 14
2.3 Метод k-средних 16
2.4 Классификатор Роше 16
2.5 Методы определения семантической близости текстов 17
2.5.1 Латентно-семантический анализ 17
2.5.2 Поточечная взаимная информация 18
2.5.3 Непосредственный семантический анализ 19
2.6 Стемминг 19
2.6.1 Сущность стемминга 19
2.6.2 Стеммер Портера 20
2.6.3 Алгоритм «Stemka» 21
2.6.4 Алгоритм «MyStem» 22
3 ВЕБ-ПРИЛОЖЕНИЕ ДЛЯ ФИЛЬТРАЦИИ БАНКОВСКОГО СПАМА 24
3.1 Описание работы программы 24
3.2 Определение признаков 27
3.2.1 Выявление признаков текста на основе метода Байеса 27
3.2.2 Выявления признаков текста на основе латентно-семантического анализа 29
3.3 Обучение фильтров 31
3.4 Расчет ошибок первого и второго рода 34
3.5 Тестирование работы программы 36
Заключение 38
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 40
📖 Введение
Одним из способов борьбы с этой проблемой является создания мобильного приложения для автоматической фильтрации банковского спама. В данной работе рассматривается автоматическая фильтрация сообщений с применением наивного байесовского классификатора, метода опорных векторов и латентно-семантического анализа.
Целью работы является создание алгоритмов фильтрации банковского спама и разработка на их основе мобильного приложения для ОС Android.
Задачи:
1) изучить основные методы фильтрации спама;
2) создать базу данных банковского спама и легитимных сообщений;
3) создать алгоритмы для классификации сообщений;
4) изучить среду разработки мобильных приложений Android-Studio;
5) реализовать функцию, обрабатывающий текст сообщения;
6) разработать мобильное приложение для фильтрации спама на основе созданных алгоритмов;
7) провести сравнительный анализ методов классификации;
8) оценить вероятность ошибки для полученных результатов фильтрации.
✅ Заключение
На основе выбранных методов разработано приложение для фильтрации мобильного спама на основе метода Байеса и латентно-семантического анализа под ПО Android версии 4.0.1 и выше.
Для оптимизации фильтра была создана функция для обработки текста входящих сообщений и обещающей выборки, которая реализует замену заглавных букв строчными, удаление стоп-слов, чисел и знаков препинаний и выявляет основу слова на основании алгоритма Портера.
Для обучения классификатора на основе Байеса использовались 105 единиц банковского спама, сформированных на основе сообщений с сайта banki.ru, и 125 легитимных сообщений. Из выборки была сформирована база данных для частотного словаря, включающая частотные словари ключевых лексем. В качестве БД выбрана инструмента для реализации SQLite 3.
Было изучено для Байесовского классификатора влияние порога на вероятность появления ошибок первого и второго рода. Для этого потребовалось 20 банковского спама и 25 легитимных сообщений. Для данного эксперимента был найден порог с помощью метода опорных векторов, его значение составил 0,72.
Преимущества классификатора Байеса в быстродействие и в эффективности выявления спама. Общая ошибка определения спама для него составила не более 10%.
Для обучения второго классификатора, основанного на ЛСА, из обучающей выборки, в состав которой входило 114 спам и 142 легитимных сообщений, была составлена частотная матрица индексируемых слов. При помощи реализации метода ЛСА были выявлены значения признаков, характеризующие латентную зависимость внутри множества сообщений. На основании данных признаков была найдена методом опорных векторов оптимальная гиперплоскость, позволяющая в дальнейшем детектировать спам сообщения. Значение порога составило -0,026. Общая ошибка определения спама для фильтра методом ЛСА составила не более 15%.



