Тема: Разработка приложения для автоматического определения спам-сообщений для устройств, работающих на платформе Android
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Цели и задачи 5
Глава 1. Существующие подходы для решения задачи фильтрации спама 7
1.1. Ручная фильтрация 7
1.2. Кластеризация 7
1.2.1. Описание EM-алгоритма 7
1.3. Классификация 9
1.3.1. Логистическая регрессия 9
1.3.2. Множественная линейная регрессия 10
1.3.3. Наивный байесовкий классификатор 10
1.4. Анализ и сравнение методов 11
Глава 2. Практическая часть 13
2.1. Подготовка данных 13
2.1.1. Стемминг и лемматизация 13
2.1.2. Описание признаков 16
2.2. Программная реализация 18
2.2.1. Реализация логистической регрессии 18
2.2.2. Реализация клиентской части приложения 19
2.2.3. Реализация серверной части приложения 22
2.3. Настройка удаленного сервера 23
Глава 3. Результаты работы 26
3.1. Архитектура приложения 26
3.2. Оценка качества классификации 27
3.3. Демонстрация работы приложения 28
Выводы 32
Заключение 33
Список литературы 34
📖 Введение
Слово «спам» произошло от названия марки консервов «SPAM» производства американской компании Hormel Foods. Во время Второй мировой войны этот продукт использовался в качестве продукта питания американских солдат, но, когда война закончилась, остались большие запасы продукции, и, чтобы избавиться от них, компания стала вести очень активную рекламу. С тех пор слово «спам» прижилось как название рекламной рассылки [1].
Коммерческие организации делают массовую рассылку, в том числе и людям, которые не хотели бы получать подобные сообщения. Иногда они даже представляют опасность, потому что могут содержать компьютерные вирусы, мошеннические ссылки. Кроме того, широковещательные рассылки влекут за собой большие затраты ресурсов сервера, отнимают время пользователя, затрачиваемое на прочтение и сортировку подобных писем.
Выделяют различные виды спама:
• Фишинг — попытка узнать секретные данные, такие как пароли, номера банковских карт и прочее.
• Реклама.
• Антиреклама — информация, направленная на уменьшение интереса пользователя к продукции какой-либо компании, к известной личности или нашумевшему событию.
• «Нигерийские письма» — носящие мошеннический характер, в которых говорится о якобы полученном наследстве и просьбе получателя прислать немного денег для оформления документов. Таким образом нарушитель закона выманивает деньги у обманутого человека.
По способам распространения спам классифицируется:
• Отправляемый на электронную почту — как правило, это спам в виде «нигерийских писем» или рекламы.
• Посылаемый в виде SMS по мобильной сети — обычно реклама или фишинг.
• Отправляемый пользователям социальных сетей.
По статистике доля спама в электронной почте составляет около 60%1, в SMS-сообщениях - 15%2. Такое положение дел является поводом для развития технологий фильтрации сообщений.
Рост пользователей мобильных телефонов привел к резкому увеличению количества нежелательных SMS-сообщений. Несмотря на то, что для электронной почты существует много различных фильтров, борьбе со спамом на мобильных телефонах уделяется не так много внимания. Исходя из этого факта, перед автором данной работы была поставлена задача исследовать проблему SMS-спама, рассмотреть существующие решения и их недостатки и найти новый подход для детектирования нежелательных SMS-сообщений.





