Разработка системы контент-фильтрации
|
АННОТАЦИЯ 2
ВВЕДЕНИЕ 6
1 ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ПОСТРОЕНИЯ СИСТЕМЫ КОНТЕНТ- ФИЛЬТРАЦИИ 8
1.1 Прокси-серверы 8
1.2 Контентная фильтрация 9
1.3 Алгоритмы машинного обучения для классификации текста 10
2 СРАВНЕНИЕ ОТЕЧЕСТВЕННЫХ И ПЕРЕДОВЫХ ЗАРУБЕЖНЫХ ТЕХНОЛОГИЙ И РЕШЕНИЙ 19
2.1 Обзор существующих аналогов 19
2.2 Обзор технологий 23
3 СИСТЕМА КОНТЕНТ-ФИЛЬТРАЦИИ ДЛЯ ОБРАЗОВАТЕЛЬНОЙ ОРГАНИЗАЦИИ 27
3.1 Описание технологий 27
3.2 Разработка базы данных 28
3.3 Разработка программных приложений 30
ЗАКЛЮЧЕНИЕ 40
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 41
ВВЕДЕНИЕ 6
1 ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ПОСТРОЕНИЯ СИСТЕМЫ КОНТЕНТ- ФИЛЬТРАЦИИ 8
1.1 Прокси-серверы 8
1.2 Контентная фильтрация 9
1.3 Алгоритмы машинного обучения для классификации текста 10
2 СРАВНЕНИЕ ОТЕЧЕСТВЕННЫХ И ПЕРЕДОВЫХ ЗАРУБЕЖНЫХ ТЕХНОЛОГИЙ И РЕШЕНИЙ 19
2.1 Обзор существующих аналогов 19
2.2 Обзор технологий 23
3 СИСТЕМА КОНТЕНТ-ФИЛЬТРАЦИИ ДЛЯ ОБРАЗОВАТЕЛЬНОЙ ОРГАНИЗАЦИИ 27
3.1 Описание технологий 27
3.2 Разработка базы данных 28
3.3 Разработка программных приложений 30
ЗАКЛЮЧЕНИЕ 40
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 41
Актуальность темы. В связи с активным проникновением сети Интернет в нашу жизнь, огромную роль стали играть Web-технологии. Но, как и с любым крупными «событием», широкое распространение и принятие технологии WWW привело к появлению множества угроз. Кража данных, «подделка» содержимого в процессе передачи, вредоносный контент – основные угрозы безопасности, с которыми сталкивается типичный пользователь сети Интернет. К счастью, многолетний опыт в сфере информационной безопасности позволяет защититься от большинства угроз. И, если проблемы с кражей данных или подделкой (имеется в виду кража и/или подделка персональных или банковских данных третьими лицами в момент передачи) успешно решаются средствами криптографии, то проблема вредоносного контента требует комплексного решения.
Целью выпускной квалификационной работы является разработка системы контент-фильтрации.
Система контент-фильтрации – это специализированное программное обеспечение для распознавания вредоносного (запрещенного) контента и ограничения доступа к нему. Часто о подобных системах можно слышать в информационном поле обеспечения информационной безопасности образовательных учреждений [1]. Также система фильтрации может применяться в государственных органах, промышленности и др. В данном случае применяются ограничения на доступ к внешним ресурсам, и осуществляется защита от утечек внутренних документов.
Задачи выпускной квалификационной работы:
- изучить теоретические основы функционирования прокси-сервера;
- изучить теоретические основы функционирования контентной фильтрации;
- рассмотреть алгоритмы машинного обучения для анализа и классификации данных;
- выявить недостатки, предъявляемые к существующим передовым решениями, представленным на рынке;
- разработать систему контент-фильтрации.
Объектом выпускной квалификационной работы является процесс контент- фильтрации потока данных из сети Интернет.
Предметом выпускной квалификационной работы – программная автоматизация процесса контент-фильтрации.
Практическая значимость выпускной квалификационной работы состоит в разработке простого решения, которое будет легким в настройке и эксплуатации на любой POSIX-совместимой системе.
Структура выпускной квалификационной работы состоит из введения, трех разделов, заключения и библиографического списка. Раздел 1 посвящен теоретическому обоснованию темы исследования, описанию принципа работы прокси-сервера и контент-фильтров, а также обзору алгоритмов машинного обучения классификации текста.Раздел 2 посвящен анализу и обоснованию проектных решений; в разделе дан обзор существующих решений и их недостатков. Раздел 3 посвящен проектированию системы.
Объем выпускной квалификационной работы составляет 42 страницы машинописного текста и содержит 13 иллюстраций, 1 таблица, библиографический список из 40 наименований.
Целью выпускной квалификационной работы является разработка системы контент-фильтрации.
Система контент-фильтрации – это специализированное программное обеспечение для распознавания вредоносного (запрещенного) контента и ограничения доступа к нему. Часто о подобных системах можно слышать в информационном поле обеспечения информационной безопасности образовательных учреждений [1]. Также система фильтрации может применяться в государственных органах, промышленности и др. В данном случае применяются ограничения на доступ к внешним ресурсам, и осуществляется защита от утечек внутренних документов.
Задачи выпускной квалификационной работы:
- изучить теоретические основы функционирования прокси-сервера;
- изучить теоретические основы функционирования контентной фильтрации;
- рассмотреть алгоритмы машинного обучения для анализа и классификации данных;
- выявить недостатки, предъявляемые к существующим передовым решениями, представленным на рынке;
- разработать систему контент-фильтрации.
Объектом выпускной квалификационной работы является процесс контент- фильтрации потока данных из сети Интернет.
Предметом выпускной квалификационной работы – программная автоматизация процесса контент-фильтрации.
Практическая значимость выпускной квалификационной работы состоит в разработке простого решения, которое будет легким в настройке и эксплуатации на любой POSIX-совместимой системе.
Структура выпускной квалификационной работы состоит из введения, трех разделов, заключения и библиографического списка. Раздел 1 посвящен теоретическому обоснованию темы исследования, описанию принципа работы прокси-сервера и контент-фильтров, а также обзору алгоритмов машинного обучения классификации текста.Раздел 2 посвящен анализу и обоснованию проектных решений; в разделе дан обзор существующих решений и их недостатков. Раздел 3 посвящен проектированию системы.
Объем выпускной квалификационной работы составляет 42 страницы машинописного текста и содержит 13 иллюстраций, 1 таблица, библиографический список из 40 наименований.
В результате проделанной работы были рассмотрены: теоретические основы построения системы контент-фильтрации.
Проведен анализ существующих систем контент-фильтрации. Произведен выбор средств для разработки собственной системы контентной фильтрации.
Разработан комплекс, включающий в себя прокси-сервер и web панель управления. Основным достоинством системы является то, что она использует открытые и свободные технологии. Языком программирования выбран Crystal – компилируемый язык программирования со строгой типизацией и синтаксисом Ruby. Система легко переносима на уровне исходного кода, достаточно производительна и может горизонтально масштабироваться. Для хранилища данных используется свободная и бесплатная СУБД MySQL.
Но главное преимущество разработанной системы в гибкости настроек фильтрации за счет использования машинного обучения для классификации контента.
Панель управления для администратора была разработана с помощью frontend- фреймворка bootstrap, что дает администратору системы возможность просматривать статистику и осуществлять контроль, как с компьютера, так и со смартфона.
В качестве алгоритма классификации выбран наивный Байесовский метод, который основан на теореме Байса об условной вероятности. Классификатор также был написан на языке программирования Crystal и показал точность на тестовых данных 99,13%.
В качестве дальнейших перспектив разработки можно отметить возможность интеграции с системами мониторинга (такими как Prometheus и Zabbix), системами аутентификации служб каталогов (например, Active Directory и LDAP), панелями управления (например, Webmin).
Достигнута основная цель работы – разработана система фильтрации.
Проведен анализ существующих систем контент-фильтрации. Произведен выбор средств для разработки собственной системы контентной фильтрации.
Разработан комплекс, включающий в себя прокси-сервер и web панель управления. Основным достоинством системы является то, что она использует открытые и свободные технологии. Языком программирования выбран Crystal – компилируемый язык программирования со строгой типизацией и синтаксисом Ruby. Система легко переносима на уровне исходного кода, достаточно производительна и может горизонтально масштабироваться. Для хранилища данных используется свободная и бесплатная СУБД MySQL.
Но главное преимущество разработанной системы в гибкости настроек фильтрации за счет использования машинного обучения для классификации контента.
Панель управления для администратора была разработана с помощью frontend- фреймворка bootstrap, что дает администратору системы возможность просматривать статистику и осуществлять контроль, как с компьютера, так и со смартфона.
В качестве алгоритма классификации выбран наивный Байесовский метод, который основан на теореме Байса об условной вероятности. Классификатор также был написан на языке программирования Crystal и показал точность на тестовых данных 99,13%.
В качестве дальнейших перспектив разработки можно отметить возможность интеграции с системами мониторинга (такими как Prometheus и Zabbix), системами аутентификации служб каталогов (например, Active Directory и LDAP), панелями управления (например, Webmin).
Достигнута основная цель работы – разработана система фильтрации.
Подобные работы
- Разработка системы процедурной генерации изображений на основе нейронных сетей
Бакалаврская работа, информатика. Язык работы: Русский. Цена: 4200 р. Год сдачи: 2016 - РАЗРАБОТКА РЕГЛАМЕНТА ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ В ОБЩЕОБРАЗОВАТЕЛЬНОМ УЧРЕЖДЕНИИ
Бакалаврская работа, информационные системы. Язык работы: Русский. Цена: 4700 р. Год сдачи: 2022 - РАЗРАБОТКА РЕГЛАМЕНТА ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ В ОБЩЕОБРАЗОВАТЕЛЬНОМ УЧРЕЖДЕНИИ
Бакалаврская работа, информационные системы. Язык работы: Русский. Цена: 4375 р. Год сдачи: 2022 - РЕКОМЕНДАТЕЛЬНЫЕ СИСТЕМЫ И ИХ ЗНАЧЕНИЕ ДЛЯ СИСТЕМАТИЗАЦИИ НАУЧНОЙ ИНФОРМАЦИИ
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4275 р. Год сдачи: 2018 - РЕКОМЕНДАТЕЛЬНАЯ СИСТЕМА АВТОМАТИЧЕСКОГО ПОДБОРА КЛАССИФИКАТОРА НАУЧНЫХ ДОКУМЕНТОВ
Магистерская диссертация, математика. Язык работы: Русский. Цена: 5700 р. Год сдачи: 2018 - РЕАЛИЗАЦИЯ И ИССЛЕДОВАНИЕ ИНТЕЛЛЕКТУАЛЬНОГО ПОИСКА И ФИЛЬТРАЦИИ ДАННЫХ В ВЕБ-ПРИЛОЖЕНИЯХ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ ПРИНЯТИЯ РЕШЕНИЙ И ИХ КОМБИНАЦИЙ
Магистерская диссертация, математика. Язык работы: Русский. Цена: 4980 р. Год сдачи: 2017 - РАЗРАБОТКА ТРЕБОВАНИЙ К РЕКОМЕНДАТЕЛЬНОЙ СИСТЕМЕ ВЫБОРА ПРОДУКТОВ В ОБЛАСТИ УПРАВЛЕНИЯ ЗНАНИЯМИ
Бакалаврская работа, менеджмент. Язык работы: Русский. Цена: 4275 р. Год сдачи: 2021 - Разработка персонифицированного агрегатора новостей. Клиентская часть
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4360 р. Год сдачи: 2018 - Разработка персонифицированного агрегатора новостей. Серверная часть
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4200 р. Год сдачи: 2018





