Тип работы:
Предмет:
Язык работы:


РАЗРАБОТКА СИСТЕМЫ РЕТРОСПЕКТИВНОГО АНАЛИЗА И СОПРОВОЖДЕНИЯ ИНЦИДЕНТОВ

Работа №184175

Тип работы

Дипломные работы, ВКР

Предмет

прочее

Объем работы75
Год сдачи2025
Стоимость4650 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
16
Не подходит работа?

Узнай цену на написание


Аннотация
Перечень условных обозначений, символов, сокращений, терминов 4
Введение 6
1 Управление инцидентами 8
1.1 Метрики инцидент-менеджмента 8
1.2 Анализ процессов инцидент-менеджмента в компании 9
1.3 Сопровождение сбоя в IMP 10
1.4 Сопровождение сбоя в KMS 11
1.5 Сопровождение сбоя в системе мониторинга 12
1.6 Резюме 14
2 Анализ требований 15
2.1 Анализ вариантов решения 16
2.2 Формулирование требований 17
2.3 Формулирование сроков и дорожной карты продукта 18
2.4 Модель первичного проектирования 19
3 Проектирование системы 22
3.1 Варианты использования FUM экспертом поддержки 23
3.2 Варианты использования FUM CRO при работе с влиянием инцидента 26
3.3 Определение бизнес-линии инцидента 28
3.4 Определение виновной организации 30
3.5 Автоматический подсчет клиентского влияния 31
3.6 Проверки качества при сопровождении постмортема 32
3.7 Сопровождение постмортема 34
3.8 Проверки алертов 36
3.9 Подсчет MTT-метрик 38
4 Реализация системы 40
4.1 Выбор технологий и архитектурный подход 40
4.2 Ролевая модель и авторизация 42
4.3 Запуск задач по расписанию 44
4.4 Синхронизация постмортемов 45
4.5 Проверки постмортемов 47
4.6 Подсчет влияния инцидента 49
5 Сборка и развертывание 54
5.1 Мониторинг 55
5.2 GitOps-конфигурация 58
6 Внедрение системы на бизнес-линии 61
6.1 Миграция данных влияния на клиентов 61
6.2 Подготовка графиков в системе BI-аналитики 62
6.3 Подсчет ценности FUM 64
Заключение 66
Благодарности 67
Список использованных источников и литературы 68


В современной IT-инфраструктуре обеспечение надежности и высокой доступности программных решений является одной из приоритетных задач. Практика эксплуатации информационных систем показывает, что сбои в работе приложений как правило приводят к более значительным потерям, чем задержка внедрения нового функционала [13]. В связи с этим компании стремятся минимизировать влияние подобных нарушений на конечных пользователей.
Одним из ключевых инструментов для решения данной задачи выступает Incident Management Platform (IMP) - централизованная платформа для обработки инцидентов, возникающих в работе информационных систем. Она обеспечивает оперативное реагирование на неполадки, отслеживание статуса устранения и координацию действий технических специалистов.
Большинство существующих решений ориентированы на сценарии реального времени (runtime-сценарии), основная цель которых - как можно быстрее локализовать и устранить проблему. В имеющихся платформах отсутствуют удобные средства для анализа повторяющихся сбоев, выявления уязвимых компонентов инфраструктуры, а также оценки эффективности мониторинга и времени восстановления различных сервисов [14]. Это значительно затрудняет последующую систематизацию и использование накопленных данных для выявления закономерностей, прогнозирования будущих инцидентов и, как следствие, повышения общей надежности системы.
Кроме того, текущие системы инцидент-менеджмента, как правило, ограничиваются только этапом устранения проблемы. После восстановления работоспособности системы для каждого инцидента фиксируются следующие данные: причины сбоя, выводы из постинцидентного анализа и предложения по улучшению процессов. Эти данные либо не фиксируется вовсе, либо распределяется по различным источникам: комментариям к инциденту, корпоративным мессенджерам, постмортемам (специальным документам, детально описывающих произошедший инцидент) в системах управления знаниями (KMS). Это затрудняет последующую систематизацию и использование накопленных данных для повышения надежности.
Таким образом, становится очевидной необходимость в расширении функциональности существующих платформ или создании отдельного модуля, ориентированного на аналитическую составляющую и сопровождение инцидентов на постоперационном этапе.
Целью данной работы является проектирование, разработка и ввод в эксплуатацию специализированной системы, ориентированной на автоматизацию процесса ретроспективного анализа и сопровождения инцидентов. Разработка получила условное наименование FUM и была нацелена на автоматизированный сбор, обработку и представление данных, необходимых для последующего улучшения процессов управления инцидентами.
Для выполнения цели были решены следующие задачи:
1. Анализ требований заказчика.
2. Анализ возможных путей решения проблемы.
3. Выбор технологий и проектирование системы.
4. Реализация прототипа программного решения.
5. Внедрение системы на бизнес-линиях.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Сопровождение и анализ инцидентов на всех этапах их жизненного цикла является ключевым элементом эффективного инцидент-менеджмента. Проектирование и внедрение платформы, поддерживающей стандартизированный подход к работе с инцидентами, позволяет не только унифицировать процессы, но и обеспечить сбор расширенной статистики влияния инцидента, а также улучшать значения ключевых метрик инцидент- менеджмента, таких как MTTR.
В рамках данной работы был реализован проект FUM, охватывающий полный цикл разработки продукта: от анализа исходных требований заказчика - до проектирования архитектуры, разработки компонентов, документирования и внедрения в рабочие процессы бизнес-линий. По итогам внедрения FUM удалось достичь следующих результатов:
1. Снижение MTTRRC на 31.6%.
2. Сокращение объема рутинных операций при ревью постмортемов в 5 раз.
3. Автоматизация процесса разметки влияния на клиентов при сохранении высокой точности.
Следует отметить, что в данной работе не затрагивались некоторые аспекты, связанные с внутренней реализацией отдельных сервисов, а также детальные механизмы их взаимодействия. Тем не менее, основной задачей автора являлось всестороннее освещение проблемы отсутствия системного подхода к анализу и сопровождению инцидентов, а также демонстрация того, каким образом подобная система может быть спроектирована и внедрена в уже существующую инфраструктуру.
Проект FUM стал результатом комплексной инженерной работы: от формирования концепции и выявления проблемных аспектов в процессах - до создания масштабируемого и адаптируемого решения. Полученные результаты подтверждают эффективность системного подхода к автоматизации процессов инцидент-менеджмента и подчеркивают значимость интеграции таких решений в корпоративную инфраструктуру.



1. API // MDN Web Docs Glossary - [Б.м.], 2023. - URL:
https://developer.mozilla.org/ru/docs/Glossary/API (дата обращения: 8.11.2024).
2. CI/CD // Wikipedia - [Б.м.], 2023. - URL: https://en.wikipedia.org/wiki/CI/CD (дата обращения: 21.11.2024).
3. Chief Reliability Officer (CRO): Is It Time? // Exchange Smrp - [Б.м.], 2018. - URL: https://exchange.smrp.org/blogs/alan-ross/2018/11/28/chief-reliability-officer-cro-is-it-time (дата обращения: 24.11.2024).
4. Pro Git / Scott Chacon, Ben Straub - Apress, 2014. - 10 с.
5. What is GitOps? // Red Hat - [Б.м.], 2025. - URL:
https://www.redhat.com/en/topics/devops/what-is-gitops (дата обращения: 10.04.2025).
6. Knowledge management software // Wikipedia - [Б.м.], 2024. -URL:
https://en.wikipedia.org/wiki/Knowledge_management_software (дата обращения: 15.12.2024).
7. MTBF, MTTR, MTTA, and MTTF // Atlassian - [Б.м.], 2025. - URL:
https://www.atlassian.com/incident-management/kpis/common-metrics (дата обращения:
11.12.2024).
8. RESTful Web APIs / Leonard Richardson, Amundsen Mike, Sam Ruby - O’Reilly Media, 2013.
9. Joe Celko's SQL for Smarties: Advanced SQL Programming / Joe Celko - Morgan Kaufmann, 2010.
10. Site reliability engineering // Wikipedia - [Б.м.], 2024. - URL:
https://en.wikipedia.org/wiki/Site_reliability_engineering (дата обращения: 10.11.2024).
11. What is incident management? // IBM - [Б.м.], 2024. - URL:
https://www.ibm.com/think/topics/incident-management (дата обращения: 10.11.2024).
12. What is an Incident Postmortem? // Pager Duty - [Б.м.], 2024. - URL:
https://www.pagerduty.com/resources/digital-operations/learn/incident-postmortem (дата
обращения: 13.11.2024).
13. The True Cost Of Downtime (And How To Avoid It) // Forbes - [Б.м.], 2024. - URL: https://www.forbes.com/councils/forbestechcouncil/2024/04/10/the-true-cost-of-downtime-and- how-to-avoid-it (дата обращения: 12.01.2025).
14. Global CIO Report Reveals the Challenges Organizations Face as Cloud Complexity Rises // Dynatrace - [Б.м.], 2022. - URL: https://www.dynatrace.com/news/press-release/2022- global-cio-report (дата обращения: 15.01.2025).
15. Monitoring and event management in ITIL Foundation: ITIL 4 Edition / Alexos - The Stationery Office, 2019. - 128 с...65



Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ