Введение 4
1. Обзор существующих работ 6
2. Постановка задачи 7
3. Обзор методов предсказания временных рядов 8
3.1. Регрессионные модели 8
3.2. Линейная авторегрессия 9
3.3. Модели экспоненциального сглаживания 11
3.4. Нейросетевые модели 12
3.5. Модели на основе цепей Маркова 14
4. Описание и предварительный анализ данных 16
4.1. Описание данных 16
4.2. Визуализация аггрегированных данных 17
4.3. Связь температуры и числа преступлений 23
4.4. Географические температурные карты 25
5. Построение моделей прогнозирования 27
5.1. Описание моделей 28
5.2. Построение моделей предсказания преступности 31
5.3. Задача классификации 32
Заключение 35
Список литературы
Сегодня проблема снижения уровня преступности стоит очень остро. С давних времен существуют государственные структуры, которые занимаются розыском и поимкой преступников, а также стремятся предотвратить преступления. В современном мире технологий очень развиты системы видеонаблюдения, которые позволяют быстро разыскать человека, совершившего преступление, а методы криминалистики практически не оставляют преступнику шансов уйти от правосудия, даже если он не попал в объективы камер. Но гораздо лучше, если благодаря действию правоохранительных органов преступление не произошло вовсе. Благодаря развитию информационных технологий уже существует несколько экспериментальных систем, позволяющих предсказывать вспышки числа преступлений в том или ином районе города. Но пока эти системы распространены только в развитых странах мира, таких, например, как США или Великобритания.
В настоящей работе планируется разработать методы предсказания преступлений. В качестве данных для построения моделей используются реальные данные о преступлениях в городе Чикаго. Эти данные содержат подробное описание каждого преступления произошедшего в период с 2001 по 2015 года. Такое детальное описание позволяет заметить закономерности, которое не так очевидны, узнать когда, где и каких преступлений происходит больше, тем самым, возможно, придумать модели, которые позволят заранее узнать о том, куда стоит направить дополнительный патруль.
Структура работы имеет следующий вид. В 1 главе приводится обзор существующих работ по предсказанию преступности. Для построения прогнозов авторы данных работ применяют методы анализа временных рядов, но в своих прогнозах они опираются только на исторические данные о преступности и не учитывают влияние различных внешних факторов. В главе 2 формируются основные цели и задачи исследования, а именно построения качественных прогнозов уровня преступности. В главе 3 приводится описание наиболее популярных моделей анализа временных рядов, таких как регрессионные модели, авторегрессионные модели, модели экспоненциального сглаживания, нейросетевые модели и модели на основе марковских цепей. Глава 4 посвящена подробной визуализации данных и построению интерактивных карт преступности, которые позволяют наглядно представить данные о самых опасных районах и улицах города. В главе 5 на основе найденных закономерностей подбираются алгоритмы для построения прогнозов, строятся сами прогнозы и приводятся их оценки. Далее задача восстановления временного ряда сводится к задаче классификации для определения наиболее опасных дней с точки зрения количества преступлений. Данная задача решается посредством построения нейросетевой модели.
В данной работе приведен подробный анализ уровня преступности в Чикаго за 2001-2015 года. Была проанализирована связь уровня преступности и различных внешних факторов, таких как погодные условия, день недели, номер дня в году. Приведена визуализация данных, которая позволяет увидеть интересные закономерности. На основе географических данных о преступлениях, были построены интерактивные карты, на которых можно легко найти наиболее опасные улицы и районы города.
На основании выявленных закономерностей построены модели для прогнозирования уровня преступности для таких преступлений как нападения, побои, кражи со взломом, причинение ущерба, мошенничество, грабежи и воровство. Модели строились на данных за 2001-2014 года, а оценка проводилась на данных за 2015 год. Для построения моделей использовались алгоритмы машинного обучения, которые учитывают как исторические данные о преступлениях, так и другие внешние факторы. Приведен сравнительный анализ алгоритмов. Построенные модели показали достаточно высокую точность. Но наилучший результат показал алгоритм регрессии на основе случайных лесов.
Далее задача прогнозирования числа преступлений сведена к задаче классификации для выявления наиболее опасных дней c точки зрения количества преступлений. Данная задача решалась путем построения нейросетевой модели. Полученные результаты так же кажутся достаточно удовлетворительными.
Результаты полученные в рамках данного исследования могут оказаться полезными для прогнозирования уровня преступности и в других городах.
Данные методы прогнозирования временных рядов могут быть полезны для снижения уровня преступности, так как позволяют предсказывать неблагоприятные периоды, в которые необходимо усиливать патрулирование улиц города.
[1] Schneider S. Predicting crime: a review of the research. page 37, 2002.
[2] John V. Forecasting crime: A city level analysis. page 33, 2007.
[3] Henderson T., Wolfers J., and Zitzewitz E. Predicting crime. page 63, 2008.
[4] Бокс Дж. and Дженкинс Г.М. Анализ временных рядов, прогноз и управление.M., 1974.
[5] Draper N. and Smith H. Applied regression analysis. N.Y., 1981.
[6] Айвазян С.А. Прикладная статистика. Основы эконометрики. М., 2001.
[7] Andersen and Erling B. Asymptotic properties of conditional maximum likelihood estimators. Journal of the Royal Statistical Society, pages 283-301, 1970.
[8] Meek C., Chickering D.M., and Heckerman D. Autoregressive tree models for time-series analysis. 2002.
[9] Holt C.C. Forecasting trends and seasonals by exponentially weighted moving averages, 1957.
[10] Theil H. and Wage S. Some observations on adaptive forecasting. 1964.
[11] Winters P.R. Forecasting sales by exponentially weighted moving averages. Management Science, (6):324-342, 1960.
[12] Ginzburg I. and Horn.D. Combined neural networks for time series analysis. pages 1-2.
[13] Liu T. Application of markov chains to analyze and predict the time series. 2009.
[14] City of Chicago. Crimes - 2001 to present. https://data.
cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2, 2016.
[15] Historical weather data. Weather in chicago. https://www.wunderground.com/history/airport/ORD, 2016.
[16] Interactive geo heatmap. https://drive.google.com/uc?id=0BzDO_U5QbqF5U1poZjR1UUJwbWs, 2016.
[17] Neighborhood geo heatmap. https://drive.google.com/uc?id=0BzDO_U5QbqF5aldVUXY3M2taTXc, 2016.
[18] Тихонов А.Н. О решении некорректно поставленных задач и методе регуляризации. Доклады Академии Наук СССР 151,page 4, 1963.
[19] Breiman L. Random forests. page 33, 2001.
[20] Drucker H., Burges C., and Kaufman L. Support vector regression machines. page 9, 1997.
[21] Martin A. Discrete mathematics of neural networks: Selected topics. page 3, 2001.
[22] Хайкин. C. Нейронные сети. Полный курс. М., 2006.