В последнее десятилетие мы видим все большее и большее количество приложений искусственного интеллекта, их можно встретить везде: от ботов в компьютерных играх до приложений распознавания лиц на фотографиях. Одним из недостатков таких алгоритмов является их неуниверсальность. Метод, применяемый для решения одной задачи, зачастую не подходит для решения другой. Для того, чтобы мы могли конструировать более лучшие системы, нужен новый подход, из которого мы сможем получить более универсальный алгоритм. Одна такая универсальная система давно нам известна - это мозг млекопитающих, вернее неокортекс.
Несмотря на то, что модели отдельных участков нейронной сети появились уже более полувека назад, универсальной теории работы неокортекса не было довольно долго. Наверное одной из первых более менее удачной попыток построения такой модели была книга On intelligence, опубликованная Джеффом Хокинсом и Сандрой Балакесли в 2004 году [1]. В этой книге Хокинс приводит последние (на тот момент) исследования работы неокортекса и закладывает базу для модели иерархической темпоральной памяти (Hierarchical Temporal Memory, далее в тексте будет применяться аббревиатура HTM).
Хокинс утверждает, что его методы станут основой для "по-настоящему интеллектуальных машин". Он использует довольно определенное понятие интеллекта, основанное на предсказании. Согласно ему, система может называться интеллектуальной, если она непрерывно делает предсказания окружающего мира, сравнивает эти предсказания с показаниями сенсоров и изменяет свои параметры для получения новых, более точных предсказаний. Подобная система постоянно улучшает внутреннюю модель мира с целью лучшего понимания того, что в нем происходит.
Цель данной работы в заключается в разборе предложенной модели и анализе её применимости в задачах машинного обучения. Так как машинное обучение - очень обширная область, было решено сконцентрироваться на определенной задаче - поиск аномалий в GPS данных. Именно на подобных задачах, как будет показано далее, HTM работает лучше всего.
В данной работе рассматривалась модель иерархической темпоральной памяти (HTM). Это система памяти, созданная под влиянием работы неокортекса млекопитающих, но в отличии от остальных моделей нейронных сетей, используемых в задачах машинного обучения, эта модель более точно отображает процессы происходящие в мозге. Целью данной работы являлась оценка применимости данной модели в задачах машинного обучения, несмотря на то, что при составлении модели не использовались обычные для таких моделей статистические приемы, не имеющие аналогов в мозге. В качестве конкретной задачи было выбрано поиск аномалий в GPS данных.
В главах 3-4 было подробно рассмотрена модель HTM и алгоритмы обучения CLA. Было показано, что наибольший потенциал данная модель раскрывает на задачах, в которых нужно искать сложные времменые паттерны. Это достигается за счет разбиения клеток сети на группы, называемые колонками, и взаимодействием между клетками одного слоя.
Было показанно, что HTM успешно справляется с поставленной задачей. Сеть быстро обучается находить предъявленные ранее маршруты и отмечать не представленные ранее точки пути (аномалии маршрута). Также было показано, что сеть запоминает не просто набор точек, а их последовательность и, например, тот же маршрут, но пройденный в обратную сторону будет отмечен как аномальный.
В ситуации предъявления большого количества маршрутов, из сети не пропадает информация о маршрутах, предъявленные её давно. Иными словами сеть надежно хранит информацию внутри себя.
Одним из недостатком модели является её молодость. Впервые модель HTM была представлена в 2004 году, а алгоритмы её обучения CLA в 2009. Это создает некоторые трудности при изучении модели по ряду причин. Первая причина - малое количество статей. Вторая причина состоит в том, что модель активно меняется, модифицируется, из-за этого довольно сложно отслеживать актуальное описание модели и алгоритмов. Третья причина - малое количество реализаций модели в виде программного обеспечения. Актуальная реализация NuPIC работает только на процессоре. Без реализации на видеокарте довольно сложно обучать модель на большом объеме данных.
Если говорить в целом о применимости HTM в задачах машинного обучения, то модель однозначно имеет свою нишу в задачах поиска нетривиальных паттернов во временной области. В данной работе не рассматривались задачи другого типа, однако, судя по имеющимся публикациям, HTM несколько уступает другим моделям (имеются в виду задачи обучения с учителем и поиск паттернов в пространственных данных).
Возможные дальнейшие исследования модели.
1 Добавить слои сети, что может помочь выявлять более высокоуровневые паттерны поведения.
2 Использовать время как вход с сенсора. То есть добавить ещё один регион, который будет принимать сигнал времени и объединить сигналы с двух регионов на следующем слое сети. В данный момент время движения никак не учитывается, а ведь прохождение обычного маршрута в необычный час тоже может считаться аномалией.
3 Обучение сети на большом количестве данных, собранных с нескольких объектов. Объединяя несколько сетей в одну (так как данная модель легко расширяется, это не представляет большой проблемы), можно попытаться искать аномалии в коллективном поведении.
1. Hawkins J., Blakeslee S. On Intelligence. Times Books, 2004. ISBN: 0805074562.
2. Chandola V., Banerjee A., Kumar V. Anomaly Detection: A Survey // ACM Comput. Surv. 2009. —Jul.. Vol. 41, no. 3. P. 15:1-15:58.
3. Augusteijn M. F., Folkert B. A. Neural network classification and novelty detection // International Journal of Remote Sensing. 2002. Vol. 23, no. 14. P. 2891-2902.
4. Frank R. J., Davey N., Hunt S. P. Time Series Prediction and Neural Networks //J. Intell. Robotics Syst. 2001. —May.. Vol. 31, no. 1-3. P. 91-103.
5. Hofmann D. B. T., Baker L. D., Hofmann T. et al. A Hierarchical Probabilistic Model for Novelty Detection in Text. 1999.
6. Ramaswamy S., Rastogi R., Shim K. Efficient Algorithms for Mining Outliers from Large Data Sets // SIGMOD Rec. 2000.— May.. Vol. 29, no. 2. P. 427-438.
7. Emamian V., Kaveh M., Tewfik A. Robust clustering of acoustic emission signals using the Kohonen network // Acoustics, Speech, and Signal Processing, IEEE International Conference on. 2000. Vol. 6. P. 3891-3894.
8. Gers F. Long Short-Term Memory in Recurrent Neural Networks. 2001.
9. Glorot X., Bengio Y. Understanding the difficulty of training deep feedforward neural networks // JMLR W&CP: Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics (AISTATS 2010). Vol. 9. 2010. —May.. P. 249-256.
10. D.H. H., T.N. W. Receptive fields and functional architecture of monkey striate cortex // Physiol. 1968. Vol. 195, no. 1. P. 215-243.
11. Sherman S. M., Guillery R. W. The role of the thalamus in the flow of information to the cortex // Philosophical Transactions of the Royal Society B: Biological Sciences. 2002. Vol. 357, no. 1428. P. 1695-1708. http://rstb.royalsocietypublishing.org/content/357/1428/1695.full.pdf.
12. Hawkins J., Ahmad S. Why Neurons Have Thousands of Synapses, A Theory of Sequence Memory in Neocortex // Frontiers in Neural Circuits. 2016. Vol. 10, no. 23.
13. Hausser M., Spruston N., Stuart G. J. Diversity and Dynamics of Dendritic Signaling. // Science. 2000. Vol. 290. P. 739.
14. Ahmad S., Hawkins J. Properties of Sparse Distributed Representations and their Application to Hierarchical Temporal Memory // CoRR. 2015. Vol. abs/1503.07469.
15. Lee H., Battle A., Raina R., Ng A. Y. Efficient sparse coding algorithms // In NIPS. NIPS, 2007. P. 801-808.
16. Srivastava N., Hinton G., Krizhevsky A. et al. Dropout: A Simple Way to Prevent Neural Networks from Overfitting // Journal of Machine Learning Research. 2014. Vol. 15. P. 1929-1958.