АННОТАЦИЯ 3
Введение 3
1 Обзор 5
1.1 Предметная область 5
1.2 Архитектуры нейронных сетей в задачах геолокации 7
2 Проектирование модели классификатора 12
2.1 Постановка задачи 12
2.2 Подготовка набора данных 12
2.3 Выбор архитектуры нейронной сети 16
2.4 Метрики обучения 19
2.5 Метрики оценки 23
3 Реализация модели классификатора 26
3.1 Инструменты разработки 26
3.2 Реализация 27
4 Эксперименты и результаты 32
Заключение 34
Список использованных источников и литературы 35
Фото- и видео-материалы играют незаменимую роль в современном обмене информацией посредством сети Интернет. Социальные сети, новостные ресурсы, сайты как образовательного, так и развлекательного характера, в каком-то роде используют изображения, снятые в реальном мире, иногда в большей степени чем иллюстрации. Изображения могут быть представлены во всеобщий доступ как часть новостной статьи или блог-поста, или переданы приватно через личные сообщения. Новостная статья с фотографиями с места событий или видео-репортаж, по сравнению с текстовым сообщением без какого-либо оформления, позволяют читателям лучше понять передаваемое, а также придают доверия источнику информации. Публикация фотографии пользователем социальной сети может служить как рекомендация к посещению заведения или достопримечательности, оповещение близких о планируемой или состоявшейся туристической поездке. Приватный обмен видео и фото между пользователями социальной сети позволяет оповещать собеседника о текущем местоположении, или, аналогично публичным фотографиям, оповещать о планах или состоявшихся путешествиях. Главной причиной растущей популярности этого аспекта коммуникации можно назвать широкое распространение фото - и видеокамер, встроенных в мобильные устройства (смартфоны, планшеты, ноутбуки).
При этом важным аспектом, отличающим процесс создания фотографий на современных устройствах, является наличие в них различного набора сенсоров, способных расширить контекст снятого изображения с помощью так называемых метаданных. В общем смысле под метаданными понимают любые сведения о данных, не отраженные в них напрямую. В контексте снятия фотоснимков с помощью мобильных устройств, отдельное внимание нужно выделить встроенным датчикам геолокации. Датчики позволяют определить местоположение устройства в глобальной системе позиционирования (англ. global positioning system - GPS). Это позволяет дополнить снятое изображение информацией о координатах места съемки.
Наличие информации о месте съемки изображения имеет множество полезных применений. Для человека, пропавшего без вести, местоположение фото, опубликованных в социальных сетях, либо отправленных через личные сообщения, может послужить начальной точкой для поисков. Количество фото, опубликованных в одной области многими пользователями, может быть использовано для предварительной оценки плотности населения, в том числе и для задач классификации городских/загородных территорий. Количество фото опубликованных в одной области во время экологического кризиса может послужить средством анализа “горячих точек” и оценки тяжести кризиса. Постановочные фото могут быть идентифицированы при несоответствии местоположения снимка и заявленных фактов.
В то же время, большинство социальных сетей имеют практику удалять метаданные изображений при их загрузке на платформу. Это приводит к изобилию фотоснимков в Интернете, утерявших геолокацию.
Отдельно можно отметить, что подобная информация могла бы быть полезна и для исторических снимков, для которых такие сенсоры не применялись, например, для восстановления семейной истории.
В обоих случаях, метод оценивания геолокации произвольного фото, основываясь только на его пиксельных значениях, кажется чрезвычайно полезным.
Эта задача получила значительную популярность в области компьютерного зрения за счет своей сложности и множества подходов к её решению.
Тем не менее, существующие решения ассоциируются с рядом проблем, детальнее рассмотренных в разделе «Обзор предметной области».
В рамках данной работы обучена сверточная нейронная сеть (CNN) для задачи классификации страны съемки изображения. Решение стремится устранить недостатки существующих проектов.
В рамках обзора предметной области были выявлены основные факторы, определяющие проделанную работу как актуальную. Были рассмотрены различные подходы к выполнению поставленной задачи, изучены возможные архитектуры моделей машинного обучения. У всех подходов были выявлены преимущества и недостатки, анализ которых позволил сделать выбор методов, наиболее удовлетворяющим требованиям задачи.
В ходе работы была реализована особая метрика ошибки для задач классификации, учитывающая географическое расстояние между классами. На основе данной метрики была обучена модель сверточной нейронной сети, и ее точность по сравнению с классическими метриками обучения показала значимость расстояния между классами для обучения моделей.
Результатом работы является как специальная метрика ошибки, так и модель-классификатор, способная предсказать место съемки произвольного снимка местности среди 114 стран, разделенных на 887
1. Image and Object Geo-Localization / D. Wilson, Zhang X., Sultani W., Wshah S. // International Journal of Computer Vision. - 2023. - Vol. 132. - P.1-43.
2. IM2GPS: estimating geographic information from a single image / Hays J., Efros A.A. - Proceedings of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2008.
3. Chapter 3 Large-Scale Image Geolocalization // Multimodal Location Estimation of Videos and Images / J. Choi, G. Friedland. - Switzerland: Springer International Publishing, 2015.
4. Object recognition from local scale-invariant features / D.G. Lowe. - Proceedings of the Seventh IEEE International Conference on Computer Vision. - Kerkyra, Greece, 2008.
5. La M. Архитектура свёрточной нейронной сети // Wikimedia Commons.
- [Б. м.], 2014. - URL: https://commons.wikimedia.org/wiki/File:Архитектура сверточной нейронной сети/png. (дата обращения: 05.06.2025)
6. Weyand T. PlaNet - Photo Geolocation with Convolutional Neural Networks / T. Weyand, I. Kostrikov, J. Philbin. - Lecture Notes in Computer Science, 2016.
7. Inception (deep learning architecture) // Wikipedia: The Free Encyclopedia.
- [Б. м.], 2025. - URL:
https://en.wikipedia.org/wiki/Inception(deep learning architecture) (дата
обращения: 05.06.2025)
8. Revisiting IM2GPS in the Deep Learning Era / N. Vo, N. Jacobs, J. Hays.
- ICCV, 2017.
9. LLMGeo: Benchmarking Large Language Models on Image Geolocation In-the-wild / Zh. Wang, D. Xu [et al.]. - CVPR 2024 Workshop on Computer Vision in the Wild, 2024.
10. ImageNet. - [Б. м.], 2009. - URL: https://image-net.org/ (дата
обращения: 05.06.2025).
11. Densely Connected Convolutional Networks / G. Huang, Z. Liu, L. Van Der Maaten, K. Q. Weinberger. - IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, 2017. - P. 1161-2269.
12. Cnn_modern (3) resnet & densenet // YeahYejiee Github. - [Б. м.], 2021.
- URL: https://yeahyejiee.github.io/deepo%o20learning/cnn/CNN Modern-(3)-
ResNet-&-DenseNet/ (дата обращения: 05.06.2025).
13. Advances in the diagnosis of herpes simplex stromal necrotising keratitis: A feasibility study on deep learning approach / R. Natarajan, H. Matai, S. Raman [et al.]. - Indian Journal of Ophthalmology, 2022.
14. Logistic Regression in Machine Learning // Analytics Vidhya. - [Б. м.],
2025. - URL: https://www.analyticsvidhya.com/blog/2021/08/conceptual-
understanding-of-logistic-regression-for-data-science-beginners/ (дата обращения: 05.06.2025).
15. Classification metrics guide: How to explain the ROC curve and ROC
AUC score? // Evidently AI. - [Б. м.], 2025. - URL:
https://www.evidentlyai.com/classification-metrics/explain-roc-curve (дата
обращения: 05.06.2025).
..20