Аннотация 2
Введение 3
1 Теоретические основы оценки недвижимости 6
1.1 Методы оценки недвижимости 6
1.2 Классические математико-статистические методы оценки стоимости 9
1.3 Применение машинного обучения в оценке недвижимости 13
2 Сбор и анализ данных о рынке квартир 17
2.1 Парсинг данных о рынке квартир из открытых источников 17
2.2 Анализ набора данных 22
3 Разработка прогнозных моделей 29
3.1 Разработка модели линейной регрессии 29
3.2 Разработка модели градиентного бустинга 33
3.3 Разработка мультимодальной модель с BERT 36
3.4 Анализ применимости мультимодальной модели в реальных условиях 40
Заключение 52
Список использованных источников и литературы 54
Оценка стоимости объектов недвижимости представляет собой одну из ключевых задач современной экономики, затрагивающую интересы широкого круга участников рынка: от частных лиц и риелторских компаний до финансовых организаций и государственных структур. Традиционные методы оценки, основанные на сравнительном, затратном и доходном подходах, в условиях динамично меняющегося рынка и растущих объемов информации демонстрируют ограниченную эффективность, требуя значительных временных и финансовых затрат. Сложность оценки обусловлена многомерностью влияющих факторов, неоднородностью объектов недвижимости и субъективностью экспертных суждений, что приводит к существенным погрешностям в определении рыночной стоимости.
В условиях цифровой трансформации экономики особую актуальность приобретают технологии искусственного интеллекта и машинного обучения, позволяющие автоматизировать процессы оценки и повысить их точность. Развитие глубоких нейросетевых моделей открывает новые возможности для комплексного анализа разнородных данных, включая как структурированную информацию о характеристиках объектов, так и неструктурированные текстовые описания. Особый исследовательский интерес представляют мультимодальные архитектуры, объединяющие традиционные числовые признаки с текстовыми эмбеддингами, что позволяет извлекать дополнительную семантическую информацию, влияющую на формирование рыночной стоимости.
Актуальность выбранной темы обусловлена рядом объективных факторов, характеризующих современное состояние российского рынка недвижимости и оценочной деятельности. Традиционная система оценки в России имеет существенные структурные недостатки: временные затраты на проведение оценки составляют от 3 до 7 дней, а финансовая стоимость варьируется от 2000 до 5000 рублей за один объект. Особенно острой проблемой является отсутствие открытых источников данных о реальных сделках с недвижимостью, что создает дополнительные трудности при поиске сопоставимых объектов и снижает достоверность оценки.
Цель исследования заключается в разработке модели глубокого обучения для оценки рыночной стоимости квартир, обеспечивающей повышение точности прогнозирования за счет учета множества факторов.
Объектом исследования выступает рынок жилой недвижимости Сибири и Дальнего Востока, в частности квартиры на первичном и вторичном рынке.
Предметом исследования является процесс оценки стоимости квартир с применением глубоких нейросетевых моделей.
Для достижения поставленной цели необходимо решить следующие задачи:
1) Изучение современных методов оценки недвижимости
2) Сбор и предобработка данных
3) Проектирование архитектуры модели
4) Обучение и валидация модели
5) Сравнение с традиционными методами и анализ внедрения
Методологическую основу исследования составляют современные подходы к машинному обучению и анализу данных, в частности методы глубокого обучения, градиентного бустинга, обработки естественного языка и снижения размерности данных. В работе используются как классические статистические методы (корреляционно-регрессионный анализ, метод межквартильного размаха для выявления выбросов), так и передовые алгоритмы машинного обучения (XGBoost, BERT, UMAP).
Информационной базой исследования послужили данные о более чем 80 000 объектов недвижимости в 24 городах Сибири и Дальнего Востока, собранные с портала Циан. Данные включают как структурированные параметры (площадь, количество комнат, этаж, местоположение), так и неструктурированную текстовую информацию в виде описаний объявлений. Дополнительно использовались геопространственные данные, полученные с помощью API ArcGIS, для определения расстояния от объекта до центра города.
Теоретическая значимость работы состоит в развитии методологических подходов к автоматизированной оценке недвижимости с использованием глубоких нейросетевых моделей. Разработанная методология может быть использована для создания аналогичных систем оценки в других регионах и для других типов недвижимости.
Практическая значимость исследования определяется возможностью кардинального сокращения временных и финансовых затрат на оценку недвижимости. Разработанная мультимодальная модель позволяет проводить оценку в режиме реального времени при минимальных операционных расходах, что открывает новые возможности для банковского сектора, риелторских компаний и государственных структур. Результаты исследования могут быть использованы для совершенствования кадастровой оценки, процессов ипотечного кредитования и инвестиционного анализа на рынке недвижимости.
Структура работы определяется целью и задачами исследования и включает введение, три главы, заключение, список использованных источников и литературы, приложения.
В первой главе рассматриваются теоретические основы оценки недвижимости, включая традиционные подходы (сравнительный, доходный, затратный), классические математико-статистические методы и современные подходы на основе машинного обучения.
Вторая глава посвящена сбору и анализу данных о рынке квартир, включая методологию асинхронного парсинга, описательные статистики полученной выборки и методы предварительной обработки данных.
В третьей главе представлена разработка прогнозных моделей, включая линейную регрессию, модель градиентного бустинга и мультимодальную модель с BERT, а также анализ их эффективности и практической применимости.
Таким образом, данное исследование направлено на решение актуальной практической задачи повышения эффективности оценки стоимости жилой недвижимости с использованием современных методов машинного обучения, что имеет существенное значение для развития рынка недвижимости и совершенствования оценочной деятельности в России.
Оценка стоимости объектов недвижимости остается одной из ключевых задач современной экономики, затрагивающих интересы широкого круга участников рынка — от частных лиц и риелторских компаний до финансовых организаций и государственных структур. В условиях цифровой трансформации экономики особую значимость приобретают технологии искусственного интеллекта и машинного обучения, позволяющие автоматизировать процессы оценки и повышать их точность.
В рамках исследования была создана комплексная база данных, включающая информацию о 80102 объектах недвижимости в 24 городах Сибири и Дальнего Востока, собранная методом асинхронного парсинга портала Циан с использованием специально созданной библиотеки Python. Данные включают как структурированные параметры объектов (площадь, количество комнат, этаж, местоположение), так и неструктурированную текстовую информацию в виде описаний объявлений. Для обработки текстовых данных применялась предобученная модель BERT для русского языка (rubert- base-cased) с последующим снижением размерности эмбеддингов до 20 измерений методом UMAP.
Методологической основой работы стало сравнительное исследование трех подходов к прогнозированию стоимости недвижимости: классической линейной регрессии с отбором признаков методом backward elimination, модели градиентного бустинга XGBoost с применением алгоритма SFFS для селекции признаков, и инновационной мультимодальной архитектуры, интегрирующей текстовые эмбеддинги BERT с традиционными числовыми и категориальными признаками. Экспериментальная часть включала применение современных методов предобработки данных с использованием инструментов YData Profiling и Sweetviz, удаление выбросов методом межквартильного размаха, а также геопространственный анализ с расчетом расстояний до центров городов.
Результаты исследования демонстрируют значительное превосходство предложенного мультимодального подхода: разработанная модель достигла средней абсолютной процентной ошибки MAPE = 8,27% и коэффициента детерминации R2 = 0,9, что существенно превосходит показатели линейной регрессии (MAPE = 32,32%, R2 = 0,35) и модели XGBoost без текстовых признаков (MAPE = 9,47%, R2 = 0,83). Практическая значимость работы заключается в возможности кардинального сокращения временных и финансовых затрат на оценку недвижимости: автоматизированная система способна предоставлять точные оценки в режиме реального времени при минимальных операционных расходах, что открывает новые возможности для банковского сектора, риелторских компаний и государственных структур.
Таким образом, данное исследование представляет собой важный шаг в направлении цифровизации оценки недвижимости, демонстрируя, что комбинация структурированных и неструктурированных данных с применением глубокого обучения позволяет решать актуальные задачи повышения точности и эффективности прогнозирования рыночной стоимости.
1. Федеральный закон «Об оценочной деятельности в Российской Федерации»
от 29.07.1998 N 135-ФЗ // www.consultant.ru. — 1998. — URL:
https://www.consultant.ru/document/cons_doc_LAW_19586/ (дата обращения: 30.05.2025).
2. Автоматизированная оценка: плюсы и минусы технологии // www.esm- invest.com . — 2021. — URL: https://www.esm-invest.com/ru/Automated-assessment-pros-and- cons-of-the-technology (дата обращения: 23.05.2025).
3. Асинхронное программирование // TenChat. URL:
https://tenchat.ru/media/1427181-asinkhronnoye-programmirovaniye (дата обращения:
29.05.2025).
4. Вартанян, В.В., Абакумова, Е.В. Использование вероятностно-статистических методов при оценке степени достоверности результатов оценки рыночной стоимости недвижимости // Вестник Воронежского государственного университета инженерных технологий. - 2017. - Т. 79, № 2. - С. 252-256.
5. Веб-скрапинг // www.sberbank.ru . — URL:
https://www.sberbank.ru/ru/person/kibrary/vocabulary/veb-skraping (дата обращения:
23.05.2025).
6. Веб-скрейпинг // ru.wikipedia.org. — URL:
https://ru.wikipedia.org/wiki/%D0%92%D0%B5%D0%B1- %D1%81%D0%BA%D1%80%D0%B5%D0%B9%D0%BF%D0%B8%D0%BD%D0%B3 (дата обращения: 23.05.2025).
7. Власова, Т. Н., Смирнов, В. В. Исследование зависимости стоимости квартир от удаленности от центра в российских городах // Региональная экономика и управление. — 2019. — № 4. — С. 34-41.
8. Гусарова, Н.В., Политова, Т.В. Использование корреляционно-регрессионного анализа при оценке недвижимости // Современные проблемы науки и образования. - 2016. - № 2. - С. 112-117.
9. Домклик доработал алгоритмы оценки стоимости недвижимости // bel.ru. — 2025. — URL: https://bel.ru/news/2025-04-25/domklik-dorabotal-algoritmy-otsenki-stoimosti- nedvizhimosti-5377984 (дата обращения: 30.05.2025).
10. Домклик представил обновление в моделях оценки стоимости жилой
недвижимости // blog.domclick.ru. — Б. д. — URL:
https://blog.domclick.ru/novosti/post/domklik-predstavil-obnovlenie-v-modelyah-ocenki- stoimosti-zhiloj (дата обращения: 30.05.2025).
11. Доходный подход в оценке недвижимости // www.uphill.ru . — URL:
https://www.uphill.ru/press-czentr/stati/dohodnyiy-podhod-v-otsenke-nedvizhimosti/ (дата
обращения: 23.05.2025)
12. ИИ поможет россиянам сэкономить на оценке жилья при оформлении ипотеки // ren.tv. URL: https://ren.tv/news/v-rossii/1330597-ii-pomozhet-rossiianam-sekonomit- na-otsenke-zhilia-pri-oformlenii-ipoteki (дата обращения: 30.05.2025)
13. К вопросу о применении имитационного моделирования методом Монте- Карло в задачах оценки фундаментальной стоимости объекта оценки / А.А. Кузнецов // Экономика и предпринимательство. - 2024. - № 6. - С. 44-51.
14. Как ИИ меняет правила игры в оценке недвижимости // webmedia.ge. URL:
https://webmedia.ge/news/kak-ai-menyaet-pravila-igry-v-oczenke-nedvizhimosti/ (дата
обращения: 30.05.2025).
15. Как ИИ работает с недвижимостью и зачем мы заставляем его изучать фотографии объектов // vc.ru. URL: https://vc.ru/services/1223849-kak-ii-rabotaet-s- nedvizhimostyu-i-zachem-my-zastavlyaem-ego-izuchat-fotografii-obektov (дата обращения: 30.05.2025)...83