Введение 4
Глава 1. Рынок загородной недвижимости Ленинградской области 6
1.1. Ленинградская область 6
1.2. Рынок загородной недвижимости Ленинградской области 6
1.3. Компания ЦИАН 7
1.4. Признаки объектов недвижимости 9
1.5. Гипотезы и вопросы 17
Выводы 18
Глава 2. Методы машинного обучения для анализа рынка недвижимости 19
2.1. Метод сбора данных 19
2.2. Алгоритмы выявления выбросов 19
2.3. Методы анализа данных 20
2.4. Примеры использования методов машинного обучения для анализа рынка недвижимости 21
2.5. Методология 24
Выводы 25
Глава 3. Исследование рынка с помощью методов машинного обучения 26
3.1. Описание наборов данных 26
3.2. Исследование набора данных об объектах, выставленных на продажу 26
3.3. Исследование набора данных об объектах, сдающихся посуточно 45
3.4. Исследование набора данных об объектах, сдающихся помесячно 55
Выводы 63
Заключение 65
Список литературы 67
Приложения 70
Поскольку методы машинного обучения становятся все более популярными для анализа данных, с их помощью решается все большее количество задач. Так, рынок загородной недвижимости активно развивается после первых волн пандемии Covid-19. Следовательно, методы машинного обучения можно применить и к изучению этого рынка в том числе.
Таким образом, выпускная квалификационная работа посвящена анализу рынка загородной недвижимости Ленинградской области с помощью методов машинного обучения. В рамках нее будет представлена информация о ситуации на рынке загородной недвижимости региона, об условиях, в которых он формируется, собраны данные о рынке загородной недвижимости региона, проведен анализ с помощью методов описательной статистики, построены модели машинного обучения. Таким образом, будут изучены факторы, влияющие на стоимость объектов недвижимости.
Это исследование может быть использовано для получения информации о том, как оценивать объекты загородной недвижимости в данном регионе в текущей ситуации. Это может быть полезно как для собственников домов и коттеджей, которые бы хотели их продать, так и для агентств недвижимости, для аналитиков рынка, которые сталкиваются со сложностью оценки стоимости домов и коттеджей, стоимости аренды этих домов и коттеджей.
Форматом работы была выбрана исследовательская работа.
Целью работы является построение моделей машинного обучения для облегчения процесса оценки объектов недвижимости. Для достижения цели должны быть решены следующие задачи:
• Сбор данных о рынке загородной недвижимости Ленинградской области.
• Проведение анализа признаков, влияющих на цену объектов загородной недвижимости в этом регионе.
• Построение моделей, с помощью которых цена недвижимости, а также цена ее аренды, может быть определена.
Объектом исследования является рынок загородной недвижимости Ленинградской области, предметом исследования – признаки, влияющие на цену недвижимости в регионе.
Работа состоит из следующих частей:
• Введение. Описание управленческой проблемы, постановка целей, формулирование задач, определение формата работы.
• Глава 1. Рынок загородной недвижимости Ленинградской области. В главе приведено описание ситуации на рынке недвижимости, компании, которые на рынке функционируют. Также проводится анализ признаков объектов недвижимости, описываются их преимущества и недостатки, каким образом те или иные признаки могут влиять на стоимость дома или коттеджа.
• Глава 2. Методы машинного обучения для анализа рынка недвижимости. В главе описываются методы машинного обучения, которые могут быть использованы при анализе рынка недвижимости, рассказывается о предыдущем опыте похожих исследований, формируется методология исследования для этой работы.
• Глава 3. Исследования рынка с помощью методов машинного обучения. В главе исследуются данные об объектах недвижимости, которые выставлены на продажу или сдаются в аренду (как посуточную, так и помесячную). Используются методы описательной статистики и машинного обучения.
• Заключение. Описание результатов исследования, формулирование выводов, полученных во время исследования.
• Список литературы. Перечень использованных источников как для изучения рынка, так и формирование методологии исследования.
• Приложения. Примеры частей моделей, используемых для прогнозирования.
Итак, работа посвящена анализу рынка загородной недвижимости Ленинградской области. Были использованы данные, собранные на сайте cian.ru.
В первой главе была приведена информация о рынке загородной недвижимости Ленинградской области, об условиях, в которых он формируется, компаниях, которые в нем функционируют. Были описаны факторы, которые могут иметь влияние на стоимость объектов загородной недвижимости.
Во второй главе приведено описание методов машинного обучения, которые могут быть использованы в этом исследовании. Была разработана методология для следующего анализа рынка загородной недвижимости Ленинградской области на основе предыдущего опыта подобного рода исследований.
В третьей главе был проведен анализ рынка загородной недвижимости Ленинградской области. В рамках этого анализа было сделано следующее:
• собраны данные об объектах недвижимости, которые выставлены на продажу, сдаются посуточно или помесячно;
• проанализированы факторы, влияющие на стоимость объектов загородной недвижимости;
• построена модель, определяющая стоимость объектов загородной недвижимости;
• построена модель, определяющая стоимость посуточной аренды объектов загородной недвижимости;
• построена модель, определяющая стоимость помесячной аренды объектов загородной недвижимости.
Таким образом, все задачи этой работы выполнены, и поставленная цель достигнута. Было выяснено следующее:
• в среднем, более дорогие участки находятся в Выборгском и Приозерском районах Ленинградской области. Однако больше всего объектов находится во Всеволожском и Ломоносовском районах;
• объекты с участками типа ДНП стоят дороже чем те, которые располагаются в садоводствах и ИЖС;
• самыми дорогими являются монолитные дома, самыми дешевыми – щитовые;
• самыми дорогими являются дома с дизельным, самыми дешевыми – с печным и без отопления;
• положительно на цену квадратного метра влияют: общая площадь участка, количество типов коммуникации в доме, количество введенных квадратных метров жилья в муниципалитете;
• отрицательно на цену квадратного метра влияет количество этажей в доме, расстояние от КАДа до объета;
• положительно на стоимость аренды объектов загородной недвижимости (как посуточной, так и помесячной) влияют: общая жилая площадь, количество этажей, количество введенных квадратных метров жилья в муниципалитете, процент прибыльных предприятий в муниципалитете;
• отрицательно на стоимость аренды дома влияет расстояние от КАДа до дома.
1. Авито [Электронный ресурс]. – Режим доступа: https://avito.ru, свободный. – Загл. с экрана.
2. База данных показателей муниципальных образований Ленинградской области [Электронный ресурс]. – Режим доступа: https://www.gks.ru/dbscripts/munst/munst41/DBInet.cgi, свободный. – Загл. с экрана.
3. Березинец И. В. Практикум по теории вероятностей и математической статистике / И. В. Березинец. – СПб.: Издательство «Высшая школа менеджмента», 2013 - 162 с.
4. Бизнес-статистика: учебник и практикум для академического бакалавриата / под ред. И. И. Елисеевой – М., Издательство Юрайт. – 2018. – 445 с.
5. Домбровский В. В., Эконометрика / В. В. Домбровский. – М.: Новый учебник, 2004. – 342 с.
6. Дьяконов А., Случайный лес (Random Forest) [Электронный ресурс] / dyakonov.org, 2016. – Режим доступа: https://dyakonov.org/2016/11/14/%D1%81%D0%BB%D1%83%D1%87%D0%B0%D0%B9%D0%BD%D1%8B%D0%B9-%D0%BB%D0%B5%D1%81-random-forest/, свободный. – Загл. с экрана.
7. Загородный дом против летней дачи [Электронный ресурс] / Интерфакс Недвижимость, 2021. – Режим доступа: https://realty.interfax.ru/ru/analytics/comments/130402/, свободный. – Загл. с экрана.
8. Конева Л. Ю. Экономико-географическое положение Ленинградской области [Электронный ресурс]. – СПб.: Северо-западная академия государственной службы, 2010 -. – Режим доступа: https://works.doklad.ru/view/UyRpW6mvE2Q.html, свободный. – Загл. с экрана.
9. Королев Р. И. История развития технологии парсинга / Р. И. Королев, Е. З. Никонова // Современное программирование. III Международная научно-практическая конференция. – 2020. – С. 169–172.
10. Крылова Д. Д., Использование методов регрессионного анализа при оценке стоимости недвижимости / Д. Д. Крылова, Р. Г. Абакумов, О. Н. Моргунова // Инновационная экономика: перспективы развития и совершенствования. – 2018. - №3 (29). – С. 88–93.
11. Кульгин М., Руководство по парсингу веб-сайтов в 2021 году [Электронный ресурс] / vc.ru, 2021. – Режим доступа: https://vc.ru/marketing/239915-rukovodstvo-po-parsingu-veb-saytov-v-2021-godu, свободный. – Загл. с экрана.
12. Лабинцев Е. Метрики в задачах машинного обучения [Электронный ресурс] / Хабр, 2017. – Режим доступа: https://habr.com/ru/company/ods/blog/328372/, свободный. – Загл. с экрана.
13. Ленинградская область [Электронный ресурс] / Википедия. – Режим доступа: https://ru.wikipedia.org/wiki/Ленинградская_область, свободный. – Загл. с экрана.
14. Линейная регрессия в машинном обучении [Электронный ресурс] / Neurohive, 2018. – Режим доступа: https://neurohive.io/ru/osnovy-data-science/linejnaja-regressija/, свободный. – Загл. с экрана.
15. Определение выбросов [Электронный ресурс] / baguzin.ru, 2016. - Режим доступа: https://baguzin.ru/wp/opredelenie-vybrosov/, свободный. – Загл. с экрана.
...