1. Постановка задачи 4
2. Введение 5
3. Обзор 7
4. Сбор данных и построение модели 9
4.1. Сбор данных
4.2. Обработка данных и выделение признаков . . . . . . . . 10
4.3. XGBoost и базовые модели
4.4. Модель
5. Результаты 16
5.1. Исследовательские вопросы
5.2. Метрики
5.3. Результаты
6. Применение того, что сделано на практике 21
7. Заключение 22
Список литературы
Рынок недвижимости является базовым элементом экономики любой страны [1]. В России инвестиции в недвижимость считаются надежными вложениями последние годы [2]. Количество сделок купли-продаж объектов жилой недвижимости в 2017 году составило 4 миллиона. При этом в статье [3] объясняется, что в большинстве случаев покупка про-изводится не для улучшения жилищной ситуации, а в качестве инвестиции. Как и в других областях это порождает задачу точной оценки жилья, что является сложной, не линейной задачей. Решением этой задачи традиционно занимаются риелторы и оценщики недвижимости. Однако их оценки могут сильно разниться и достигать погрешности вплоть до 13%. Развитие машинного обучения показывает, что в большинстве случаев алгоритм решает эту задачу лучше человека при должном количестве входных данных. Поэтому сейчас особую нишу занимают агрегаторы объектов недвижимости, т.к. они предоставляют оценку онлайн по параметрам и часто гарантируют более высокую точность. Например, американский сайт Zillow гарантирует медианную ошибку в 2% и считается лидером в вопросе оценивания. В российском сегменте тоже есть свои игроки, но они пока не добились таких результатов. Сайт Циан дает коридор оценки в 10%. Важность точности оценки прежде всего заключается в том, что продавец может получить полезную корректировку и быстрее продать свой объект, а покупатель может понять, насколько хорошее предложение перед ним. Также оценка является крайне важна для банков, которые выдают кредиты на покупку жилья. Исследование, которое проводил Сбербанк было построено на кредитных заявках. Тема оценки объектов недвижимости актуальна не только для агентов, покупателей и продавцов, а также и для информационных ресурсов, различных агрегаторов, потому что они соревнуются в точности своих предсказаний. Отсюда формируется цель собрать и обработать дополнительные признаки, который описывают объект, для уточнения текущих решений. В данной работе внимание было сосредоточено на точности цены в объявлении, для этого нужно было получить и использовать, как можно больше информации из объявлений. Об этом подробнее рассказано в главе 4.1
Задача предсказания цены представляет собой задачу регрессии. Некоторые методы и алгоритмы решения задачи регрессии рассмотрены в главе 4.3. Изучив работы, приведенные в главе 3 было установлено, что для решения этой задачи эффективнее всего будет использование алгоритмов, построенных на ансамблях деревьев.
Был написан парсер на языке python использующий принципы Web scrapping описанные в [12] для сбора данных с популярных агрегаторов объявлений;
Из собранных данных был получен датасет числовых признаковых, которые описывают каждый объект. Для перевода тектовых описаний и выделения из них числовых признаков был применен TF-IDF метод [16][17];
Была спроектирована архитектура ансамблевой модели, в основе которой лежит алгоритм градиентного бустинга в реализации XGBoost[24]. Архитектура построенной модели приведена на Рис. 4;
Для оценки модели были выбраны MAPE и RMSLE метрики. Также была посчитана MdAPE для сравнения с популярными на рынке решениями. Результаты получилось, уточнить используя текстовые данные;
Алгоритмы градиентного бустинга показали самые точные предсказания среди рассмотренных методов на числовых данных. В будущем возможно добавление дополнительных признаков для построения моде-ли. Из неиспользуемой информации есть фотографии, по которым тоже можно построить модель классификации или регрессии и добавить в конечный ансамбль. Также было создано консольное приложения с реализацией алгоритма. [30]
[1] A. M. Королева, “Роль Рынка Недвижимости В Экономике Государства,” Общество: политика, экономика, право,no. 6, pp. 71-73, 2016.
[2] H. A. Сучкова, “Инвестиции в недвижимость-надежный и доходный способ вложения денежных средств,” Научные записки Орел- ГИЭТ,no. 1, p. 5, 2012.
[3] N. Kosareva and T. Polidi, “Housing affordability in russia,” Housing Policy Debate, vol. 31, no. 2, pp. 214-238, 2021.
[4] Z. Peng, Q. Huang, and Y. Han, “Model research on forecast of second-hand house price in chengdu based on xgboost algorithm,” pp. 168-172, Oct 2019.
[5] Q. Truong, M. Nguyen, H. Dang, and B. Mei, “Housing price prediction via improved machine learning techniques,” Procedia Computer Science, vol. 174, pp. 433-442, 2020. 2019 International Conference on Identification, Information and Knowledge in the Internet of Things.
[6] Y. Piao, A. Chen, and Z. Shang, “Housing price prediction based cnn,” pp. 491-495, 2019.
[7] Y. Mao and R. Yao, “A geographic feature integrated multivariate linear regression method for house price prediction,” pp. 347-351, 2020.
[8] A. Baldominos, I. Blanco, A. Moreno, R. Iturrarte, Й. Bernardez, and C. Afonso, “Identifying real estate opportunities using machine learning,” Applied Sciences, vol. 8, p. 2321, 11 2018.
[9] Y. Zhao, G. Chetty, and D. Tran, “Deep learning with xgboost for real estate appraisal,” in 2019 IEEE Symposium Series on Computational Intelligence (SSCI), pp. 1396-1401, 2019.
[10] Q. You, R. Pang, L. Cao, and J. Luo, “Image-based appraisal of real estate properties,” IEEE Transactions on Multimedia, vol. 19, no. 12, pp. 2751-2759, 2017.
[11] A. Baldominos, I. Blanco, A. Moreno, R. Iturrarte, Й. Bernardez, and C. Afonso, “Identifying real estate opportunities using machine learning,” Applied Sciences, vol. 8, p. 2321, 11 2018.
[12] R. Mitchell, Web scraping with Python: Collecting more data from the modern web. ” O’Reilly Media, Inc.”, 2018.
[13] C. F. F. Karney, “Algorithms for geodesics,” Journal of Geodesy, vol. 87, pp. 43-55, Jan 2013.
[14] R. Feldman, “Techniques and applications for sentiment analysis,” Commun. ACM, vol. 56, p. 82-89, Apr. 2013.
[15] A. Onan, S. Korukoglu, and H. Bulut, “Lda-based topic modelling in text sentiment classification: An empirical analysis.,” Int. J. Comput. Linguistics Appl., vol. 7, no. 1, pp. 101-119, 2016.
[16] H. P. Luhn, “A statistical approach to mechanized encoding and searching of literary information,” IBM Journal of Research and Development, vol. 1, no. 4, pp. 309-317, 1957.
[17] K. S. Jones, “A statistical interpretation of term specificity and its application in retrieval,” Journal of documentation, 1972.
[18] M. Kutner, C. Nachtsheim, and J. Neter, Applied Linear Regression Model, vol. 26. 01 2004.
[19] R. Tibshirani, “Regression shrinkage and selection via the lasso,” Journal of the Royal Statistical Society: Series B (Methodological^), vol. 58, no. 1, pp. 267-288, 1996.
[20] H. Zou and T. Hastie, “Regularization and variable selection via the elastic net,” Journal of the royal statistical society: series B (statistical methodology), vol. 67, no. 2, pp. 301-320, 2005.
[21] L. Breiman, Classification and regression trees. 01 1984.
[22] L. Breiman, “Random forests,” Machine learnin^g, vol. 45, no. 1, pp. 5 32, 2001.
[23] E. Fix, Discriminatory analysis: nonparametric discrimination, consistency properties, vol. 1. USAF school of Aviation Medicine, 1985.
[24] T. Chen and C. Guestrin, “Xgboost: A scalable tree boosting system,” in Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining, pp. 785-794, 2016.
[25] J. H. Friedman, “Stochastic gradient boosting,” Computational statistics & data analysis, vol. 38, no. 4, pp. 367-378, 2002.
[26] M. Olden, “Predicting stocks with machine learning. stacked classifiers and other learners applied to the oslo stock exchange,” Master’s thesis, 2016.
[27] M. F. Mukhlishin, R. Saputra, and A. Wibowo, “Predicting house sale price using fuzzy logic, artificial neural network and k-nearest neighbor,” in 2017 1st International Conference on Informatics and Computational Sciences (ICICoS), pp. 171-176, 2017.
[28] J. W. Weikun Zhao, Cao Sun, “The Research on Price Prediction of Second-hand houses based on KNN and Stimulated Annealing Algorithm,” International Journal of Smart Home, vol. 8, pp. 191-200, 2014.
[29] S. Borde, A. Rane, G. Shende, and S. Shetty, “Real estate investment advising using machine learning,” Int. Res. J. Eng. Technol, vol. 4, no. 3, pp. 1821-1825, 2017.
[30] Y. Maxim, “yavichmaxim/app_for_testing,” May 2021. Available at https://github.com/YavichMaxim/app_for_testing, version 1.0.