Введение 3
2. Предварительные сведения 5
2.1. Язык HTML 5
2.2. Структура HTML-документа 5
2.3. Система управления базами данных MySQL 6
2.4. Язык PHP 7
2.5. Язык Python 7
3. Материалы и методы 8
4. Основная часть 9
4.1. Сбор данных с HTML-страницы 9
4.2. Построение регрессионной модели 22
5. Заключение и выводы 26
6. Список литературы 27
7. Приложение
Данная работа посвящена сбору данных с html страниц и последующим их анализом. Целью было собрать данные с объявлений на сайте недвижимости и построить регрессионную модель для их анализа. Регрессионная модель должна определить зависимость цены от других параметров указанных в объявлении, такие как район где расположена квартира, ближайшая станция метро, площадь квартиры. Также задачей было обучить данную модель с целью дальнейшего предсказания стоимости квартиры на основе собранных признаков.
Эта работа является актуальной, так как в настоящее время рынок недвижимости один из крупнейших рынков в мире. Только в России по данным Росреестра за первое полугодие 2018 года было продано более 4,2 миллионов объектов недвижимости. Из них более 3,9 миллионов было продано на вторичном рынке. [1] Исходя из этих данных можно сделать вывод о том, что система для рекомендации стоимости недвижимости была бы очень востребована на этом рынке.
В связи с этим был реализован алгоритм по сбору данных с объявлений на сайте по продаже недвижимости на языке PHP с последующей записью этих данных в базу данных с помощью системы управления базами данных MySQL и дальнейшим анализом этих данных на языке Python.
В пункте 2 приведены предварительные сведения в которых рассказывается, что такое язык HTML, как устроен HTML-документ, что такое язык PHP, что такое система управления базами данных MySQL и что такое язык Python.
В пункте 3 рассказано с помощью чего была сделана данная работа.
В пункте 4 расписано как был реализован алгоритм на языке PHP по сбору данных и записи их в базу данных используя СУБД MySQL, а также алгоритм анализа этих данных на языке Python.
В пункте 5 приведены итоги по проделанной работе.
В пункте 7 представлены код алгоритма на языке PHP, код базы данных на языке SQL и код алгоритма на языке Python.
В данной работе, успешно был осуществлен сбор данных с html-страниц с помощью языка PHP и библиотеки phpQuery. Все собранные данные были упорядочены и успешно записаны в базу данных. В дальнейшем производился анализ этих данных. В ходе анализа были выведены зависимости признаков от результативного признака. На основе этих признаков была обучена линейная регрессионная модель. В итоге после обучения на основе трех признаков, а именно площадь квартиры, цена за квадратный метр и расстояние до метро, получилось сделать предсказание цены основываясь на эти же признаки с точность 0,82.