Введение 4
1 Сбор данных 6
1.1 Скачивание html-страниц 6
1.2 Подсчет числа страниц 7
2 Обработка данных 9
2.1 Выделение полезных данных 9
2.2 Преобразование данных 13
2.2.1 Срок продажи недвижимости 13
2.3 Сохранение данных 14
3 Пример возможного анализа собранных данных 16
3.1 О методе множественной линейной регрессии 16
3.2 Применение метода МЛР 16
Заключение 19
Список литературы 20
А Код программы из 1 и 2 главы 21
Б Код программы из 3 главы 38
Текущий этап развития человечества характеризуется огромным ростом количества накопленной (и непрерывно растущей в количестве) информации. Такой большой объем данных порождает увеличение числа научных экспериментов. Так, в 2016 году, в виде открытых (доступных без каких-либо ограничений) данных были выложены сотни терабайт экспериментальных данных, полученных на большой адронном коллайдере. Работа многих технических систем также сопровождается сбором большого числа данных.
Однако, ввиду увеличения количества информации и её усложнения, задача сбора данных становится всё более нетривиальной и требует специальной обработки данных для получения практически полезной информации. Так, все данные, представленные в глобальной сети Интернет, в общем смысле неструктурированы, так как каждый ресурс в отдельности имеет индивидуальную и специфичную архитектуру. В основном, такие данные - это html-страницы, в которых хранится текстовая информация, содержащая полезную, и в гораздо большем объеме не имеющую практическую пользу (в плане возможного анализа) информацию. И объем данной информации растет каждый день. Всё это требует развитие технологий, которые позволяют собирать, обрабатывать и извлекать информацию, полезную в практическом смысле.
Данная выпускная квалификационная работа посвящена исследованию и применению методов сбора таких (полезных в практическом смысле) данных с открытых источников сети Интернет и их обработке для возможности дальнейшего анализа.
В качестве открытого источника информации взят html-сайт, являющийся площадкой по размещению объявлений недвижимости. Такой выбор сделан исходя из того, что в последнее десятилетие построение статистических моделей рынка недвижимости стало востребованным направлением как в научном, так и прикладном смысле. Оно оказывается всё более нетривиальной задачей анализа в виду роста рынка недвижимости.
Целью данной выпускной квалификационной работы является создание программы сбора практически полезных данных с html-страниц сайта объявлений о недвижимости. Для достижения поставленной цели необходимо решить ряд задач:
1) собрать данные о недвижимости с html-страниц (решению данной задачи посвящена глава 1);
2) реализовать алгоритм обработки данных для получения информации, имеющей практическую пользу (решению данной задачи посвящена глава 2);
3) отобразить практическую полезность собранных данных в наглядной форме (решению данной задачи посвящена глава 3).
Инструментом решения данной задачи выбран один из языков объектно-ориентированного программирования — высокоуровневый язык общего назначения Python.
Дипломная работа состоит из введения, 3 глав, заключения, списка использованных источников и 2 приложения. Работа содержит 19 страниц основного текста, 18 страниц приложения, 7 листингов и 2 рисунка. Список использованной литературы включает 8 наименований.
В результате проделанной выпускной квалификационной работы стало ясно, как производить сбор данных с html-страниц с помощью языка Python. В итоге была достигнута цель работы, а именно создание программы сбора практически полезных данных с html-страниц сайта объявлений о недвижимости. Нами была написана программа, которая собирает и сохраняет данные из объявлений с сайта недвижимости структурированно и автоматизированно, без помощи пользователя. Она создает из собранной информации базу данных в популярном формате, который понятен большому числу программистов и системам обработки данных.
Было продемонстрировано, что собранные данные имеют практическую пользу — с помощью написанной нами программы мы научились предсказывать время, за которое найдется покупатель на квартиру, с низким значением погрешности. Исследованные в работе принципы и собранные данные могут быть использованы для получения важных выводов при анализе одного из крупнейших рынков современности — рынка недвижимости.