Тип работы:
Предмет:
Язык работы:


СБОР ДАННЫХ с html-страниц

Работа №45018

Тип работы

Дипломные работы, ВКР

Предмет

математика

Объем работы39
Год сдачи2019
Стоимость4770 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
198
Не подходит работа?

Узнай цену на написание


Введение 4
1 Сбор данных 6
1.1 Скачивание html-страниц 6
1.2 Подсчет числа страниц 7
2 Обработка данных 9
2.1 Выделение полезных данных 9
2.2 Преобразование данных 13
2.2.1 Срок продажи недвижимости 13
2.3 Сохранение данных 14
3 Пример возможного анализа собранных данных 16
3.1 О методе множественной линейной регрессии 16
3.2 Применение метода МЛР 16
Заключение 19
Список литературы 20
А Код программы из 1 и 2 главы 21
Б Код программы из 3 главы 38

Текущий этап развития человечества характеризуется огромным ростом количества накопленной (и непрерывно растущей в количестве) информации. Такой большой объем данных порождает увеличение числа научных экспериментов. Так, в 2016 году, в виде открытых (доступных без каких-либо ограничений) данных были выложены сотни терабайт экспериментальных данных, полученных на большой адронном коллайдере. Работа многих технических систем также сопровождается сбором большого числа данных.
Однако, ввиду увеличения количества информации и её усложнения, задача сбора данных становится всё более нетривиальной и требует специальной обработки данных для получения практически полезной информации. Так, все данные, представленные в глобальной сети Интернет, в общем смысле неструктурированы, так как каждый ресурс в отдельности имеет индивидуальную и специфичную архитектуру. В основном, такие данные - это html-страницы, в которых хранится текстовая информация, содержащая полезную, и в гораздо большем объеме не имеющую практическую пользу (в плане возможного анализа) информацию. И объем данной информации растет каждый день. Всё это требует развитие технологий, которые позволяют собирать, обрабатывать и извлекать информацию, полезную в практическом смысле.
Данная выпускная квалификационная работа посвящена исследованию и применению методов сбора таких (полезных в практическом смысле) данных с открытых источников сети Интернет и их обработке для возможности дальнейшего анализа.
В качестве открытого источника информации взят html-сайт, являющийся площадкой по размещению объявлений недвижимости. Такой выбор сделан исходя из того, что в последнее десятилетие построение статистических моделей рынка недвижимости стало востребованным направлением как в научном, так и прикладном смысле. Оно оказывается всё более нетривиальной задачей анализа в виду роста рынка недвижимости.
Целью данной выпускной квалификационной работы является создание программы сбора практически полезных данных с html-страниц сайта объявлений о недвижимости. Для достижения поставленной цели необходимо решить ряд задач:
1) собрать данные о недвижимости с html-страниц (решению данной задачи посвящена глава 1);
2) реализовать алгоритм обработки данных для получения информации, имеющей практическую пользу (решению данной задачи посвящена глава 2);
3) отобразить практическую полезность собранных данных в наглядной форме (решению данной задачи посвящена глава 3).
Инструментом решения данной задачи выбран один из языков объектно-ориентированного программирования — высокоуровневый язык общего назначения Python.
Дипломная работа состоит из введения, 3 глав, заключения, списка использованных источников и 2 приложения. Работа содержит 19 страниц основного текста, 18 страниц приложения, 7 листингов и 2 рисунка. Список использованной литературы включает 8 наименований.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В результате проделанной выпускной квалификационной работы стало ясно, как производить сбор данных с html-страниц с помощью языка Python. В итоге была достигнута цель работы, а именно создание программы сбора практически полезных данных с html-страниц сайта объявлений о недвижимости. Нами была написана программа, которая собирает и сохраняет данные из объявлений с сайта недвижимости структурированно и автоматизированно, без помощи пользователя. Она создает из собранной информации базу данных в популярном формате, который понятен большому числу программистов и системам обработки данных.
Было продемонстрировано, что собранные данные имеют практическую пользу — с помощью написанной нами программы мы научились предсказывать время, за которое найдется покупатель на квартиру, с низким значением погрешности. Исследованные в работе принципы и собранные данные могут быть использованы для получения важных выводов при анализе одного из крупнейших рынков современности — рынка недвижимости.


1) Блохин А.В. Теория эксперимента / А.В. Блохин. — Минск, Республика Беларусь: БГУ, 2002. - 67 с. — ISBN 985-445-815-6.
2) Гафаров Ф.М Искусственные нейронные сети и приложения / А.М. Шихалёв. — Казань: Изд-во Казан. ун-та, 2018. - 121 с.
3) Поручиков М.А. Анализ данных / М.А. Поручиков. — Самара: Изд-во Самарского университета, 2016. - 88 с.
4) Шихалёв А.М. Регрессионный анализ. Парная линейная регрессия / А.М. Шихалёв. — Казань: Изд-во Казан. ун-та, 2015. - 88 с.
5) Holden S. Python Web Programming / Steve Holden. — Индианаполис, США: Sams Publishing, 2002. — 720 с. — ISBN 978-1887902991.
6) Python 3.7.3 documentation / [Электронный ресурс]. — URL: https://www.docs.python.Org/3/
7) Ruvalcaba Z., Boehm A. Murach’s HTML5 and CSS3 / Zak Ruvalcaba, Anne Boehm. — Фресно, США: Mike Murach Associates Inc,
2011. — 711 с. — ISBN 978-1-943872-26-8.

Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ