Только Word
Реферат
1 Анализ поставленной задачи и методов решения 6
1.1 Описание задачи 6
1.1.1 Постановка задачи 6
1.2. Система управления базой данных. 7
1.2.1 Классификация баз данных 7
1.2.3 Выбор СУБД 9
1.3 BusinessIntelligence 15
1.3.1 Установка Pentaho BI Suite Community Edition 20
1.3.2 Запуск Pentaho BI-сервера 21
1.3 Анализ способов поиска информации в тексте 31
1.3.1 Регулярные выражения 31
1.3.2 Синтаксические анализаторы 34
1.4 Изучение структуры целевых сайтов 35
1.4.1 Структура сайта bazarpnz.ru 36
1.4.2 Структура сайта avito.ru 40
1.4.3 Структура сайта youla.ru 43
2 Разработка архитектуры системы 46
2.1 Разработка парсера 46
2.1.1 Анализ предметной области. 46
2.1.2 Выбор средств разработки 51
2.2.2 Используемые модули 52
2.2.1 BeautifulSoup 52
2.2.2 Requests 54
2.2.3 PostgreSQL 55
2.3 Прочие используемые компоненты 57
2.3.1 Cron 57
2.3.2 Pentaho Data Integration 58
2.3.3 Система управления контентом 1С-Битрикс 61
3 Проектирование архитектуры системы 64
3.1 Архитектура 64
3.2 Возникшие сложности в работе системы 66
ЗАКЛЮЧЕНИЕ 68
СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ 69
ПРИЛОЖЕНИЕ А 71
ПриложениеА1: файл update_all_utility.py 71
ПриложениеА2: файл avito.py 73
Приложение А3: файл proxy.py 76
Приложение А4: файл youla.py 84
ПриложениеА5: файл bazarpnz.py 86
ПРИЛОЖЕНИЕ B 89
В современном мире всё больше развивается сфера оказания услуг, постепенно вытесняя промышленное производство. Объединение различных организаций в области оказания услуг способно повысить эффективность оказываемых услуг, снизить время на поиски необходимой организации или услуги, а так же предоставить удобный доступ к большому объему информации.
Рынок недвижимости всегда будет существовать, а значит, и услуги в этой области всегда будут совершенствоваться и развиваться. Большое количество конкурирующих сайтов-объявлений затрудняет и путает пользователя. Создание единого агрегатора позволит значительно упростить поиск необходимой информации.
В процессе работы были определены и сформулированы требования к решению поставленной задачи, методика решения и инструменты реализации.
Разработана архитектура сервиса, предоставляющего сводные данные по рынку недвижимости основываясь на объявлениях популярных сайтов.
Были изучены особенности ETL-процесса, принципы построения синтаксических анализаторов, структуры сайтов объявлений. Освоены способы разработки синтаксических анализаторов на языке Python.
Пользователь, ввиду универсальности системы, может получать информацию из любого приложения под любую операционную систему, будь то веб-сайт или мобильное приложение под iOS или Android. Система может быть применена для предоставления актуальной информации о рынке недвижимости, а также для монетизации сайта, основанной на рекламе. При дальнейшей разработке системы возможно добавление дополнительного функционала, например, отображение графиков изменения цен, интеграция с кадастровым реестром и жилищным фондом.
Разработанная архитектура системы может применятся для любой области агрегации данных с минимальными доработками ввиду использования единой структуры веб-сайтов.
Выполненная работа полностью соответствует полученному заданию и может быть использована в различных проектах-агрегаторах.
1) Мартишин С., Симонов В., Храпченко М. Базы данных. Практическое применение СУБД SQL- и NoSOL-типа для проектирования информационных систем. Учебное пособие — Форум, 2018. — 890с.
2) ПрайсДж. Oracle Database 11g SQL. Операторы SQL и программы PLSQL — Oracle, 2017 – 1144c.
3) John Boyer, Bill Frank. Business Intelligence Strategy: A Practical Guide for Achieving BI Excellence — Paperback, 2010. — 1300c
4) Rajiv Sabherwal. Business Intelligence: Practices, Technologies, and Management, 2009, 1521c.
5) Ralph Kimball. The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data — 2004, 862c.
6) Система Pentaho BI-Suite. URL: https://www.ibm.com/developerworks/ru/library/l-pentaho/index.html
7) Джеффри Фредл. Регулярные выражения — 2008, 600с
8) Майкл Фицджеральд. Регулярные выражения: основы — 2017, 144с.
9) Альфред В. Ахо. Теория синтаксического анализа, перевода и компиляции. Синтаксический анализ. — 2012, 487c.
10) Парсеры, обработка текста. Просто о сложном. URL: https://habr.com/post/348314/
11) Джон Дакетт. HTML & CSS: Design and Build Web Sites. 2001г.
12) Объявления в Пензе. URL: bazarpnz.ru
13) Рейтц Кеннет и Шлюссер Таня. Автостопом по Python — 2017.
14) Пол Бэрри. Изучаем программирование на Python — 2017.
15) Зед Шоу. Лёгкий способ выучить Python — 2013....18