Тип работы:
Предмет:
Язык работы:


Разработка приложения для парсинга сайта для ОГБУ «Челябинский региональный центр навигационно-информационных технологий»

Работа №193293

Тип работы

Дипломные работы, ВКР

Предмет

экономика

Объем работы71
Год сдачи2018
Стоимость4710 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
0
Не подходит работа?

Узнай цену на написание


Аннотация 2
ВВЕДЕНИЕ 9
1 ПРОГРАММЫ И МЕТОДЫ ПОИСКА И СБОРА ДАННЫХ. ПАРСИНГ 12
1.1 Информационные технологии 12
1.2 Интернет 13
1.3 Аппаратно-программное обеспечение для поиска информации 13
1.3.1 Сбор данных с помощью средств эмуляции поведения пользователя в
браузере 13
1.1.2 Сбор данных с помощью API 15
1.3.3 Сбор данных с помощью семантического разбора веб-страниц 16
1.4 Определение парсера. Используемые языки программирования 17
1.5 Компьютерная программа 17
1.5.1 Создание программ 18
1.6 Области применения программ-парсеров 19
1.7 Этапы парсинга 20
1.8 Аналоги парсеров 21
2 ХАРАКТЕРИСТИКА ПРЕДПРИЯТИЯ 24
2.1 Вид деятельности предприятия 24
2.2 Геоинформационные системы 26
2.3 ГЛОНАСС 29
2.4 Прочая деятельность 30
2.5 Перечень информационных систем учреждения 31
2.5 Организационная структура 34
3 РАЗРАБОТКА ПАРСЕР-ПРОГРАММЫ 37
3.1 Техническое задание 37
3.2 Язык программирования Python 40
3.3. Используемые библиотеки 41
3.4 Результаты разработки 43
3.4.1 Основные функции 43
3.4.2 Время работы программы 46
3.4.3 Результат работы программы-парсера 47
3.5 Область применения 51
ЗАКЛЮЧЕНИЕ 54
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 57
Приложение А - Листинг программы-парсера 59


В настоящее время развитие информационных технологий оказывает большое влияние на все области человеческой деятельности, так или иначе связанных с накоплением и обработкой информации. Информационные технологии (ИТ) — это процессы, которые используют совокупность средств и методов сбора, обработки и передачи данных (первичной информации) для получения информации нового качества о состоянии объекта, процесса или явления (информационного продукта). Информационная технология является процессом, состоящим из четко регламентированных правил выполнения операций, действий, этапов разной степени сложности над данными, хранящимися в компьютерах. [1]
Наиболее распространённым источником информации в современном мире является интернет - всемирная система объединённых компьютерных сетей. Она построена на базе стека протоколов TCP/IP. На основе интернета работает Всемирная паутина (World Wide Web, WWW) и множество других систем передачи данных. [2]
Именно особенности Интернета определяют его огромный потенциал и все возрастающую роль в современном мире. Интернет является таким техническим средством и каналом коммуникации, который характеризуется отсутствием централизованной организационной структуры. Также этот канал характеризуется большой скоростью распространения информации. Главная отличительная особенность интернета — своевременное обновление контента. А главное требование, которое предъявляет общество к сети — это наличие актуальной информации. [2]
Постоянное обновление контента приводит к увеличению темпа роста объёма информации. По прогнозам IDC (International Data Corporation), количество данных на планете будет как минимум удваиваться каждые два года. [3]
В связи с этим появляется необходимость внедрения специальных информационно-поисковых систем для поиска нужной информации. Информационно-поисковая система - это программный комплекс, обеспечивающий
поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.
Главной задачей любой информационно-поисковой системы является поиск информации, релевантной информационным потребностям пользователя.
Релевантность - это соответствие результатов поиска сформулированному запросу.
Такими информационно-поисковыми программами являются поисковики и парсеры.
Парсинг (от англ. «parsing» - «анализ, разбор») - это линейное сопоставление последовательности слов с правилами языка. Понятие «язык» рассматривается в самом широком контексте. Это может быть человеческий язык, используемый для коммуникации людей. А может и формализированный язык, в частности, любой язык программирования.
Парсинг сайтов - последовательный синтаксический анализ информации, размещённой на интернет-страницах. Парсинг сайтов является наиболее эффективным решением для автоматизации сбора и изменения информации.
Для написания парсеров подходят любые языки программирования, на которых создаются программы для работы со Всемирной Паутиной. Веб-приложения для парсинга обычно пишут на C++, Delphi, Perl, Ruby, Python, PHP. [4]


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной выпускной квалификационной работе в качестве заказчика выступает ОГБУ «Челябинский Региональный Центр Навигационно-Информационных Технологий». В ходе работы были изучены структура предприятия, его функции и основные направления деятельности.
В первом разделе дана характеристика деятельности и организационной структуры предприятия. Предметом деятельности Учреждения является создание, разработка с последующим внедрением, эксплуатация и обслуживание информационных систем. В комплекс информационных систем входят многочисленные программы по анализу данных, документообороту и прогнозированию результатов. Чтобы поддерживать состояние этих программ в актуальном состоянии им нужна информация непосредственно от источника. А чтобы её собрать, необходимо разрабатывать и внедрять современные методы поиска и сбора данных.
В связи с этим ОГБУ «Челябинский Региональный Центр Навигационно-Информационных Технологий» как заказчик подготовил и предоставил техническое задание на разработку программы для семантического анализа веб-страниц.
Основные требования организации к разрабатываемой программе:
- получение актуальных данных о курсах валют;
- поиск социально-экономических показателей Российской Федерации;
- запись полученной информации в электронную таблицу;
- формирование баз данных на основании полученной информации.
Во втором разделе было проведено исследование проблемы семантического разбора html страниц в интернете. Были проанализированы и изучены все известные методы поиска и сбора информации с html страниц. В результате проведения сравнительного анализа методов было принято решение о создании парсера для ОГБУ «Челябинский Региональный Центр Навигационно-Информационных Технологий». Разработка программы-парсера была признана заказчиком наиболее целесообразным и экономически выгодным вариантом.
Кроме того, во втором разделе содержится описание всех функциональных возможностей парсеров. Рассматривались и сравнивались существующие методы парсинга. Были изучены их особенности, отличительные черты и достоинства. В ходе разработки были также учтены все недостатки самостоятельного создания программы-парсера.
В третьем разделе представлено подробное описание разработанной программы. Для её написания был выбран отличающийся синтаксической простотой высокоуровневый язык программирования Pyton3. В работе даны всеобъемлющие характеристики используемых библиотек и готовых модулей данного языка.
В данном разделе тщательно разобраны используемые функции программы, дано их подробное описание, а их применение проиллюстрировано рисунками.
На создание непосредственно парсера потребовалось 14 дней. А минимальные системные требования для работы программы следующие:
- ОС: Linux или Windows;
- Процессор: Intel Core i3 минимально 800 mhz;
- Оперативная память: 1 GB ОЗУ;
- Видеокарта: 128 mb;
- Свободное место на диске: 1 GB.
В процессе разработки были выявлены проблемы к доступу сайта. Которые решились с помощью модуля requests. Добавлением заголовков в функции get_html. С помощью которых. Удалось эмулировать работу программы как браузера.
Также данные с сайта «университетская информационная система Россия», записываются в файл с расширением csv не всегда корректно, сбиваются первые 2 строки. В дальнейших версиях программы этот баг будет исправлен
В конце работы был проанализирован показатель эффективности программы. Для этого было проведено тестирование парсера для проверки выполнения всех поставленных задач. По результатам тестирования стало ясно, что разработанный парсер работает корректно. Программа выполняет все предъявленные требования верно и за короткий промежуток времени. Ошибок в процессе работы не возникает.



1. Саркисян А.А. Влияние информационных технологий на жизнь человека в современных условиях // Молодежный научный форум: Технические и математические науки: электр. сб. ст. по мат. XXVI междунар. студ. науч.- практ. конф. № 7 (26).
2. Интернет. [Электронный ресурс]. Режим доступа: - https: //ru.wikipedia. org/wiki/Интернет
3. BigData шагает по планете. [Электронный ресурс]. Режим доступа: - https://rg.ru/2013/05/14/infa-site.html
4. Что такое парсер (граббер)?. [Электронный ресурс]. Режим доступа: - http: //mybl aze.ru/chto -takoe-parser- grabber/
5. Хохлова, Ю. Глоссарий по информационному обществу / Хохлова Ю.Е., Бунчук М.А. // Институт развития информационного общества.- 2009. - 160 с.
6. Портал: Компьютерные технологии. [Электронный ресурс]. Режим доступа: - http: //ru.wikipedia.org/wiki/Портал:Компьютерные_технологии
7. Википедия. Selenium. [Электронный ресурс]. Режим доступа: https: //ru.wikipedia. org/wiki/Selenium/
8. Интернет: особенности и возможности. [Электронный ресурс]. Режим доступа: - https: //studme.org/50396/menedzhment/internet_osobenno sti_vozmozhnosti
9. Парсинг html-сайтов с помощью PHP, Ruby. [Электронный ресурс]. Режим доступа: - http://parsing.valemak.com/ru/what-why-how/stages-of-parsing/
10. Суханов, А.А., Маратканов, А.С. Анализ способов сбора социальных данных из сети интернет / Суханов, А.А., Маратканов, А.С. // International Scientific Review. - 2017. -Вып. 1. С.22-25
11. О центре. [Электронный ресурс]. Режим доступа: -- http://rcnit.mininform74.ru/htmlpages/Show/overview/onAuthority
12. Геоинформационная система. [Электронный ресурс]. Режим доступа: - http://rcnit.mininform74.ru/htmlpages/Show/Geoinformacionnayasistema
0 системе навигации ГЛОНАСС. [Электронный ресурс]. Режим доступа: - http://rcnit.mininform74.ru/htmlpages/Show/GLONASS
14. Перечень информационных систем. [Электронный ресурс]. Режим доступа: - http: //rcnit.mininform7 4 .ru/htmlpages/Show/overview/info Systems
15. Python. [Электронный ресурс]. Режим доступа: -
https: //ru.wikipedia. org/wiki/Python... 25

Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ