🔍 Поиск работ

Построение признакового пространства для элементов веб-страниц

Работа №206978

Тип работы

Дипломные работы, ВКР

Предмет

прикладная информатика

Объем работы70
Год сдачи2020
Стоимость4700 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
12
Не подходит работа?

Узнай цену на написание


АННОТАЦИЯ 2
ВВЕДЕНИЕ 7
1 МЕТОДЫ, АЛГОРИТМЫ И МОДЕЛИ АНАЛИЗА ВЕБ-СТРАНИЦ 9
1.1 Методы машинного обучения 9
1.1.1 Деревья решений 10
1.1.2 Наивный байесовский классификатор 13
1.1.3 Выбор общих параметров 15
1.2 Методы анализа признакового пространства 16
1.2.1 Корреляция 16
1.2.2 Автокорреляция 18
1.2.3 Факторный анализ 20
1.3 Подготовка данных для анализа 22
1.4 Описание предметной области 22
1.4.1 Веб-скрейпинг 22
1.4.2 Объектная модель документа 24
2 ПОСТРОЕНИЕ ПРИЗНАКОВОГО ПРОСТРАНСТВА 27
2.1 Постановка задачи 27
2.2 Формирование обучающей выборки 27
2.3 Пример признакового пространства для одной из веб-страниц 28
2.4 Выбор метода для поиска аналога 30
2.4.1 Деревья решений 30
2.4.2 Наивный байесовский классификатор 31
2.4.3 Выбор общих параметров 32
2.5 Отбор оптимальных признаков 33
2.6 Выводы по разделу 37
3 РАЗРАБОТКА ПРОГРАММЫ ДЛЯ ТЕСТИРОВАНИЯ МЕТОДА ПОИСКА
АНАЛОГОВ 38
3.1 Разработка архитектуры приложения 38
3.2 Проверка корректности работы 41
3.4 Выводы по разделу 46
ЗАКЛЮЧЕНИЕ 47
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 48
ПРИЛОЖЕНИЕ 1 Исходный код

В современном мире, нас окружает огромное количество информации, которая, чаще всего, хранится в электронном виде на веб-сайтах. У каждого магазина, новостного агентства или другого сервиса есть сайт, с которого можно получить какие-то данные, например, список доступных товаров или актуальных новостей. Люди используют социальные сети, где публикуют свои личные данные: имя, фамилию и номер телефона.
Образуется конкуренция в различных сферах деятельности людей, например, в бизнесе и рекламе. Она требует активного сбора данных и делает крайне востребованными подходы по их оперативному получению из уже имеющейся открытой информации.
Такой большой поток не отсортированных сведений может показаться нам бесполезным, но в нем содержится ценная информация, которую можно использовать в бизнесе, рекламе и других сферах деятельности.
В ходе стремительного развития веб-технологий появляются новые способы для улучшения взаимодействия каждого пользователя с интернет страницами. Интернет полон открытых данных, но требует определенных специальных средств для их сбора.
Из-за популярности этой сферы, была сформирована область программной инфраструктуры, поддерживающей накопление и постоянное пополнение архивов данных различной природы и назначения.
Проблема обеспечения простого и быстрого сбора больших объемов данных из сети стала более актуальной. Возникает потребность в определенном классе программных средств, которые станут удобным и простым в использовании инструментом для рядового пользователя, не имеющего продвинутых знаний в области современных веб-технологиях, при этом имеющего высокую скорость сбора корректных данных на различных веб-страницах.
Для комплексного выполнения таких требований нужно использовать новые подходы и методы в разработке, способные решить все основные проблемы создания и работы систем данного класса.
Цель данной работы - построение признакового пространства для веб-страниц и их визуальных элементов.
Задачи данной работы:
- выполнить обзор методов машинного обучения, предназначенных для решения задачи классификации;
- описать оптимальное признаковое пространство для веб-страниц и их элементов;
- выполнить программную реализацию приложения, которое извлекает структурированные данные с веб-страниц;
- провести тестирование разработанного приложения.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Рассмотрена задача построения признакового пространства для элементов веб-страниц и разработана программное обеспечение в форме расширения для браузера.
Выполнен обзор существующих методов поиска аналогов и анализа признакового пространства. Было рассмотрено три метода: дерево решений, наивный байесовский классификатор и метод выбора общих параметров. Метод выбора общих параметров показал наилучшие результаты.
Было выбрано несколько признаков для элементов веб-страниц из всех признаков описанных в DOM-дереве элемента. Произведена проверка на независимость признаков. Все выбранные признаки оказались независимыми. Данное признаковое пространство позволило выбрать аналоги на страницах из обучающей выборки в 95% случаев.
Была разработана программа на языке JavaScript как расширение для браузера Google Chrome и протестирована на одном из сайтов из выборки. Программа нашла все 120 аналогичных элементов на сайте и собрала их за 6 секунд.



1 Бабенко, Д. Алгоритмы интеллектуального интернета. Передовые методики сбора, анализа и обработки данных / Д. Бабенко; пер. с англ. М.А. Низовец. - СПб.: Символ-Плюс, 2011. - 480 с.
2 Басалаева, А.Ю. Web-scraping и классификация текстов методом наивного Байеса / А.Ю. Басалаева, Г.А. Гареева, Д.Р. Григорьева // Инновационная наука. 2018. №5. URL: https://cyberleninka.ru/article/n/web- scraping-i-klassifikatsiya-tekstov-metodom-naivnogo-bayesa (дата обращения: 06.05.2020).
3 Бурлаева, Е.И. Обзор методов классификации текстовых документов на основе подхода машинного обучения / Е.И. Бурлаева // Программная инженерия. - 2017. - № 7. - С. 328-336.
4 Вьюнин, В.В. Математические основы теории машинного обучения и прогнозирования / В.В. Вьюнин. - М.: МЦНМО, 2013. - 390 с.
5 Денисова, Д.С. Автоматическая обработка языка. Классификация текста. Наивный байесовский классификатор / Д.С. Денисова // Синергия наук. - 2018. - № 19. - С. 1410-1414.
6 Корреляция. Коэффициент корреляции Пирсона. - URL: http:// www.machineleaming.ru/wiki/index.php?title=Коэффициент_корреляции_Пирс она (дата обращения 03.05.2020).
7 Корреляция случайных величин. Университет ИТМО. - URL: https://neerc.ifmo.ru/wiki/index.php?title=Корреляция_случайных_величин (дата обращения 03.05.2020).
8 Менщиков, А.А. Изучение поведения средств автоматизированного сбора информации с веб-ресурсов / А.А. Менщиков, А.В. Комарова, Ю.Г. Гатчин // Вопросы кибербезопасности. 2017. №3 (21). URL: https://cyberleninka.rU/article/n/izuchenie-povedeniya-sredstv-avtomatizirovannog o-sbora-informatsii-s-veb-resursov (дата обращения: 16.05.2020).
9 Мерков, А.Б. Распознавание образов. Построение и обучение вероятностных моделей / А.Б. Мерков. - СПб.: Ленанд, 2014. - 238 с.
10 Митчелл, Р. Скрапинг веб-сайтов с помощью Python / Р. Митчелл; пер. с англ. А.В. Груздев. - М.: ДМК Пресс, 2016. - 280 с.
11 Москаленко, А.А. Разработка приложения веб-скрапинга с возможно¬стями обхода блокировок / А.А. Москаленко, О.Р. Лапонина, В.А. Сухомлин // Современные информационные технологии и ИТ-образование. 2019. № 2. URL: https://cyberleninka.rU/article/n/razrabotka-prilozheniya-veb-skrapinga-s-voz mozhnostyami-obhoda-blokirovok (дата обращения: 06.05.2020).
12 Наивные байесовские классификаторы | портал информатики для гиков. - URL: http://espressocode.top/naive-bayes-classifiers/ (дата обращения 20.04.2020).
13 Понятие тега HTML. - URL https://samsebewebmaster.ru/uroki-html-i- css/ponyatie-tega-html.html (дата обращения 28.04.2020).
14 Руководство аналитика Deductor Studio 5.3. - URL: https:// basegroup.ru/deductor/manual/guide-analyst-530 (дата обращения 03.04.2020).
15 Свойства узлов: тип, тег и содержимое. - URL:
http://learn.javascript.ru/basic-dom-node-properties (дата обращения 01.05.2020)...40


Работу высылаем на протяжении 30 минут после оплаты.




©2026 Cервис помощи студентам в выполнении работ