📄Работа №206978

Тема: Построение признакового пространства для элементов веб-страниц

Характеристики работы

Тип работы Дипломные работы, ВКР
Прикладная информатика
Предмет Прикладная информатика
📄
Объем: 70 листов
📅
Год: 2020
👁️
Просмотров: 44
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

АННОТАЦИЯ 2
ВВЕДЕНИЕ 7
1 МЕТОДЫ, АЛГОРИТМЫ И МОДЕЛИ АНАЛИЗА ВЕБ-СТРАНИЦ 9
1.1 Методы машинного обучения 9
1.1.1 Деревья решений 10
1.1.2 Наивный байесовский классификатор 13
1.1.3 Выбор общих параметров 15
1.2 Методы анализа признакового пространства 16
1.2.1 Корреляция 16
1.2.2 Автокорреляция 18
1.2.3 Факторный анализ 20
1.3 Подготовка данных для анализа 22
1.4 Описание предметной области 22
1.4.1 Веб-скрейпинг 22
1.4.2 Объектная модель документа 24
2 ПОСТРОЕНИЕ ПРИЗНАКОВОГО ПРОСТРАНСТВА 27
2.1 Постановка задачи 27
2.2 Формирование обучающей выборки 27
2.3 Пример признакового пространства для одной из веб-страниц 28
2.4 Выбор метода для поиска аналога 30
2.4.1 Деревья решений 30
2.4.2 Наивный байесовский классификатор 31
2.4.3 Выбор общих параметров 32
2.5 Отбор оптимальных признаков 33
2.6 Выводы по разделу 37
3 РАЗРАБОТКА ПРОГРАММЫ ДЛЯ ТЕСТИРОВАНИЯ МЕТОДА ПОИСКА
АНАЛОГОВ 38
3.1 Разработка архитектуры приложения 38
3.2 Проверка корректности работы 41
3.4 Выводы по разделу 46
ЗАКЛЮЧЕНИЕ 47
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 48
ПРИЛОЖЕНИЕ 1 Исходный код

📖 Аннотация

В данной работе решается задача построения признакового пространства для элементов веб-страниц с целью автоматизации поиска и сбора семантически схожих данных, что является ключевым этапом в процессах веб-скрейпинга. Актуальность исследования обусловлена экспоненциальным ростом объема неструктурированной информации в сети Интернет и высокой потребностью бизнеса, аналитики и рекламы в эффективных инструментах для ее автоматизированного извлечения и анализа. Основным результатом является разработанное и апробированное программное обеспечение в форме расширения для браузера Google Chrome, которое на основе оптимального признакового пространства идентифицирует аналогичные элементы с точностью 95%. В ходе сравнительного анализа методов машинного обучения, включая деревья решений и наивный байесовский классификатор, наилучшую эффективность продемонстрировал метод выбора общих параметров. Научная значимость работы заключается в систематизации подходов к формированию признаковых описаний DOM-элементов и верификации их независимости, а практическая – в создании удобного инструмента, позволяющего за 6 секунд собрать 120 целевых элементов с веб-страницы. Теоретической основой послужили исследования в области алгоритмов обработки веб-данных (Бабенко Д.), методов классификации текстов (Бурлаева Е.И., Денисова Д.С.) и математических основ машинного обучения (Вьюнин В.В.).

📖 Введение

В современном мире, нас окружает огромное количество информации, которая, чаще всего, хранится в электронном виде на веб-сайтах. У каждого магазина, новостного агентства или другого сервиса есть сайт, с которого можно получить какие-то данные, например, список доступных товаров или актуальных новостей. Люди используют социальные сети, где публикуют свои личные данные: имя, фамилию и номер телефона.
Образуется конкуренция в различных сферах деятельности людей, например, в бизнесе и рекламе. Она требует активного сбора данных и делает крайне востребованными подходы по их оперативному получению из уже имеющейся открытой информации.
Такой большой поток не отсортированных сведений может показаться нам бесполезным, но в нем содержится ценная информация, которую можно использовать в бизнесе, рекламе и других сферах деятельности.
В ходе стремительного развития веб-технологий появляются новые способы для улучшения взаимодействия каждого пользователя с интернет страницами. Интернет полон открытых данных, но требует определенных специальных средств для их сбора.
Из-за популярности этой сферы, была сформирована область программной инфраструктуры, поддерживающей накопление и постоянное пополнение архивов данных различной природы и назначения.
Проблема обеспечения простого и быстрого сбора больших объемов данных из сети стала более актуальной. Возникает потребность в определенном классе программных средств, которые станут удобным и простым в использовании инструментом для рядового пользователя, не имеющего продвинутых знаний в области современных веб-технологиях, при этом имеющего высокую скорость сбора корректных данных на различных веб-страницах.
Для комплексного выполнения таких требований нужно использовать новые подходы и методы в разработке, способные решить все основные проблемы создания и работы систем данного класса.
Цель данной работы - построение признакового пространства для веб-страниц и их визуальных элементов.
Задачи данной работы:
- выполнить обзор методов машинного обучения, предназначенных для решения задачи классификации;
- описать оптимальное признаковое пространство для веб-страниц и их элементов;
- выполнить программную реализацию приложения, которое извлекает структурированные данные с веб-страниц;
- провести тестирование разработанного приложения.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

Рассмотрена задача построения признакового пространства для элементов веб-страниц и разработана программное обеспечение в форме расширения для браузера.
Выполнен обзор существующих методов поиска аналогов и анализа признакового пространства. Было рассмотрено три метода: дерево решений, наивный байесовский классификатор и метод выбора общих параметров. Метод выбора общих параметров показал наилучшие результаты.
Было выбрано несколько признаков для элементов веб-страниц из всех признаков описанных в DOM-дереве элемента. Произведена проверка на независимость признаков. Все выбранные признаки оказались независимыми. Данное признаковое пространство позволило выбрать аналоги на страницах из обучающей выборки в 95% случаев.
Была разработана программа на языке JavaScript как расширение для браузера Google Chrome и протестирована на одном из сайтов из выборки. Программа нашла все 120 аналогичных элементов на сайте и собрала их за 6 секунд.

Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

1 Бабенко, Д. Алгоритмы интеллектуального интернета. Передовые методики сбора, анализа и обработки данных / Д. Бабенко; пер. с англ. М.А. Низовец. - СПб.: Символ-Плюс, 2011. - 480 с.
2 Басалаева, А.Ю. Web-scraping и классификация текстов методом наивного Байеса / А.Ю. Басалаева, Г.А. Гареева, Д.Р. Григорьева // Инновационная наука. 2018. №5. URL: https://cyberleninka.ru/article/n/web- scraping-i-klassifikatsiya-tekstov-metodom-naivnogo-bayesa (дата обращения: 06.05.2020).
3 Бурлаева, Е.И. Обзор методов классификации текстовых документов на основе подхода машинного обучения / Е.И. Бурлаева // Программная инженерия. - 2017. - № 7. - С. 328-336.
4 Вьюнин, В.В. Математические основы теории машинного обучения и прогнозирования / В.В. Вьюнин. - М.: МЦНМО, 2013. - 390 с.
5 Денисова, Д.С. Автоматическая обработка языка. Классификация текста. Наивный байесовский классификатор / Д.С. Денисова // Синергия наук. - 2018. - № 19. - С. 1410-1414.
6 Корреляция. Коэффициент корреляции Пирсона. - URL: http:// www.machineleaming.ru/wiki/index.php?title=Коэффициент_корреляции_Пирс она (дата обращения 03.05.2020).
7 Корреляция случайных величин. Университет ИТМО. - URL: https://neerc.ifmo.ru/wiki/index.php?title=Корреляция_случайных_величин (дата обращения 03.05.2020).
8 Менщиков, А.А. Изучение поведения средств автоматизированного сбора информации с веб-ресурсов / А.А. Менщиков, А.В. Комарова, Ю.Г. Гатчин // Вопросы кибербезопасности. 2017. №3 (21). URL: https://cyberleninka.rU/article/n/izuchenie-povedeniya-sredstv-avtomatizirovannog o-sbora-informatsii-s-veb-resursov (дата обращения: 16.05.2020).
9 Мерков, А.Б. Распознавание образов. Построение и обучение вероятностных моделей / А.Б. Мерков. - СПб.: Ленанд, 2014. - 238 с.
10 Митчелл, Р. Скрапинг веб-сайтов с помощью Python / Р. Митчелл; пер. с англ. А.В. Груздев. - М.: ДМК Пресс, 2016. - 280 с.
11 Москаленко, А.А. Разработка приложения веб-скрапинга с возможно¬стями обхода блокировок / А.А. Москаленко, О.Р. Лапонина, В.А. Сухомлин // Современные информационные технологии и ИТ-образование. 2019. № 2. URL: https://cyberleninka.rU/article/n/razrabotka-prilozheniya-veb-skrapinga-s-voz mozhnostyami-obhoda-blokirovok (дата обращения: 06.05.2020).
12 Наивные байесовские классификаторы | портал информатики для гиков. - URL: http://espressocode.top/naive-bayes-classifiers/ (дата обращения 20.04.2020).
13 Понятие тега HTML. - URL https://samsebewebmaster.ru/uroki-html-i- css/ponyatie-tega-html.html (дата обращения 28.04.2020).
14 Руководство аналитика Deductor Studio 5.3. - URL: https:// basegroup.ru/deductor/manual/guide-analyst-530 (дата обращения 03.04.2020).
15 Свойства узлов: тип, тег и содержимое. - URL:
http://learn.javascript.ru/basic-dom-node-properties (дата обращения 01.05.2020)...40

🖼 Скриншоты

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.
Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.
Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

©2026 Cервис помощи студентам в выполнении работ