📄Работа №206978

Тема: Построение признакового пространства для элементов веб-страниц

📝

Тип работы Дипломные работы, ВКР

📚

Предмет Прикладная информатика

📄

Объем: 70 листов

📅

Год: 2020

👁️

4700 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить

📋 Содержание

АННОТАЦИЯ 2
ВВЕДЕНИЕ 7
1 МЕТОДЫ, АЛГОРИТМЫ И МОДЕЛИ АНАЛИЗА ВЕБ-СТРАНИЦ 9
1.1 Методы машинного обучения 9
1.1.1 Деревья решений 10
1.1.2 Наивный байесовский классификатор 13
1.1.3 Выбор общих параметров 15
1.2 Методы анализа признакового пространства 16
1.2.1 Корреляция 16
1.2.2 Автокорреляция 18
1.2.3 Факторный анализ 20
1.3 Подготовка данных для анализа 22
1.4 Описание предметной области 22
1.4.1 Веб-скрейпинг 22
1.4.2 Объектная модель документа 24
2 ПОСТРОЕНИЕ ПРИЗНАКОВОГО ПРОСТРАНСТВА 27
2.1 Постановка задачи 27
2.2 Формирование обучающей выборки 27
2.3 Пример признакового пространства для одной из веб-страниц 28
2.4 Выбор метода для поиска аналога 30
2.4.1 Деревья решений 30
2.4.2 Наивный байесовский классификатор 31
2.4.3 Выбор общих параметров 32
2.5 Отбор оптимальных признаков 33
2.6 Выводы по разделу 37
3 РАЗРАБОТКА ПРОГРАММЫ ДЛЯ ТЕСТИРОВАНИЯ МЕТОДА ПОИСКА
АНАЛОГОВ 38
3.1 Разработка архитектуры приложения 38
3.2 Проверка корректности работы 41
3.4 Выводы по разделу 46
ЗАКЛЮЧЕНИЕ 47
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 48
ПРИЛОЖЕНИЕ 1 Исходный код

📖 Введение

В современном мире, нас окружает огромное количество информации, которая, чаще всего, хранится в электронном виде на веб-сайтах. У каждого магазина, новостного агентства или другого сервиса есть сайт, с которого можно получить какие-то данные, например, список доступных товаров или актуальных новостей. Люди используют социальные сети, где публикуют свои личные данные: имя, фамилию и номер телефона.
Образуется конкуренция в различных сферах деятельности людей, например, в бизнесе и рекламе. Она требует активного сбора данных и делает крайне востребованными подходы по их оперативному получению из уже имеющейся открытой информации.
Такой большой поток не отсортированных сведений может показаться нам бесполезным, но в нем содержится ценная информация, которую можно использовать в бизнесе, рекламе и других сферах деятельности.
В ходе стремительного развития веб-технологий появляются новые способы для улучшения взаимодействия каждого пользователя с интернет страницами. Интернет полон открытых данных, но требует определенных специальных средств для их сбора.
Из-за популярности этой сферы, была сформирована область программной инфраструктуры, поддерживающей накопление и постоянное пополнение архивов данных различной природы и назначения.
Проблема обеспечения простого и быстрого сбора больших объемов данных из сети стала более актуальной. Возникает потребность в определенном классе программных средств, которые станут удобным и простым в использовании инструментом для рядового пользователя, не имеющего продвинутых знаний в области современных веб-технологиях, при этом имеющего высокую скорость сбора корректных данных на различных веб-страницах.
Для комплексного выполнения таких требований нужно использовать новые подходы и методы в разработке, способные решить все основные проблемы создания и работы систем данного класса.
Цель данной работы - построение признакового пространства для веб-страниц и их визуальных элементов.
Задачи данной работы:
- выполнить обзор методов машинного обучения, предназначенных для решения задачи классификации;
- описать оптимальное признаковое пространство для веб-страниц и их элементов;
- выполнить программную реализацию приложения, которое извлекает структурированные данные с веб-страниц;
- провести тестирование разработанного приложения.

✅ Заключение

Рассмотрена задача построения признакового пространства для элементов веб-страниц и разработана программное обеспечение в форме расширения для браузера.
Выполнен обзор существующих методов поиска аналогов и анализа признакового пространства. Было рассмотрено три метода: дерево решений, наивный байесовский классификатор и метод выбора общих параметров. Метод выбора общих параметров показал наилучшие результаты.
Было выбрано несколько признаков для элементов веб-страниц из всех признаков описанных в DOM-дереве элемента. Произведена проверка на независимость признаков. Все выбранные признаки оказались независимыми. Данное признаковое пространство позволило выбрать аналоги на страницах из обучающей выборки в 95% случаев.
Была разработана программа на языке JavaScript как расширение для браузера Google Chrome и протестирована на одном из сайтов из выборки. Программа нашла все 120 аналогичных элементов на сайте и собрала их за 6 секунд.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1 Бабенко, Д. Алгоритмы интеллектуального интернета. Передовые методики сбора, анализа и обработки данных / Д. Бабенко; пер. с англ. М.А. Низовец. - СПб.: Символ-Плюс, 2011. - 480 с.
2 Басалаева, А.Ю. Web-scraping и классификация текстов методом наивного Байеса / А.Ю. Басалаева, Г.А. Гареева, Д.Р. Григорьева // Инновационная наука. 2018. №5. URL: https://cyberleninka.ru/article/n/web- scraping-i-klassifikatsiya-tekstov-metodom-naivnogo-bayesa (дата обращения: 06.05.2020).
3 Бурлаева, Е.И. Обзор методов классификации текстовых документов на основе подхода машинного обучения / Е.И. Бурлаева // Программная инженерия. - 2017. - № 7. - С. 328-336.
4 Вьюнин, В.В. Математические основы теории машинного обучения и прогнозирования / В.В. Вьюнин. - М.: МЦНМО, 2013. - 390 с.
5 Денисова, Д.С. Автоматическая обработка языка. Классификация текста. Наивный байесовский классификатор / Д.С. Денисова // Синергия наук. - 2018. - № 19. - С. 1410-1414.
6 Корреляция. Коэффициент корреляции Пирсона. - URL: http:// www.machineleaming.ru/wiki/index.php?title=Коэффициент_корреляции_Пирс она (дата обращения 03.05.2020).
7 Корреляция случайных величин. Университет ИТМО. - URL: https://neerc.ifmo.ru/wiki/index.php?title=Корреляция_случайных_величин (дата обращения 03.05.2020).
8 Менщиков, А.А. Изучение поведения средств автоматизированного сбора информации с веб-ресурсов / А.А. Менщиков, А.В. Комарова, Ю.Г. Гатчин // Вопросы кибербезопасности. 2017. №3 (21). URL: https://cyberleninka.rU/article/n/izuchenie-povedeniya-sredstv-avtomatizirovannog o-sbora-informatsii-s-veb-resursov (дата обращения: 16.05.2020).
9 Мерков, А.Б. Распознавание образов. Построение и обучение вероятностных моделей / А.Б. Мерков. - СПб.: Ленанд, 2014. - 238 с.
10 Митчелл, Р. Скрапинг веб-сайтов с помощью Python / Р. Митчелл; пер. с англ. А.В. Груздев. - М.: ДМК Пресс, 2016. - 280 с.
11 Москаленко, А.А. Разработка приложения веб-скрапинга с возможно¬стями обхода блокировок / А.А. Москаленко, О.Р. Лапонина, В.А. Сухомлин // Современные информационные технологии и ИТ-образование. 2019. № 2. URL: https://cyberleninka.rU/article/n/razrabotka-prilozheniya-veb-skrapinga-s-voz mozhnostyami-obhoda-blokirovok (дата обращения: 06.05.2020).
12 Наивные байесовские классификаторы | портал информатики для гиков. - URL: http://espressocode.top/naive-bayes-classifiers/ (дата обращения 20.04.2020).
13 Понятие тега HTML. - URL https://samsebewebmaster.ru/uroki-html-i- css/ponyatie-tega-html.html (дата обращения 28.04.2020).
14 Руководство аналитика Deductor Studio 5.3. - URL: https:// basegroup.ru/deductor/manual/guide-analyst-530 (дата обращения 03.04.2020).
15 Свойства узлов: тип, тег и содержимое. - URL:
http://learn.javascript.ru/basic-dom-node-properties (дата обращения 01.05.2020)...40

🖼 Скриншоты

Содержание

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (209865)

Статьи

»» Все статьи

Вход в личный кабинет