📄Работа №185181

Тема: РАЗРАБОТКА КЛИЕНТСКОЙ ЧАСТИ ВЕБ-ПРИЛОЖЕНИЯ ДЛЯ ИЗВЛЕЧЕНИЯ НАБОРА ДАННЫХ ДЛЯ РЕШЕНИЯ ЗАДАЧ МАШИННОГО ОБУЧЕНИЯ

📝
Тип работы Дипломные работы, ВКР
📚
Предмет программирование
📄
Объем: 54 листов
📅
Год: 2025
👁️
Просмотров: 48
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

Перечень условных обозначений, символов, сокращений, терминов 4
Введение 6
1 Анализ требований 8
1.1 Ролевая модель 8
1.2 Функциональные требования 8
1.2.1 Парсинг сайта 8
1.2.2 Настройка парсера 9
1.2.3 Приостановление процесса парсинга 11
1.2.4 Завершение парсинга 11
1.2.5 Повторение завершенного парсинга 12
1.2.6 Выгрузка данных 12
1.2.7 Личный кабинет 13
1.2.8 Взаимодействие с внешним сервисом парсинга 13
1.3 Нефункциональные требования 14
1.4 Структура данных 15
2 Описание технологий и инструментов разработки 17
2.1 React 17
2.2 Nextjs 17
2.3 Zustand 18
2.4 Axios 19
2.5 SWR 19
2.6 Tailwind CSS 21
2.7 Headless UI 22
3 Реализация клиентской части 23
3.1 Структура клиентской части приложения 23
3.2 Особенности взаимодействия с сервером 23
3.3 Особенности структуры страницы администрирования скрапингом ... 26
3.4 Реализация интерфейса страницы администрирования скрапингом .... 27
3.5 Инициализация скрапинга (1-ый шаг) 31
3.6 Процесс скрапинга 33
3.7 Переключение шага 36
3.8 Анализ страницы (2-ой шаг) 37
3.8.1 Поиск элементов по XPath 38
3.9 Настройки полей данных (3-ий шаг) 41
3.10 Постановка задачи (4-ый шаг) 42
3.10.1 Раздел «Данные» 42
3.10.2 Оплата парсинга 43
3.11 Сбор данных (5-ый шаг) 44
3.12 Результаты скрапинга 45
3.13 Реализация личного кабинета пользователя 46
3.13.1 Раздел «История операции» 46
3.13.2 Раздел «Мои парсинги» 48
Заключение 50
Список использованной литературы 51

📖 Введение

В 2024 году общий объём данных, созданных, собранных, скопированных и потреблённых в мире, достиг 149 зеттабайт (ZB). Это свидетельствует о продолжающемся экспоненциальном росте информации в цифровую эпоху. Веб-ресурсы остаются ключевым источником данных для множества областей, включая машинное обучение, научные исследования и бизнес-аналитику. Однако значительная часть этих данных представлена в неструктурированном виде, что усложняет их обработку и анализ.
Для эффективного извлечения полезной информации из веб-страниц применяется метод веб-скрапинга - автоматизированного сбора данных с вебсайтов. Этот процесс позволяет преобразовывать неструктурированные данные в структурированные форматы, такие как JSON или CSV, что особенно важно для задач машинного обучения. Однако традиционные методы веб - скрапинга сталкиваются с рядом проблем:
• Избыточность информации: веб-страницы содержат множество элементов, не относящихся к целевым данным (стили, скрипты, рекламные блоки).
• Разнообразие структур: различные сайты используют уникальные HTML-разметки, что затрудняет создание универсального алгоритма для их обработки.
• Меры защиты: многие веб-ресурсы внедряют механизмы против автоматизированного сбора данных, такие как обфускация кода и динамическая загрузка контента.
С развитием технологий обработки естественного языка (NLP) и больших языковых моделей (LLM), таких как GPT, появляются новые возможности для улучшения алгоритмов извлечения данных из веб-страниц. Таким образом, итогом целью работы станет функциональное веб-приложение «SCRAPER AI», которое позволит пользователям автоматизировать процесс сбора и обработки данных, что существенно упростит подготовку датасетов для машинного обучения.
Для достижения этой цели были поставлены следующие задачи:
1) Анализ требований к клиентской части приложения и определение главных сценариев использования.
2) Проектирование архитектуры веб-приложения, включая
взаимодействие с серверной частью.
3) Используя современные технологии, разработать удобный пользовательский интерфейс, позволяющий настраивать параметры извлечения данных.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

В ходе выполнения работы была успешно реализована клиентская часть веб-приложения «SCRAPER AI», предназначенного для настройки и управления процессом извлечения данных с веб-страниц.
Разработанное приложение развернуто и доступно для использования (по адресу https://scraper-ai.ru). Полученный результат может служить основой для дальнейшего расширения системы.
Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

1. Документация по библиотеке React [Электронный ресурс]. URL: https://react.dev (дата обращения: 10.04.2024).
2. Документация по фреймворку Next.js [Электронный ресурс]. URL: https://nextjs.org/docs (дата обращения: 10.04.2024).
3. Документация по библиотеке Zustand [Электронный ресурс]. URL: https://docs.pmnd.rs/zustand/getting-started/introduction (дата обращения: 11.04.2024).
4. Документация по библиотеке Axios [Электронный ресурс]. URL: https://axios-http.com/docs/intro (дата обращения: 12.04.2024).
5. Документация по библиотеке SWR [Электронный ресурс]. URL: https://swr.vercel.app/ru (дата обращения: 12.04.2024).
6. Документация по библиотеке Tailwind CSS [Электронный ресурс]. URL: https://tailwindcss.com (дата обращения: 11.04.2024).
7. Документация по библиотеке Headless UI [Электронный ресурс]. URL: https://headlessui.com (дата обращения: 12.04.2024).
8. Документация по библиотеке XPath [Электронный ресурс]. URL: https://github.com/stevedorries/xpath (дата обращения: 15.04.2024).
9. Документация по библиотеке react-table-library [Электронный ресурс].
URL: https://github.com/table-library/react-table-library (дата обращения:
11.04.2024).
10. Документация по библиотеке noVNC [Электронный ресурс]. URL: https:// github.com/novnc/noVNC (дата обращения: 10.04.2024).
11. Система удаленного доступа VNC [Электронный ресурс]. URL:
https://ru.wikipedia.org/wiki/Virtual Network Computing (дата обращения:
10.04.2024).
12. Описание метода Long Polling [Электронный ресурс]. URL: https://learn.j avascript.ru/long-polling (дата обращения: 16.04.2024).
13. Работа с бинарными данными через Blob [Электронный ресурс]. URL: https://learn.j avascript.ru/blob (дата обращения: 19.04.2024).

🖼 Скриншоты

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.

©2026 Cервис помощи студентам в выполнении работ