Тип работы:
Предмет:
Язык работы:


РАЗРАБОТКА КЛИЕНТСКОЙ ЧАСТИ ВЕБ-ПРИЛОЖЕНИЯ ДЛЯ ИЗВЛЕЧЕНИЯ НАБОРА ДАННЫХ ДЛЯ РЕШЕНИЯ ЗАДАЧ МАШИННОГО ОБУЧЕНИЯ

Работа №185181

Тип работы

Дипломные работы, ВКР

Предмет

программирование

Объем работы54
Год сдачи2025
Стоимость4600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
13
Не подходит работа?

Узнай цену на написание


Перечень условных обозначений, символов, сокращений, терминов 4
Введение 6
1 Анализ требований 8
1.1 Ролевая модель 8
1.2 Функциональные требования 8
1.2.1 Парсинг сайта 8
1.2.2 Настройка парсера 9
1.2.3 Приостановление процесса парсинга 11
1.2.4 Завершение парсинга 11
1.2.5 Повторение завершенного парсинга 12
1.2.6 Выгрузка данных 12
1.2.7 Личный кабинет 13
1.2.8 Взаимодействие с внешним сервисом парсинга 13
1.3 Нефункциональные требования 14
1.4 Структура данных 15
2 Описание технологий и инструментов разработки 17
2.1 React 17
2.2 Nextjs 17
2.3 Zustand 18
2.4 Axios 19
2.5 SWR 19
2.6 Tailwind CSS 21
2.7 Headless UI 22
3 Реализация клиентской части 23
3.1 Структура клиентской части приложения 23
3.2 Особенности взаимодействия с сервером 23
3.3 Особенности структуры страницы администрирования скрапингом ... 26
3.4 Реализация интерфейса страницы администрирования скрапингом .... 27
3.5 Инициализация скрапинга (1-ый шаг) 31
3.6 Процесс скрапинга 33
3.7 Переключение шага 36
3.8 Анализ страницы (2-ой шаг) 37
3.8.1 Поиск элементов по XPath 38
3.9 Настройки полей данных (3-ий шаг) 41
3.10 Постановка задачи (4-ый шаг) 42
3.10.1 Раздел «Данные» 42
3.10.2 Оплата парсинга 43
3.11 Сбор данных (5-ый шаг) 44
3.12 Результаты скрапинга 45
3.13 Реализация личного кабинета пользователя 46
3.13.1 Раздел «История операции» 46
3.13.2 Раздел «Мои парсинги» 48
Заключение 50
Список использованной литературы 51


В 2024 году общий объём данных, созданных, собранных, скопированных и потреблённых в мире, достиг 149 зеттабайт (ZB). Это свидетельствует о продолжающемся экспоненциальном росте информации в цифровую эпоху. Веб-ресурсы остаются ключевым источником данных для множества областей, включая машинное обучение, научные исследования и бизнес-аналитику. Однако значительная часть этих данных представлена в неструктурированном виде, что усложняет их обработку и анализ.
Для эффективного извлечения полезной информации из веб-страниц применяется метод веб-скрапинга - автоматизированного сбора данных с вебсайтов. Этот процесс позволяет преобразовывать неструктурированные данные в структурированные форматы, такие как JSON или CSV, что особенно важно для задач машинного обучения. Однако традиционные методы веб - скрапинга сталкиваются с рядом проблем:
• Избыточность информации: веб-страницы содержат множество элементов, не относящихся к целевым данным (стили, скрипты, рекламные блоки).
• Разнообразие структур: различные сайты используют уникальные HTML-разметки, что затрудняет создание универсального алгоритма для их обработки.
• Меры защиты: многие веб-ресурсы внедряют механизмы против автоматизированного сбора данных, такие как обфускация кода и динамическая загрузка контента.
С развитием технологий обработки естественного языка (NLP) и больших языковых моделей (LLM), таких как GPT, появляются новые возможности для улучшения алгоритмов извлечения данных из веб-страниц. Таким образом, итогом целью работы станет функциональное веб-приложение «SCRAPER AI», которое позволит пользователям автоматизировать процесс сбора и обработки данных, что существенно упростит подготовку датасетов для машинного обучения.
Для достижения этой цели были поставлены следующие задачи:
1) Анализ требований к клиентской части приложения и определение главных сценариев использования.
2) Проектирование архитектуры веб-приложения, включая
взаимодействие с серверной частью.
3) Используя современные технологии, разработать удобный пользовательский интерфейс, позволяющий настраивать параметры извлечения данных.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В ходе выполнения работы была успешно реализована клиентская часть веб-приложения «SCRAPER AI», предназначенного для настройки и управления процессом извлечения данных с веб-страниц.
Разработанное приложение развернуто и доступно для использования (по адресу https://scraper-ai.ru). Полученный результат может служить основой для дальнейшего расширения системы.


1. Документация по библиотеке React [Электронный ресурс]. URL: https://react.dev (дата обращения: 10.04.2024).
2. Документация по фреймворку Next.js [Электронный ресурс]. URL: https://nextjs.org/docs (дата обращения: 10.04.2024).
3. Документация по библиотеке Zustand [Электронный ресурс]. URL: https://docs.pmnd.rs/zustand/getting-started/introduction (дата обращения: 11.04.2024).
4. Документация по библиотеке Axios [Электронный ресурс]. URL: https://axios-http.com/docs/intro (дата обращения: 12.04.2024).
5. Документация по библиотеке SWR [Электронный ресурс]. URL: https://swr.vercel.app/ru (дата обращения: 12.04.2024).
6. Документация по библиотеке Tailwind CSS [Электронный ресурс]. URL: https://tailwindcss.com (дата обращения: 11.04.2024).
7. Документация по библиотеке Headless UI [Электронный ресурс]. URL: https://headlessui.com (дата обращения: 12.04.2024).
8. Документация по библиотеке XPath [Электронный ресурс]. URL: https://github.com/stevedorries/xpath (дата обращения: 15.04.2024).
9. Документация по библиотеке react-table-library [Электронный ресурс].
URL: https://github.com/table-library/react-table-library (дата обращения:
11.04.2024).
10. Документация по библиотеке noVNC [Электронный ресурс]. URL: https:// github.com/novnc/noVNC (дата обращения: 10.04.2024).
11. Система удаленного доступа VNC [Электронный ресурс]. URL:
https://ru.wikipedia.org/wiki/Virtual Network Computing (дата обращения:
10.04.2024).
12. Описание метода Long Polling [Электронный ресурс]. URL: https://learn.j avascript.ru/long-polling (дата обращения: 16.04.2024).
13. Работа с бинарными данными через Blob [Электронный ресурс]. URL: https://learn.j avascript.ru/blob (дата обращения: 19.04.2024).


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ