Тема: РАЗРАБОТКА КЛИЕНТСКОЙ ЧАСТИ ВЕБ-ПРИЛОЖЕНИЯ ДЛЯ ИЗВЛЕЧЕНИЯ НАБОРА ДАННЫХ ДЛЯ РЕШЕНИЯ ЗАДАЧ МАШИННОГО ОБУЧЕНИЯ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Введение 6
1 Анализ требований 8
1.1 Ролевая модель 8
1.2 Функциональные требования 8
1.2.1 Парсинг сайта 8
1.2.2 Настройка парсера 9
1.2.3 Приостановление процесса парсинга 11
1.2.4 Завершение парсинга 11
1.2.5 Повторение завершенного парсинга 12
1.2.6 Выгрузка данных 12
1.2.7 Личный кабинет 13
1.2.8 Взаимодействие с внешним сервисом парсинга 13
1.3 Нефункциональные требования 14
1.4 Структура данных 15
2 Описание технологий и инструментов разработки 17
2.1 React 17
2.2 Nextjs 17
2.3 Zustand 18
2.4 Axios 19
2.5 SWR 19
2.6 Tailwind CSS 21
2.7 Headless UI 22
3 Реализация клиентской части 23
3.1 Структура клиентской части приложения 23
3.2 Особенности взаимодействия с сервером 23
3.3 Особенности структуры страницы администрирования скрапингом ... 26
3.4 Реализация интерфейса страницы администрирования скрапингом .... 27
3.5 Инициализация скрапинга (1-ый шаг) 31
3.6 Процесс скрапинга 33
3.7 Переключение шага 36
3.8 Анализ страницы (2-ой шаг) 37
3.8.1 Поиск элементов по XPath 38
3.9 Настройки полей данных (3-ий шаг) 41
3.10 Постановка задачи (4-ый шаг) 42
3.10.1 Раздел «Данные» 42
3.10.2 Оплата парсинга 43
3.11 Сбор данных (5-ый шаг) 44
3.12 Результаты скрапинга 45
3.13 Реализация личного кабинета пользователя 46
3.13.1 Раздел «История операции» 46
3.13.2 Раздел «Мои парсинги» 48
Заключение 50
Список использованной литературы 51
📖 Введение
Для эффективного извлечения полезной информации из веб-страниц применяется метод веб-скрапинга - автоматизированного сбора данных с вебсайтов. Этот процесс позволяет преобразовывать неструктурированные данные в структурированные форматы, такие как JSON или CSV, что особенно важно для задач машинного обучения. Однако традиционные методы веб - скрапинга сталкиваются с рядом проблем:
• Избыточность информации: веб-страницы содержат множество элементов, не относящихся к целевым данным (стили, скрипты, рекламные блоки).
• Разнообразие структур: различные сайты используют уникальные HTML-разметки, что затрудняет создание универсального алгоритма для их обработки.
• Меры защиты: многие веб-ресурсы внедряют механизмы против автоматизированного сбора данных, такие как обфускация кода и динамическая загрузка контента.
С развитием технологий обработки естественного языка (NLP) и больших языковых моделей (LLM), таких как GPT, появляются новые возможности для улучшения алгоритмов извлечения данных из веб-страниц. Таким образом, итогом целью работы станет функциональное веб-приложение «SCRAPER AI», которое позволит пользователям автоматизировать процесс сбора и обработки данных, что существенно упростит подготовку датасетов для машинного обучения.
Для достижения этой цели были поставлены следующие задачи:
1) Анализ требований к клиентской части приложения и определение главных сценариев использования.
2) Проектирование архитектуры веб-приложения, включая
взаимодействие с серверной частью.
3) Используя современные технологии, разработать удобный пользовательский интерфейс, позволяющий настраивать параметры извлечения данных.
✅ Заключение
Разработанное приложение развернуто и доступно для использования (по адресу https://scraper-ai.ru). Полученный результат может служить основой для дальнейшего расширения системы.





