В 2024 году общий объём данных, созданных, собранных, скопированных и потреблённых в мире, достиг 149 зеттабайт (ZB). Это свидетельствует о продолжающемся экспоненциальном росте информации в цифровую эпоху. Веб-ресурсы остаются ключевым источником данных для множества областей, включая машинное обучение, научные исследования и бизнес-аналитику. Однако значительная часть этих данных представлена в неструктурированном виде, что усложняет их обработку и анализ.
Для эффективного извлечения полезной информации из веб-страниц применяется метод веб-скрапинга - автоматизированного сбора данных с вебсайтов. Этот процесс позволяет преобразовывать неструктурированные данные в структурированные форматы, такие как JSON или CSV, что особенно важно для задач машинного обучения. Однако традиционные методы веб - скрапинга сталкиваются с рядом проблем:
• Избыточность информации: веб-страницы содержат множество элементов, не относящихся к целевым данным (стили, скрипты, рекламные блоки).
• Разнообразие структур: различные сайты используют уникальные HTML-разметки, что затрудняет создание универсального алгоритма для их обработки.
• Меры защиты: многие веб-ресурсы внедряют механизмы против автоматизированного сбора данных, такие как обфускация кода и динамическая загрузка контента.
С развитием технологий обработки естественного языка (NLP) и больших языковых моделей (LLM), таких как GPT, появляются новые возможности для улучшения алгоритмов извлечения данных из веб-страниц. Таким образом, итогом целью работы станет функциональное веб-приложение «SCRAPER AI», которое позволит пользователям автоматизировать процесс сбора и обработки данных, что существенно упростит подготовку датасетов для машинного обучения.
Для достижения этой цели были поставлены следующие задачи:
1) Анализ требований к клиентской части приложения и определение главных сценариев использования.
2) Проектирование архитектуры веб-приложения, включая
взаимодействие с серверной частью.
3) Используя современные технологии, разработать удобный пользовательский интерфейс, позволяющий настраивать параметры извлечения данных.
В ходе выполнения работы была успешно реализована клиентская часть веб-приложения «SCRAPER AI», предназначенного для настройки и управления процессом извлечения данных с веб-страниц.
Разработанное приложение развернуто и доступно для использования (по адресу https://scraper-ai.ru). Полученный результат может служить основой для дальнейшего расширения системы.