Тема: Исследование задачи классификации веб-сайтов с учётом свойств зашумлённости и политематичности
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Введение 3
Постановка задачи 6
Обзор литературы 8
Глава 1. Исследование задачи 11
1.1. Выбор характеристик 14
1.2. Модель классификатора 17
Глава 2. Алгоритм 19
2.1. Извлечение данных о веб-сайтах 19
2.2. Предобработка текстовых данных 20
2.3. Обучение классификатора 20
Глава 3. Разработка программы 21
3.1 Инструменты разработки 21
3.2 Структура программы 22
3.3 Описание практической реализации алгоритма 26
Глава 4. Эксперименты и выводы 29
Заключение 33
Список литературы 34
Приложение 1. Исходный код 36
📖 Введение
Одной из недостаточно изученных задач в этой сфере является классификация с учётом “зашумлённости” данных. Под “зашумлённостью” в данном случае будем полагать наличие веб-страниц сайта или их частей, которые слабо относятся к категории веб-сайта или не относятся к ней совсем (например, рекламные объявления (см. рис. 1) или разделы форума со свободной тематикой).
Рисунок 1. Пример рекламного объявления на веб-сайте
Параллельно с этим, актуальна проблема выделения академического веб-пространства из общего множества сайтов сети Интернет. Например, уже сейчас на оценку эффективности научных организаций влияет то, как она представлена в Вебе [1].
Для начала введём обозначения, которые будем использовать далее:
• веб-сайт - объединённая под одним адресом (доменным именем или IP- адресом) совокупность документов частного лица или организации;
• веб-страница - самостоятельная часть веб-сайта; документ, снабженный уникальным адресом (URL);
• hostname (имя хоста, доменное имя) - символическое имя, назначенное сетевому устройству, которое может быть использовано для организации доступа к этому устройству различными способами (например, для URL https://google.ru/ доменным именем будет google.ru);
• удалённость веб-страниц - характеристика, показывающая минимальное количество переходов со страницы А на страницу Б по ссылкам из тела веб-страниц;
• редирект - автоматическое перенаправление запроса с одного веб-адреса на другой;
• PageRank - числовая величина, характеризующая «важность», «авторитетность» веб-страницы;
• scraping (скрейпинг) - процесс извлечения данных из веб-страниц;
• слово в тексте - набор последовательно следующих символов определённого алфавита в тексте, отделенный от остальных символами пробела, табуляции, знаками препинания или иными специальными символами (например, в строке “3000 л.с. (эквивалентен паровозу УУ)” словами будут считаться “л”, “с”, ’’эквивалентен”, ’’паровозу”, ”УУ”);
• токенизация - разбиение электронного текста на отдельно значимые единицы (токены) для их последующей компьютерной обработки.
Работа организована следующим образом: во введении описаны предметная область, актуальность проблемы. Затем следует постановка задачи, а также основные этапы её решения. После этого приводится обзор литературы по данной проблеме и рассматриваются предлагаемые варианты её решения. В первой главе производится исследование поставленной задачи и описываются различные методы и алгоритмы, предлагаемые для использования в работе, а также приводятся особенности их использования. Вторая глава посвящена алгоритму решения поставленной задачи. В третьей главе описана программная реализация классификатора и основные инструменты, применявшиеся при его реализации. В четвёртой главе описываются проведённые эксперименты и анализируются полученные результатов. В заключении подводятся итоги и предлагаются дальнейшие шаги по развитию данной работы.
✅ Заключение
В дальнейшем планируется использование большего набора характеристик url адресов и текста для повышения точности классификации, а также модернизировать работу веб-краулера, чтобы уменьшить число ресурсов, ограничивающих ему доступ для загрузки данных. Для удобства взаимодействия пользователя с алгоритмом предполагается представление реализации в виде веб-сервиса с возможностью вывода результатов в различных форматах данных. Также планируется улучшить методы работы алгоритма с памятью вычислительного устройства для повышения производительности на больших объёмах данных.





