Тема: Использование алгоритма контекстной кластеризации документов для кластеризации страниц и посещающих их пользователей без использования контента страниц
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 5
Обзор литературы 6
Глава 1. Начальные данные, их начальная обработка и хранение 8
1.1. Начальные данные и их первоначальная обработка 8
1.2. Организация хранения данных в MySQL базе данных 10
Глава 2. Нахождение узких контекстов 13
2.1. Основные теоретические сведения 13
2.2. Нахождение всех контекстов 15
2.3. Определение узких контекстов 17
Глава 3. Кластеризация на основе узких контекстов 19
3.1. Расстояние Йенсена-Шеннона 19
3.2. Нахождение распределения ссылок и пользователей 19
3.3. Контекстной документной кластеризация на основе
узких контекстов 21
Глава 4. Эксперименты и экспериментальные данные 25
4.1. Программа, получающая статистику 25
4.2. Анализ полученных экспериментальных данных 28
Выводы 32
Заключение 33
Список литературы
📖 Введение
Когда человек просматривает страницы в интернете, статьи и тексты он может легко понять к какой теме они относятся, какие ключевые слова можно выделить, понять суть, но в реальном мире, обработку информации в лоб невозможно доверить человеку, в связи с тем, что из-за больших объемов входных данных, он физически не сможет с этим справиться, либо это займет очень большое количество времени. Поэтому в задачах, связанных с поиском и обработкой информации необходимо автоматизировать процессы классификации и кластеризации, чтобы мы смогли автоматически получать краткую, но точную информацию о некотором наборе документов в виде статей, текстов или страниц, с которыми нам необходимо работать.
В данной работе будет рассматриваться задача кластеризации страниц и посещающих их пользователей. Актуальность данной работы заключается в том, что в случае кластеризации страниц выбранный метод контекстной документной кластеризации не использует контента данных страниц, поскольку документами в этом случае являются страницы, а словами в данных документах - пользователи, посетившие эти страницы. Это довольно выгодно при обработке очень больших коллекций данных, когда мы не в состоянии физически просмотреть содержимое каждой страницы, поскольку на это может уйти огромное количество времени. Подобное решение может быть очень полезно при анализе данных, группировке и распознавании объектов, поиске информации, так же активное применение можно найти в задачах, связанных с web рекламой.
Метод контекстной документной кластеризации состоит из 2 этапов. На первом этапе находятся все контексты - вероятностные распределения набора слов, которые появляются вместе с данным словом в документе. Среди них находятся узкие контексты. Вопрос относительно определения понятия узких контекстов и их нахождения является довольно сложным, подробнее он будет описан в самой работе. На втором этапе узкие контексты используются как аттракторы кластеров. Аттрактор - узкий контекст, принадлежащий некоторому кластеру. Число аттракторов равно числу кластеров. Вычисляя расстояние Йенсена-Шеннона между документами и аттракторами кластеров, можно определить к какому из кластеров относится данный документ. Принадлежность документа к кластеру определяется наименьшим расстоянием с его аттрактором, относительно расстояний документа с другими аттракторами. Более подробно познакомиться с алгоритмом, его реализацией, практическими экспериментами, полученными экспериментальными данными и их анализом можно в данной работе.



