Использование алгоритма контекстной кластеризации документов для кластеризации страниц и посещающих их пользователей без использования контента страниц
Введение 3
Постановка задачи 5
Обзор литературы 6
Глава 1. Начальные данные, их начальная обработка и хранение 8
1.1. Начальные данные и их первоначальная обработка 8
1.2.Организация хранения данных в MySQL базе данных 10
Глава 2.Нахождение узких контекстов 13
2.1. Основные теоретические сведения 13
2.2. Нахождение всех контекстов 15
2.3. Определение узких контекстов 17
Глава 3. Кластеризация на основе узких контекстов 19
3.1. Расстояние Йенсена-Шеннона 19
3.2. Нахождение распределения ссылок и пользователей 19
3.3. Контекстной документной кластеризация на основе
узких контекстов 21
Глава 4.Эксперименты и экспериментальные данные 25
4.1. Программа, получающая статистику 25
4.2. Анализ полученных экспериментальных данных 28
В настоящее время среди задач информационного поиска задача кластеризации информации занимает одну из лидирующих позиций. Существует множество способов решения данной задачи, но все так же остается вопрос о поиске наиболее выгодного, более быстрого, более точного метода из всех существующих методов, вопрос о том, какой метод и в какой задаче нужно применить, чтобы получить наиболее точные результаты за наименьшее количество времени и минимальные ресурсы.
Когда человек просматривает страницы в интернете, статьи и тексты он может легко понять к какой теме они относятся, какие ключевые слова можно выделить, понять суть, но в реальном мире, обработку информации в лоб невозможно доверить человеку, в связи с тем, что из-за больших объемов входных данных, он физически не сможет с этим справиться, либо это займет очень большое количество времени. Поэтому в задачах, связанных с поиском и обработкой информации необходимо автоматизировать процессы классификации и кластеризации, чтобы мы смогли автоматически получать краткую, но точную информацию о некотором наборе документов в виде статей, текстов или страниц, с которыми нам необходимо работать.
В данной работе будет рассматриваться задача кластеризации страниц и посещающих их пользователей. Актуальность данной работы заключается в том, что в случае кластеризации страниц выбранный метод контекстной документной кластеризации не использует контента данных страниц, поскольку документами в этом случае являются страницы, а словами в данных документах – пользователи, посетившие эти страницы. Это довольно выгодно при обработке очень больших коллекций данных, когда мы не в состоянии физически просмотреть содержимое каждой страницы, поскольку на это может уйти огромное количество времени. Подобное решение может быть очень полезно при анализе данных, группировке и распознавании объектов, поиске информации, так же активное применение можно найти в задачах, связанных с webрекламой.
Метод контекстной документной кластеризации состоит из 2 этапов. На первом этапе находятся все контексты - вероятностные распределения набора слов, которые появляются вместе с данным словом в документе. Среди них находятся узкие контексты. Вопрос относительно определения понятия узких контекстов и их нахождения является довольно сложным, подробнее он будет описан в самой работе. На втором этапе узкие контексты используются как аттракторы кластеров. Аттрактор - узкий контекст, принадлежащий некоторому кластеру. Число аттракторов равно числу кластеров. Вычисляя расстояние Йенсена-Шеннона между документами и аттракторами кластеров, можно определить к какому из кластеров относится данный документ. Принадлежность документа к кластеру определяется наименьшим расстоянием с его аттрактором, относительно расстояний документа с другими аттракторами. Более подробно познакомиться с алгоритмом, его реализацией, практическими экспериментами, полученными экспериментальными данными и их анализом можно в данной работе.
Постановка задачи.
Начнем с того, что передо мной не стояло задачи анализа и исследования нескольких алгоритмов, с целью выбора наиболее эффективного. В начале моей научной деятельности мой научный руководитель предложил мне изучить алгоритм контекстной документной кластеризации, реализовать его и проследить его работу на некотором наборе данных, которые так же были предоставлены мне научным руководителем. О самих данных мы поговорим немного позже в главе 1. В связи с этим, передо мной были поставлены следующие задачи.
Имея заданный набор данных необходимо:
1) изучить алгоритм контекстной документной кластеризации;
2) реализовать предложенный алгоритм;
3) найти все контексты и разбить из на группы двумя различными способами для последующего выбора узких контекстов из этих групп. Определить на практике наиболее эффективный способ разбиения контекстов.
4) произвести кластеризацию заданного набора данных для каждого способа разбиения контекстов;
5) найти наиболее оптимальное количество кластеров для каждого способа разбиения контекстов;
6) оценить качество кластеризации
На данный момент все поставленные задачи были частично решены, получены промежуточные вычисления и проведен анализ. Однако стоит учесть тот факт, что область исследования темы контекстной документной кластеризации очень широка. Исследования в этой области можно продолжить дальше, для получения более точных данных и их анализа. Как пример, можно провести большее количество испытаний с различным количеством аттракторов, привлечь в исследования большее количество испытуемых, тем самым мы сможем получить более точный процент правильных ответов. Поэкспериментировать с разбиением на группы, посмотреть, как изменяется результат от выбора числа групп. Оценить более точно, имеется ли значительное превосходство второго варианта разбиения контекстов над первым. Данное работа имеет еще много направление для исследования. Так же в перспективе можно углубиться в изучение данного подхода и найти другие задачи, которые могу быть решены благодаря данному методу быть может более качественно, нежели классическими методами.
1. Кристофер Д. Маннинг, Прабхакар Рагхаван, Хайнрих Шютце «Введение в информационный поиск», Москва, Санкт-Петербург, Киев, 2011.
2. Алексей Гринчук «Использование контекстной документной кластеризации для улучшения качества построения тематических моделей.» Бакалаврская работа, Московский государственный физико-технический университет, 2015.
3. Dobrynin V., Patterson D., Rooney N. «Contextual document clustering». In Proceeding of the 26th European Conference on Information Retrieval Research. Springer-Verlag Berlin Heidelberg, 2004.
4. Niall Rooney, David Patterson, MykolaGalushka, Vladimir Dobrynin, and Elena Smirnova«An investigation into the stability of contextual document clustering». JASIST, 2008.
5. Niall Rooney, Hui Wang, Fiona Browne, Fergal Monaghan, Jann Müller, Alan Sergeant, Zhiwei Lin, Philip Taylor, Vladimir Dobrynin«An Exploration into the Use of Contextual Document Clustering for Cluster Sentiment Analysis»,Hissar, Bulgaria, 2011.
6. К. Дж. Дейт «Введение в системы баз данных». Москва, Санкт-Петербург, Киев, 2005.
7. B. Гольцман «MySQL 5.0», «Питер» Санкт-Петербург, 2010.
8. http://dev.mysql.com/doc/
9. Шлеев М. «Профессиональное программирование на с++QT 4.8», Санкт-Петербург «БХВ-Петербург», 2012
10. http://doc.qt.io/
11. Jonathan Chang, Jordan Boyd-Graber, Sean Gerrish, Chong Wang, David M. Blei «Reading Tea Leaves: How Humans Interpret Topic Models», Neural Information Processing Systems, 2009.