📄Работа №59748

Тема: Использование алгоритма контекстной кластеризации документов для кластеризации страниц и посещающих их пользователей без использования контента страниц

📝

Тип работы Дипломные работы, ВКР

📚

Предмет Информатика и вычислительная техника

📄

Объем: 33 листов

📅

Год: 2016

👁️

4200 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 3
Постановка задачи 5
Обзор литературы 6
Глава 1. Начальные данные, их начальная обработка и хранение 8
1.1. Начальные данные и их первоначальная обработка 8
1.2. Организация хранения данных в MySQL базе данных 10
Глава 2. Нахождение узких контекстов 13
2.1. Основные теоретические сведения 13
2.2. Нахождение всех контекстов 15
2.3. Определение узких контекстов 17
Глава 3. Кластеризация на основе узких контекстов 19
3.1. Расстояние Йенсена-Шеннона 19
3.2. Нахождение распределения ссылок и пользователей 19
3.3. Контекстной документной кластеризация на основе
узких контекстов 21
Глава 4. Эксперименты и экспериментальные данные 25
4.1. Программа, получающая статистику 25
4.2. Анализ полученных экспериментальных данных 28
Выводы 32
Заключение 33
Список литературы

📖 Введение

В настоящее время среди задач информационного поиска задача кластеризации информации занимает одну из лидирующих позиций. Существует множество способов решения данной задачи, но все так же остается вопрос о поиске наиболее выгодного, более быстрого, более точного метода из всех существующих методов, вопрос о том, какой метод и в какой задаче нужно применить, чтобы получить наиболее точные результаты за наименьшее количество времени и минимальные ресурсы.
Когда человек просматривает страницы в интернете, статьи и тексты он может легко понять к какой теме они относятся, какие ключевые слова можно выделить, понять суть, но в реальном мире, обработку информации в лоб невозможно доверить человеку, в связи с тем, что из-за больших объемов входных данных, он физически не сможет с этим справиться, либо это займет очень большое количество времени. Поэтому в задачах, связанных с поиском и обработкой информации необходимо автоматизировать процессы классификации и кластеризации, чтобы мы смогли автоматически получать краткую, но точную информацию о некотором наборе документов в виде статей, текстов или страниц, с которыми нам необходимо работать.
В данной работе будет рассматриваться задача кластеризации страниц и посещающих их пользователей. Актуальность данной работы заключается в том, что в случае кластеризации страниц выбранный метод контекстной документной кластеризации не использует контента данных страниц, поскольку документами в этом случае являются страницы, а словами в данных документах - пользователи, посетившие эти страницы. Это довольно выгодно при обработке очень больших коллекций данных, когда мы не в состоянии физически просмотреть содержимое каждой страницы, поскольку на это может уйти огромное количество времени. Подобное решение может быть очень полезно при анализе данных, группировке и распознавании объектов, поиске информации, так же активное применение можно найти в задачах, связанных с web рекламой.
Метод контекстной документной кластеризации состоит из 2 этапов. На первом этапе находятся все контексты - вероятностные распределения набора слов, которые появляются вместе с данным словом в документе. Среди них находятся узкие контексты. Вопрос относительно определения понятия узких контекстов и их нахождения является довольно сложным, подробнее он будет описан в самой работе. На втором этапе узкие контексты используются как аттракторы кластеров. Аттрактор - узкий контекст, принадлежащий некоторому кластеру. Число аттракторов равно числу кластеров. Вычисляя расстояние Йенсена-Шеннона между документами и аттракторами кластеров, можно определить к какому из кластеров относится данный документ. Принадлежность документа к кластеру определяется наименьшим расстоянием с его аттрактором, относительно расстояний документа с другими аттракторами. Более подробно познакомиться с алгоритмом, его реализацией, практическими экспериментами, полученными экспериментальными данными и их анализом можно в данной работе.

✅ Заключение

На данный момент все поставленные задачи были частично решены, получены промежуточные вычисления и проведен анализ. Однако стоит учесть тот факт, что область исследования темы контекстной документной кластеризации очень широка. Исследования в этой области можно продолжить дальше, для получения более точных данных и их анализа. Как пример, можно провести большее количество испытаний с различным количеством аттракторов, привлечь в исследования большее количество испытуемых, тем самым мы сможем получить более точный процент правильных ответов. Поэкспериментировать с разбиением на группы, посмотреть, как изменяется результат от выбора числа групп. Оценить более точно, имеется ли значительное превосходство второго варианта разбиения контекстов над первым. Данное работа имеет еще много направление для исследования. Так же в перспективе можно углубиться в изучение данного подхода и найти другие задачи, которые могу быть решены благодаря данному методу быть может более качественно, нежели классическими методами.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Кристофер Д. Маннинг, Прабхакар Рагхаван, Хайнрих Шютце «Введение в информационный поиск», Москва, Санкт-Петербург, Киев, 2011.
2. Алексей Гринчук «Использование контекстной документной кластеризации для улучшения качества построения тематических моделей.» Бакалаврская работа, Московский государственный физико-технический университет, 2015.
3. Dobrynin V., Patterson D., Rooney N. «Contextual document clustering». In Proceeding of the 26th European Conference on Information Retrieval Research. Springer-Verlag Berlin Heidelberg, 2004.
4. Niall Rooney, David Patterson, Mykola Galushka, Vladimir Dobrynin, and Elena Smirnova «An investigation into the stability of contextual document clustering». JASIST, 2008.
5. Niall Rooney, Hui Wang, Fiona Browne, Fergal Monaghan, Jann Muller, Alan Sergeant, Zhiwei Lin, Philip Taylor, Vladimir Dobrynin «An Exploration into the Use of Contextual Document Clustering for Cluster Sentiment Analysis», Hissar, Bulgaria, 2011.
6. К. Дж. Дейт «Введение в системы баз данных». Москва, Санкт- Петербург, Киев, 2005.
7. B. Гольцман «MySQL 5.0», «Питер» Санкт-Петербург, 2010.
8. http://dev.mysql.com/doc/
9. Шлеев М. «Профессиональное программирование на с++ QT 4.8», Санкт-Петербург «БХВ-Петербург», 2012
10. http://doc.qt.io/
11. Jonathan Chang, Jordan Boyd-Graber, Sean Gerrish, Chong Wang, David M. Blei «Reading Tea Leaves: How Humans Interpret Topic Models», Neural Information Processing Systems, 2009.

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (210037)

Статьи

»» Все статьи

Вход в личный кабинет