📄Работа №130298

Тема: Автоматическое выделение информативных тем документов с использованием латентного размещения Дирихле

Характеристики работы

◩

Тип работы Бакалаврская работа

Предмет Математика

📄

Объем: 30 листов

📅

Год: 2017

👁️

4850 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить

📋 Содержание

Введение ........................................................................................................ 3
Постановка задачи ....................................................................................... 4
Глава 1. Вероятностные тематические модели ......................................... 5
1.1. Предварительная обработка данных ............................................. 5
1.2. Вероятностное моделирование ...................................................... 6
1.3. Классическая PLSA модель ........................................................... 8
1.4. ЕМ-алгоритм ................................................................................... 8
1.5. Классическая LDA модель ............................................................. 9
1.6. Иерархическая LDA модель ........................................................ 10
1.7. Подход ARTM ............................................................................... 12
1.8. LDA в ARTM ................................................................................. 13
1.9. Оценка качества модели ............................................................... 13
Глава 2. Прогнозирование ......................................................................... 15
2.1. Дивергенция Йенсена-Шеннона .................................................. 15
2.3. Модель ARIMA ............................................................................. 16
Глава 3. Эксперимент ................................................................................ 18
Заключение ................................................................................................. 28
Список литературы .................................................................................... 29

📖 Введение

Ежедневно собираются огромные объемы данных, при постоянном
пополнении которых обработка и выделение требуемой информации
становится нетривиальной задачей. С этой целью создаются специальные
инструменты, предназначенные для организации, поиска и понимания
огромного количества информации.
Тематическое моделирование предоставляет нам методы для
организации, понимания и обобщения больших коллекций текстовой
информации. И таким образом, помогает в обнаружении скрытых
тематических характеристик коллекции. Тематическое моделирование может
быть описано как метод поиска групп слов (тем) из набора документов,
которые наилучшим образом представляют информацию в коллекции. Его
также можно рассматривать как форму интеллектуального анализа текста –
способ получения повторяющихся паттернов слов в текстовом материале.
Существует множество методов, которые используются для получения
тематических моделей. Большинство из них принадлежат классу
вероятностного тематического моделирования. Вероятностная тематическая
модель представляет темы как дискретные распределения на множестве слов,
а документы – как дискретное распределение на множестве тем. При
построении тематической модели ставится задача восстановить эти
распределения по данной коллекции документов. Поскольку документ может
относиться сразу к нескольким темам, говорят, что тематическое
моделирование осуществляет “нечеткую кластеризацию” [1].
Задача извлечения скрытых тематических характеристик текстовой
коллекции тесно связана со многими другими прикладными задачами, в
частности, задачами информационного поиска [2]. Это может быть анализ
данных социальных сетей, классификация и кластеризация документов, для
рекомендательных систем [3], и др.
На сегодняшний день разработано уже достаточно методов для
построения тематических моделей, однако в основном они применимы лишь
для извлечения тем, и слабо пригодны для реальных прикладных задач.
Например, необходимо исследовать, как изменялись темы коллекции с
течением времени. При условии наличия информации о времени создания
документов коллекции можно анализировать информацию о перетекании
одной темы в другую, возникновении абсолютно новых тем, либо
исчезновении старых. К этой задаче можно добавить другую: выявление
трендов определенных тем [4]. Цель данной работы – предложить подход для
решения задачи, описанной выше, а именно задачи прогнозирования трендов
скрытых тематик коллекции.

✅ Заключение

В рамках данной работы описан ход решения задачи прогнозирования
динамики рейтингов скрытых тем документов. В частности, выполнены
следующие подзадачи:
1. определено оптимальное количество скрытых тем в текстовой коллекции;
2. выявлены скрытые темы в текстовой коллекции;
3. построена прогнозирующая модель для рейтингов выявленных тем.
Было продемонстрировано применение тематического моделирования
для решения реальной прикладной задачи. В ходе работы был сделан ряд
эвристических допущений, например, из-за специфики выбранной коллекции
документов пришлось сделать предположение о совпадении даты оценивания
книги с датой ее публикации. Несмотря на сделанные допущения, способ
нахождения ближайших тем не был окончательно проработан и, безусловно,
требует дополнительного анализа и корректировки в силу нетривиальности
поставленной задачи. В дальнейшем следует использовать дополнительные
источники информации для получения более точного представления о дате
выставления рейтинга. Так же следует более полно исследовать вопрос
фильтрации выделенных тем.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Коршунов Антон, Гомзин Андрей. Тематическое моделирование текстов
на естественном языке // Труды Института системного программирования
РАН, 2012. Т. 23. С. 215–244.
2. Yi X., Allan J. A comparative study of utilizing topic models for information
retrieval // Advances in Information Retrieval. Springer Berlin Heidelberg, 2009.
Vol. 5478 of Lecture Notes in Computer Science. P. 29–41.
3. Yeh J.-h., Wu M.-l. Recommendation based on latent topics and social network
analysis // Proceedings of the 2010 Second International Conference on
Computer Engineering and Applications. IEEE Computer Society, 2010. Vol. 1. P. 209–213.
4. Zhang J., Song Y., Zhang C., Liu S. Evolutionary hierarchical Dirichlet
processes for multiple correlated time-varying corpora // Proceedings of the 16th
ACM SIGKDD international conference on Knowledge discovery and data
mining, 2010. P. 1079–1088.
5. Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd
annual international ACM SIGIR conference on Research and development in
information retrieval. New York, NY, USA: ACM, 1999. P. 50–57.
6. Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of
Machine Learning Research, 2003.Vol. 3. P. 993–1022.
7. Wang Y. Distributed Gibbs sampling of latent dirichlet allocation: The gritty details, 2008.
8. К. В. Воронцов. Вероятностное тематическое моделирование, 2013.
http://www.machinelearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf
9. David M. Blei, Thomas Griffiths, Michael Jordan, Joshua Tenenbaum //
Hierarchical topic models and the nested Chinese restaurant process. NIPS, 2003.
10. Chinese restaurant process on Wikipedia.
https://en.wikipedia.org/wiki/Chinese_restaurant_process
11. К. В. Воронцов, А. И. Фрей, М. А. Апишев, А. А. Потапенко. Тематическое
моделирование в BigARTM: теория, алгоритмы, приложения, 2015.
http://www.machinelearning.ru/wiki/images/b/bc/Voron-2015-BigARTM.pdf
12. Kullback S., Leibler R.A. On information and sufficiency. // Annals of
Mathematical Statistics, 1951 P. 79–86.
13. Jensen-Shannon divergence on Wikipedia.
https://en.wikipedia.org/wiki/Jensen%E2%80%93Shannon_divergence
14. BigARTM. http://bigartm.org/
15. A comprehensive guide to create a Time Series Forecast.
https://www.analyticsvidhya.com/blog/2016/02/time-series-forecasting-codes-python/
...

🖼 Скриншоты

Содержание с началом введения

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Дополнительная информация

Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.

Всегда отправляем файлы и чек на почту

Ник или номер телефона

Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Пожалуйста, выберите предмет работы.

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Пожалуйста, выберите тип работы.

Объем работы * Пожалуйста, укажите объем работы.

Срок выполнения * Пожалуйста, укажите срок выполнения.

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (211226)

Статьи

»» Все статьи

Вход в личный кабинет