Введение 2
2 Кластеризация документов и выделение ключевых слов 4
3 Метод неотрицательной матричной факторизации и
модели представления текстов 7
3.1 Метод неотрицательной матричной факторизации 7
3.2 Модели представления текстов 10
4 Программная реализация 13
4.1 Создание коллекции 13
4.2 Частотный анализ слов документа 14
4.3 Применение метода неотрицательной матричной
факторизации 14
4.4 Вывод результата 15
4.5 Оценка качества кластеризации 15
5 Заключение
Список литературы 18
6 Приложение
В настоящее время количество научных публикаций достигло такого
уровня, что особо остро ощущается потребность в автоматизации различных задач, связанных с обработкой и анализом текстовых данных. К
основным задачам относятся:
• извлечение объектов и признаков,
• реферирование,
• классификация,
• кластерный анализ,
• интеллектуальный поиск,
• фактографический анализ.
На сегодняшний день существует множество подходов для решения
данных проблем, в основном использующие аппарат математической статистики. При решении прикладных задач обработки текстов зачастую
требуется применение не одного метода анализа текстов, а целого набора взаимосвязанных методов, обеспечивающих комплексное решение
рассматриваемой задачи. Выбор методов зависит от множества факторов, требующих глубокого анализа проблемы, чем обусловлен незатухающий интерес к области автоматической обработки текстов.
Данная дипломная работа посвящена автоматизации поиска тематически близких документов с применением одного из алгоритмов кластерного анализа В статье Нокеля М. А. и Лукашевича Н. В. «Использование
тематических моделей в извлечении однословных терминов» [8] был описан метод неотрицательной матричной факторизации (NMF) с использованием расходимости Кульбака-Лейблера в качестве меры близости.
В данной работе метод NMF с расходимостью Кульбака-Лейблера был
применен для кластеризации текстов.
2Подготовлен пакет программ на языке Java, код которых приведен в
Приложении. Алгоритм опробован на материале цифровой коллекции
КФУ «Известия вузов. Математика» за период с 1997 по 2005 гг.
При решении поставленной задачи, а именно автоматизации поиска тематически близких документов с применением метода неотрицательной
матричной факторизации (NMF) с использованием расходимости Кульбака-Лейблера, был проведен анализ исследуемой области, в результате
чего был разработан алгоритм решения поставленной задачи и создан
пакет программ на языке Java для кластеризации цифровой коллекции
КФУ и поиска в ней схожих по теме статей. Приведенный ниже код готов к использованию для кластеризации не только рассматриваемой, но
и других коллекций документов, что позволяет другим исследователям
использовать данный продукт для обработки собственных коллекций.
Для пробы было взято 200 статей из коллекции КФУ и они были
разбиты на 10 кластеров. В результате были сгенерированы две матрицы W и H, в которых строки матрицы W соответствуют терминам из
словаря, а в столбцах указаны вероятности принадлежности терминов к
кластерам. Матрица H, в свою очередь, соотносит столбцы с документами, а в строках содержатся вероятности принадлежности документов
к кластерам. Вероятность принадлежности одному кластеру оказалась
выше у близких друг к другу документов. Таким образом было показано,
что метод неотрицательной матричной факторизации с использованием
расходимости Кульбака-Лейблера в качестве меры близости можно достаточно эффективно использовать для кластеризации текстов.
Можно отметить несколько направлений для улучшения работы программы:
1) Оптимизация используемой памяти. На данный момент программа может работать лишь с небольшими коллекциями из-за ограничения
объема оперативной памяти, в которой хранятся «мешки слов». Для оптимизации памяти можно задействовать базу данных.
2) Ускорение времени работы программы с помощью распараллеливания. Для создания «мешков слов» всех документов коллекции и вычис-
16ления каждого элемента матриц W и H (внутри итерационного метода)
можно использовать параллельные вычисления.
3) Доработка алгоритма в сторону выбора более оптимального начального приближения матриц W и H. Для этого можно использовать
другие, более быстрые алгоритмы кластеризации, что позволит уменьшить количество итераций.
4) Оценка качества кластеризации при использовании разных тематических словарей. Несмотря на то, что, как уже было отмечено ранее,
анализ полученных результатов оценить трудно из-за отсутствия эталона, можно провести ряд тестов, используя разные словари, и провести
оценку
[1] Большакова Е. И., Клышинский Э. С., Ландэ Д. В., Носков А. А., Пес¬кова О. В., Ягунова Е. В. Автоматическая обработка текстов на есте¬ственном языке и компьютерная лингвистика. — М.: МИЭМ, 2011. — 272 с.
[2] Manning C. D., Raghavan P., Schutze H. Introduction to Information Retrieval. — Cambridge University Press, 2008. — 482 p.
[3] Clark A., Fox C., Lappin S. The Handbook of Computational Linguistics and Natural Language Processing. — Singapore, 2010. — 775 p.
[4] Lee D. D., Seung H. S. Algorithms for Non-negative Matrix Factorization. — Advances in Neural Information Processing Systems 13: Proceedings of the 2000 Conference. MIT Press. — pp. 556-562.
[5] Wei Xu, Xin Liu, Yihong Gong. Document Clustering Based On Non-negative Matrix Factorization. — Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval. New York: Association for Computing Machinery, 2003 — pp. 267-273.
[6] Васильев В. Г., Кривенко М. П. Методы автоматизированной обра¬ботки текстов. — М.: ИПИ РАН, 2008. — 305 с.
[7] Ефремова Н. Э., Большакова Е. И., Носков А. А., Антонов В. Ю. Терминологический анализ текста на основе лексико-синтаксических шаблонов. — Компьютерная лингвистика и интеллектуальные тех¬нологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 26-30 мая 2010 г.). — М.: Изд-во РГГУ, 2010. № 9(16). — ее. 124-129
[8] Нокель М. А., Лукашевич Н. В. Использование тематических моде¬лей в извлечении однословных терминов. — Всероссийская научная конференция RCDL’ 2013, Ярославль, 14-17 октября 2013 г.: труды конференции. — Ярославль: ЯрГУ, 2013. — cc. 155-163.
[9] Руководство пользователя системы Классификатор 1.0. — Медиа¬лингва, 1997. — 10 с.
[10] Automatic Document Categorization. A Hummingbird White Paper. — Hummingbird Ltd., 2000. — 10 p.
[11] Intelligent Miner for Text Version 2.3. Getting Started. — IBM Corp., 1999. — 62 p. (www.ibm.com).
[12] Шумский С. А., Яровой А. В., Зорин О. Л. Ассоциативный поиск текстовой информации // Сборник научных трудов всероссийской научно-технической конференции «Нейроинформатика-99». Часть 3. — М.: МИФИ, 1999. — cc. 101-109.