📄Работа №86301

Тема: АЛГОРИТМ ТЕКСТОВОГО АНАЛИЗА НА ОСНОВЕ МЕРЫ КУЛЬБАКА-ЛЕЙБЛЕРА

Характеристики работы

▣

Тип работы Дипломные работы, ВКР

Предмет Математика

📄

Объем: 37 листов

📅

Год: 2017

👁️

4760 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 2
2 Кластеризация документов и выделение ключевых слов 4
3 Метод неотрицательной матричной факторизации и
модели представления текстов 7
3.1 Метод неотрицательной матричной факторизации 7
3.2 Модели представления текстов 10
4 Программная реализация 13
4.1 Создание коллекции 13
4.2 Частотный анализ слов документа 14
4.3 Применение метода неотрицательной матричной
факторизации 14
4.4 Вывод результата 15
4.5 Оценка качества кластеризации 15
5 Заключение
Список литературы 18
6 Приложение

📖 Введение

В настоящее время количество научных публикаций достигло такого
уровня, что особо остро ощущается потребность в автоматизации различных задач, связанных с обработкой и анализом текстовых данных. К
основным задачам относятся:
• извлечение объектов и признаков,
• реферирование,
• классификация,
• кластерный анализ,
• интеллектуальный поиск,
• фактографический анализ.
На сегодняшний день существует множество подходов для решения
данных проблем, в основном использующие аппарат математической статистики. При решении прикладных задач обработки текстов зачастую
требуется применение не одного метода анализа текстов, а целого набора взаимосвязанных методов, обеспечивающих комплексное решение
рассматриваемой задачи. Выбор методов зависит от множества факторов, требующих глубокого анализа проблемы, чем обусловлен незатухающий интерес к области автоматической обработки текстов.
Данная дипломная работа посвящена автоматизации поиска тематически близких документов с применением одного из алгоритмов кластерного анализа В статье Нокеля М. А. и Лукашевича Н. В. «Использование
тематических моделей в извлечении однословных терминов» [8] был описан метод неотрицательной матричной факторизации (NMF) с использованием расходимости Кульбака-Лейблера в качестве меры близости.
В данной работе метод NMF с расходимостью Кульбака-Лейблера был
применен для кластеризации текстов.
2Подготовлен пакет программ на языке Java, код которых приведен в
Приложении. Алгоритм опробован на материале цифровой коллекции
КФУ «Известия вузов. Математика» за период с 1997 по 2005 гг.

✅ Заключение

При решении поставленной задачи, а именно автоматизации поиска тематически близких документов с применением метода неотрицательной
матричной факторизации (NMF) с использованием расходимости Кульбака-Лейблера, был проведен анализ исследуемой области, в результате
чего был разработан алгоритм решения поставленной задачи и создан
пакет программ на языке Java для кластеризации цифровой коллекции
КФУ и поиска в ней схожих по теме статей. Приведенный ниже код готов к использованию для кластеризации не только рассматриваемой, но
и других коллекций документов, что позволяет другим исследователям
использовать данный продукт для обработки собственных коллекций.
Для пробы было взято 200 статей из коллекции КФУ и они были
разбиты на 10 кластеров. В результате были сгенерированы две матрицы W и H, в которых строки матрицы W соответствуют терминам из
словаря, а в столбцах указаны вероятности принадлежности терминов к
кластерам. Матрица H, в свою очередь, соотносит столбцы с документами, а в строках содержатся вероятности принадлежности документов
к кластерам. Вероятность принадлежности одному кластеру оказалась
выше у близких друг к другу документов. Таким образом было показано,
что метод неотрицательной матричной факторизации с использованием
расходимости Кульбака-Лейблера в качестве меры близости можно достаточно эффективно использовать для кластеризации текстов.
Можно отметить несколько направлений для улучшения работы программы:
1) Оптимизация используемой памяти. На данный момент программа может работать лишь с небольшими коллекциями из-за ограничения
объема оперативной памяти, в которой хранятся «мешки слов». Для оптимизации памяти можно задействовать базу данных.
2) Ускорение времени работы программы с помощью распараллеливания. Для создания «мешков слов» всех документов коллекции и вычис-
16ления каждого элемента матриц W и H (внутри итерационного метода)
можно использовать параллельные вычисления.
3) Доработка алгоритма в сторону выбора более оптимального начального приближения матриц W и H. Для этого можно использовать
другие, более быстрые алгоритмы кластеризации, что позволит уменьшить количество итераций.
4) Оценка качества кластеризации при использовании разных тематических словарей. Несмотря на то, что, как уже было отмечено ранее,
анализ полученных результатов оценить трудно из-за отсутствия эталона, можно провести ряд тестов, используя разные словари, и провести
оценку

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

[1] Большакова Е. И., Клышинский Э. С., Ландэ Д. В., Носков А. А., Пес¬кова О. В., Ягунова Е. В. Автоматическая обработка текстов на есте¬ственном языке и компьютерная лингвистика. — М.: МИЭМ, 2011. — 272 с.
[2] Manning C. D., Raghavan P., Schutze H. Introduction to Information Retrieval. — Cambridge University Press, 2008. — 482 p.
[3] Clark A., Fox C., Lappin S. The Handbook of Computational Linguistics and Natural Language Processing. — Singapore, 2010. — 775 p.
[4] Lee D. D., Seung H. S. Algorithms for Non-negative Matrix Factorization. — Advances in Neural Information Processing Systems 13: Proceedings of the 2000 Conference. MIT Press. — pp. 556-562.
[5] Wei Xu, Xin Liu, Yihong Gong. Document Clustering Based On Non-negative Matrix Factorization. — Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval. New York: Association for Computing Machinery, 2003 — pp. 267-273.
[6] Васильев В. Г., Кривенко М. П. Методы автоматизированной обра¬ботки текстов. — М.: ИПИ РАН, 2008. — 305 с.
[7] Ефремова Н. Э., Большакова Е. И., Носков А. А., Антонов В. Ю. Терминологический анализ текста на основе лексико-синтаксических шаблонов. — Компьютерная лингвистика и интеллектуальные тех¬нологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 26-30 мая 2010 г.). — М.: Изд-во РГГУ, 2010. № 9(16). — ее. 124-129
[8] Нокель М. А., Лукашевич Н. В. Использование тематических моде¬лей в извлечении однословных терминов. — Всероссийская научная конференция RCDL’ 2013, Ярославль, 14-17 октября 2013 г.: труды конференции. — Ярославль: ЯрГУ, 2013. — cc. 155-163.
[9] Руководство пользователя системы Классификатор 1.0. — Медиа¬лингва, 1997. — 10 с.
[10] Automatic Document Categorization. A Hummingbird White Paper. — Hummingbird Ltd., 2000. — 10 p.
[11] Intelligent Miner for Text Version 2.3. Getting Started. — IBM Corp., 1999. — 62 p. (www.ibm.com).
[12] Шумский С. А., Яровой А. В., Зорин О. Л. Ассоциативный поиск текстовой информации // Сборник научных трудов всероссийской научно-технической конференции «Нейроинформатика-99». Часть 3. — М.: МИФИ, 1999. — cc. 101-109.

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Дополнительная информация

Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.

Всегда отправляем файлы и чек на почту

Ник или номер телефона

Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Пожалуйста, выберите предмет работы.

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Пожалуйста, выберите тип работы.

Объем работы * Пожалуйста, укажите объем работы.

Срок выполнения * Пожалуйста, укажите срок выполнения.

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (211445)

Статьи

»» Все статьи

Вход в личный кабинет