📄Работа №131266

Тема: Кластеризация документов в системе документооборота и документационного управления

📝

Тип работы Бакалаврская работа

📚

Предмет Программирование

📄

Объем: 32 листов

📅

Год: 2017

👁️

4300 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 3
Постановка задачи 5
Обзор литературы 7
1. Подготовка данных 8
1.1. Описание данных . . . . . . . . . . . . . . . . . . . . . . . 8
1.2. Выборка информативных атрибутов документа . . . . . 8
1.3. Информация из текстовых документов . . . . . . . . . . . 10
1.4. Предсказание атрибута ”Categories” . . . . . . . . . . . . . 14
2. Сокращение размерности 16
2.1. Способы перевода категориальных атрибутов в числовые 16
2.2. Метод, основанный на решении задачи коммивояжера . 17
2.3. Многомерное шкалирование . . . . . . . . . . . . . . . . . 20
3. Кластеризация 23
3.1. Описание входных данных и введение метрики
3.2. Алгоритмы кластеризации
4. Эксперименты и оценки результатов 25
Заключение 29
Список литературы 3

📖 Введение

Неотъемлемой частью каждой современной компании является система документооборота. Организация работы с внешними и внутренними документами является довольно трудоемкой и ресурсозатратной деятельностью предприятий, из-за чего она может стать узким горлышком любого хорошо организованного бизнес-процесса. В динамично развивающемся мире электронных технологий процесс обмена документами также необходимо переводить на новый уровень развития. На
помощь приходят электронные решения, позволяющие упростить и автоматизировать данную часть бизнес-процесса. Последнее время переходу на электронный документооборот хорошо способствует расширение применения электронной подписи, а так же повышенное внимание к вопросам информационной безопасности.
Появление и внедрение современных систем электронного документооборота позволило сократить временные затраты, обеспечить прозрачность документопотока, а также бизнес-процессов, повысить дисциплину сотрудников к исполнению задач, фиксации результатов, защитить информацию от потерь, утечек, обеспечить безопасность данных и строгое разграничение прав доступа.
Из-за достаточно большого количества преимуществ системы электронного документооборота начинают внедряться повсеместно. Как следствие, компании накапливают достаточно большой объем электронных документов, который может позволить найти общие закономерности данных, интересные зависимости, новые характеристики, а так же построить модели данных путем применения алгоритмов машинного обучения и анализа данных.
Одной из задач анализа данных, которые получены из системы электронного документооборота какой-либо компании, можно рассмотреть задачу построения кластерной модели данных. Кластерный анализ [13] представляет из себя задачу разбиения исходного набора элементов выборки на непересекающиеся множества, называемые кластерами, так, чтобы кластер содержал в себе наиболее похожие элементы, а элементы двух различных кластеров существенно отличались. Кластерный анализ данных применяется давно и имеет широкий круг применимости. С его помощью можно решить такие задачи, как сжатие данных, сократив исходную избыточную выборку, заменяя каждый кластер на один наиболее представительный для него элемент. Можно решать задачу поиска новизны, когда новый элемент не удается присоединить ни к одному из кластеров. А также можно использовать довольно важную, на мой взгляд, стратегию ”разделяй и властвуй”, которая заключается в том, что после получения кластерной структуры данных мы можем упростить дальнейшую работу с данными, применяя методы анализа и машинного обучения к каждому кластеру отдельно. Такой подход позволяет эффективнее работать с большими объемами данных, а так же получать более точные результаты.
Если учесть объемы документооборота, которыми обладают даже средние компании, то задача разбиения этого объема документов на кластеры для дальнейшего анализа становится весьма актуальной. Поэтому в данной работе будут рассмотрены подходы к построению кластерной структуры для коллекции документов из системы электронного документооборота.

✅ Заключение

В данной работе была рассмотрена задача кластеризации документов в системе электронного документооборота. Т.к. документы в системе содержат не только текстовую информацию, но и описываются некоторым набором атрибутов, необходимо было при кластеризации учитывать все эти параметры.
Из текстовой информации были получены распределения тем для каждого документа. Полученные распределения позволили предсказать важный атрибут для документов ”Категория”. Он был известен только для трети документов. Точность предсказания составила 0.567, что является хорошим результатом, учитывая, что у атрибута ”Категория” среди его уникальных значений, которых всего 157, было обнаружено достаточно много дубликатов.
Были рассмотрены различные способы перевода категориальных атрибутов в числовые. Введение метрики, которая учитывает близость значений атрибутов исходя из распределений тем, полученных из тематической модели, позволило легко применить следующие методы. Был предложен метод, основанный на решении задачи коммивояжера, который не плохо себя показал. Для этой же задачи был адаптирован метод многомерного шкалирования, который обычно применяется для понижения размерности данных.
Были протестированы два алгоритма кластеризации: k-средних и агломерационный иерархический алгоритм. На вход алгоритмам подавалась матрица признаковых описаний документов, в которой категориальные признаки были преобразованы в числовые тремя предложенными методами.
В результате экспериментов показал себя наилучшим образом иерархический алгоритм, который получил на вход данные, значения атрибутов которых были преобразованы алгоритмом многомерного шкалирования в вектор размерности 1. Естественно он показал себя хорошо только на той метрике (среднем значении энтропии), которую мы посчитали для всех экспериментов. При применении этих алгоритмов в контексте других задач, метрика может быть выбрана совершенно другая. Если же предложенные алгоритмы применять в стратегии ”Разделяй и властвуй”, то качество алгоритмов будет определять коэффициент, показывающий, насколько использование стратегии с этим методом улучшило исходный алгоритм.
Учитывая объемы накопленных документов в системах документооборота и их постоянное пополнение, перед применением любых алгоритмов анализа данных будет полезным умение разбивать документы
на кластеры.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

[1] Anil K. Jain Richard C. Dubes. Algorithms for Clustering Data. ––
Prentice-Hall, Inc. Upper Saddle River, NJ, USA, 1988. –– ACM Digital
Library : http://dl.acm.org/citation.cfm?id=42779.
[2] David M. Blei Andrew Y. Ng Michael I. Jordan. Latent Dirichlet
Allocation. –– Journal of Machine Learning Research, 2003. ––
http://www.jmlr.org/papers/v3/blei03a.html.
[3] Digital Design. –– 2017. –– URL: http://digdes.ru/ (дата обращения: 10.05.2017).
[4] Gensim. Topic modelling for humans. –– 2017. –– URL: https://
radimrehurek.com/gensim/ (online; accessed: 10.05.2017).
[5] Heinrich Gregor. Parameter estimation for text
analysis. –– University of Leipzig, Tech. Rep., 2008. ––
https://faculty.cs.byu.edu/ ringger/CS601R/papers/HeinrichGibbsLDA.pdf.
[6] Natural Language Toolkit. –– 2017. –– URL: http://www.nltk.org/
(online; accessed: 10.05.2017).
[7] NetworkX. –– 2017. –– URL: https://networkx.github.io/ (online;
accessed: 10.05.2017).
[8] Sievert C. Shirley K. E. LDAvis: A method for visualizing
and interpreting topics. –– Proceedings of the workshop on
interactive language learning, visualization, and interfaces, 2014. ––
http://www.aclweb.org/website/old_anthology/W/W14/W14-
31.pdf.
[9] Tesseract OCR // github.com. –– 2017. –– URL: https://github.com/
tesseract-ocr/ (online; accessed: 10.10.2016).
[10] V. Vazirani V. Approximation algorithms. –– Springer Science &
Business Media, 2013.
31[11] pyLDAvis // github.com. –– 2017. –– URL: https://github.com/
bmabey/pyLDAvis (online; accessed: 10.05.2017).
[12] scikit-learn. –– 2017. –– URL: http://scikit-learn.org (online;
accessed: 10.05.2017).
[13] Кластеризация // machinelearning.ru. –– 2011. –– URL: http://www.
machinelearning.ru/wiki/index.php?title=Кластеризация (дата
обращения: 01.09.2016).
[14] Морфологический анализатор pymorphy2. –– 2017. –– URL: http:
//pymorphy2.readthedocs.io (дата обращения: 10.05.2017).
[15] Проклятие размерности // machinelearning.ru. –– 2017. ––
URL: http://www.machinelearning.ru/wiki/index.php?title=
проклятие_размерности (дата обращения: 10.05.2017).
[16] СЭД Docsvision. –– 2017. –– URL: http://www.docsvision.com/ (дата обращения: 01.05.2017).

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (210037)

Статьи

»» Все статьи

Вход в личный кабинет