Тип работы:
Предмет:
Язык работы:


Кластеризация документов в системе документооборота и документационного управления

Работа №131266

Тип работы

Бакалаврская работа

Предмет

программирование

Объем работы32
Год сдачи2017
Стоимость4300 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
62
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 5
Обзор литературы 7
1. Подготовка данных 8
1.1. Описание данных . . . . . . . . . . . . . . . . . . . . . . . 8
1.2. Выборка информативных атрибутов документа . . . . . 8
1.3. Информация из текстовых документов . . . . . . . . . . . 10
1.4. Предсказание атрибута ”Categories” . . . . . . . . . . . . . 14
2. Сокращение размерности 16
2.1. Способы перевода категориальных атрибутов в числовые 16
2.2. Метод, основанный на решении задачи коммивояжера . 17
2.3. Многомерное шкалирование . . . . . . . . . . . . . . . . . 20
3. Кластеризация 23
3.1. Описание входных данных и введение метрики
3.2. Алгоритмы кластеризации
4. Эксперименты и оценки результатов 25
Заключение 29
Список литературы 3

Неотъемлемой частью каждой современной компании является система документооборота. Организация работы с внешними и внутренними документами является довольно трудоемкой и ресурсозатратной деятельностью предприятий, из-за чего она может стать узким горлышком любого хорошо организованного бизнес-процесса. В динамично развивающемся мире электронных технологий процесс обмена документами также необходимо переводить на новый уровень развития. На
помощь приходят электронные решения, позволяющие упростить и автоматизировать данную часть бизнес-процесса. Последнее время переходу на электронный документооборот хорошо способствует расширение применения электронной подписи, а так же повышенное внимание к вопросам информационной безопасности.
Появление и внедрение современных систем электронного документооборота позволило сократить временные затраты, обеспечить прозрачность документопотока, а также бизнес-процессов, повысить дисциплину сотрудников к исполнению задач, фиксации результатов, защитить информацию от потерь, утечек, обеспечить безопасность данных и строгое разграничение прав доступа.
Из-за достаточно большого количества преимуществ системы электронного документооборота начинают внедряться повсеместно. Как следствие, компании накапливают достаточно большой объем электронных документов, который может позволить найти общие закономерности данных, интересные зависимости, новые характеристики, а так же построить модели данных путем применения алгоритмов машинного обучения и анализа данных.
Одной из задач анализа данных, которые получены из системы электронного документооборота какой-либо компании, можно рассмотреть задачу построения кластерной модели данных. Кластерный анализ [13] представляет из себя задачу разбиения исходного набора элементов выборки на непересекающиеся множества, называемые кластерами, так, чтобы кластер содержал в себе наиболее похожие элементы, а элементы двух различных кластеров существенно отличались. Кластерный анализ данных применяется давно и имеет широкий круг применимости. С его помощью можно решить такие задачи, как сжатие данных, сократив исходную избыточную выборку, заменяя каждый кластер на один наиболее представительный для него элемент. Можно решать задачу поиска новизны, когда новый элемент не удается присоединить ни к одному из кластеров. А также можно использовать довольно важную, на мой взгляд, стратегию ”разделяй и властвуй”, которая заключается в том, что после получения кластерной структуры данных мы можем упростить дальнейшую работу с данными, применяя методы анализа и машинного обучения к каждому кластеру отдельно. Такой подход позволяет эффективнее работать с большими объемами данных, а так же получать более точные результаты.
Если учесть объемы документооборота, которыми обладают даже средние компании, то задача разбиения этого объема документов на кластеры для дальнейшего анализа становится весьма актуальной. Поэтому в данной работе будут рассмотрены подходы к построению кластерной структуры для коллекции документов из системы электронного документооборота.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В данной работе была рассмотрена задача кластеризации документов в системе электронного документооборота. Т.к. документы в системе содержат не только текстовую информацию, но и описываются некоторым набором атрибутов, необходимо было при кластеризации учитывать все эти параметры.
Из текстовой информации были получены распределения тем для каждого документа. Полученные распределения позволили предсказать важный атрибут для документов ”Категория”. Он был известен только для трети документов. Точность предсказания составила 0.567, что является хорошим результатом, учитывая, что у атрибута ”Категория” среди его уникальных значений, которых всего 157, было обнаружено достаточно много дубликатов.
Были рассмотрены различные способы перевода категориальных атрибутов в числовые. Введение метрики, которая учитывает близость значений атрибутов исходя из распределений тем, полученных из тематической модели, позволило легко применить следующие методы. Был предложен метод, основанный на решении задачи коммивояжера, который не плохо себя показал. Для этой же задачи был адаптирован метод многомерного шкалирования, который обычно применяется для понижения размерности данных.
Были протестированы два алгоритма кластеризации: k-средних и агломерационный иерархический алгоритм. На вход алгоритмам подавалась матрица признаковых описаний документов, в которой категориальные признаки были преобразованы в числовые тремя предложенными методами.
В результате экспериментов показал себя наилучшим образом иерархический алгоритм, который получил на вход данные, значения атрибутов которых были преобразованы алгоритмом многомерного шкалирования в вектор размерности 1. Естественно он показал себя хорошо только на той метрике (среднем значении энтропии), которую мы посчитали для всех экспериментов. При применении этих алгоритмов в контексте других задач, метрика может быть выбрана совершенно другая. Если же предложенные алгоритмы применять в стратегии ”Разделяй и властвуй”, то качество алгоритмов будет определять коэффициент, показывающий, насколько использование стратегии с этим методом улучшило исходный алгоритм.
Учитывая объемы накопленных документов в системах документооборота и их постоянное пополнение, перед применением любых алгоритмов анализа данных будет полезным умение разбивать документы
на кластеры.


[1] Anil K. Jain Richard C. Dubes. Algorithms for Clustering Data. ––
Prentice-Hall, Inc. Upper Saddle River, NJ, USA, 1988. –– ACM Digital
Library : http://dl.acm.org/citation.cfm?id=42779.
[2] David M. Blei Andrew Y. Ng Michael I. Jordan. Latent Dirichlet
Allocation. –– Journal of Machine Learning Research, 2003. ––
http://www.jmlr.org/papers/v3/blei03a.html.
[3] Digital Design. –– 2017. –– URL: http://digdes.ru/ (дата обращения: 10.05.2017).
[4] Gensim. Topic modelling for humans. –– 2017. –– URL: https://
radimrehurek.com/gensim/ (online; accessed: 10.05.2017).
[5] Heinrich Gregor. Parameter estimation for text
analysis. –– University of Leipzig, Tech. Rep., 2008. ––
https://faculty.cs.byu.edu/ ringger/CS601R/papers/HeinrichGibbsLDA.pdf.
[6] Natural Language Toolkit. –– 2017. –– URL: http://www.nltk.org/
(online; accessed: 10.05.2017).
[7] NetworkX. –– 2017. –– URL: https://networkx.github.io/ (online;
accessed: 10.05.2017).
[8] Sievert C. Shirley K. E. LDAvis: A method for visualizing
and interpreting topics. –– Proceedings of the workshop on
interactive language learning, visualization, and interfaces, 2014. ––
http://www.aclweb.org/website/old_anthology/W/W14/W14-
31.pdf.
[9] Tesseract OCR // github.com. –– 2017. –– URL: https://github.com/
tesseract-ocr/ (online; accessed: 10.10.2016).
[10] V. Vazirani V. Approximation algorithms. –– Springer Science &
Business Media, 2013.
31[11] pyLDAvis // github.com. –– 2017. –– URL: https://github.com/
bmabey/pyLDAvis (online; accessed: 10.05.2017).
[12] scikit-learn. –– 2017. –– URL: http://scikit-learn.org (online;
accessed: 10.05.2017).
[13] Кластеризация // machinelearning.ru. –– 2011. –– URL: http://www.
machinelearning.ru/wiki/index.php?title=Кластеризация (дата
обращения: 01.09.2016).
[14] Морфологический анализатор pymorphy2. –– 2017. –– URL: http:
//pymorphy2.readthedocs.io (дата обращения: 10.05.2017).
[15] Проклятие размерности // machinelearning.ru. –– 2017. ––
URL: http://www.machinelearning.ru/wiki/index.php?title=
проклятие_размерности (дата обращения: 10.05.2017).
[16] СЭД Docsvision. –– 2017. –– URL: http://www.docsvision.com/ (дата обращения: 01.05.2017).

Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ