Тема: Кластеризация документов в системе документооборота и документационного управления
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 5
Обзор литературы 7
1. Подготовка данных 8
1.1. Описание данных . . . . . . . . . . . . . . . . . . . . . . . 8
1.2. Выборка информативных атрибутов документа . . . . . 8
1.3. Информация из текстовых документов . . . . . . . . . . . 10
1.4. Предсказание атрибута ”Categories” . . . . . . . . . . . . . 14
2. Сокращение размерности 16
2.1. Способы перевода категориальных атрибутов в числовые 16
2.2. Метод, основанный на решении задачи коммивояжера . 17
2.3. Многомерное шкалирование . . . . . . . . . . . . . . . . . 20
3. Кластеризация 23
3.1. Описание входных данных и введение метрики
3.2. Алгоритмы кластеризации
4. Эксперименты и оценки результатов 25
Заключение 29
Список литературы 3
📖 Введение
помощь приходят электронные решения, позволяющие упростить и автоматизировать данную часть бизнес-процесса. Последнее время переходу на электронный документооборот хорошо способствует расширение применения электронной подписи, а так же повышенное внимание к вопросам информационной безопасности.
Появление и внедрение современных систем электронного документооборота позволило сократить временные затраты, обеспечить прозрачность документопотока, а также бизнес-процессов, повысить дисциплину сотрудников к исполнению задач, фиксации результатов, защитить информацию от потерь, утечек, обеспечить безопасность данных и строгое разграничение прав доступа.
Из-за достаточно большого количества преимуществ системы электронного документооборота начинают внедряться повсеместно. Как следствие, компании накапливают достаточно большой объем электронных документов, который может позволить найти общие закономерности данных, интересные зависимости, новые характеристики, а так же построить модели данных путем применения алгоритмов машинного обучения и анализа данных.
Одной из задач анализа данных, которые получены из системы электронного документооборота какой-либо компании, можно рассмотреть задачу построения кластерной модели данных. Кластерный анализ [13] представляет из себя задачу разбиения исходного набора элементов выборки на непересекающиеся множества, называемые кластерами, так, чтобы кластер содержал в себе наиболее похожие элементы, а элементы двух различных кластеров существенно отличались. Кластерный анализ данных применяется давно и имеет широкий круг применимости. С его помощью можно решить такие задачи, как сжатие данных, сократив исходную избыточную выборку, заменяя каждый кластер на один наиболее представительный для него элемент. Можно решать задачу поиска новизны, когда новый элемент не удается присоединить ни к одному из кластеров. А также можно использовать довольно важную, на мой взгляд, стратегию ”разделяй и властвуй”, которая заключается в том, что после получения кластерной структуры данных мы можем упростить дальнейшую работу с данными, применяя методы анализа и машинного обучения к каждому кластеру отдельно. Такой подход позволяет эффективнее работать с большими объемами данных, а так же получать более точные результаты.
Если учесть объемы документооборота, которыми обладают даже средние компании, то задача разбиения этого объема документов на кластеры для дальнейшего анализа становится весьма актуальной. Поэтому в данной работе будут рассмотрены подходы к построению кластерной структуры для коллекции документов из системы электронного документооборота.
✅ Заключение
Из текстовой информации были получены распределения тем для каждого документа. Полученные распределения позволили предсказать важный атрибут для документов ”Категория”. Он был известен только для трети документов. Точность предсказания составила 0.567, что является хорошим результатом, учитывая, что у атрибута ”Категория” среди его уникальных значений, которых всего 157, было обнаружено достаточно много дубликатов.
Были рассмотрены различные способы перевода категориальных атрибутов в числовые. Введение метрики, которая учитывает близость значений атрибутов исходя из распределений тем, полученных из тематической модели, позволило легко применить следующие методы. Был предложен метод, основанный на решении задачи коммивояжера, который не плохо себя показал. Для этой же задачи был адаптирован метод многомерного шкалирования, который обычно применяется для понижения размерности данных.
Были протестированы два алгоритма кластеризации: k-средних и агломерационный иерархический алгоритм. На вход алгоритмам подавалась матрица признаковых описаний документов, в которой категориальные признаки были преобразованы в числовые тремя предложенными методами.
В результате экспериментов показал себя наилучшим образом иерархический алгоритм, который получил на вход данные, значения атрибутов которых были преобразованы алгоритмом многомерного шкалирования в вектор размерности 1. Естественно он показал себя хорошо только на той метрике (среднем значении энтропии), которую мы посчитали для всех экспериментов. При применении этих алгоритмов в контексте других задач, метрика может быть выбрана совершенно другая. Если же предложенные алгоритмы применять в стратегии ”Разделяй и властвуй”, то качество алгоритмов будет определять коэффициент, показывающий, насколько использование стратегии с этим методом улучшило исходный алгоритм.
Учитывая объемы накопленных документов в системах документооборота и их постоянное пополнение, перед применением любых алгоритмов анализа данных будет полезным умение разбивать документы
на кластеры.



