Тема: Предсказание атрибутов документов в системе документооборота
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Обзор литературы 4
Постановка задачи 6
Глава 1. Обзор Docsvision 6
Глава 2. Загрузка данных 8
§2.1. Данные из document.json 9
§2.2. Данные из resolution.json 10
Глава 3. Описание алгоритмов машинного обучения используемых в работе 14
§3.1. Random forest 14
§3.1.1 Выделение важных атрибутов 14
§3.2. Stochastic gradient descent 15
§3.3. Линейная регрессия 16
§3.3. Word2vec 16
§3.4. LabelEncoding 17
§3.5. One Hot Encoding 17
§3.6. Алгоритмы понижения размерности 18
§3.6.1 PCA 18
§3.6.2 MDS 19
§3.6.3 TSNE 19
§3.7 Random oversampling 20
Глава 4. Метрики 20
Глава 5. Решения задач 22
§5.1. Подготовка категориальных переменных 22
§5.1.1 Понижение размерности 23
§5.2. Рекомендация исполнителя 25
§5.3. Прогнозирование времени исполнения документа 26
Глава 6. Эксперименты 26
§6.1. Прогнозирование времени исполнения документа 26
§6.2. Рекомендация исполнителя 29
§6.2.1 Первый уровень исполнения 31
§6.2.2. Второй уровень исполнения 34
§6.2.3. Третий уровень исполнения 39
Выводы 42
Заключение 42
Список литературы 42
Приложение 46
📖 Введение
Первые продукты такого рода появились в 80-х годах прошлого века, в виде запасного хранилища бумажных документов.
Позже, была добавлена функциональность для работы с электронными документами, такими как: электронная почта, поручения, документы, изображения и т.д.
И сегодня современные СЭД стараются идти в ногу со временем, добавляя такую функциональность, как извлечение текста из изображений [2] и автоматическая классификация текстовых документов [3].
В представленной дипломной работе предлагается два новых подхода к расширению функциональности СЭД Digital Design [4] Docsvision [5]:
1. Рекомендация исполнителя для задания;
2. Прогнозирование времени, которое потребуется на обработку документа.
Для решения этих задач компания Digital Design предоставила набор документов правительства Мурманской области за два года. На их основе был построен прототип системы обработки документов.
Обзор литературы
Для повышения теоретических знаний в области машинного обучения и информационного поиска, использовалась работа «Введение в информационный поиск» К. Маннинга [6], и в первую очередь глава 14 «Классификация в векторном пространстве» и глава 18 «Разложение матриц и латентносемантическое индексирование». Для развития практических навыков в области машинного обучения и анализа данных использовалась книга В. Маккини «Python для анализа данных» [7]. В ней последовательно проиллюстрированы подходы для манипулирования и визуализации данных в python. Богатая коллекция решений классических задач представлена на сайте kagge [8]. В частности, для построения модели регрессии, полезен разбор задачи по прогнозированию цен за дома [9]. Для ознакомления с алгоритмом Random forest, очень помогла классическая работа Breiman L. «Random forests» [10], а также для понимания того, как считается информативность атрибутов в алгоритме использовалась статья Louppe, G. «Understanding variable importances in forests of randomized trees» [11]. В этой статье приводится достаточно подробное описание того, как в случайных лесах выделяются важные атрибуты. В понимании задачи и структуры данных, в предоставленном датасете, значительную роль сыграла документация API Docsvision и интерактивная демонстрация создания документа в системе Docsvision [12]. О борьбе с несбалансированностью данных подробно и практично описано в статье «8 методов борьбы с несбалансированностью данных» [13]: в этой статье приводится методики по уменьшению несбалансированности данных, такие как oversampling (генерирование атрибутов малых классов) и разбиение выборки на сбалансированные подвыборки.
✅ Заключение
Данная система уже реализована в качестве прототипа в компании Digital Design в коммерческой системе документооборота Docsvision. В качестве дальнейшего развития прототипа рассматривается использование метода построения полного дерева резолюций и расширение системы рекомендаций исполнителей на любых уровнях исполнения. В конечном итоге, стоит задача перевода прототипа в режим коммерческой эксплуатации в качестве дополнительного API системы Docsvision.
Реализация поставленных задач может стать объектом магистерской диссертации.





