Введение 4
Обзор литературы 4
Постановка задачи 6
Глава 1. Обзор Docsvision 6
Глава 2. Загрузка данных 8
§2.1. Данные из document.json 9
§2.2. Данные из resolution.json 10
Глава 3. Описание алгоритмов машинного обучения используемых в работе 14
§3.1. Random forest 14
§3.1.1 Выделение важных атрибутов 14
§3.2. Stochastic gradient descent 15
§3.3. Линейная регрессия 16
§3.3. Word2vec 16
§3.4. LabelEncoding 17
§3.5. One Hot Encoding 17
§3.6. Алгоритмы понижения размерности 18
§3.6.1 PCA 18
§3.6.2 MDS 19
§3.6.3 TSNE 19
§3.7 Random oversampling 20
Глава 4. Метрики 20
Глава 5. Решения задач 22
§5.1. Подготовка категориальных переменных 22
§5.1.1 Понижение размерности 23
§5.2. Рекомендация исполнителя 25
§5.3. Прогнозирование времени исполнения документа 26
Глава 6. Эксперименты 26
§6.1. Прогнозирование времени исполнения документа 26
§6.2. Рекомендация исполнителя 29
§6.2.1 Первый уровень исполнения 31
§6.2.2. Второй уровень исполнения 34
§6.2.3. Третий уровень исполнения 39
Выводы 42
Заключение 42
Список литературы 42
Приложение 46
Система электронного документооборота (СЭД) [1] - это система автоматизации процессов работы с документами, поддерживающая основные функции документооборота, такие как: хранение, создание, поиск.
Первые продукты такого рода появились в 80-х годах прошлого века, в виде запасного хранилища бумажных документов.
Позже, была добавлена функциональность для работы с электронными документами, такими как: электронная почта, поручения, документы, изображения и т.д.
И сегодня современные СЭД стараются идти в ногу со временем, добавляя такую функциональность, как извлечение текста из изображений [2] и автоматическая классификация текстовых документов [3].
В представленной дипломной работе предлагается два новых подхода к расширению функциональности СЭД Digital Design [4] Docsvision [5]:
1. Рекомендация исполнителя для задания;
2. Прогнозирование времени, которое потребуется на обработку документа.
Для решения этих задач компания Digital Design предоставила набор документов правительства Мурманской области за два года. На их основе был построен прототип системы обработки документов.
Обзор литературы
Для повышения теоретических знаний в области машинного обучения и информационного поиска, использовалась работа «Введение в информационный поиск» К. Маннинга [6], и в первую очередь глава 14 «Классификация в векторном пространстве» и глава 18 «Разложение матриц и латентносемантическое индексирование». Для развития практических навыков в области машинного обучения и анализа данных использовалась книга В. Маккини «Python для анализа данных» [7]. В ней последовательно проиллюстрированы подходы для манипулирования и визуализации данных в python. Богатая коллекция решений классических задач представлена на сайте kagge [8]. В частности, для построения модели регрессии, полезен разбор задачи по прогнозированию цен за дома [9]. Для ознакомления с алгоритмом Random forest, очень помогла классическая работа Breiman L. «Random forests» [10], а также для понимания того, как считается информативность атрибутов в алгоритме использовалась статья Louppe, G. «Understanding variable importances in forests of randomized trees» [11]. В этой статье приводится достаточно подробное описание того, как в случайных лесах выделяются важные атрибуты. В понимании задачи и структуры данных, в предоставленном датасете, значительную роль сыграла документация API Docsvision и интерактивная демонстрация создания документа в системе Docsvision [12]. О борьбе с несбалансированностью данных подробно и практично описано в статье «8 методов борьбы с несбалансированностью данных» [13]: в этой статье приводится методики по уменьшению несбалансированности данных, такие как oversampling (генерирование атрибутов малых классов) и разбиение выборки на сбалансированные подвыборки.
Цель данной работы была в том, чтобы показать, что введение метрик между категориальными переменными и понижение размерности матриц до векторов работает не хуже стандартного подхода One hot encoding. Данная цель была достигнута и более того, данные полученные данные полученные при использовании рассмотренного подхода не только не ухудшают точность, а повышают ее.
Данная система уже реализована в качестве прототипа в компании Digital Design в коммерческой системе документооборота Docsvision. В качестве дальнейшего развития прототипа рассматривается использование метода построения полного дерева резолюций и расширение системы рекомендаций исполнителей на любых уровнях исполнения. В конечном итоге, стоит задача перевода прототипа в режим коммерческой эксплуатации в качестве дополнительного API системы Docsvision.
Реализация поставленных задач может стать объектом магистерской диссертации.
1. DMS Document management system [Интернет ресурс]: URL:en.wikipedia. org/wiki/Document_management_system (date: 18.03.17)
2. Alkhalaf K. S., Almishal A. I., Almahmoud A. O., Alotaibi M. S. OCR-Based Electronic Documentation Management System // International Journal of Innovation, Management and Technology 2014. Vol. 5, No 5. P. 465-469.
3. Floriana Esposito and Stefano F., Teresa M., Nicola D. Machine Learning for Digital Document Processing: from Layout Analysis to Metadata Extraction // Machine Learning in Document Analysis and Recognition 2008.
4. DigitalDesign [Интернет ресурс]: URL:http://digdes.ru/about (дата обращения: 18.03.17)
5. Docsvision [Интренет ресурс]: http://www.docsvision.com (дата обращения: 03.05.2017).
6. Manning C. D., Raghavan P. and Schutze H. Introduction to Information Retrieval // Cambridge University Press 2008.
7. Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython (01 November 2012) by Wes McKinney
8. kaggle - Сайт с задачами по машинному обучению [Интернет ресурс]: URL: https://www.kaggle.com
9. - Решение задачи по прогнизированию цен за дома [Интернет ресурс]: https://www.kaggle.com/apapiu/regularized-linear-models
10. Breiman L. Random forests // Machine Learning.4 2001.4 Vol. 45, no. 1.4 Pp. 5Ц32.
11. Louppe, G., Wehenkel, L., Sutera, A., Geurts, P Understanding variable importances in forests of randomized trees // Advances in Neural Information Processing Systems 26. 2013. С. 431-439.
12. Интерактивное демо создания документа в Docsvision [Интренет ресурс]: URL:https://marvelapp.com/35d1ihe/screen/13200295
13. 8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset [Интернет ресурс]: URL:goo.gl/IddLHg
14. UUID description on wiki [Интернет ресурс]: URL:https://en.wikipedia. org/wiki/Universally_unique_identifier (дата обращения: 15.05.2017).
15. Random forest на wikipedia [Интернет ресурс]: URL:https://en. wikipedia.org/wiki/Random_forest (дата обращения: 18.03.17).
...