Тип работы:
Предмет:
Язык работы:


Предсказание атрибутов документов в системе документооборота

Работа №125772

Тип работы

Бакалаврская работа

Предмет

программирование

Объем работы56
Год сдачи2017
Стоимость4600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
20
Не подходит работа?

Узнай цену на написание


Введение 4
Обзор литературы 4
Постановка задачи 6
Глава 1. Обзор Docsvision 6
Глава 2. Загрузка данных 8
§2.1. Данные из document.json 9
§2.2. Данные из resolution.json 10
Глава 3. Описание алгоритмов машинного обучения используе­мых в работе 14
§3.1. Random forest 14
§3.1.1 Выделение важных атрибутов 14
§3.2. Stochastic gradient descent 15
§3.3. Линейная регрессия 16
§3.3. Word2vec 16
§3.4. LabelEncoding 17
§3.5. One Hot Encoding 17
§3.6. Алгоритмы понижения размерности 18
§3.6.1 PCA 18
§3.6.2 MDS 19
§3.6.3 TSNE 19
§3.7 Random oversampling 20
Глава 4. Метрики 20
Глава 5. Решения задач 22
§5.1. Подготовка категориальных переменных 22
§5.1.1 Понижение размерности 23
§5.2. Рекомендация исполнителя 25
§5.3. Прогнозирование времени исполнения документа 26
Глава 6. Эксперименты 26
§6.1. Прогнозирование времени исполнения документа 26
§6.2. Рекомендация исполнителя 29
§6.2.1 Первый уровень исполнения 31
§6.2.2. Второй уровень исполнения 34
§6.2.3. Третий уровень исполнения 39
Выводы 42
Заключение 42
Список литературы 42
Приложение 46

Система электронного документооборота (СЭД) [1] - это система ав­томатизации процессов работы с документами, поддерживающая основные функции документооборота, такие как: хранение, создание, поиск.
Первые продукты такого рода появились в 80-х годах прошлого века, в виде запасного хранилища бумажных документов.
Позже, была добавлена функциональность для работы с электронными документами, такими как: электронная почта, поручения, документы, изоб­ражения и т.д.
И сегодня современные СЭД стараются идти в ногу со временем, до­бавляя такую функциональность, как извлечение текста из изображений [2] и автоматическая классификация текстовых документов [3].
В представленной дипломной работе предлагается два новых подхода к расширению функциональности СЭД Digital Design [4] Docsvision [5]:
1. Рекомендация исполнителя для задания;
2. Прогнозирование времени, которое потребуется на обработку документа.
Для решения этих задач компания Digital Design предоставила набор документов правительства Мурманской области за два года. На их основе был построен прототип системы обработки документов.
Обзор литературы
Для повышения теоретических знаний в области машинного обучения и информационного поиска, использовалась работа «Введение в информаци­онный поиск» К. Маннинга [6], и в первую очередь глава 14 «Классифика­ция в векторном пространстве» и глава 18 «Разложение матриц и латентно­семантическое индексирование». Для развития практических навыков в обла­сти машинного обучения и анализа данных использовалась книга В. Маккини «Python для анализа данных» [7]. В ней последовательно проиллюстрирова­ны подходы для манипулирования и визуализации данных в python. Богатая коллекция решений классических задач представлена на сайте kagge [8]. В частности, для построения модели регрессии, полезен разбор задачи по про­гнозированию цен за дома [9]. Для ознакомления с алгоритмом Random forest, очень помогла классическая работа Breiman L. «Random forests» [10], а также для понимания того, как считается информативность атрибутов в алгорит­ме использовалась статья Louppe, G. «Understanding variable importances in forests of randomized trees» [11]. В этой статье приводится достаточно подроб­ное описание того, как в случайных лесах выделяются важные атрибуты. В понимании задачи и структуры данных, в предоставленном датасете, значи­тельную роль сыграла документация API Docsvision и интерактивная демон­страция создания документа в системе Docsvision [12]. О борьбе с несбалан­сированностью данных подробно и практично описано в статье «8 методов борьбы с несбалансированностью данных» [13]: в этой статье приводится ме­тодики по уменьшению несбалансированности данных, такие как oversampling (генерирование атрибутов малых классов) и разбиение выборки на сбаланси­рованные подвыборки.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Цель данной работы была в том, чтобы показать, что введение метрик между категориальными переменными и понижение размерности матриц до векторов работает не хуже стандартного подхода One hot encoding. Данная цель была достигнута и более того, данные полученные данные полученные при использовании рассмотренного подхода не только не ухудшают точность, а повышают ее.
Данная система уже реализована в качестве прототипа в компании Digital Design в коммерческой системе документооборота Docsvision. В каче­стве дальнейшего развития прототипа рассматривается использование метода построения полного дерева резолюций и расширение системы рекомендаций исполнителей на любых уровнях исполнения. В конечном итоге, стоит задача перевода прототипа в режим коммерческой эксплуатации в качестве допол­нительного API системы Docsvision.
Реализация поставленных задач может стать объектом магистерской диссертации.


1. DMS Document management system [Интернет ресурс]: URL:en.wikipedia. org/wiki/Document_management_system (date: 18.03.17)
2. Alkhalaf K. S., Almishal A. I., Almahmoud A. O., Alotaibi M. S. OCR-Based Electronic Documentation Management System // International Journal of Innovation, Management and Technology 2014. Vol. 5, No 5. P. 465-469.
3. Floriana Esposito and Stefano F., Teresa M., Nicola D. Machine Learning for Digital Document Processing: from Layout Analysis to Metadata Extraction // Machine Learning in Document Analysis and Recognition 2008.
4. DigitalDesign [Интернет ресурс]: URL:http://digdes.ru/about (дата обра­щения: 18.03.17)
5. Docsvision [Интренет ресурс]: http://www.docsvision.com (дата обраще­ния: 03.05.2017).
6. Manning C. D., Raghavan P. and Schutze H. Introduction to Information Retrieval // Cambridge University Press 2008.
7. Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython (01 November 2012) by Wes McKinney
8. kaggle - Сайт с задачами по машинному обучению [Интернет ресурс]: URL: https://www.kaggle.com
9. - Решение задачи по прогнизированию цен за дома [Интернет ресурс]: https://www.kaggle.com/apapiu/regularized-linear-models
10. Breiman L. Random forests // Machine Learning.4 2001.4 Vol. 45, no. 1.4 Pp. 5Ц32.
11. Louppe, G., Wehenkel, L., Sutera, A., Geurts, P Understanding variable importances in forests of randomized trees // Advances in Neural Information Processing Systems 26. 2013. С. 431-439.
12. Интерактивное демо создания документа в Docsvision [Интренет ресурс]: URL:https://marvelapp.com/35d1ihe/screen/13200295
13. 8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset [Интернет ресурс]: URL:goo.gl/IddLHg
14. UUID description on wiki [Интернет ресурс]: URL:https://en.wikipedia. org/wiki/Universally_unique_identifier (дата обращения: 15.05.2017).
15. Random forest на wikipedia [Интернет ресурс]: URL:https://en. wikipedia.org/wiki/Random_forest (дата обращения: 18.03.17).
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ