📄Работа №125772

Тема: Предсказание атрибутов документов в системе документооборота

📝

Тип работы Бакалаврская работа

📚

Предмет Программирование

📄

Объем: 56 листов

📅

Год: 2017

👁️

4600 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 4
Обзор литературы 4
Постановка задачи 6
Глава 1. Обзор Docsvision 6
Глава 2. Загрузка данных 8
§2.1. Данные из document.json 9
§2.2. Данные из resolution.json 10
Глава 3. Описание алгоритмов машинного обучения используемых в работе 14
§3.1. Random forest 14
§3.1.1 Выделение важных атрибутов 14
§3.2. Stochastic gradient descent 15
§3.3. Линейная регрессия 16
§3.3. Word2vec 16
§3.4. LabelEncoding 17
§3.5. One Hot Encoding 17
§3.6. Алгоритмы понижения размерности 18
§3.6.1 PCA 18
§3.6.2 MDS 19
§3.6.3 TSNE 19
§3.7 Random oversampling 20
Глава 4. Метрики 20
Глава 5. Решения задач 22
§5.1. Подготовка категориальных переменных 22
§5.1.1 Понижение размерности 23
§5.2. Рекомендация исполнителя 25
§5.3. Прогнозирование времени исполнения документа 26
Глава 6. Эксперименты 26
§6.1. Прогнозирование времени исполнения документа 26
§6.2. Рекомендация исполнителя 29
§6.2.1 Первый уровень исполнения 31
§6.2.2. Второй уровень исполнения 34
§6.2.3. Третий уровень исполнения 39
Выводы 42
Заключение 42
Список литературы 42
Приложение 46

📖 Введение

Система электронного документооборота (СЭД) [1] - это система автоматизации процессов работы с документами, поддерживающая основные функции документооборота, такие как: хранение, создание, поиск.
Первые продукты такого рода появились в 80-х годах прошлого века, в виде запасного хранилища бумажных документов.
Позже, была добавлена функциональность для работы с электронными документами, такими как: электронная почта, поручения, документы, изображения и т.д.
И сегодня современные СЭД стараются идти в ногу со временем, добавляя такую функциональность, как извлечение текста из изображений [2] и автоматическая классификация текстовых документов [3].
В представленной дипломной работе предлагается два новых подхода к расширению функциональности СЭД Digital Design [4] Docsvision [5]:
1. Рекомендация исполнителя для задания;
2. Прогнозирование времени, которое потребуется на обработку документа.
Для решения этих задач компания Digital Design предоставила набор документов правительства Мурманской области за два года. На их основе был построен прототип системы обработки документов.
Обзор литературы
Для повышения теоретических знаний в области машинного обучения и информационного поиска, использовалась работа «Введение в информационный поиск» К. Маннинга [6], и в первую очередь глава 14 «Классификация в векторном пространстве» и глава 18 «Разложение матриц и латентносемантическое индексирование». Для развития практических навыков в области машинного обучения и анализа данных использовалась книга В. Маккини «Python для анализа данных» [7]. В ней последовательно проиллюстрированы подходы для манипулирования и визуализации данных в python. Богатая коллекция решений классических задач представлена на сайте kagge [8]. В частности, для построения модели регрессии, полезен разбор задачи по прогнозированию цен за дома [9]. Для ознакомления с алгоритмом Random forest, очень помогла классическая работа Breiman L. «Random forests» [10], а также для понимания того, как считается информативность атрибутов в алгоритме использовалась статья Louppe, G. «Understanding variable importances in forests of randomized trees» [11]. В этой статье приводится достаточно подробное описание того, как в случайных лесах выделяются важные атрибуты. В понимании задачи и структуры данных, в предоставленном датасете, значительную роль сыграла документация API Docsvision и интерактивная демонстрация создания документа в системе Docsvision [12]. О борьбе с несбалансированностью данных подробно и практично описано в статье «8 методов борьбы с несбалансированностью данных» [13]: в этой статье приводится методики по уменьшению несбалансированности данных, такие как oversampling (генерирование атрибутов малых классов) и разбиение выборки на сбалансированные подвыборки.

✅ Заключение

Цель данной работы была в том, чтобы показать, что введение метрик между категориальными переменными и понижение размерности матриц до векторов работает не хуже стандартного подхода One hot encoding. Данная цель была достигнута и более того, данные полученные данные полученные при использовании рассмотренного подхода не только не ухудшают точность, а повышают ее.
Данная система уже реализована в качестве прототипа в компании Digital Design в коммерческой системе документооборота Docsvision. В качестве дальнейшего развития прототипа рассматривается использование метода построения полного дерева резолюций и расширение системы рекомендаций исполнителей на любых уровнях исполнения. В конечном итоге, стоит задача перевода прототипа в режим коммерческой эксплуатации в качестве дополнительного API системы Docsvision.
Реализация поставленных задач может стать объектом магистерской диссертации.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. DMS Document management system [Интернет ресурс]: URL:en.wikipedia. org/wiki/Document_management_system (date: 18.03.17)
2. Alkhalaf K. S., Almishal A. I., Almahmoud A. O., Alotaibi M. S. OCR-Based Electronic Documentation Management System // International Journal of Innovation, Management and Technology 2014. Vol. 5, No 5. P. 465-469.
3. Floriana Esposito and Stefano F., Teresa M., Nicola D. Machine Learning for Digital Document Processing: from Layout Analysis to Metadata Extraction // Machine Learning in Document Analysis and Recognition 2008.
4. DigitalDesign [Интернет ресурс]: URL:http://digdes.ru/about (дата обращения: 18.03.17)
5. Docsvision [Интренет ресурс]: http://www.docsvision.com (дата обращения: 03.05.2017).
6. Manning C. D., Raghavan P. and Schutze H. Introduction to Information Retrieval // Cambridge University Press 2008.
7. Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython (01 November 2012) by Wes McKinney
8. kaggle - Сайт с задачами по машинному обучению [Интернет ресурс]: URL: https://www.kaggle.com
9. - Решение задачи по прогнизированию цен за дома [Интернет ресурс]: https://www.kaggle.com/apapiu/regularized-linear-models
10. Breiman L. Random forests // Machine Learning.4 2001.4 Vol. 45, no. 1.4 Pp. 5Ц32.
11. Louppe, G., Wehenkel, L., Sutera, A., Geurts, P Understanding variable importances in forests of randomized trees // Advances in Neural Information Processing Systems 26. 2013. С. 431-439.
12. Интерактивное демо создания документа в Docsvision [Интренет ресурс]: URL:https://marvelapp.com/35d1ihe/screen/13200295
13. 8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset [Интернет ресурс]: URL:goo.gl/IddLHg
14. UUID description on wiki [Интернет ресурс]: URL:https://en.wikipedia. org/wiki/Universally_unique_identifier (дата обращения: 15.05.2017).
15. Random forest на wikipedia [Интернет ресурс]: URL:https://en. wikipedia.org/wiki/Random_forest (дата обращения: 18.03.17).
...

🖼 Скриншоты

Фрагмент содержания с началом введения

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (210037)

Статьи

»» Все статьи

Вход в личный кабинет