Тип работы:
Предмет:
Язык работы:


Методика автоматизации анализа непоследовательных данных

Работа №115531

Тип работы

Магистерская диссертация

Предмет

информационные системы

Объем работы100
Год сдачи2020
Стоимость5450 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
32
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 4
Глава 1 ПРОБЛЕМЫ ОБУЧЕНИЯ НА НЕПОСЛЕДОВАТЕЛЬНЫХ ДАННЫХ 9
1.1 Анализ данных в виде множеств 10
1.2 Непоследовательные данные в задачах прогнозирования 12
1.3 Кодировка данных 14
1.4 Выделение образцовых подмножеств 15
1.5 Сети указателей и глубокие множества 17
1.6 Обучение на графах 18
1.7 Передача сообщений по нейросети 20
1.8 Алгоритмы SchNet 21
1.9 Использование графонов 23
1.10 Определение повторяющихся подграфов 24
Глава 2 Выборка подмножеств 26
2.1 Определение последовательной модели 26
2.2 Алгоритм последовательного выбора 29
2.3 Определение нелинейной модели 30
2.4 Генерация данных 32
2.5 Проведенные эксперименты 35
2.6 Результаты экспериментов 38
Глава 3 Вариативный автокодировщик с использованием графона 46
3.1 Определение модели 46
3.2 Проведенные эксперименты 52
3.3 Результаты экспериментов 55
Глава 4 Иерархический кодировщик графов 64
4.1 Интеллектуальный анализ подграфов 64
4.2 Алгоритм сегментации 65
4.3 Определение модели 69
4.4 Проведенные эксперименты 73
4.5 Результаты экспериментов 76
Глава 5 Методика внедрения работы с непоследовательными данными в системы erp 82
5.1 Особенности применения машинного обучения в ERP 82
5.2 Общая методика внедрения на примере SAP ERP 85
5.3 Работа с множествами для моделей SAP Leonardo 87
5.4 Добавление иерархичности для моделей SAP Leonardo 88
ЗАКЛЮЧЕНИЕ 92
Список используемой литературы и используемых источников 94

В существующих информационных системах накоплено огромное количество различных данных, хранящихся в виде баз данных, файлов, архивов, озер данных. При решении бизнес-задач для анализа большей части этих данных существуют и, во многих случаях, успешно применяются методы машинного обучения и интеллектуального анализа.
Однако, на низком уровне существенная часть данных хранится в неудобном для использования обычных способов машинного обучения виде - как множества и графы. Примерами могут быть любые данные хранимые в графовых базах данных, озерах данных.
Для из таких данных получения новой, полезной информации пока не было разработано эффективных, широко применимых методов и алгоритмов. Для достижения результатов при работе с непоследовательными данными, сравнимых с результатами работы с обычными последовательными данными требуется совершенствование уже существующих методов и разработка новых.
Решение этой задачи позволит получить до этого не достижимые результаты путем эффективной работы со сложными для анализа данными, что поможет эффективнее решать существующие бизнес-задачи.
Научной проблемой данного исследования является отсутствие или низкая эффективность методов и алгоритмов машинного обучения на непоследовательных данных. Эту проблему можно разделить на несколько частей:
• сложность решения задач прогнозирования, классификации, кластеризации на данных, хранимых в виде не упорядоченных множеств;
• отсутствие эффективных алгоритмов автокодировки данных в виде графов;
• сложность автоматического анализа данных в виде графов.
Для решения описанной выше проблемы требуется усовершенствовать уже имеющиеся методы работы с непоследовательными данными путем комбинирования существующих методов с новыми более эффективными подходами.
Цель исследования может быть сформулирована как: «разработать и внедрить в существующую информационную систему методику, позволяющую производить кодировку данных в виде множеств со скоростью близкой к О (п) и уверенно выявлять высокоуровневые подграфы».
Объект исследования: анализ данных.
Предмет исследования: методика автоматизации анализа данных.
Гипотеза исследования: применение разработанной в рамках диссертационного исследования методики автоматизации позволит решать, до этого не решаемые задачи информационных систем, путем применения машинного обучения на непоследовательных данных.
Цель исследования будет достигнута, если:
• адаптировать методы глубоких множеств для работы с непоследовательными данными;
• использовать вариативный подход при автокодировке графов;
• внедрить иерархичность в модель, обучаемую на графах.
Задачами исследования являются:
• провести анализ существующих методов машинного обучения на непоследовательных данных для выявления путей их дальнейшего совершенствования;
• экспериментально проверить эффективность применения методов приведения множеств к массивам;
• найти наиболее оптимальные архитектуры нейронных сетей для решения поставленных задач;
• проверить применимость методов глубоких множеств для выборки несходных подмножеств;
• разработать автокодировщик данных в виде графов;
• проверить эффективность применения иерархичного подхода для модели прогнозирования свойств данных в виде графов;
• разработать методику внедрения результатов проведенной работы в существующие информационные системы.
Наличие в существующих информационных системах большого количества накопленных данных в виде графов и неупорядоченных множеств на данный момент не ставится под сомнение. Также не ставится под сомнение сложность получения потенциально достижимой ценности для бизнеса из таких данных [7, 35].
При анализе современных международных источников по применению нейронных сетей и моделей машинного обучения видно, что уже совершались попытки расширения методов обучения на применение к непоследовательным данным [3, 19, 22].
Однако, результаты применения предложенных методов и алгоритмов оказались не удовлетворительными или применимыми только к узкому набору данных.
Самым развитым, на данный момент, направлением применения нейронных сетей к данным в виде графов и множеств является прогнозирование молекулярных свойств в химических информационных системах [17, 22, 40].
Используя описанные в данных работах наборы данных и методы обучения, можно проверить выдвигаемые в данной работе гипотезы.
Современными направлениями в развитии машинного обучения, потенциально применимыми для решения задач этой работы, являются глубокое обучение, графоны, рекуррентные нейронные сети [54], вариативные автокодировщики [2] и другие, использованные в данных направлениях методы.
Описание методологического аппарата исследования
В ходе работы использовались:
• анализ и синтез существующих методов и алгоритмов;
• сравнение архитектур обучаемых моделей;
• проведение экспериментов по обучению различных моделей;
• модели теории графов и динамического программирования.
Описание основных результатов исследования и результатов его апробации.
Исследование можно разделить следующие этапы:
1) анализ существующих подходов, потенциально применимых для решения задач исследования;
2) проведение экспериментов по использованию теории глубокого обучения для выборки несходных подмножеств;
3) создание модели вариативной автокодировки графов и анализ показателей эффективности этой модели;
4) проведение экспериментов для оценки применимости иерархического подхода обучении на графах.
Обоснование научной новизны, теоретической и практической значимости результатов исследования
В ходе работы были улучшены и дополнены методы автокодировки данных в виде графов.
Была экспериментально доказана низкая, вопреки данным нескольких существующих источников, эффективность применения глубоких множеств для работы с непоследовательными данными при различных архитектурах нейронных сетей.
В первые был применен иерархических подход для кодировки графов, добавивший новые свойства существующим моделям и позволяющий существенно ускорить работу некоторых существующих архитектур моделей. Были показаны направления дальнейшего исследования применения моделей с иерархической кодировкой.
В результате работы был расширен горизонт применения машинного обучения применительно к анализу накопленных в информационных системах данных.
Теоретическая значимость исследования выражается во вкладе исследования в информатику путем расширения знаний о машинном обучении применительно к информационным системам.
Практическая значимость исследования выражается в разработанной методике внедрения полученных знаний в существующие информационные системы. Данная методика может быть применена для получения, до этого недостижимых, результатов в виде добавления возможности эффективной работы с непоследовательными данными.
Положения, выносимые на защиту:
1) Методика внедрения работы с непоследовательными данными в информационные системы;
2) Иерархичная модель кодировки данных в виде графов;
3) Модель вариативной автокодировки с помощью графона.
Диссертационное исследование состоит из введения, 5 глав, заключения и библиографии.
Работа изложена на 97 страницах, содержит 11 рисунков, 8 таблиц.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной работе была рассмотрена методика машинного обучения на двух нестандартных типах данных. Во второй главе описана новая методика выделения образцовых несходных подмножеств с использованием системы инвариативных перестановочных множеств, и сравнение ее с более простыми подходами без обязательной перестановочной вариативности. Результаты показывают, что предложенный метод смог воспроизвести существующий алгоритм с большей целостностью. Это является важным шагом на пути к аппроксимированию детерминантных точечных процессов и других несходных множеств.
Во третьей главе был представлен новый подход для декодирования сильно структурированных графов и было показано внедрение этого подхода в вариативную автокодирующую модель на примере наборов данных из химической отрасли. Результаты показали, что подход имеет существенные недостатки и требуется внесение изменений для создания эффективного и точного декодировщика графов.
В четвертой главе, была предложена новая система кодировки для графов, использующая иерархию компонентов для сбора информации на нескольких уровнях. Была проведена апробация этого метода на небольших молекулах, и установлено что предложенный подход может ускорить процесс обучения для современных моделей и добавить больше возможностей для более простых моделей.
В пятой главе описаны особенности внедрения достижений машинного обучения в информационные системы, в частности, в системы ERP. Методика внедрения работы с непоследовательными данными показана на примере ERP системы «SAP S/4HANA».
В направлении работы с непоследовательными данными все еще существует большое количество не решенных задач. Задача выбора подмножеств пока не решена, и требуется больше усилий чтобы лучше понять как различные подходы, основанные, например, на сетях указателей и глубоких множествах, соотносятся между собой.
Задача автокодировки для разреженных структурированных графов пока до конца не решена. Были разработаны некоторые методы, работающие только с деревьями [33], но не существует методов, способных сгенерировать новые образцовые графы с приемлемой, для сильно структурированных данных, точностью. Кроме того, большинство методов кодировки графов не могут передать зависимости между большими компонентами графов, и фокусируются на передаче взаимосвязей низкого уровня. Предложенная в данной работе методика позволяет выявить и использовать взаимосвязи на высоком уровне. Однако, для того чтобы оценить весь спектр применений этого подхода требуется его дальнейшее изучение.


1. Martin Abadi, Ashish Agarwal, Paul Barham, Eugene Brevdo, Zhifeng Chen, Craig Citro, Greg S. Corrado, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Ian Goodfellow, Andrew Harp, Geoffrey Irving, Michael Isard, Yangqing Jia, Rafal Jozefowicz, Lukasz Kaiser, Manjunath Kudlur, Josh Levenberg, Dandelion Mane, Rajat Monga, Sherry Moore, Derek Murray, Chris Olah, Mike Schuster, Jonathon Shlens, Benoit Steiner, Ilya Sutskever, Kunal Talwar, Paul Tucker, Vincent Vanhoucke, Vijay Vasudevan, Fernanda Viegas, Oriol Vinyals, Pete Warden, Martin Wattenberg, Martin Wicke, Yuan Yu, Xiaoqiang Zheng: TensorFlow: Large-scale machine learning on heterogeneous systems. 2015. URL: https://arxiv.org/abs/1603.04467
2. Graphvae: Towards generation of small graphs using variational autoencoders. 2018. URL: https://arxiv.org/abs/1802.03480
3. Циликов Н. С., Федосин С. А. Графовые нейронные сети. 2012. URL: https://cyberleninka.ru/article/n/grafovye-neyronnye-seti
4. Peter Atkins, Loretta Jones. Chemical principles: The quest for insight. Macmillan, 2007.
5. Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473, 2014.
6. Yoshua Bengio, Aaron Courville, Pascal Vincent. Representation learning: A review and new perspectives. 2013. URL: https: //arxiv.org/abs/1206.5538
7. Тиханычев О. В. Об информационном обеспечении поддержки принятия решений. 2018. URL: https://cyberleninka.ru/article/n/ob-informatsionnom-obespechenii-podderzhki-prinyatiya-resheniy
8. N. Buchbinder, M. Feldman, J. Naor, R. Schwartz. A tight linear time (1/2)- approximation for unconstrained submodular maximization. С. 649-658. 2012. URL: https://theory.epfl.ch/moranfe/Publications/FOCS2012.pdf
9. Jan K Chorowski, Dzmitry Bahdanau, Dmitriy Serdyuk, Kyunghyun Cho, Yoshua Bengio. Attention-based models for speech recognition. С. 577-585. 2015. URL: https://arxiv.org/abs/1506.07503
10. Junyoung Chung, Caglar Gulcehre, KyungHyun Cho, Yoshua Bengio. Empirical evaluation of gated recurrent neural networks on sequence modeling. arXiv preprint arXiv: 1412.3555, 2014.
11. Петров А. Б. Корпоративные информационные системы: проблемы и перспективы. 2019. URL: https://cyberleninka.ru/article/n/korporativnye-informatsionnye-sistemy-problemy-i-perspektivy
12. Aron J Cohen, Paula Mori-Sanchez, Weitao Yang. Insights into current limitations of density functional theory. Science. C. 792-794, 2008.
13. Неделько В.М. Основы статистических методов машинного обучения. Новосибирский Государственный Технический Университет. 2010.
14. Joseph L Durant, Burton A Leland, Douglas R Henry, James G Nourse. Reoptimization of mdl keys for use in drug discovery. Journal of chemical information and computer sciences. 2002.
15. FA Faber, L Hutchison, B Huang, J Gilmer, SS Schoenholz, GE Dahl, O Vinyals, S Kearnes, PF Riley, O Anatole von Lilienfeld. Machine learning prediction errors better than dft accuracy. ArXiv170205532 Phys, 2017.
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ