Тип работы:
Предмет:
Язык работы:


РАЗРАБОТКА УСЛОВНОЙ ГЕНЕРАТИВНО-СОСТЯЗАТЕЛЬНОЙ НЕЙРОННОЙ СЕТИ

Работа №32572

Тип работы

Дипломные работы, ВКР

Предмет

информационные системы

Объем работы62
Год сдачи2019
Стоимость0 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
140
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 4
1. Введение в генеративно-состязательные нейронные сети 6
1.1. Генеративно-состязательный подход 6
1.2. Добавление условий 7
1.3. Добавление свёрточной архитектуры 9
1.4. Улучшение стандартного подхода 10
1.4.1. Использование метрики Васерштейна 10
1.4.2. Прогрессивно растущая генеративно-состязательная
сеть 12
1.5. Генерация звуковых сигналов 16
1.6. Генерация звуковых сигналов с приминением
прогрессивно растущей генеративно-состязательной сети 18
1.7. Методы оценивания качества генерации 18
2. Реализация генеративно-состязательной нейронной сети для
генерации звуков 22
2.1. Данные 22
2.2. Средства разработки 23
2.3. Характеристики вычислительного устройства 23
2.4. Архитектура нейронных сетей 23
3. Эксперименты 27
3.1. Описание процесса обучения нейронных сетей 27
3.2. Вариант с дополнительной задачей классификации 27
3.3. Вариант с построением отображений 30
3.4. Результаты генерации 33
ЗАКЛЮЧЕНИЕ 36
СПИСОК ЛИТЕРАТУРЫ 37
ПРИЛОЖЕНИЕ

Генеративно-состязательные нейронные сети - подход из области машинного обучения, позволяющий генерировать данные, которые были бы похожими на данные из какой-либо обучающей выборки. С момента появления в работе [1] данный подход приковывает к себе большое количество внимания среди исследователей. Причина популярности этого метода, в первую очередь, связана с тем, что идея генеративно-состязательного подхода достаточно проста как для понимания, так и для реализации, однако, одновременно с этим данный метод также показывает хорошие результаты в генерации данных. В качестве примера работы таких сетей можно обозначить следующие результаты: генерация реалистичных фотографий, генерация видео, рисунков, звуков, 3-х мерных моделей или же генерация текстов и описаний. Однако, генеративно-состязательные сети также имеют ряд проблем, препятствующих успешному обучению, например: нестабильность процесса обучения, медленная сходимость, а также проблема “схлопывания мод”. Различные техники, применённые при обучении, позволяют снизить негативный эффект от таких проблем, хотя вопрос в поиске решений лучших техник всё ещё остаётся открытым.
В данной работе речь пойдёт про применение генеративно-состязательных нейронных сетей в задаче генерации звука. В частности, будет описан случай так называемой условной генерации, то есть случай, когда становится возможным генерировать данные, которые удовлетворяли бы каким-либо условиям. Также, в случае генерации звука, к перечисленным проблемам обучения генеративно-состязательных сетей добавляется проблема поиска представления звука, которое бы способствовало повышению качества генерации.
Цель данной работы - разработать генеративно-состязательную нейронную сеть, которая по заранее заданным условиям могла бы генерировать звуковые сигналы.
Задачи работы:
1. Изучить литературу по генеративно-состязательным нейронным сетям.
2. Изучить существующие методы условной генерации (метод добавления условий через задачу классификации [2], а также метод с применением дополнительных отображений [3]).
3. Изучить модификации генеративно-состязательных нейронных сетей (использование метрики Васерштейна [4], использование прогрессивно растущей архитектуры [5]).
4. Реализовать метод, способный к условной генерации звукового контента, из статьи [6] на языке программирования Python с использованием библиотеки машинного обучения PyTorch.
5. Скачать и подготовить данные с музыкальными инструментами для обучения нейронных сетей.
6. Обучить реализованные генеративно-состязательные нейронные сети для генерации реалистичного звукового контента.
7. Провести исследование влияния архитектуры на качество результатов. 


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В данной работе была реализована генеративно-состязательная нейронная сеть, а также рассмотрена возможность её применения для задачи условной генерации звука. После обучения генеративно-состязательной нейронной сети, полученная нейронная сеть генератора способна создавать реалистичное звучание музыкальных инструментов, при этом имеется возможность управлять генерацией с помощью указания дополнительных условий генератору, например: указание условия ноты, условия октавы, условия семейства инструмента и условия источника звука. По сравнению с работой [6], в которой рассматривалась такая же задача, здесь была опробована модификация условной генерации по методу из статьи [3]. Данная модификация позволила гибче влиять на процесс условной генерации, благодаря чему стало возможным смешивание условий для генерации, получая тем самым переходное звучание инструментов между условиями. Также как и в [6] была обучена нейронная сеть с условной генерацией сделанной по методу [8], такая нейронная сеть показала лучшие в данной работе результаты метрик FID и IS. Однако такая архитектура нейронной сети, в отличие от варианта архитектуры с условной генерацией по методу из статьи [3], не позволяет также гибко управлять процессом условной генирации.
Поставленную цель работы можно считать выполненной, также были выполнены все поставленные задачи в данной работе. Однако полученное качество генерации всё ещё не доходит до качества реальных данных (если принять во внимание метрики FID и IS). Для повышения значений метрик FID и IS возможно использование других архитектур нейронных сетей, изменение процесса обучения или же модернизация самого подхода к решению задачи генерации.
Таким образом, по данной теме возможны дальнейшие исследования с целью создания новых и более совершенных методов генерации данных.


1. Generative Adversarial Nets [Текст] / Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza [и др.] // Advances in Neural Information Processing Systems 27 / — [Под ред. Z. Ghahramani, M. Welling, C. Cortes [и др.]]: Curran Associates, Inc., 2014. —С. 2672-2680.
2. Improved Techniques for Training GANs [Текст] / Tim Salimans, Ian Goodfellow, Wojciech Zaremba [и др.] // Advances in Neural Information Processing Systems 29 / — [Под ред. D. D. Lee, M. Sugiyama, U. V. Luxburg [и др.]] : Curran Associates, Inc., 2016. — С. 2234-2242.
3. Miyato, Takeru. cGANs with projection discriminator [Текст] / Takeru Miyato, Masanori Koyama // arXiv preprint arXiv:1802.05637. — 2018.
4. Arjovsky, Martin. Wasserstein gan [Текст] / Martin Arjovsky, Soumith Chintala, Leon Bottou // arXiv preprint arXiv:1701.07875. — 2017.
5. Progressive growing of gans for improved quality, stability, and variation [Текст] / Tero Karras, Timo Aila, Samuli Laine, Jaakko Lehtinen // arXiv preprint arXiv:1710.10196. — 2017.
6. Gansynth: Adversarial neural audio synthesis [Текст] / Jesse Engel, Kumar Krishna Agrawal, Shuo Chen [и др.] // arXiv preprint arXiv:1902.08710. —
2019.
7. Mirza, Mehdi. Conditional generative adversarial nets [Текст] / Mehdi Mirza, Simon Osindero // arXiv preprint arXiv:1411.1784. — 2014.
8. Odena, Augustus. Conditional Image Synthesis with Auxiliary Classifier GANs [Текст] / Augustus Odena, Christopher Olah, Jonathon Shlens // Proceedings of the 34th International Conference on Machine Learning / Под ред. Doina Precup, Yee Whye Teh. — Т. 70 из Proceedings of Machine Learning
Research. — International Convention Centre, Sydney, Australia : PMLR, 2017. — 06-11 Aug. — С. 2642-2651.
9. Ioffe, Sergey. Batch normalization: Accelerating deep network training by reducing internal covariate shift [Текст] / Sergey Ioffe, Christian Szegedy // arXiv preprint arXiv:1502.03167. — 2015.
10. Radford, Alec. Unsupervised representation learning with deep convolutional generative adversarial networks [Текст] / Alec Radford, Luke Metz, Soumith Chintala// arXiv preprint arXiv:1511.06434. — 2015.
11. Donahue, Chris. Adversarial audio synthesis [Текст] / Chris Donahue, Julian McAuley, Miller Puckette // arXiv preprint arXiv:1802.04208. — 2018.
12. Improved Training of Wasserstein GANs [Текст] / Ishaan Gulrajani, Faruk Ahmed, Martin Arjovsky [и др.] // Advances in Neural Information Processing Systems 30 /— [Под ред. I. Guyon, U. V. Luxburg, S. Bengio [и др.]] : Curran Associates, Inc., 2017. — С. 5767-5777.
13. Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders [Текст] / Jesse Engel, Cinjon Resnick, Adam Roberts [и др.] // Proceedings of the 34th International Conference on Machine Learning / Под ред. Doina Precup, Yee Whye Teh. — Т 70 из Proceedings of Machine Learning Research. — International Convention Centre, Sydney, Australia : PMLR, 2017. — 06-11 Aug. — С. 1068-1077.
14. GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium [Текст] / Martin Heusel, Hubert Ramsauer, Thomas Unterthiner [и др.] // Advances in Neural Information Processing Systems 30 /— [Под ред. I. Guyon, U. V Luxburg, S. Bengio [и др.]] : Curran Associates, Inc., 2017. —
С. 6626-6637.
15. Rethinking the Inception Architecture for Computer Vision [Текст] /
C. Szegedy, V. Vanhoucke, S. Ioffe [и др.] // — 2016 IEEE Conference on
Computer Vision and Pattern Recognition (CVPR), 2016. — June. — С. 28182826.
16. ImageNet Large Scale Visual Recognition Challenge [Текст] / Olga Russakovsky, Jia Deng, Hao Su [и др.] // International Journal of Computer Vision. — 2015. —Dec. — Т 115, № 3. — С. 211-252.
17. Empirical evaluation of rectified activations in convolutional network [Текст] / Bing Xu, Naiyan Wang, Tianqi Chen, Mu Li // arXiv preprint arXiv:1505.00853. — 2015.
18. Kingma, Diederik P. Adam: A method for stochastic optimization [Текст] / Diederik P Kingma, Jimmy Ba // arXiv preprint arXiv:1412.6980. — 2014.
19. Schorkhuber, Christian. Constant-Q transform toolbox for music processing [Текст] / Christian Schorkhuber, Anssi Klapuri // — 7th Sound and Music Computing Conference, Barcelona, Spain, 2010. — С. 3-64.


Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ