Тип работы:
Предмет:
Язык работы:


Исследование методов оптимизации для обучения нейросетей на основе архитектуры Трансформер в задаче машинного перевода

Работа №71418

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы34
Год сдачи2020
Стоимость4750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
42
Не подходит работа?

Узнай цену на написание


1. Введение 1
История нейросетевого машинного перевода 1
Задача нейросетевого машинного перевода 1
Использование методов оптимизации в задачах машинного обучения .... 2
Цель работы 2
2. Обзор литературы 5
Архитектура Трансформер 5
Методы оптимизации 5
Связанные статьи 10
3. Эксперименты 13
Датасеты 13
Зависимость оптимальных гиперпараметров от размера датасета 15
Зависимость оптимальных гиперпараметров от языковой пары 20
4. Заключение 25
Литература

История нейросетевого машинного перевода
Ранее для решения задачи машинного перевода применялись иерархический и фразовый подходы. Но в последние годы они были вытеснены нейросетевым машинным переводом [1].
Развитие и внедрение нейросетей в системы машинного перевода начало происходить в 2014 году [2]. Первые успешные попытки применения нейросетевых моделей к задаче машинного перевода были основаны на использовании рекуррентных нейронных сетей. Позднее появились разнообразные техники по улучшению качества перевода. Важным прорывом в этой области стало появление механизма attention [2,3]. А в 2017 году появилась ещё более мощная модель для машинного перевода - Трансформер [4]. Эта модель не содержит ни рекуррентных, ни свёрточных слоёв, используя вместо них только полносвязные слои и механизмы attention и self-attention. Применение Трансформера позволило значительно повысить точность нейросетевого машинного перевода.
Задача нейросетевого машинного перевода
Все нейросетевые модели для машинного перевода состоят из двух частей: энкодера и декодера. Энкодер переводит токены на исходном языке в латентное векторное пространство. Декодер преобразует эти векторы в текст на целевом языке. Модель генерирует вероятностное распределение токенов на целевом языке при условии предложения на исходном языке и всех предыдущих токенов на целевом языке.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Были получены следующие итоговые выводы:
1. В большинстве случаев Adam с warm-up с оптимальными параметрами работает лучше чем RAdam. Это особенно заметно для языков, наиболее сильно отличающихся друг от друга (русский и английский). Но при этом значение s нужно тщательно подбирать, так как, например, на датасетах ООН использование стандартных значений параметра приводит к гораздо худшему результату чем RAdam. Из этого следует, что для получения относительно высоких результатов в случае отсутствия возможности подбирать гиперпараметры стоит использовать RAdam со стандартными настройками. Если же даже незначительная потеря качества критична, то нужно аккуратно перебрать гиперпараметры Adam.
2. SGD позволяет добиваться весьма высокого BLEU, но для его сходимости требуется большее число итераций чем для других методов.
3. На датасетах ООН оптимальный learning rate практически не зависит от языковой пары.
4. Использование Lookahead всегда делает метод более устойчивым, а для относительно близких друг к другу языков ещё и значительно повышает BLEU на валидации. Однако, стоит помнить, что использование Lookahead замедляет итерацию метода, что может быть критично для обучения тяжеловесных конфигураций Трансформера. Поэтому если даже небольшое ухудшение качества является критичным, то стоит использовать Lookahead; иначе - Adam или RAdam.
5. Оптимальные значения а для Lookahead-like алгоритмов не зависят от размера датасета и языковой пары.
В результате работы:
1. Написана библиотека на Tensorflow 2.0 + Keras для проведения экспериментов
над архитектурой Трансформер с любыми методами оптимизации;
2. Проведено исследование зависимости поведения методов оптимизации от размера датасета и от выбора языковой пары;
3. Был выработан ряд общих рекомендаций по подбору алгоритма оптимизации.



[1] Н. Setiawan et al., “Phrase-Based Statistical Machine Translation^ Level of Detail Approach”. Natural Language Processing - IJCNLP 2005
[2] D. Bahdanau, K. Cho, Y. Bengio, “Neural Machine Translation by Jointly Learning to Align and Translate”. arXiv:1409.0473
[3] M. Luong, H. Pham, C. D. Manning, “Effective Approaches to Attention-based Neural Machine Translation”. arXiv: 1508.04025
[4] A. Vaswani, “Attention Is All You Need”. arXiv: 1706.03762
[5] M. Popel, O. Bojar, “Training Tips for the Transformer Model”. arXiv:1804.00247
[6] E. Bugliarello, N. Okazaki, “Improving Neural Machine Translation with Parent- Scaled Self-Attention”. arXiv: 1909.03149
[7] T. Dozat, “Incorporating nesterov momentum into adam”. 2016.
[8] L. Liu et al., “On the Variance of the Adaptive Learning Rate and Beyond”. arXiv: 1908.03265
[9] A. Gotmare et al., “A Closer Look at Deep Learning Heuristics: Learning rate restarts, Warmup and Distillation”. arXiv:1810.13243
[10] J.Duchi, E.Hazan, Y.Singer, “Adaptive Subgradient Methods forOnline Learning and Stochastic Optimization”. Journal of Machine Learning Research 12 (2011) 2121-2159
[11] M.D. Zeiler, “ADADELTA: An Adaptive Learning Rate Method”. arXiv: 1212.5701
[12] D. P. Kingma, J. Ba, “Adam: A Method for Stochastic Optimization”. arXiv: 1412.6980
[13] J. Dennis, J. More. Quasi-Newton Methods, Motivation and Theory. SIAM Review, Societyfor Industrial and Applied Mathematics, 1977, 19 (1), pp.46-89. 10.1137/1019005. hal-01495720
[14] J. Zhang et al., Why ADAM Beats SGD for Attention Models, arXiv:1912.03194
ЛИТЕРАТУРА
[15] М. R. Zhang et al., Lookahead Optimizer: к steps forward, 1 step back, arXiv: 1907.08610
[16] J. Ma, D. Yarats, On the adequacy of untuned warmup for adaptive optimization, arXiv: 1910.04209
[17] J. Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv: 1810.04805


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ