1. Введение 1
История нейросетевого машинного перевода 1
Задача нейросетевого машинного перевода 1
Использование методов оптимизации в задачах машинного обучения .... 2
Цель работы 2
2. Обзор литературы 5
Архитектура Трансформер 5
Методы оптимизации 5
Связанные статьи 10
3. Эксперименты 13
Датасеты 13
Зависимость оптимальных гиперпараметров от размера датасета 15
Зависимость оптимальных гиперпараметров от языковой пары 20
4. Заключение 25
Литература
История нейросетевого машинного перевода
Ранее для решения задачи машинного перевода применялись иерархический и фразовый подходы. Но в последние годы они были вытеснены нейросетевым машинным переводом [1].
Развитие и внедрение нейросетей в системы машинного перевода начало происходить в 2014 году [2]. Первые успешные попытки применения нейросетевых моделей к задаче машинного перевода были основаны на использовании рекуррентных нейронных сетей. Позднее появились разнообразные техники по улучшению качества перевода. Важным прорывом в этой области стало появление механизма attention [2,3]. А в 2017 году появилась ещё более мощная модель для машинного перевода - Трансформер [4]. Эта модель не содержит ни рекуррентных, ни свёрточных слоёв, используя вместо них только полносвязные слои и механизмы attention и self-attention. Применение Трансформера позволило значительно повысить точность нейросетевого машинного перевода.
Задача нейросетевого машинного перевода
Все нейросетевые модели для машинного перевода состоят из двух частей: энкодера и декодера. Энкодер переводит токены на исходном языке в латентное векторное пространство. Декодер преобразует эти векторы в текст на целевом языке. Модель генерирует вероятностное распределение токенов на целевом языке при условии предложения на исходном языке и всех предыдущих токенов на целевом языке.
Были получены следующие итоговые выводы:
1. В большинстве случаев Adam с warm-up с оптимальными параметрами работает лучше чем RAdam. Это особенно заметно для языков, наиболее сильно отличающихся друг от друга (русский и английский). Но при этом значение s нужно тщательно подбирать, так как, например, на датасетах ООН использование стандартных значений параметра приводит к гораздо худшему результату чем RAdam. Из этого следует, что для получения относительно высоких результатов в случае отсутствия возможности подбирать гиперпараметры стоит использовать RAdam со стандартными настройками. Если же даже незначительная потеря качества критична, то нужно аккуратно перебрать гиперпараметры Adam.
2. SGD позволяет добиваться весьма высокого BLEU, но для его сходимости требуется большее число итераций чем для других методов.
3. На датасетах ООН оптимальный learning rate практически не зависит от языковой пары.
4. Использование Lookahead всегда делает метод более устойчивым, а для относительно близких друг к другу языков ещё и значительно повышает BLEU на валидации. Однако, стоит помнить, что использование Lookahead замедляет итерацию метода, что может быть критично для обучения тяжеловесных конфигураций Трансформера. Поэтому если даже небольшое ухудшение качества является критичным, то стоит использовать Lookahead; иначе - Adam или RAdam.
5. Оптимальные значения а для Lookahead-like алгоритмов не зависят от размера датасета и языковой пары.
В результате работы:
1. Написана библиотека на Tensorflow 2.0 + Keras для проведения экспериментов
над архитектурой Трансформер с любыми методами оптимизации;
2. Проведено исследование зависимости поведения методов оптимизации от размера датасета и от выбора языковой пары;
3. Был выработан ряд общих рекомендаций по подбору алгоритма оптимизации.