Тема: Обучение распределенных представлений слов на основе символов
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
2 Постановка задачи 6
3 Обзор литературы 7
3.1 Нейронные сети прямого распространения 7
3.2 Рекуррентные нейронные сети 9
3.3 Проблема уменьшающихся/взрывающихся градиентов 10
3.4 Long short-term memory 10
3.5 Свёрточные сети 12
3.6 Dropout 14
3.7 word2vec 14
3.8 char2vec 16
3.9 Sequence-to-sequence модели 17
4 Основная часть 19
4.1 Общее описание модели 19
4.2 Функция потерь 20
4.3 Метрики качества 21
4.4 Входные данные 23
4.5 Базовая архитектура 24
4.6 Механизм внимания 26
4.6.1 Индивидуальные карты внимания 28
4.6.2 Общие карты внимания 28
4.7 Многослойная рекуррентная архитектура 30
4.8 Расширение представления слова информацией о символах 32
5 Экспериментальная часть 35
5.1 Подготовка данных 35
5.2 Сравнение различных архитектур 36
5.3 Тестирование sequence-to-sequence модели 38
5.4 Визуализации для архитектур с картами внимания 39
5.5 Применение к задаче распознавания именованных сущностей 41
6 Заключение 44
Список литературы 45
📖 Введение
После публикации этой статьи word2vec стал крайне популярным в задачах автоматической обработки естественного языка и остаётся таким по сей день. Но идея, используемая в статье, не была совершенно новой, ещё в 2003 году в статье “A neural probabilistic language model” [2] была представлена похожая модель, однако она уступала как в качестве обучаемых представлений, так и в плане вычислительной эффективности. Так же стоит отметить модели тематического моделирования, например, latent dirichlet allocation [3], главной отличительной чертой которых являлось то, что при обучении в качестве контекста для слова эти модели используют весь документ целиком, а не только небольшое число ближайших соседей.
Большинство популярных методов для обучения представлений слов рассматривают слова атомарно, то есть никак не учитывают информацию ни о символах, образующих слово, ни о морфологии. Например, два слова, различающиеся только окончаниями, будут восприняты моделью как разные слова. Такой подход эффективен с вычислительной точки зрения. Однако в случае с морфологически богатыми языками (к которым, например, относятся многие славянские и романские языки) могут появляться трудности: некоторые формы слов могут ни разу не встретиться даже в очень большой обучающей выборке. Ещё одной, но уже меньшей проблемой такого подхода является неустойчивость к опечаткам.
Самым простым способом решения проблемы с морфологией является приведение всех слов к начальной форме. С таким подходом имеется две проблемы: во-первых, потребуется использовать морфологический анализатор для нормирования слов, во-вторых, в некоторых задачах приведение к начальной форме недопустимо.
Другой подход, набирающий популярность в последние годы — нейронные сети, принимающие в качестве входа слова как последовательность букв. Недостатком такого подхода является необходимость в большем размере обучающей выборки (как правило, размеченной), а так же в больших вычислительных ресурсах.
Отдельно стоит отметить char2vec [4], являющийся обобщением word2vec и тесно связанный с моделями, предложенными в этой работе, но так же имеющий недостатки, описанные в параграфе выше.
✅ Заключение
Планируется продолжить работу над этим проектом, а именно исследовать интерпретируемость прогнозов модели и протестировать её на других морфологически богатых языках.





