Введение 3
Постановка задачи 4
Обзор литературы и существующих решений 5
Определения, основные понятия и сокращения 7
Глава 1. Методы генерации разметки по изображению 9
1.1. Метрики в задаче генерации разметки 9
1.2. Нейронные сети. CNN, LSTM и Attention 11
1.3. Нейронныесети. CNN, Transformer и Self-Attention 13
Глава 2. Основные компоненты 14
2.1. Трансформер и механизм Self-Attention 14
2.2. Свёрточная нейронная сеть 18
2.3. Трансформер для классификации изображений 20
2.4. Трансформер для OCR 23
Глава 3. Данные 25
3.1. Набор данных и их предобработка 25
3.2. Токенизация 26
Глава 4. Практическая реализация и анализ 27
4.1. Архитектура 27
4.2. Обучение 28
4.2. Ускорение обучения, модификация модели и результаты 30
Заключение 32
Список используемых источников 33
Множество сфер деятельности человека претерпело упрощение и автоматизацию с развитием информационных технологий. Вычислительные мощности современных аппаратных средств позволяют решать многие задачи, которые долгое время казались неподъёмными.
К примеру, технологии компьютерного зрения позволяют автоматизировать анализ графической информации на изображениях или видео, извлекая ключевую информацию.
Компьютерное зрение находит применение во многих областях. В их число входят промышленность, сельское хозяйство, медицина, умные автомобили. Автоматический контроль качества, анализ медицинских фотоснимков, обнаружение насекомых-вредителей, автоматическое управление автомобилем по сложной городской среде – решение данных задач и многих других затруднительно без компьютерного зрения.
Направлением схожей важности является обработка естественного языка, общими задачами которого являются: распознавание речи, анализ текста, генерирование текста и синтез речи. Задачи часто рассматриваются в комбинации: например, для машинного перевода необходимо анализировать текст на одном языке и генерировать текст на другом.
Наиболее сложными являются проблемы, подразумевающие разрешение обоих задач в совокупности. Одной из таких проблем является восстановление кода на языке разметки LaTeX по заданному изображению математического выражения. Большинство современных подходов для разрешения поставленной задачи применяют алгоритмы машинного обучения. В частности, применяются искусственные нейронные сети.
Постановка задачи
Рассматривается задача восстановления кода разметки на LaTeXпо заданному изображению формулы, воспроизводящего изначальное выражение наиболее точным образом. Формально, необходимо по заданному изображению печатной математической формулы определить последовательность символов, являющуюся, во-первых, корректной с точки зрения языка разметки LaTeXи, во-вторых, доставляющей наибольшую семантическую и визуальную схожесть с формулой на исходном изображении.
Целью данной работы является анализ существующих решений и разработка системы для решения поставленной задачи.
Задача распознавания изображений математических выражений является мультимодальной, что приводит к необходимости применять модели, способные совмещать обработку изображений и текста. Проблемы традиционного свёрточно-рекуррентного подхода ограничивают масштабируемость и эффективность.
Архитектура Transformerявляется гибкой и масштабируемой, что допускает её применение вне рамок задач моделирования естественного языка. Представление входных данных в виде набора токенов с закодированной позиционной информацией позволяет свести задачу обработки изображений к задаче анализа последовательности токенов с помощью кодировщика с Multi-HeadAttention.
Удалось улучшить существующее решение, основанное на данном подходе по двум направлениям: скорости обучения и значения метрики качества. Улучшения были достигнуты за счёт предварительного предобучения свёрточной компоненты в стиле автокодировщика, увеличение размерности пространства эмбеддингов, компиляции графа модели и параллелизации.