Тема: Распознавание изображений математических выражений
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 4
Обзор литературы и существующих решений 5
Определения, основные понятия и сокращения 7
Глава 1. Методы генерации разметки по изображению 9
1.1. Метрики в задаче генерации разметки 9
1.2. Нейронные сети. CNN, LSTM и Attention 11
1.3. Нейронныесети. CNN, Transformer и Self-Attention 13
Глава 2. Основные компоненты 14
2.1. Трансформер и механизм Self-Attention 14
2.2. Свёрточная нейронная сеть 18
2.3. Трансформер для классификации изображений 20
2.4. Трансформер для OCR 23
Глава 3. Данные 25
3.1. Набор данных и их предобработка 25
3.2. Токенизация 26
Глава 4. Практическая реализация и анализ 27
4.1. Архитектура 27
4.2. Обучение 28
4.2. Ускорение обучения, модификация модели и результаты 30
Заключение 32
Список используемых источников 33
📖 Введение
К примеру, технологии компьютерного зрения позволяют автоматизировать анализ графической информации на изображениях или видео, извлекая ключевую информацию.
Компьютерное зрение находит применение во многих областях. В их число входят промышленность, сельское хозяйство, медицина, умные автомобили. Автоматический контроль качества, анализ медицинских фотоснимков, обнаружение насекомых-вредителей, автоматическое управление автомобилем по сложной городской среде – решение данных задач и многих других затруднительно без компьютерного зрения.
Направлением схожей важности является обработка естественного языка, общими задачами которого являются: распознавание речи, анализ текста, генерирование текста и синтез речи. Задачи часто рассматриваются в комбинации: например, для машинного перевода необходимо анализировать текст на одном языке и генерировать текст на другом.
Наиболее сложными являются проблемы, подразумевающие разрешение обоих задач в совокупности. Одной из таких проблем является восстановление кода на языке разметки LaTeX по заданному изображению математического выражения. Большинство современных подходов для разрешения поставленной задачи применяют алгоритмы машинного обучения. В частности, применяются искусственные нейронные сети.
Постановка задачи
Рассматривается задача восстановления кода разметки на LaTeXпо заданному изображению формулы, воспроизводящего изначальное выражение наиболее точным образом. Формально, необходимо по заданному изображению печатной математической формулы определить последовательность символов, являющуюся, во-первых, корректной с точки зрения языка разметки LaTeXи, во-вторых, доставляющей наибольшую семантическую и визуальную схожесть с формулой на исходном изображении.
Целью данной работы является анализ существующих решений и разработка системы для решения поставленной задачи.
✅ Заключение
Архитектура Transformerявляется гибкой и масштабируемой, что допускает её применение вне рамок задач моделирования естественного языка. Представление входных данных в виде набора токенов с закодированной позиционной информацией позволяет свести задачу обработки изображений к задаче анализа последовательности токенов с помощью кодировщика с Multi-HeadAttention.
Удалось улучшить существующее решение, основанное на данном подходе по двум направлениям: скорости обучения и значения метрики качества. Улучшения были достигнуты за счёт предварительного предобучения свёрточной компоненты в стиле автокодировщика, увеличение размерности пространства эмбеддингов, компиляции графа модели и параллелизации.





