Распознавание изображений математических выражений

Содержание

Введение 3
Постановка задачи 4
Обзор литературы и существующих решений 5
Определения, основные понятия и сокращения 7
Глава 1. Методы генерации разметки по изображению 9
1.1. Метрики в задаче генерации разметки 9
1.2. Нейронные сети. CNN, LSTM и Attention 11
1.3. Нейронныесети. CNN, Transformer и Self-Attention 13
Глава 2. Основные компоненты 14
2.1. Трансформер и механизм Self-Attention 14
2.2. Свёрточная нейронная сеть 18
2.3. Трансформер для классификации изображений 20
2.4. Трансформер для OCR 23
Глава 3. Данные 25
3.1. Набор данных и их предобработка 25
3.2. Токенизация 26
Глава 4. Практическая реализация и анализ 27
4.1. Архитектура 27
4.2. Обучение 28
4.2. Ускорение обучения, модификация модели и результаты 30
Заключение 32
Список используемых источников 33

Введение

Множество сфер деятельности человека претерпело упрощение и автоматизацию с развитием информационных технологий. Вычислительные мощности современных аппаратных средств позволяют решать многие задачи, которые долгое время казались неподъёмными.
К примеру, технологии компьютерного зрения позволяют автоматизировать анализ графической информации на изображениях или видео, извлекая ключевую информацию.
Компьютерное зрение находит применение во многих областях. В их число входят промышленность, сельское хозяйство, медицина, умные автомобили. Автоматический контроль качества, анализ медицинских фотоснимков, обнаружение насекомых-вредителей, автоматическое управление автомобилем по сложной городской среде – решение данных задач и многих других затруднительно без компьютерного зрения.
Направлением схожей важности является обработка естественного языка, общими задачами которого являются: распознавание речи, анализ текста, генерирование текста и синтез речи. Задачи часто рассматриваются в комбинации: например, для машинного перевода необходимо анализировать текст на одном языке и генерировать текст на другом.
Наиболее сложными являются проблемы, подразумевающие разрешение обоих задач в совокупности. Одной из таких проблем является восстановление кода на языке разметки LaTeX по заданному изображению математического выражения. Большинство современных подходов для разрешения поставленной задачи применяют алгоритмы машинного обучения. В частности, применяются искусственные нейронные сети.
Постановка задачи
Рассматривается задача восстановления кода разметки на LaTeXпо заданному изображению формулы, воспроизводящего изначальное выражение наиболее точным образом. Формально, необходимо по заданному изображению печатной математической формулы определить последовательность символов, являющуюся, во-первых, корректной с точки зрения языка разметки LaTeXи, во-вторых, доставляющей наибольшую семантическую и визуальную схожесть с формулой на исходном изображении.
Целью данной работы является анализ существующих решений и разработка системы для решения поставленной задачи.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

КУРСОВЫЕ СТАТЬИ ВКР

Заключение

Задача распознавания изображений математических выражений является мультимодальной, что приводит к необходимости применять модели, способные совмещать обработку изображений и текста. Проблемы традиционного свёрточно-рекуррентного подхода ограничивают масштабируемость и эффективность.
Архитектура Transformerявляется гибкой и масштабируемой, что допускает её применение вне рамок задач моделирования естественного языка. Представление входных данных в виде набора токенов с закодированной позиционной информацией позволяет свести задачу обработки изображений к задаче анализа последовательности токенов с помощью кодировщика с Multi-HeadAttention.
Удалось улучшить существующее решение, основанное на данном подходе по двум направлениям: скорости обучения и значения метрики качества. Улучшения были достигнуты за счёт предварительного предобучения свёрточной компоненты в стиле автокодировщика, увеличение размерности пространства эмбеддингов, компиляции графа модели и параллелизации.

Литература

1. PyTorchURL: https://pytorch.org/ (дата обращения: 20.04.24).
2. Eli Stevens, Luca Antiga, and Thomas Viehmann Deep Learning with PyTorch. - Manning Publications, 2020. - 522 с.
3. Natural Language Processing Demystified // NLP Demystified URL: https://www.nlpdemystified.org/
4. Sepp Hochreiter, Jürgen Schmidhuber Long Short-Term Memory // Neural Computation. - 1997. - №8. - С. 1735–1780.
5. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin Attention Is All You Need // arXiv preprint arXiv:1706.03762. – 2017
6. Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale // arXiv preprint arXiv:2010.11929. – 2020
7. Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun Deep Residual Learning for Image Recognition // arXiv preprint arXiv:1512.03385. – 2015
8. Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu, Lijuan Wang GIT: A Generative Image-to-text Transformer for Vision and Language // arXiv preprint arXiv:2205.14100. – 2022
9. Ramakrishna Vedantam, C. Lawrence Zitnick, Devi Parikh CIDEr: Consensus-based Image Description Evaluation // arXiv preprint arXiv:1411.5726. – 2015
10. Minghao Li, Tengchao Lv, Jingye Chen, Lei Cui, Yijuan Lu, Dinei Florencio, Cha Zhang, Zhoujun Li, Furu Wei TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models // arXiv preprint arXiv:2109.10282. – 2021
11. Yuntian Deng, Anssi Kanervisto, Jeffrey Ling, Alexander M. Rush Image-to-Markup Generation with Coarse-to-Fine Attention // arXiv:1609.04938v2. - 2017
12. LaTeX-OCR (pix2tex) // URL: https://github.com/lukas-blecher/LaTeX-OCR/tree/main (дата обращения: 20.04.24).
13. Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu BLEU: a Method for Automatic Evaluation of Machine Translation // Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. - Philadelphia, Pennsylvania, USA: Association for Computational Linguistics, 2002. - С. 311-318

Скриншоты

Введение бакалаврской работы

КУПИТЬ

Работу высылаем на протяжении 30 минут после оплаты.

Подобные работы

Распознавание математических выражений
Дипломные работы, ВКР, информационные системы. Язык работы: Русский. Цена: 4355 р. Год сдачи: 2016
Распознавание рукописных математических выражений с использованием нейронных сетей
Бакалаврская работа, нейронные сети . Язык работы: Русский. Цена: 1500 р. Год сдачи: 2019
Алгоритм извлечения текстовой информации из графических данных
Дипломные работы, ВКР, информационные системы. Язык работы: Русский. Цена: 4290 р. Год сдачи: 2016
Разработка методов распознавания математического текста
Дипломные работы, ВКР, программирование. Язык работы: Русский. Цена: 4550 р. Год сдачи: 2017
РАЗВИТИЕ АВТОМАТИЧЕСКОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ДИКТОРА ПО ГОЛОСУ
Дипломные работы, ВКР, физика. Язык работы: Русский. Цена: 6500 р. Год сдачи: 2019
РАСПОЗНАВАНИЕ ЭМОЦИОНАЛЬНО ОКРАШЕННОЙ МИМИКИ ЧЕЛОВЕЧЕСКОГО ЛИЦА
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 6300 р. Год сдачи: 2018
Система видео- анализа эмоционального состояния студентов и их распределение на протяжении семестра (на примере ИТИС КФУ)
Дипломные работы, ВКР, информационные системы. Язык работы: Русский. Цена: 4300 р. Год сдачи: 2017
Разработка алгоритмов анализа и классификации изображений с применением вейвлет-преобразований
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4325 р. Год сдачи: 2016
Разработка бота для Telegram, решающего математические уравнения
Дипломные работы, ВКР, информационные системы. Язык работы: Русский. Цена: 4345 р. Год сдачи: 2016

Распознавание изображений математических выражений

Тип работы

Бакалаврская работа

Предмет

прикладная информатика

ПУБЛИКУЕТСЯ ВПЕРВЫЕ

Просмотрено

148

Подобные работы

Логин
Пароль


Тип работы:	Предмет:	Язык работы: