📄Работа №150250

Тема: Распознавание изображений математических выражений

📝
Тип работы Бакалаврская работа
📚
Предмет прикладная информатика
📄
Объем: 36 листов
📅
Год: 2024
👁️
Просмотров: 223
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

Введение 3
Постановка задачи 4
Обзор литературы и существующих решений 5
Определения, основные понятия и сокращения 7
Глава 1. Методы генерации разметки по изображению 9
1.1. Метрики в задаче генерации разметки 9
1.2. Нейронные сети. CNN, LSTM и Attention 11
1.3. Нейронныесети. CNN, Transformer и Self-Attention 13
Глава 2. Основные компоненты 14
2.1. Трансформер и механизм Self-Attention 14
2.2. Свёрточная нейронная сеть 18
2.3. Трансформер для классификации изображений 20
2.4. Трансформер для OCR 23
Глава 3. Данные 25
3.1. Набор данных и их предобработка 25
3.2. Токенизация 26
Глава 4. Практическая реализация и анализ 27
4.1. Архитектура 27
4.2. Обучение 28
4.2. Ускорение обучения, модификация модели и результаты 30
Заключение 32
Список используемых источников 33


📖 Введение

Множество сфер деятельности человека претерпело упрощение и автоматизацию с развитием информационных технологий. Вычислительные мощности современных аппаратных средств позволяют решать многие задачи, которые долгое время казались неподъёмными.
К примеру, технологии компьютерного зрения позволяют автоматизировать анализ графической информации на изображениях или видео, извлекая ключевую информацию.
Компьютерное зрение находит применение во многих областях. В их число входят промышленность, сельское хозяйство, медицина, умные автомобили. Автоматический контроль качества, анализ медицинских фотоснимков, обнаружение насекомых-вредителей, автоматическое управление автомобилем по сложной городской среде – решение данных задач и многих других затруднительно без компьютерного зрения.
Направлением схожей важности является обработка естественного языка, общими задачами которого являются: распознавание речи, анализ текста, генерирование текста и синтез речи. Задачи часто рассматриваются в комбинации: например, для машинного перевода необходимо анализировать текст на одном языке и генерировать текст на другом.
Наиболее сложными являются проблемы, подразумевающие разрешение обоих задач в совокупности. Одной из таких проблем является восстановление кода на языке разметки LaTeX по заданному изображению математического выражения. Большинство современных подходов для разрешения поставленной задачи применяют алгоритмы машинного обучения. В частности, применяются искусственные нейронные сети.
Постановка задачи
Рассматривается задача восстановления кода разметки на LaTeXпо заданному изображению формулы, воспроизводящего изначальное выражение наиболее точным образом. Формально, необходимо по заданному изображению печатной математической формулы определить последовательность символов, являющуюся, во-первых, корректной с точки зрения языка разметки LaTeXи, во-вторых, доставляющей наибольшую семантическую и визуальную схожесть с формулой на исходном изображении.
Целью данной работы является анализ существующих решений и разработка системы для решения поставленной задачи.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

Задача распознавания изображений математических выражений является мультимодальной, что приводит к необходимости применять модели, способные совмещать обработку изображений и текста. Проблемы традиционного свёрточно-рекуррентного подхода ограничивают масштабируемость и эффективность.
Архитектура Transformerявляется гибкой и масштабируемой, что допускает её применение вне рамок задач моделирования естественного языка. Представление входных данных в виде набора токенов с закодированной позиционной информацией позволяет свести задачу обработки изображений к задаче анализа последовательности токенов с помощью кодировщика с Multi-HeadAttention.
Удалось улучшить существующее решение, основанное на данном подходе по двум направлениям: скорости обучения и значения метрики качества. Улучшения были достигнуты за счёт предварительного предобучения свёрточной компоненты в стиле автокодировщика, увеличение размерности пространства эмбеддингов, компиляции графа модели и параллелизации.

Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

1. PyTorchURL: https://pytorch.org/ (дата обращения: 20.04.24).
2. Eli Stevens, Luca Antiga, and Thomas Viehmann Deep Learning with PyTorch. - Manning Publications, 2020. - 522 с.
3. Natural Language Processing Demystified // NLP Demystified URL: https://www.nlpdemystified.org/
4. Sepp Hochreiter, Jürgen Schmidhuber Long Short-Term Memory // Neural Computation. - 1997. - №8. - С. 1735–1780.
5. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin Attention Is All You Need // arXiv preprint arXiv:1706.03762. – 2017
6. Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale // arXiv preprint arXiv:2010.11929. – 2020
7. Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun Deep Residual Learning for Image Recognition // arXiv preprint arXiv:1512.03385. – 2015
8. Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu, Lijuan Wang GIT: A Generative Image-to-text Transformer for Vision and Language // arXiv preprint arXiv:2205.14100. – 2022
9. Ramakrishna Vedantam, C. Lawrence Zitnick, Devi Parikh CIDEr: Consensus-based Image Description Evaluation // arXiv preprint arXiv:1411.5726. – 2015
10. Minghao Li, Tengchao Lv, Jingye Chen, Lei Cui, Yijuan Lu, Dinei Florencio, Cha Zhang, Zhoujun Li, Furu Wei TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models // arXiv preprint arXiv:2109.10282. – 2021
11. Yuntian Deng, Anssi Kanervisto, Jeffrey Ling, Alexander M. Rush Image-to-Markup Generation with Coarse-to-Fine Attention // arXiv:1609.04938v2. - 2017
12. LaTeX-OCR (pix2tex) // URL: https://github.com/lukas-blecher/LaTeX-OCR/tree/main (дата обращения: 20.04.24).
13. Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu BLEU: a Method for Automatic Evaluation of Machine Translation // Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. - Philadelphia, Pennsylvania, USA: Association for Computational Linguistics, 2002. - С. 311-318

🖼 Скриншоты

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.

©2026 Cервис помощи студентам в выполнении работ