Тип работы:
Предмет:
Язык работы:


Распознавание изображений математических выражений

Работа №150250

Тип работы

Бакалаврская работа

Предмет

прикладная информатика

Объем работы36
Год сдачи2024
Стоимость3800 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
8
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 4
Обзор литературы и существующих решений 5
Определения, основные понятия и сокращения 7
Глава 1. Методы генерации разметки по изображению 9
1.1. Метрики в задаче генерации разметки 9
1.2. Нейронные сети. CNN, LSTM и Attention 11
1.3. Нейронныесети. CNN, Transformer и Self-Attention 13
Глава 2. Основные компоненты 14
2.1. Трансформер и механизм Self-Attention 14
2.2. Свёрточная нейронная сеть 18
2.3. Трансформер для классификации изображений 20
2.4. Трансформер для OCR 23
Глава 3. Данные 25
3.1. Набор данных и их предобработка 25
3.2. Токенизация 26
Глава 4. Практическая реализация и анализ 27
4.1. Архитектура 27
4.2. Обучение 28
4.2. Ускорение обучения, модификация модели и результаты 30
Заключение 32
Список используемых источников 33



Множество сфер деятельности человека претерпело упрощение и автоматизацию с развитием информационных технологий. Вычислительные мощности современных аппаратных средств позволяют решать многие задачи, которые долгое время казались неподъёмными.
К примеру, технологии компьютерного зрения позволяют автоматизировать анализ графической информации на изображениях или видео, извлекая ключевую информацию.
Компьютерное зрение находит применение во многих областях. В их число входят промышленность, сельское хозяйство, медицина, умные автомобили. Автоматический контроль качества, анализ медицинских фотоснимков, обнаружение насекомых-вредителей, автоматическое управление автомобилем по сложной городской среде – решение данных задач и многих других затруднительно без компьютерного зрения.
Направлением схожей важности является обработка естественного языка, общими задачами которого являются: распознавание речи, анализ текста, генерирование текста и синтез речи. Задачи часто рассматриваются в комбинации: например, для машинного перевода необходимо анализировать текст на одном языке и генерировать текст на другом.
Наиболее сложными являются проблемы, подразумевающие разрешение обоих задач в совокупности. Одной из таких проблем является восстановление кода на языке разметки LaTeX по заданному изображению математического выражения. Большинство современных подходов для разрешения поставленной задачи применяют алгоритмы машинного обучения. В частности, применяются искусственные нейронные сети.
Постановка задачи
Рассматривается задача восстановления кода разметки на LaTeXпо заданному изображению формулы, воспроизводящего изначальное выражение наиболее точным образом. Формально, необходимо по заданному изображению печатной математической формулы определить последовательность символов, являющуюся, во-первых, корректной с точки зрения языка разметки LaTeXи, во-вторых, доставляющей наибольшую семантическую и визуальную схожесть с формулой на исходном изображении.
Целью данной работы является анализ существующих решений и разработка системы для решения поставленной задачи.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Задача распознавания изображений математических выражений является мультимодальной, что приводит к необходимости применять модели, способные совмещать обработку изображений и текста. Проблемы традиционного свёрточно-рекуррентного подхода ограничивают масштабируемость и эффективность.
Архитектура Transformerявляется гибкой и масштабируемой, что допускает её применение вне рамок задач моделирования естественного языка. Представление входных данных в виде набора токенов с закодированной позиционной информацией позволяет свести задачу обработки изображений к задаче анализа последовательности токенов с помощью кодировщика с Multi-HeadAttention.
Удалось улучшить существующее решение, основанное на данном подходе по двум направлениям: скорости обучения и значения метрики качества. Улучшения были достигнуты за счёт предварительного предобучения свёрточной компоненты в стиле автокодировщика, увеличение размерности пространства эмбеддингов, компиляции графа модели и параллелизации.



1. PyTorchURL: https://pytorch.org/ (дата обращения: 20.04.24).
2. Eli Stevens, Luca Antiga, and Thomas Viehmann Deep Learning with PyTorch. - Manning Publications, 2020. - 522 с.
3. Natural Language Processing Demystified // NLP Demystified URL: https://www.nlpdemystified.org/
4. Sepp Hochreiter, Jürgen Schmidhuber Long Short-Term Memory // Neural Computation. - 1997. - №8. - С. 1735–1780.
5. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin Attention Is All You Need // arXiv preprint arXiv:1706.03762. – 2017
6. Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale // arXiv preprint arXiv:2010.11929. – 2020
7. Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun Deep Residual Learning for Image Recognition // arXiv preprint arXiv:1512.03385. – 2015
8. Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu, Lijuan Wang GIT: A Generative Image-to-text Transformer for Vision and Language // arXiv preprint arXiv:2205.14100. – 2022
9. Ramakrishna Vedantam, C. Lawrence Zitnick, Devi Parikh CIDEr: Consensus-based Image Description Evaluation // arXiv preprint arXiv:1411.5726. – 2015
10. Minghao Li, Tengchao Lv, Jingye Chen, Lei Cui, Yijuan Lu, Dinei Florencio, Cha Zhang, Zhoujun Li, Furu Wei TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models // arXiv preprint arXiv:2109.10282. – 2021
11. Yuntian Deng, Anssi Kanervisto, Jeffrey Ling, Alexander M. Rush Image-to-Markup Generation with Coarse-to-Fine Attention // arXiv:1609.04938v2. - 2017
12. LaTeX-OCR (pix2tex) // URL: https://github.com/lukas-blecher/LaTeX-OCR/tree/main (дата обращения: 20.04.24).
13. Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu BLEU: a Method for Automatic Evaluation of Machine Translation // Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. - Philadelphia, Pennsylvania, USA: Association for Computational Linguistics, 2002. - С. 311-318



Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ