Тип работы:
Предмет:
Язык работы:


РАЗРАБОТКА МОДЕЛИ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ СЧЕТОВ-ФАКТУР СПОМОЩЬЮ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ

Работа №183839

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы48
Год сдачи2022
Стоимость4750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
1
Не подходит работа?

Узнай цену на написание


Реферат
ВВЕДЕНИЕ 4
Цели и задачи 5
1.Обзор существующих решений 6
1.1 Rossum AI INVOICE PROCESSING 6
1.2 Microsoft Pre-created invoice handling model 7
1.3 InvoiceNet 8
2. Архитектура модели автоматической обработки счетов-фактур 10
2.1 Данные и их Предобработка 10
2.1.1. Изменение размера изображения 10
2.1.2. Преобразование цветного изображения в оттенки серого 11
2.1.3. Размытие по Гауссу 11
2.1.4. Фильтр Лапласа 12
2.1.5. Поворот изображения 14
2.2. Сегментация изображения 14
2.2.1. Модель на основе YOLOv4-tiny 14
2.2.2. Создание Датасета 19
2.2.3. Функция потерь 21
2.2.4. Тренировка сети 23
2.2.5. Результаты обучения 23
2.3. Извлечение данных 25
2.3.1. Считывание текста с сегментов 25
2.3.2. Модель распознавания языка 25
2.3.2.1. Результаты обучения 29
2.3.3. Извлечение важной информации 30
2.3.3.1. Подготовка данных для обучения 31
2.3.3.2. Обучение 31
3. Реализация 33
3.1. Архитектура приложения 33
3.2. Интерфейс приложения 34
3.3. Формат вывода 35
4. Качественная оценка результатов и сравнение с аналогами 38
ЗАКЛЮЧЕНИЕ 41
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 43


С каждым годом все больше и больше данных, ранее хранившихся и передававшихся в физическом виде, переводятся в электронный формат. Подобное изменение в способе хранения информации позволяет ускорить ее обработку за счет структурирования файлов с данными и упрощенному доступу к ним. Это, в свою очередь, открывает путь к автоматизации процессов обработки определенных видов информации, одним из которых является счет-фактура.
В наше время, каждый день совершаются миллионы торговых операций, каждая из которых влечет за собой составление счета-фактуры. В результате у компаний скапливается большое количество данных, анализ которых позволит получить актуальную информацию о доходах и расходах, выявить тенденции развития и оптимизировать существующую работу предприятий. Однако, ручная обработка счетов-фактур влечет за собой множество проблем, таких как время обработки счетов, ошибки, вызванные человеческим фактором, дополнительные затраты ресурсов и времени, а также, из-за того, что многие компании работают на международный рынок, затруднения в обработке всех счетов одним человеком. Решением проблем, вызванных ручной обработкой счетов-фактур, является создание модели автоматической обработки и извлечения информации.
Благодаря увеличению мощности персональных компьютеров, стало возможным создавать и обучать интеллектуальные системы без дополнительного дорогостоящего оборудования. Как следствие, за последние 10 лет, области искусственного интеллекта и машинного обучения получили получили большое развитие. Множество созданных архитектур и разработанных способов обучения открыли возможность создания автоматизированной модели обработки практически для любой сферы деятельности. Поэтому, с целью ускорения анализа и для исключения человеческого фактора путем минимизации задействования человека в процессе обработки, была поставлена задача разработать методы классификации, анализа и извлечения данных счетов-фактур на основе принципов машинного обучения.
Цели и задачи работы:
Целью данной работы является разработка модели автоматической обработки счетов-фактур для извлечения из них необходимой информации.
Для выполнения цели были поставлены следующие задачи:
- Поиск и анализ существующих методов извлечения информации из счетов-фактур
- Изучение необходимой литературы. Выбор подходящих технологий и инструментов.
- Составление собственной модели обработки счетов-фактур
- Реализация и обучение разработанной модели
- Анализ результатов работы реализованной модели


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В результате проделанной работы была достигнута поставленная цель, а именно, разработана модель для автоматической обработки счетов-фактур на нескольких языках. В результате разработки были выполнены следующие задачи:
- изучены и реализованы методы предобработки изображений
- изучены методы классификации объектов на изображении
- изучена и реализована модель YOLOv4-tiny
- подготовлен датасет из счетов-фактур для обучения модели классификации
- реализованы методы машинного обучения для решения задачи классификации.
- изучен инструмент для оптического распознавания символов Tesseract OCR
- изучены методы векторизации и реализована модель для определения языка документа
- подготовлен датасет из предложений на различных языках для обучения модели определения языка
- реализованы методы машинного обучения для решения задачи определения языка.
- изучены инструменты для извлечения именованных сущностей на нескольких языках
- подготовлен датасет данных, извлеченных из счетов-фактур, для обучения модели извлечения именованных сущностей
- реализовано приложение для взаимодействия с моделью обработки счетов-фактур
- Проведено сравнение результатов разработанной модели с аналогами
Проверка системы на тестовых данных показала, что модель с сегментацией справляется с неоднородными данными лучше, чем основные аналоги, при этом не теряя точности при обработке похожих счетов.



1. “Survey on various noises and techniques for denoising the color image” / Mohd Awais Farooque , Jayant S.Rohankar. -November 2013. 5 стр.
2. “Deep Learning-Based Object Detection Improvement for Tomato Disease” / Yang Zhang, Chenglong Song, Dongwen Zhang. -March 13, 2020. 8 стр.
3. “An Overview of the Tesseract OCR Engine” / Ray Smith. 5 стр.
4. “Recent Trends in Named Entity Recognition” / Arya Roy. -January 25, 2021. 27 стр.
5. “Deep Learning in Neural Networks: An Overview” / Jurgen Schmidhuber. -October 8, 2014. 88 стр.
6. “An Overview of Bag of Words;Importance, Implementation, Applications, and Challenges” / Wisam A. Qader, Musa M.Ameen, Bilal I. Ahmed. -IEC2019, 2019. 200-204 стр.
7. “CloudScan - A configuration-free invoice analysis system using recurrent neural networks” / Rasmus Berg Palm, Ole Winther, Florian Laws. -August 24, 2017. 8 стр.
8. “YOLOv4: Optimal Speed and Accuracy of Object Detection” / Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao. -April 23, 2020. 17 стр.
9. “Real-time object detection method for embedded devices” / Zicong Jiang , Liquan Zhao , Shuaiyang Li, Yanfei Jia. -2021. 11 стр.
10. “Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition” / Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. -April 23, 2015. 14 стр.
11. “YOLOv3: An Incremental Improvement” / Joseph Redmon, Ali Farhadi. -April 8, 2018. 6 стр.
12. “Cross-Iteration Batch Normalization” / Zhuliang Yao, Yue Cao, Shuxin Zheng, Gao Huang, Stephen Lin. -March 25, 2021. 12 стр.
13. “Densely Connected Convolutional Networks” / Gao Huang, Zhuang Liu, Laurens van der Maaten, Kilian Q. Weinberger. -January 28, 2018. 9 стр.
14. “YOLO9000: Better, Faster, Stronger” / Joseph Redmon, Ali Farhadi. -December 25, 2016. 9 стр.



Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ