Реферат
ВВЕДЕНИЕ 4
Цели и задачи 5
1.Обзор существующих решений 6
1.1 Rossum AI INVOICE PROCESSING 6
1.2 Microsoft Pre-created invoice handling model 7
1.3 InvoiceNet 8
2. Архитектура модели автоматической обработки счетов-фактур 10
2.1 Данные и их Предобработка 10
2.1.1. Изменение размера изображения 10
2.1.2. Преобразование цветного изображения в оттенки серого 11
2.1.3. Размытие по Гауссу 11
2.1.4. Фильтр Лапласа 12
2.1.5. Поворот изображения 14
2.2. Сегментация изображения 14
2.2.1. Модель на основе YOLOv4-tiny 14
2.2.2. Создание Датасета 19
2.2.3. Функция потерь 21
2.2.4. Тренировка сети 23
2.2.5. Результаты обучения 23
2.3. Извлечение данных 25
2.3.1. Считывание текста с сегментов 25
2.3.2. Модель распознавания языка 25
2.3.2.1. Результаты обучения 29
2.3.3. Извлечение важной информации 30
2.3.3.1. Подготовка данных для обучения 31
2.3.3.2. Обучение 31
3. Реализация 33
3.1. Архитектура приложения 33
3.2. Интерфейс приложения 34
3.3. Формат вывода 35
4. Качественная оценка результатов и сравнение с аналогами 38
ЗАКЛЮЧЕНИЕ 41
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 43
С каждым годом все больше и больше данных, ранее хранившихся и передававшихся в физическом виде, переводятся в электронный формат. Подобное изменение в способе хранения информации позволяет ускорить ее обработку за счет структурирования файлов с данными и упрощенному доступу к ним. Это, в свою очередь, открывает путь к автоматизации процессов обработки определенных видов информации, одним из которых является счет-фактура.
В наше время, каждый день совершаются миллионы торговых операций, каждая из которых влечет за собой составление счета-фактуры. В результате у компаний скапливается большое количество данных, анализ которых позволит получить актуальную информацию о доходах и расходах, выявить тенденции развития и оптимизировать существующую работу предприятий. Однако, ручная обработка счетов-фактур влечет за собой множество проблем, таких как время обработки счетов, ошибки, вызванные человеческим фактором, дополнительные затраты ресурсов и времени, а также, из-за того, что многие компании работают на международный рынок, затруднения в обработке всех счетов одним человеком. Решением проблем, вызванных ручной обработкой счетов-фактур, является создание модели автоматической обработки и извлечения информации.
Благодаря увеличению мощности персональных компьютеров, стало возможным создавать и обучать интеллектуальные системы без дополнительного дорогостоящего оборудования. Как следствие, за последние 10 лет, области искусственного интеллекта и машинного обучения получили получили большое развитие. Множество созданных архитектур и разработанных способов обучения открыли возможность создания автоматизированной модели обработки практически для любой сферы деятельности. Поэтому, с целью ускорения анализа и для исключения человеческого фактора путем минимизации задействования человека в процессе обработки, была поставлена задача разработать методы классификации, анализа и извлечения данных счетов-фактур на основе принципов машинного обучения.
Цели и задачи работы:
Целью данной работы является разработка модели автоматической обработки счетов-фактур для извлечения из них необходимой информации.
Для выполнения цели были поставлены следующие задачи:
- Поиск и анализ существующих методов извлечения информации из счетов-фактур
- Изучение необходимой литературы. Выбор подходящих технологий и инструментов.
- Составление собственной модели обработки счетов-фактур
- Реализация и обучение разработанной модели
- Анализ результатов работы реализованной модели
В результате проделанной работы была достигнута поставленная цель, а именно, разработана модель для автоматической обработки счетов-фактур на нескольких языках. В результате разработки были выполнены следующие задачи:
- изучены и реализованы методы предобработки изображений
- изучены методы классификации объектов на изображении
- изучена и реализована модель YOLOv4-tiny
- подготовлен датасет из счетов-фактур для обучения модели классификации
- реализованы методы машинного обучения для решения задачи классификации.
- изучен инструмент для оптического распознавания символов Tesseract OCR
- изучены методы векторизации и реализована модель для определения языка документа
- подготовлен датасет из предложений на различных языках для обучения модели определения языка
- реализованы методы машинного обучения для решения задачи определения языка.
- изучены инструменты для извлечения именованных сущностей на нескольких языках
- подготовлен датасет данных, извлеченных из счетов-фактур, для обучения модели извлечения именованных сущностей
- реализовано приложение для взаимодействия с моделью обработки счетов-фактур
- Проведено сравнение результатов разработанной модели с аналогами
Проверка системы на тестовых данных показала, что модель с сегментацией справляется с неоднородными данными лучше, чем основные аналоги, при этом не теряя точности при обработке похожих счетов.