📄Работа №190908

Тема: Разработка сервиса распознавания структуры PDF-документов

📝

Тип работы Дипломные работы, ВКР

📚

Предмет Информатика и вычислительная техника

📄

Объем: 34 листов

📅

Год: 2021

👁️

4340 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить

📋 Содержание

Аннотация 2
ВВЕДЕНИЕ 5
1 Постановка задачи 7
1.1 Проблематика 7
1.2 Классификация 8
2 Модели обучения и обработки 9
2.1 Обучение 9
2.2 Обработка 10
3 Автоматизация процесса получения входных данных 12
3.1 Преобразование в PDF-файл 12
3.2 Классификация и получение CSV-файла 15
4 Нейронная сеть 19
4.1 Загрузка данных 19
4.2 Препроцессинг 20
4.3 Обучение, тестирование модели и поиск подходящей конфигурации .. 24
5 Docker 29
ЗАКЛЮЧЕНИЕ 32
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 33

📖 Введение

Знание структуры текста в документе помогает определять информацию, которую возможно из него получить. Например, оглавление даёт информацию о том, где в документе находится нужная тема, номер страницы - расположение фрагмента текста в документе, абзац - информацию о том, что конкретный фрагмент текста имеет единую смысловую нагрузку. Подобная информация позволяет, например, расставлять интонации при прочтении в слух, восстанавливать последовательность текста при нарушении структуры документа. В этом случае наиболее очевидно использовать оптическую обработку данных.
Если предположить, что необходимо провести массовую обработку PDF-документов или подготовить текст из таких документов к использованию в программе электронного чтеца, то в первом случае оптическая обработка текста проблематична из-за количества расходуемого ресурса и высокой вероятности возникновения ошибок, а во втором случае просто невозможна, так как текст изначально поставляется в программу в электронном виде.
Решение этой проблемы - разработка алгоритма классификации символов в тексте. Информация о принадлежности символов к тем или иным классам практически равноценна той, которую можно получить с использованием оптической обработки текста.
Признак, по которому можно отнести символы в PDF-документах к их классам - это положение символа на странице (координаты символа в документе по осям x и у), и наиболее очевидным решением поставленной математической задачи классификации является использование нейронной сети, поэтому в рамках данной работы было решено провести построение и обучение нейронной сети, создать на основе её модели сервис, производящий обработку PDF-документов. Задачи данной работы:
1. Автоматизировать получение обучающих данных с помощью издательской системы TeX;
2. С помощью TensorFlow для Python построить нейронную сеть, анализирующую посимвольно содержимое PDF-документов;
3. Создать Docker-контейнер для облака сервиса books.luwrain.org.

✅ Заключение

В результате проделанной работы выполнены все поставленные задачи:
1. Автоматизирован процесс получения обучающих данных с помощью издательской системы TeX;
2. На основе библиотеки TensorFlow для Python получена модель нейронной сети с полносвязными слоями, способная распознавать символы PDF-документов с заданным процентом ошибок;
3. Разработан Docker-контейнер, содержащий полученную модель нейронной сети.
Дальнейшая работа с полученной моделью нейронной сети зависит от классификации символов, которая в свою очередь зависит от структуры обрабатываемых PDF-документов, в результате чего придётся менять структуру методов обработки символов разработанных утилит. Однако полученные исходники, модели обработки и обучения и классификация символов являются рабочим прототипами и удобным «каркасом» для дальнейшего расширения, и вся дальнейшая разработка зависит от структуры обрабатываемых PDF-документов, что не входило в изначальные задачи работы.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1 Apache PDFBox® - A Java PDF Library // Apache PDFBox. - [S. 1.], 2021. - URL: https://pdfbox.apache.org/ (access date: 14.05.2021).
2 [Tensorflow 2.0] Load CSV to tensorflow // Medium. - [S. 1.], 2021. -
URL: https://financial-engineering.medium.com/tensorflow-2-0-load-csv-to-
tensorflow-2634f7089651 (access date: 14.05.2021).
3 Введение в тензоры // TensorFlow. - [Б. м.], 2021. - URL:
https://www.tensorflow.org/guide/tensor (дата обращения: 15.05.2021).
4 DataFrame // pandas documentation. - [S. 1.], 2021. - URL:
https://pandas.pydata.org/pandas-docs/stable/reference/frame.html (access date: 15.05.2021).
5 Функции активации нейросети: сигмоида, линейная, ступенчатая, ReLu, tahn // Neurohive. - [Б. м.], 2021. - URL: https://neurohive.io/ru/osnovy- data-science/activation-functions/ (дата обращения: 16.05.2021).
6 Нейронная сеть с использованием TensorFlow: классификация изображений // Хабр. - [Б. м.], 2021. - URL: https://habr.com/ru/post/426797/ (дата обращения: 16.05.2021).
7 Сохранение и загрузка моделей Keras // TensorFlow. - [Б. м.], 2021. -
URL: https: //www.tensorflow.org/guide/keras/save_and_serialize (дата
обращения: 17.05.2021).
8 Загрузить данные CSV // TensorFlow. - [Б. м.], 2021. - URL:
https://www.tensorflow.org/tutorials/load_data/csv (дата обращения: 24.04.2021).
9 Java Platform, Standard Edition Documentation // Oracle Help Center. -
[S. 1.], 2021. - URL: https://docs.oracle.com/en/java/javase/index.html (access
date: 18.05.2021).

🖼 Скриншоты

Содержание выпускной квалификационной работы

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (210364)

Статьи

»» Все статьи

Вход в личный кабинет