Тип работы:
Предмет:
Язык работы:


СЕМАНТИЧЕСКИЙ АНАЛИЗАТОР ТЕКСТОВОЙ ИНФОРМАЦИИ

Работа №159732

Тип работы

Магистерская диссертация

Предмет

информатика

Объем работы82
Год сдачи2022
Стоимость4830 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
21
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 5
1 Анализ предметной области для решения поставленной задачи 7
1.1 Постановка задачи 7
1.2 Актуальность применения средств семантического анализа 7
1.3 Обзор программ автоматической обработки текста 8
1.3.1 Семантические вопросно-ответные поисковые системы AskNet 8
1.3.2 Комплекс программ для синтаксического и морфологического
анализа Russian Context Optimizer 9
1.3.3 Программа синтаксического анализа предложений Link Grammar
Parser for Russian 10
1.3.4 Программа построения семантической сети TextAnalyst 2.0 11
1.4 Определение архитектуры приложения 12
1.5 Выбор языка программирования и среды разработки 15
1.6 Выбор средства оптического распознавания символов 16
1.7 Выводы 16
2 Разработка приложения 20
2.1 Разработка алгоритма семантического анализа 22
2.1.1 Токенизация 22
2.1.2 Морфологический разбор 26
2.2 Разработка визуального представления семантического дерева 29
2.3 Разработка модели семантического дерева 35
2.4 Выводы 35
3 Описание работы приложения 38
3.1 Руководство пользователя 38
3.1.1 Назначение «Семантический анализатор» 38
3.1.2 Условия выполнения «Семантический анализатор» 38
3.1.3 Состав «Семантический анализатор» 38
3.1.4 Подготовка к работе 38
3.1.5 Описание работы с программой «Семантический анализатор» 39
3.2 Тестирование приложения 52
3.2.1 Текст на русском языке 53
3.2.2 Отсутствие словаря 54
3.2.3 Изображение не содержит текста 55
3.2.4 Текст на другом языке 56
3.3 Выводы 52
ЗАКЛЮЧЕНИЕ 58
СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ 59
ПРИЛОЖЕНИЕ A Листинг программы 60
Файл «DrawingObject.cs» 60
Файл «MainWindow.cs» 71
ПРИЛОЖЕНИЕ B Презентация

В начале развития сети Интернет данные во всемирной паутине представляли из себя, в основном, текстовую информацию, которая легко поддаётся интерпретации машиной, например, с целью создания поисковых систем.
Однако, по мере процесса совершенствования протоколов передачи данных, а также аппаратных и программных средств их реализации, стало возможно массово использовать не только текстовую, но и графическую информацию. Особенно широкое распространение последняя получила с появлением в сети Интернет большого числа социальных сетей и мессенджеров, где люди активно взаимодействуют друг с другом с использованием различного рода мультимедиаконтента.
Таким образом, для формирования, поисковых, экспертных систем, баз данных и аналитических алгоритмов встал вопрос распознавания и анализа информации в графических файлах.
На данный момент в этой области существуют два основных направления: распознавание образов в графической информации, и распознавание символов в графической информации.
Для решения проблем во втором направлении, а именно оптическое распознавания символов (OCR, Optical character recognition) в настоящее время создано множество библиотек для различных сред программирования. Наиболее известными среди них являются Tesseract, Google Text Recognition API, Anyline. Все они обладают рядом ограничений и недостатков, основным из которых является низкая точность считывания рукописного текста. Поэтому создание новых систем обработки графической информации является важной проблемой для развития современных информационных технологий.
Другим важным вопросом остаются алгоритмы автоматического анализа, осуществляющие такие функции, как фильтрация, классификация и верификация контента в сети Интернет. В настоящее время существует достаточно много программных средств, предназначенных для семантического анализа текста, таких как система AskNet, Russian Text Optimizer, Ontos и другие. Данные системы не предназначены для семантического анализа текстовой информации в графическом виде, поэтому разработка средства семантического анализа информации, представленной в текстовом виде, является актуальной и важной задачей, позволяющей повысить эффективность алгоритмов анализа интернет-контента.
Разработанное в данной работе приложение предназначено выполнять следующие задачи: считывание текста с графических изображений, формирование семантической модели, представление её в виде графа и дерева и сохранение семантической сети в формат XML.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках данной выпускной квалификационной работы было разработано приложение для семантического анализа текстовой информации, представленной в графической форме.
В основу механизма семантического анализа были положены алгоритмы токенизации и морфологического разбора. Приложение обладает простым и интуитивно понятным пользовательским интерфейсом и реализовывает функционал загрузки, проверки, представления и сохранения модели семантического графа.
Разработка осуществлялась с использованием среды Visual Studio 2019 и языка C#.
Таким образом, можно сказать, что приложение соответствует поставленным целям.
Научная ценность заключается в перспективе внедрения алгоритмов семантического анализа в средства определения неоригинального или потенциально опасного контента с целью его фильтрации или удаления. В дальнейшем приложение можно улучшить, добавив поддержку большего числа языков, автоматического исправления ошибок.
В ходе выполнения работы, были получены навыки разработки оконных приложений. Улучшены навыки разработки в среде Visual Studio 2019. Получен дополнительный опыт и расширены знания по языку программирования C#.



1. Интерфейсы. Определение интерфейсов [Электронный ресурс]. URL: https://metanit.eom/sharp/tutorial/3.9.php. (дата обращения 18.03.2022).
2. Команда (Command) [Электронный ресурс]. URL:
https://metanit.eom/sharp/patterns/3.3.php(дата обращения 18.03.2022).
3. Evaluation of OCR Algorithms for Images with Different Spatial Resolutions and Noises by Qing Chen - School of Information Technology and Engineering Faculty of Engineering University of Ottawa, 2003.
4. Джеф Просиз - Программирование для Microsoft .NET, - М.: Издательско-торговый дом «Русская Редакция», 2003.
5. Требования к программному обеспечению/ Материал из Википедии
- свободной энциклопедии. [Электронный ресурс]. URL:
https://ru.wikipedia.org/wiki/%D0%9E%D0%BF%D1%82%D0%B8%D1%87%D 0%B5%D 1 %81 %D0%BA%D0%BE%D0%B5_%D 1 %80%D0%B0%D 1 %81 %D0 %BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0 %B8%D0%B5_%D 1 %81 %D0%B8%D0%BC%D0%B2%D0%BE%D0%BB%D0 %BE%D0%B2 (дата обращения 12.03.2022).
6. Макконнелл С. «Совершенный код». - М.: Издательство
БХВ-Петербург, 2017. - 914 с.
7. Документация по C#: [Электронный ресурс]. URL:
https://docs.microsoft.com/ru-ru/dotnet/csharp/.(дата обращения 4.03.2022).
8. Руководство по рабочему столу .NET для Windows Forms:
[Электронный ресурс]. URL: https://docs.microsoft.com/ru-
ru/dotnet/desktop/winforms/?view=netframeworkdesktop-4.8. (дата обращения 14.04.2022).
9. Optical Character Recognition Based Retrieval by Asnake Biniam (Author), Aweke Girma (Author) - LAP Lambert Academic Publishing; Illustrated edition, 2014.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ