Тип работы:
Предмет:
Язык работы:


Применение методов нечеткого сравнения строк в прикладных задачах

Работа №113161

Тип работы

Бакалаврская работа

Предмет

программирование

Объем работы45
Год сдачи2020
Стоимость4600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
30
Не подходит работа?

Узнай цену на написание


Аннотация 2
Введение 5
1.1 Метод Дамерау-Левенштейна 8
1.2 Метод Джаро-Винклера 11
Глава 2 Анализ алгоритмов нечеткого сравнения строк 15
2.1 Алгоритм Вагнера-Фишера 15
2.2 Алгоритм Дамерау-Левенштейна 18
2.3 Алгоритм Джаро-Винклера 20
2.4 Сравнительный анализ алгоритмов нечеткого сравнения строк 23
Глава 3 Применение алгоритмов нечеткого сравнения строк в прикладных задачах 25
3.1 Программа сверки справочников между базами 1С v8.1 25
3.2 Региональный мастер-индекс пациентов на платформе InterSystems HealthShare 28
3.3 Информационная система «Фольклор» 30
3.4 Разработка программы поиска клиента в перечне Росфинмониторинга 31
Заключение 41
Список используемой литературы и используемых источников 43

В компьютерных науках нечеткое сравнение строк - это поиск строк в тексте, которые приблизительно соответствуют заданному шаблону.
Другими словами, нечеткое сравнение строк - это тип текстового поиска, который находит совпадения, даже если пользователи неправильно вводят слова или вводят только частичные слова для поиска.
Это задача, известная также, как приблизительное совпадение строк, широко применяется в поисковых системах, базах данных, системах проверки орфографии и на плагиат, а также в других прикладных областях [20].
Так, при разработке многоступенчатых фильтров в системах управления базами данных на одной из стадий необходимо выполнить приблизительное сравнение строк [6]. Как показывает практика, эффективность данной стадии зависит от грамотно подобранных критериев идентичности строк и алгоритмов их сравнения.
Для решения таких задач используются методы нечеткого сравнения строк.
Исследование применения методов нечеткого сравнения строк при решении различных прикладных задач представляет актуальность и научно-практический интерес.
Объектом исследования бакалаврской работы являются методы нечеткого сравнения строк.
Предметом исследования бакалаврской работы является применение методов нечеткого сравнения строк для решения прикладных задач.
Цель выпускной квалификационной работы - анализ алгоритмов нечеткого сравнения строк и исследование возможности их применения при разработке программного обеспечения для решения различных прикладных задач.
Для достижения данной цели необходимо выполнить следующие задачи:
• провести анализ методов нечеткого сравнения строк;
• провести анализ известных алгоритмов нечеткого сравнения строк;
• исследовать применение алгоритмов нечеткого сравнения строк в различных прикладных задачах;
• разработать программу реализации алгоритма нечеткого сравнения строк и оценить ее эффективность.
Методы исследования - методы и алгоритмы нечеткого сравнения строк, объектно-ориентированный подход к проектированию программного обеспечения, теория баз данных.
Практическая значимость бакалаврской работы заключается в разработке программы, реализующей алгоритм нечеткого сравнения строк.
Данная работа состоит из введения, трех глав, заключения, списка используемой литературы и приложений.
Первая глава посвящена описанию методов нечеткого сравнения строк. Рассмотрены методы Дамерау-Левенштена и Джаро-Винклера.
Во второй главе дан обзор известных алгоритмов нечеткого сравнения строк. Описаны свойства алгоритмов Вагнера-Фишера, Дамерау-Левенштена и Джаро-Винклера. Представлен сравнительный анализ указанных алгоритмов.
В третьей главе рассмотрены примеры применения алгоритмов нечеткого сравнения строк для решения различных прикладных задач. Разработана программа, использующая алгоритм Джаро-Винклера для нечеткого сравнения строк в процессе поиска клиентов в Перечне Росфинмонитринга.
В заключении описываются результаты выполнения выпускной квалификационной работы.
Структура бакалаврской работы: 43 страницы, 14 рисунков, 2 таблицы, 25 источников.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Бакалаврская работа посвящена актуальной проблеме анализа методов и алгоритмов нечеткого сравнения строк и исследования их применения при разработке программного обеспечения для решения различных прикладных задач.
В ходе выполнения бакалаврской работы достигнуты следующие результаты:
1. Проанализированы методы нечеткого сравнения строк.
Как показал анализ, наиболее популярными считаются методы нечеткого сравнения строк, основанные на символьном подходе. К ним относятся методы Дамерау-Левенштейна и Джаро-Винклера. С помощью Левенштейна можно подсчитать количество операций, которые необходимы для того, чтобы преобразовать одну строку в другую. Метод Дамерау- Левенштейна также включает транспонирование в ряд отдельных операций. С помощью расстояния Джаро измеряется сходство между двумя строками. Метод Джаро-Винклера позволяет дать более благоприятные оценки для строк, которые соответствуют заданной длине префикса в начале строки.
2. Проанализированы популярные алгоритмы нечеткого сравнения строк.
Как показал анализ, все алгоритмы нечеткого сравнения строк обладают определенными достоинствами и недостатками. Выбор того или иного алгоритма зависит от конкретной прикладной задачи и требований по ее программной реализации.
3. Исследованы области применения алгоритмов нечеткого сравнения строк для решения различных задач.
Как показывает практика, алгоритмы нечеткого сравнения строк применяются для таких прикладных задач, как сравнение наименований элементов справочников двух баз данных 1С8, однозначная идентификация пациентов медучреждений, в том числе по неточным или неполным демографическим данным, морфологический анализ текстов на естественных языках и др.
4. Разработана программа поиска клиентов в Перечне Росфинмониторинга.
Применение алгоритма Джаро-Винклера для нечеткого сравнения и механизмов оптимизации линейного алгоритма в программе поиска клиентов в Перечне Росфинмониторинга позволило повысить функциональные возможности данной программы и увеличить быстродействие поиска почти в 20 раз.
Результаты бакалаврской работы представляют практический интерес и могут быть рекомендованы для разработчиков программного обеспечения, основанного на применении методов нечеткого сравнения строк.


1. ГОСТ 19.402-78. Единая система программной документации. Описание программы. URL: http://www.standards.ru/document/4153976.aspx (дата обращения: 30.04.2020).
2. ГОСТ 28806-90. Качество программных средств. Термины и определения. URL: http: //www.standards.ru/document/4122406.aspx (дата обращения: 30.04.2020).
3. Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Докл. АН СССР. 1965. 163 (4). C. 845-848.
4. Лещенко А.В. Практическое применение алгоритмов нечеткого поиска // Сборник научных трудов НГТУ. 2018. №3-4(93). С. 59-69.
5. Москин Н. Д. Инструменты исследования текстовых коллекций на основе теоретико-графовых моделей в информационной системе «Фольклор» // Прикладная информатика. 2010. №4. C. 48-62.
6. Орлов Д. Подсистема сопоставления записей в хранилище данных [Электронный ресурс]. URL:https://www.sql.ru/articles/datawarehousing/datawarehouse_record_linkage.s html (дата обращения: 30.04.2020).
7. Поиск нечетких соответствий: сравнение записей по расстоянию между строками [Электронный ресурс]. URL: https://www.megaputer.com/ru/fuzzy-matching-comparing-records-with-string- distance-measures/ (дата обращения: 30.04.2020).
8. Программный продукт «Континент: Страхование 8» [Электронный ресурс]. URL: https://kontinent.systems/ (дата обращения: 30.04.2020).
9. Решетников А.Д. О подходах для определения меры несходства в текстовых данных // Вестник Воронежского института высоких технологий. №3(30). 2019. С. 35-39.
10. Самуйлов С.В. Объектно-ориентированное моделирование на основе UML [Электронный ресурс]: учебное пособие. Саратов: Вузовское образование. 2016. 37 c. URL: http://www.iprbookshop.ru/47277.html (дата обращения: 30.04.2020).
11. Сверка справочников между базами 1С v8.1 [Электронный ресурс]. URL: https://infostart.ru/public/80077/ (дата обращения: 30.04.2020).
12. Сходство Джаро - Винклера. Нечеткое сравнение строк [Электронный ресурс]. URL: http://xn— 1 -6kca8bgsjrjhe.xn--p1ai/public/1172479/ (дата обращения: 30.04.2020).
13. Федеральная служба по финансовому мониторингу [Электронный ресурс]. URL: http://www.fedsfm.ru/ (дата обращения: 30.04.2020).
14. Brinardi L., Seng H. Text Documents Plagiarism Detection using Rabin- Karpand Jaro-Winkler Distance Algorithms, Indonesian J. of Electrical Engineering and Computer Science, 2017, v.5(2), P. 462-471.
15. Code Spelunking: Jaro-Winkler String Comparison [Электронный ресурс]. URL: https://lingpipe-blog.com/2006/12/13/code-spelunking-jaro-winkler-string-comparison/ (дата обращения: 30.04.2020).
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ