ВВЕДЕНИЕ 3
Глава 1. Информационная безопасность 4
Глава 2. Уникальность почерка 5
Глава 3. Машинное обучение 9
3.1 Сверточные сети 10
Глава 4. Данные для обработки 12
Глава 5. Реализация 13
5.1 Выбор инструментов 13
5.2. Предобработка данных 14
5.3. Выбор и построение модели 19
ЗАКЛЮЧЕНИЕ 31
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 33
ПРИЛОЖЕНИЕ
В современном мире остро стоят вопросы информационной безопасности как безопасности общества. Очень важно сохранять приватность пользователей информационных систем, соблюдать выполнение трех аспектов информационной безопасности: конфиденциальности, целостности, доступности. Способы идентификации личности становятся всё более сложными, разнообразными и точными. Один из способов идентификации проводится по почерку, так как он уникален у каждого человека. С высокой вероятностью можно определить авторство и использовать эту информацию для дальнейшей аутентификации и авторизации. При сочетании с другими способами определения подлинности личности можно повышать вероятность правильной идентификации.
Цель проекта - разработать модель для идентификации автора по рукописному тексту. Поставленные задачи:
1) выделение значимых признаков рукописного текста;
2) сбор и обработка признаков текста;
3) изучение принципов машинного обучения;
4) изучение алгоритмов и архитектур нейронных сетей, а также способов их тренировки;
5) разработка и реализация различных моделей.
Актуальность задачи состоит в постоянной потребности обеспечения информационной безопасности и корректности процедуры идентификации как её составляющей, а также повсеместном применении машинного обучения, которое может обеспечить более высокие результаты решения задач, чем стандартные приёмы.
Машинное обучение получает всё большее развитие и применение в разных сферах и задачах. Появляются инструменты, позволяющие относительно быстро и легко внедрить методы машинного обучения в поставленную задачу и сравнить скорость и качество решения с другими методами. В этой работе алгоритмы машинного обучения были применены для такой задачи, как идентификация автора по рукописному тексту. В ходе работы были изучены темы машинного обучения, обработки данных и нейронных сетей. Были разработаны методы для сбора определенного типа данных из изображений текста, а именно характеристики петель в прописных буквах. Было выяснено, что для обучения модели очень важны как её параметры, так и данные, на которых она проводит обучение, так как это серьезно сказывается на точности работы модели. Были реализованы модели для классификации данных и идентификации автора по рукописному тексту. Были изучены способы повышения точности работы нейронных сетей.
Одна из реализованных моделей показала достаточно высокие результаты и может применяться на практике. Можно проверить её производительность и точность на более большом объеме данных и большем количестве авторов, а также поменять тип данных с изображения строки на изображение целого листа. Так сверточной сети удастся выделить больше индивидуальных признаков, потому что текстура текста проявится в полной мере и станет более очевидной. Для повышения точности можно комбинировать классификацию по разным параметрам и затем объединять результаты.
Модели, созданные для анализа текста на основе петель, показали невысокие результаты. Для улучшения их производительности необходимо поработать над набором данных для обучения и верификации; но исключать эти методы как неработоспособные не следует. Для этого случая нужен более аккуратный и специфичный сбор данных: требуется обработка не целого текста, а отдельно прописанных букв, у которых есть петли и признаки которых можно собрать без больших погрешностей. Таким образом можно заключить, что все методы имеют потенциал и множество вариантов модернизации, и при дальнейшей разработке результаты могут стать лучше.
1. Дмитриев В.И., Прикладная теория информации. Учебник для студентов ВУЗов по специальности Автоматизированные системы обработки информации и управления [Текст] / Дмитриев В.И. - М: Высшая школа, 1989. - 320 с.
2. Галатенко В.А., Лекция из курса «Основы информационной
безопасности» [Электронный ресурс] / Галатенко В.А. - 2017. - Режим доступа: http://citfomm.ru/security/articles/galatenko/ (дата обращения 10.04.2019) .
3. Harralson H.H., Huber and Headrick's Handwriting Identification: Facts and Fundamentals, Second Edition [Текст] / Harralson H.H., Miller L.S. - CRC Press, 2017. - 420p.
4. Blankers, V.L., Writer identification by means of explainable features: shapes
of loops and lead-in strokes [Электронный ресурс] / Blankers V.L., Niels R.M.J., Vuurpijl L.G. - 2007. - Режим доступа:
https://repository.ubn.ru.nl/handle/2066/55893 (дата обращения 25.10.2018).
5. Shahabi F., Comparison of Gabor-Based Features for Writer Identification of Farsi/Arabic Handwriting [Электронный ресурс]/ Shahabi F., Rahmati M. - 2006.
- Режим доступа: https://hal.inria.fr/inria-00104466 (дата обращения 15.04.2019).
6. Воронцов К. В., Математические методы обучения по прецедентам (теория обучения машин), курс лекций [Электронный ресурс] / Воронцов К. В.
- 2017. - Режим доступа: http://www.machinelearning.ru/wiki, свободный (дата обращения 20.12.2018).
7. Г оликов И.С., Сверточная нейронная сеть, часть 1: структура, топология, функции активации и обучающее множество: статья [Электронный ресурс] / Голиков И.С - 2017. - Режим доступа: https://habr.com/ru/post/348000/ (дата обращения 07.02.2019).
8. Saha S., A Comprehensive Guide to Convolutional Neural Networks - the ELI5 way [Электронный ресурс] / Sumit S. - 2018. - Режим доступа:
https://towardsdatascience.com/a-comprehensive-guide-to-convolutional-neural- networks-the-eli5-way-3bd2b1164a53 (дата обращения 07.02.2019).
9. A Beginner's Guide to Convolutional Neural Networks (CNNs), статья
[Электронный ресурс] / Свободная библиотека Skymind. - 2016. - Режим доступа: https://skymind.ai/wiki/convolutional-network (дата обращения 07.02.2019) .
10. Кузьмина Д. П., Отчет по практике по получению профессиональных умений и навыков [Текст] / Кузьмина Д. П. - Казань: КФУ, 2019. - 10 с.
11. Scikit-learn documentation [Электронный ресурс]. - 2019. - Режим доступа: https://scikit-learn.org/stable/index.html (дата обращения 10.04.2019).
12. Yousefi J., Image Binarization using Otsu Thresholding Algorithm
[Электронный ресурс] / Yousefi J. - 2016. - Режим доступа:
https://www.researchgate.net/publication/277076039_Image_Binarization_using_ Otsu_Thresholding_Algorithm (дата обращения 01.05.2019).
13. Karpathy A., Stanford CS class CS231n: Convolutional Neural Networks for Visual Recognition [Электронный ресурс] / Karpathy A. - 2017. - Режим доступа: http://cs231n.github.io/linear-classify (дата обращения 17.04.2019).