В современном информационном обществе компьютерные системы и технологии развиваются с огромной скоростью. С каждым годом все больший и больший объем информации обрабатывается с использованием компьютерных программ, позволяющих значительно ускорить темп работы и увеличить ее продуктивность.
Компьютерные программы используются для решения различного типа задач, в том числе и для решения задач классификации данных.
Программы, строящие классификаторы данных, имеют широкое применение в различных областях человеческой деятельности, например, они могут быть использованы для диагностики заболеваемости людей раком. В мире, в котором экологическая ситуация, качество медикаментов и продуктов питания постепенно ухудшаются, с каждым годом растет заболеваемость людей раком. При этом рак молочной железы занимает первое место среди онкологии у женщин - на него приходится 16% всех случаев заболевания раком. В большинстве случаев диагностики новообразований молочной железы являются доброкачественные опухоли, которые не представляют угрозу для жизни человека. Однако не стоит пренебрегать диагностикой молочной железы. Рекомендуется проводить ежегодные обследования и проходить маммографию, ведь своевременное диагностирование и лечение данного заболевания является главным фактором успешного лечения.
Согласно статистике, в 2017 году смертность от рака в России впервые снизилась за три года. Только в Подмосковье за семь месяцев 2017 года показатель смертности от новообразований снизился на 24,9% по сравнению с аналогичным периодом 2016 года. Ученые объясняют это увеличением числа случаев распознавания рака на ранних стадиях. Выявлению болезни на ранних стадиях способствует использование высоких технологий и скрининговых программ.
Таким образом, задача классификации данных чрезвычайно актуальна в современном стремительно развивающемся обществе, в котором постоянно происходят кардинальные изменения в сфере обработки информации, область высоких технологий развивается с каждым днем, проводятся исследования, благодаря которым улучшается состояние больных.
Целью данной выпускной квалификационной работы является разработка программного продукта в пакете Matlab, позволяющего классифицировать данные n-мерного евклидового пространства. Построение классификатора сводится к задаче о построении проекции нуля пространства на разность Минковского с использованием задачи о дополнительности. В программе реализовано построение сепаратора (псевдосепаратора) данных и классификатора.
Задачи данной выпускной квалификационной работы:
1. Создание консольного и GUI приложений в среде Matlab с использованием функции LCPSolve для реализации редукции к вышеупомянутой задаче о дополнительности.
2. Создание интерфейса, удобного для работы пользователя с предоставлением возможности использования таких функций, как автоматическая генерация данных, внесение данных вручную, считывание данных из файла, просмотр результатов работы программы.
В данной выпускной квалификационной работе мною был исследован и запрограммирован алгоритм построения сепаратора (псевдосепаратора) и классификатора данных. Разработано консольное и GUI-приложение в пакете Matlab с реализацией возможностей ручного ввода данных, автоматической генерации данных и считывания данных из файла.
В приложении также реализована возможность построения проекции нуля евклидового пространства на выпуклое множество путем сведения к задаче о дополнительности.
Результаты работы программы отображаются на экране, существует возможность экспорта полученных данных в файл.
Были рассмотрены тестовые примеры и эксперименты на реальных данных здоровых пациентов и пациентов, имеющих заболевание рака молочной железы, предоставленных медицинским центром при Коимбрском университете, находящемся в Португалии, проведен анализ получившихся результатов.
Данная выпускная квалификационная работа имеет не только теоретическое, но и очень важное практическое применение, в работе использовались новые результаты исследований по онкологическим заболеваниям [9], опубликованные лишь в январе текущего года.
1. Габидуллина З.Р. Теорема отделимости выпуклого многогранника от нуля пространства и ее приложения в оптимизации - М: Известия вузов. Математика, 2006, №12, 21-26 с.
2. Gabidullina Z.R. The Problem of Projecting the Origin of Euclidean Space onto the Convex Polyhedron // Lobachevskii Journal of Mathematics.- 2018 Vol.39.- Is.1- P. 35-45.
3. Gabidullina Z.R., A Linear Separability Criterion for Sets of Euclidean Space//Journal of Optimization Theory and Applications. - 2013. - Vol.158, Is.1. - P.145-171.
4. Аксель Е.М. Злокачественные новообразования молочной железы: состояние онкологической помощи, заболеваемость и смертность / Е.М. Аксель // Маммология. 2006. - № 1. - С. 9-13.
5. Журнал «Известия». [Электронный ресурс]. URL: https://iz.ru/715614/elina-khetagurova/smertnost-ot-raka-snizilas-vpervye-za-tri- goda (Дата обращения: 15.04.2018)
6. Ожирение и другие факторы риска возникновения рака молочной
железы. [Электронный ресурс]. URL:
https://link.springer.com/article/10.1007/s12020-016-0893-x (Дата обращения:
20.04.2018)
7. База данных с результатами исследований о раке молочной железы с
сайта Центра машинного обучения и интеллектуальных систем. [Электронный ресурс]. URL:
http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Coimbra (Дата обращения:
04.03.2018)
8. Официальный сайт Matlab. [Электронный ресурс]. URL: https://www.mathworks.com/ (Дата обращения: 10.11.2017)
9. Using Resistin, glucose, age and BMI to predict the presence of breast cancer.
[Электронный ресурс]. URL: https ://bmccancer.biomedcentral.com/articles/10.1186/s12885-017-3877-1 (Дата обращения: 09.03.2018)
10. Cottle, R.W. and Dantzig, G.B.: Complementarity pivot theory of mathematical programming - M:Linear Algebra and its Applications, 1968, 103— 125 p.
11. Mitchell, V.F., Dem’yanov, V.F., Malozev, V.N.: Finding the point of polyhedron closest to origin. SIAM J. Control 12, 19—26 (1974)
12. Klee, V.: Maximal separation theorems for convex sets. Trans. Am. Math. Soc. 134(1), 133—147 (1968)
13. Border, K.C.: Separating hyperplane theorems. 06.19::09.03, pp. 1—10 (2009).
14. Klee, V.L. Jr.: Strict separation of convex sets. Proc. Am. Math. Soc. 7(4), 735—737 (1956)
15. Демидов В.П. Проблемы ранней диагностики рака молочной железы / В.П. Демидов, Ю.В. Варшавский, Г.А. Франк // Маммолог. — 2005.-№3. — С. 8-11
16. Santillan-Benitez JG, et al. The tetrad BMI, Leptin, Leptin/Adiponectin (L/a) ratio and CA 15-3 are reliable biomarkers of breast cancer. J Clin Lab Anal. 2013;27(1):12—20.