Введение 3
Постановка задачи 4
Обзор литературы 5
Глава 1. Извлечение признаков из изображений 10
1.1. Характеристики датасета 10
1.2. Статистики первого порядка 12
1.3. Полутоновая матрица смежности 13
1.4. Локальные бинарные шаблоны 14
1.5. Энергетические характеристики Лавса 15
1.6. Моменты Цернике 16
1.7. Инвариантные моменты 18
Глава 2. Способы классификации изображений 20
2.1. Случайный лес 20
2.2. AdaBoost 20
2.3. Метод k-ближайших соседей 20
2.4. Метод опорных векторов 21
2.5. Многослойный перцептрон 21
Глава 3. Описание экспериментов 22
3.1. Архитектура системы 22
3.2. Инструментарий 22
3.3. Эксперименты 23
Глава 4. Анализ результатов 27
Заключение 29
Список использованных источников
Рак молочной железы является одним самых распространенных видов онкологии в мире. По статистике Всемирной Организации Здравоохранения [1] в 2020 году рак груди был обнаружен у более 2,2 миллиона женщин, а количество смертей составило более 685 тысяч. Более того, за последние несколько десятилетий средний возраст возникновения опухолей сильно снизился. Так как сейчас причины возникновения этого заболевания не до конца ясны, на данный момент не существует достаточно эффективных средств его предотвращения. Однако ранняя диагностика заболевания значительно увеличивает шансы на полное восстановление. Чаще всего для такой диагностики врачи используют маммографические снимки, позволяющие анализировать текстуру ткани груди. Тем не менее, по статистике радиологи не обнаруживают значительную часть аномалий в дополнение к высокому уровню ложноположительных результатов по различным причинам (малый опыт радиолога или плохое качество изображений).
В связи с этим получает широкое распространение разработка систем компьютерного обнаружения и диагностики для повышения точности работы врачей, что требует реализации извлечения текстурных, статистических и структурных признаков из областей изображения и обработки этих признаков с помощью алгоритмов машинного обучения, хотя часто такие системы могут лишь провести бинарную классификацию (наличие или отсутствие рака), но не определить конкретный вид аномалии. Например, скопление микро- кальцинатов в молочной железе может быть фактором, говорящим о наличии заболевания, но не всегда оно означает рак.
Так как текстуру тканей груди человеку анализировать сложнее, чем, например, цвет, часто вывод о диагнозе делается на основе границ и очертаний масс или подозрительных областей, но такой признак не всегда является точным, например, поражения тканей не обязательно имеют четкие контуры. Таким образом, разработка систем, анализирующих текстурные признаки снимков, может помочь специалистам в постановке более точного диагноза.
Постановка задачи
Целью данной работы является разработка системы поддержки решений врача-онколога, использующей машинное обучение, а также извлечение текстурных и статистических признаков изображения, для классификации маммографических снимков в зависимости от присутствия или отсутствия на них аномалий. Осуществление цели работы предполагает решение следующих задач:
• поиск и анализ существующих решений задачи, оценка современного состояния вопроса;
• изучение методов извлечения текстурных, статистических и других при-знаков из изображений;
• реализация извлечения признаков и классификации маммографических снимков с помощью алгоритмов машинного обучения; анализ результатов, полученных с помощью разработанной системы.
В результате проведенной работы разработана система, решающая задачу детекции аномалии на маммографических изображениях. Проведен поиск и анализ литературы на тему уже существующих решений поставленной и похожих задач и изучено современное состояние вопроса. Изучены методы из-влечения текстурных признаков и моментов из изображения для повышения точности классификации; проведены эксперименты с разными комбинациями дескрипторов и алгоритмов машинного обучения. Показатели итогового варианта системы в основном сопоставимы с другими решениями задачи, использующими классическое машинное обучение, хотя уступают некоторым продивинутым реализациям. Тем не менее, благодаря сочетанию нескольких методов в голосовании, полученные результаты будут устойчивы к потенциальному изменению или ухудшению качества набора входных данных. Также итоговая точность метода сопоставима с моделями, использующими глубокое обучение [31], [32], но представленная система имеет преимущество в виде отсутствия необходимости долгого времени на обучение и высоких вычислительных мощностей. Сравнение с некоторыми решениями представлено в Более того, учитывая то, что при изучении маммограм радиологами пропускаются от 10 до 30% случаев рака и до сих высок уровень и ложноположительных, и ложноотрицательных результатов [2], точность итогового варианта системы сопоставима или превышает точность нынешней медицинской диагностики, а значит, вполне может использоваться как средство поддержки решений врача-онколога. Среди возможных вариантов улучшения работы системы можно перечислить смену датасета на новый, состоящий из цифровых маммограм, а не отсканированных, а также добавление сегментирования изображения для более точной детекции аномалии в помощь специалисту-маммологу
[1] Рак молочной железы // ВОЗ. URL:https://www.who.int/ru/news-room/fact-sheets/detail/breast-cancer (дата обращения: 11.05.2022).
[2] Меских Е.В., Оксанчук Е.А., Солодкий В.А. Рак молочной железы: диагностические сложности и ошибки // Вестник РНЦРР. 2020.№2.— URL:https://cyberleninka.ru/article/n/
rak-molochnoy-zhelezy-diagnosticheskie-slozhnosti-i-oshibki(дата обращения: 10.05.2022).
[3] Matos, C,E Diagnosis of breast tissue in mammography images based local feature descriptors / C,E Matos, J. C. Souza, J,O Diniz // Multimedia Tools and Applications. — 2019. — № 78. — С. 12961-12986. — URL:https://link.springer.com/article/10.1007/s11042-018-6390-x (дата обращения: 10.05.2022).
[4] Computer Aided Breast Cancer Detection Using Ensembling of Texture and Statistical Image Features / S. Roy, S. Das, D. Kar [и др.] // Sensors. — 2021.
— № 21. — С. 3628. — URL:https://www.mdpi.com/1424-8220/21/11/3628 (дата обращения: 10.05.2022).
[5] Phadke, A. Fusion of local and global features for classification of abnormality in mammograms / A. Phadke, P. Rege // Sadhana. — 2016. — Т. 41. — С. 1-11. — URL:https://www.academia.edu/50779923/Fusion_of_local_and_global_features_for_classification_of_abnormality_in_mammograms (дата обращения: 11.05.2022).
[6] Effective Extraction of Gabor Features for False Positive Reduction and Mass Classification in Mammography / M. Hussain, S. Khan, G. Muhammad [и др.] // Applied Mathematics & Information Sciences. — 2014. — Т. 8 — № 1. — С. 397-412. —URL:https://www.naturalspublishing.com/Article.asp?ArtcID=5226 (дата обращения: 11.05.2022).
[7] Texture analysis of masses in digitized mammograms using Gleason and Menhinick Diversity Indexes / S. Rocha, G. Junior, A. Silva, A. Paiva // Revista Brasileira de Engenharia Biomedica. — 2014. — Т. 30. — С. 35-46. — URL: https://www.researchgate.net/publication/276007723_Texture_analysis_of_masses_in_digitized_mammograms_using_Gleason_and_Menhinick_Diversity_Indexes (дата обращения: 12.05.2022).
[8] Sharma, S. Computer-aided diagnosis of malignant mammograms using Zernike moments and SVM / S. Sharma, P. Khanna // Journal of digital imaging. — 2014. — Т. 28. — URL:https://pubmed.ncbi. nlm.nih.gov/25005867/ (дата обращения: 11.05.2022).
[9] Mammogram Classification Using Selected GLCM Features and Random Forest Classifier / V. P. Singh, A. Srivastava, D. Kulshreshtha [и др.] // International Journal of Computer Science and Information Security (IJCSIS). — 2016. — Т. 14 — № 6. — URL: https://www.academia.edu/27067717/Mammogram_Classification_Using_Selected_GLCM_Features_and_Random_Forest_Classifier(дата обращения: 11.05.2022).
[10] Vijaya, M. M. Gabor Filter Based Classification of Mammography Images Using LS-SVM and Random Forest Classifier / M. M. Vijaya, B. T. Christy // International Conference on Recent Trends in Image Processing and Pattern Recognition. — Singapore : Springer, 2019. — С. 69-83. — URL:https://link.springer.com/chapter/10.1007/978-981-13-9184-2_6 (дата обращения: 11.05.2022).
[11] Farhan, A. Texture Analysis of Mammogram Using Local Binary Pattern Method / A. Farhan, Kamil Y // Journal of Physics: Conference Series. — 2020.— Т. 1530. — URL:https://www.researchgate.net/publication/341679511_Texture_Analysis_of_Mammogram_Using_Local_Binary_Pattern_Method (дата обращения: 20.05.2022).
[12] Computer-aided diagnostics of screening mammography using content¬based image retrieval / T. Deserno, M. Soiron, J. Oliveira // Proceedings
of SPIE - The International Society for Optical Engineering. — 2012.
—Т. 8315. — С. 527-831. — URL:https://www.researchgate.net/publication/228438050_Computer-aided_diagnostics_of_screening_mammography_using_content-based_image_retrieval(дата обращения: 19.05.2022).
[13] Breast Cancer Histopathological Images Recognition Based on Low Dimensional Three-Channel Features / Y. Hao, S. Qiao, L. Zhang [и др.] // Frontiers in Oncology. — 2021. — Т. 11. — URL: https://www.researchgate.net/publication/352375311_Breast_Cancer_Histopathological_Images_Recognition_Based_on_Low_Dimensional_Three-Channel_Features (дата обращения: 20.05.2022)
[14] Selection Mammogram Texture Descriptors Based on Statistics Properties Backpropagation Structure / S. Uyun, S. Hartati, A. Harjoko, S. S. Seno // Journal of Computer Science (IJCSIS). — 2013. — Т. 11 — № 5.
— URL:https://www.researchgate.net/publication/251567122_Selection_Mammogram_Texture_Descriptors_Based_on_Statistics_Properties_Backpropagation_Structure (дата обращения: 20.05.2022).
[15] Abdalla, A. M. Detection of Masses in Digital Mammogram Using
Second Order Statistics and Artificial Neural Network / A. M. Abdalla, S. Dress, N. Zaki // International Journal of Computer Science & Information Technology. — 2011. — Т. 3. — С. 176-186. — URL: https://www.researchgate.net/publication/215644411_
Detection_of_Masses_in_Digital_Mammogram_Using_Second_Order_Statistics_and_Artificial_Neural_Network (дата обращения: 15.05.2022).
[16] Benign and malignant breast tumors classification based on region growing and CNN segmentation / R. Rouhi, M. Jafari, S. Kasaei, P. Keshavarzian // International Journal of Computer Science & Information Technology. — 2015. — Т. 42. — С. 990-1002. — URL:https://www.academia.edu/26949502/Benign_and_malignant_breast_tumors_classification_based_on_region_growing_and_CNN_segmentation (дата обращения: 11.05.2022).
[17] Alhaj, A. M. Multi-classifier method based on voting technique for mammogram image classification / A. M. Alhaj, A. Ahmed, A. O. Ibrahim // Journal of software engineering & intelligent systems. — 2017. — Т. 2(3). — С. 280-285. — URLhttp://repository.ush.sd:8080/xmlui/handle/123456789/465 (дата обращения: 19.05.2022).
[18] Scuccimarra, E. DDSM Mammography / E. Scuccimarra // Kaggle : [сайт].
—URL: https://www.kaggle.com/datasets/skooch/ddsm-mammography(да¬та обращения: 10.05.2022).
[19] Lateef, R. Contrast Enhancement of the Mammographic Image Using Retinex with CLAHE methods / R. Lateef // Iraqi Journal of Science.
—2017. — Т. 58. — № 1. — С. 327-336. — URL:https://www.researchgate.net/publication/334001227_Contrast_Enhancement_of_the_Mammographic_Image_Using_Retinex_with_CLAHE_methods(дата обращения: 19.05.2022).
[20] Haralick R.M., Shanmugam K., Dinstein I. Textural Features for Image Classification // IEEE Transactions on Systems, Man, and Cybernetics. 1973. Vol. SMC-3, No. 6, pp. 610-621. Haralick, R. Textural Features for Image Classification / R. Haralick, K. Shanmugam, I. Dinstein // IEEE Transactions on Systems, Man and Cybernetics. —1973. — Т. SMC-3. — № 6
—С. 610-621. — URL:https://www.researchgate.net/publication/302341151_Textural_Features_for_Image_Classification (дата обращения: 19.05.2022).
[21] Ojala, T. A comparative study of texture measures with classification based on featured distributions / T. Ojala, M. Pietikainen, D. Harwood // Pattern Recognition. — 1996. — Т. 26(1). — С. 51¬59. — URL:https://www.sciencedirect.com/science/article/abs/pii/0031320395000674 (дата обращения: 20.05.2022).
[22] pyfeats 1.0.0 // PyPI : [сайт]. — URL:https://pypi.org/project/pyfeats/ (дата обращения: 19.05.2022).
[23] Mahotas: Computer Vision in Python// Mahotas : [сайт]. — URL:https://mahotas.readthedocs .io/en/latest/ (дата обращения: 19.05.2022).
[24] Hu, M. K. Visual pattern recognition by moment invariants / M. K. Hu // IRE Transactions on Information Theory. — 1992. — Т. 8 — № 2. — С. 179-187.https://ieeexplore.ieee.org/document/1057692(дата обращения: 20.05.2022).
[25] Huang, Z. Analysis of Hu’s moment invariants on image scaling and rotation / Z. Huang, J. Leng // Proc. of 2nd International Conference on Computer Engineering and Technology (ICCET). — 2010. — Т. 7. — С. 476-480. — URL:https://www.researchgate.net/publication/224146066_Analysis_of_Hu’s_moment_invariants_on_image_scaling_and_rotation (дата обращения: 22.05.2022).
[26] scikit-learn: Machine Learning in Python // scikit-learn : [сайт]. — URL: https://scikit-learn.org/stable/ (дата обращения: 22.05.2022).
[27] Nusantara, A. Classification of Digital Mammogram based on Nearest- Neighbor Method for Breast Cancer Detection / A. Nusantara, E. Purwanti, S. Soelistiono // International Journal of Technology. — 2016. — Т. 7. — С. 71-77. — URL:https://www.researchgate.net/publication/292385797_Classification_of_Digital_Mammogram_based_on_Nearest-Neighbor_Method_for_Breast_Cancer_Detection (дата обращения: 19.05.2022).
[28] OpenCV // OpenCV : [сайт]. — URL:https://opencv.org/ (дата обращения: 23.05.2022).
[29] scikit-image: image processing in python // scikit-image : [сайт]. — URL: https://scikit-image.org/ (дата обращения: 23.05.2022).
[30] pandas - Python Data Analysis Library //pandas : [сайт]. — URL:https://pandas.pydata.org/ (дата обращения: 23.05.2022).
[31] Tsochatzidis, L. Deep learning for breast cancer diagnosis from mammograms—A comparative study / L. Tsochatzidis, C. Lena, P. Ioannis // Journal of imaging. — 2019. — Т. 5(3). — № 37. — URL:https://pubmed.ncbi.nlm.nih .gov/34460465/ (дата обращения: 19.05.2022).
[32] Deep adversarial domain adaptation for breast cancer screening from mammograms / Y. Wang, Y. Feng, L. Zhang [и др.] // Medical image analysis. — 2021. — № 73. — URl:https://pubmed.ncbi.nlm.nih.gov/34246849/ (дата обращения: 19.05.2022).