Алгоритмы анализа и классификации изображений препаратов растений и почвы
|
ВВЕДЕНИЕ 4
1. ОБЗОР ЛИТЕРАТУРЫ 7
1.1. Основные этапы развития методов программной
обработки изображений 7
1.2. Развитие скриптовых языков и их применение
для анализа изображений 17
1.3. Области применения современного вычислительного анализа
изображений и перспективы развития 18
2. ОБЗОР ПОДХОДОВ К АНАЛИЗУ И КЛАССИФИКАЦИИ
ИЗОБРАЖЕНИЙ ПРЕПАРАТОВ РАСТЕНИЙ И ПОЧВЫ 19
2.1. Обзор подходов к анализу изображений
образцов пшеницы 20
2.2. Обзор подходов к анализу изображений почвы,
полученных методом капиллярного динамолиза 25
3. ОСНОВНЫЕ МЕТОДЫ, ИСПОЛЬЗУЕМЫЕ В РАБОТЕ 27
3.1. Мультифрактальные методы анализа цифровых изображений.
Локальная функция плотности 28
3.2. Метод анализа круговых динамограмм 32
3.3. Вычисление расхождений Йенсена-Шеннона 35
4. РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТОВ 36
4.1. Анализ образцов пшеницы. Описание исходных данных 36
4.1.1. Очистка данных 37
4.1.2. Визуализация данных 40
4.1.3. Кластеризация при исследовании зависимости
от концентрации 43
4.1.4. Выводы 47
4.2. Анализ изображений почвы 48
4.2.1. Метод разворачивания кривой 48
4.2.2. Выделение особых точек 51
4.2.3. Вычисление нормированной меры на изображении 56
4.2.4. Вычисление расхождений Йенсена-Шеннона
для расширенного набора 58
4.3. Анализ изображений почвы для набора из 8 изображений 62
4.4. Анализ изображений бобов, полученных методом чувствительной
кристаллизации 69
ЗАКЛЮЧЕНИЕ 72
СПИСОК ЛИТЕРАТУРЫ 74
1. ОБЗОР ЛИТЕРАТУРЫ 7
1.1. Основные этапы развития методов программной
обработки изображений 7
1.2. Развитие скриптовых языков и их применение
для анализа изображений 17
1.3. Области применения современного вычислительного анализа
изображений и перспективы развития 18
2. ОБЗОР ПОДХОДОВ К АНАЛИЗУ И КЛАССИФИКАЦИИ
ИЗОБРАЖЕНИЙ ПРЕПАРАТОВ РАСТЕНИЙ И ПОЧВЫ 19
2.1. Обзор подходов к анализу изображений
образцов пшеницы 20
2.2. Обзор подходов к анализу изображений почвы,
полученных методом капиллярного динамолиза 25
3. ОСНОВНЫЕ МЕТОДЫ, ИСПОЛЬЗУЕМЫЕ В РАБОТЕ 27
3.1. Мультифрактальные методы анализа цифровых изображений.
Локальная функция плотности 28
3.2. Метод анализа круговых динамограмм 32
3.3. Вычисление расхождений Йенсена-Шеннона 35
4. РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТОВ 36
4.1. Анализ образцов пшеницы. Описание исходных данных 36
4.1.1. Очистка данных 37
4.1.2. Визуализация данных 40
4.1.3. Кластеризация при исследовании зависимости
от концентрации 43
4.1.4. Выводы 47
4.2. Анализ изображений почвы 48
4.2.1. Метод разворачивания кривой 48
4.2.2. Выделение особых точек 51
4.2.3. Вычисление нормированной меры на изображении 56
4.2.4. Вычисление расхождений Йенсена-Шеннона
для расширенного набора 58
4.3. Анализ изображений почвы для набора из 8 изображений 62
4.4. Анализ изображений бобов, полученных методом чувствительной
кристаллизации 69
ЗАКЛЮЧЕНИЕ 72
СПИСОК ЛИТЕРАТУРЫ 74
Развитие информационных технологий приводит к накоплению больших объемов данных во многих областях науки и техники, соответственно растет потребность в разработке методов анализа таких данных. Они имеют различный характер, но значительную их часть занимают изображения, которые появляются в результате проведения исследований в различных областях, от компьютерного зрения до биоинформатики и медицины [1]. Современные системы анализа изображений выполняют сложные функции обработки изображений разной природы, полученных из различных источников. Это могут быть автоматизированные микроскопы, цифровые камеры. Первая система анализа изображений, появившаяся более 50-ти лет, назад была аналоговой, созданной на основе видеокамеры и метрик для измерения, которые можно было считывать с помощью специализированного устройства [2]. Тем не менее, она послужила началом автоматизации обработки изображений.
Компьютерная обработка и распознавание изображений представляет собой быстро развивающуюся самостоятельную дисциплину, которая предполагает обработку цифровых изображений с помощью компьютеров или специализированных устройств, построенных на основе цифровых сигнальных процессоров. При этом под обработкой изображений понимается как улучшение зрительного восприятия изображений, так и классификация объектов, основанная на анализе свойств представляющих их изображений . Методы цифровой обработки широко применяются в медицине и биоинформатике, промышленности, искусстве, географии и космосе [3]. Они используются при управлении процессами, автоматизации обнаружения и сопровождения объектов, распознавании образов и во многих других приложениях [4].
В настоящее время ведутся активные исследования изображений, получаемых в медицине с помощью электронных и атомно-силовых микроскопов, рентгеновских аппаратов, томографов [5]. Сегодня в медицинской технике, химических экспериментах, в том числе в микроскопии широко применяются методы и системы формирования изображений, их преобразования в цифровую форму, визуализация, фильтрация.
При анализе любых классов изображений используются знания экспертов, которые оценивают их по утвержденным критериям для описания различий между тестируемыми образцами. Экспертная оценка требует значительного практического опыта и времени. Кроме того, поскольку не существует единой методологии оценки свойств выборки [7], зачастую именно опыт эксперта в данной области позволяет правильно оценить результаты экспериментов. Необходимым дополнением к экспертным знаниям является анализ изображений с помощью математических методов, который позволяет выявлять характерные признаки и структуру, и описывать эти признаки с помощью определенных числовых характеристик. Такие характеристики могут использоваться в качестве классификационных признаков, как в условиях малой выборки, так и для больших наборов данных.
В последнее время активно развивается изучение свойств различных сельскохозяйственных продуктов, лекарственных препаратов, почвы [6]. Препараты растительных и лекарственных субстратов изготавливаются по разным технологиям (добавление субстрата к кристаллизующемуся раствору, добавление капли изучаемого вещества к масляной основе, помещение жидкого субстрата на фильтровальную бумагу). Опыты, проведенные на различных веществах, показывают, что иногда ожидаемый эффект различия между веществами разных классов (например, разными сортами пшеницы) не наблюдается как при зрительном восприятии, так и при получении описательных характеристик. Это может говорить как о не вполне подходящем методе получения образцов для определенного вещества, так и о не очень удачно подобранном методе численного анализа.
Так, для некоторых классов изображений растительных препаратов вычисление текстурных характеристик Харалика, наиболее часто используемых в текстурном анализе, оказалось неэффективным. Отличительной особенностью изображений исследуемых типов является их сложная мультифрактальная структура, что во многом предопределяет выбор методов анализа. К настоящему времени можно выделить несколько методов фрактального и мультифрактального анализа, которые можно использовать в текстурном анализе различных классов изображений биологического характера.
Актуальность задачи, решаемой в работе, обусловлена тем, что к настоящему времени не сформирован подход к анализу изображений растительных препаратов и почвы, позволяющий определить набор методов для эффективного анализа определенных классов изображений и построения их классификационных признаков, позволяющих отличать разные классы в условиях данного эксперимента.
Новизна подхода состоит в применении новых методов извлечения признаков и анализа, не представленных в литературе, и оценке полученных результатов и возможности их применимости для анализа целевых изображений.
Цель исследования заключается в:
- предварительном анализе изображений растительных препаратов и почвы разной природы, полученных с помощью различных методов формирования изображений для выявления их ключевых характеристик;
- выборе методов анализа путем применения существующих и разработки новых;
- оценке применимости предложенных методов для классификации и кластеризации, то есть разделения на подмножества таким образом, чтобы объекты из одного подмножества (кластера) были более похожи на друг на друга, чем на объекты из других подмножеств по определенному критерию.
Для реализации цели в зависимости от методов формирования изображений, методов построения признаков и анализа изображений выделяются следующие задачи:
а) Выбор методов анализа изображений, включая фрактальные и мультифрактальные, позволяющих получать классификационные признаки для изображений выделенных классов;
б) Реализация выбранных методов;
в) Экспериментальное подтверждение возможности применения реализованных методов для классификации изображений.
Работа состоит из четырех разделов. Раздел 1 представляет обзор литературы, связанной с вычислительным анализом изображений, в разделе 2 описываются подходы к анализу и классификации изображений препаратов растений и почвы, раздел 3 представляет основные методы, используемые в работе, в разделе 4 приводятся результаты экспериментов по анализу 4 классов тестовых изображений, заключение содержит выводы о применимости использованных методов анализа для работы с изображениями описанных классов.
Компьютерная обработка и распознавание изображений представляет собой быстро развивающуюся самостоятельную дисциплину, которая предполагает обработку цифровых изображений с помощью компьютеров или специализированных устройств, построенных на основе цифровых сигнальных процессоров. При этом под обработкой изображений понимается как улучшение зрительного восприятия изображений, так и классификация объектов, основанная на анализе свойств представляющих их изображений . Методы цифровой обработки широко применяются в медицине и биоинформатике, промышленности, искусстве, географии и космосе [3]. Они используются при управлении процессами, автоматизации обнаружения и сопровождения объектов, распознавании образов и во многих других приложениях [4].
В настоящее время ведутся активные исследования изображений, получаемых в медицине с помощью электронных и атомно-силовых микроскопов, рентгеновских аппаратов, томографов [5]. Сегодня в медицинской технике, химических экспериментах, в том числе в микроскопии широко применяются методы и системы формирования изображений, их преобразования в цифровую форму, визуализация, фильтрация.
При анализе любых классов изображений используются знания экспертов, которые оценивают их по утвержденным критериям для описания различий между тестируемыми образцами. Экспертная оценка требует значительного практического опыта и времени. Кроме того, поскольку не существует единой методологии оценки свойств выборки [7], зачастую именно опыт эксперта в данной области позволяет правильно оценить результаты экспериментов. Необходимым дополнением к экспертным знаниям является анализ изображений с помощью математических методов, который позволяет выявлять характерные признаки и структуру, и описывать эти признаки с помощью определенных числовых характеристик. Такие характеристики могут использоваться в качестве классификационных признаков, как в условиях малой выборки, так и для больших наборов данных.
В последнее время активно развивается изучение свойств различных сельскохозяйственных продуктов, лекарственных препаратов, почвы [6]. Препараты растительных и лекарственных субстратов изготавливаются по разным технологиям (добавление субстрата к кристаллизующемуся раствору, добавление капли изучаемого вещества к масляной основе, помещение жидкого субстрата на фильтровальную бумагу). Опыты, проведенные на различных веществах, показывают, что иногда ожидаемый эффект различия между веществами разных классов (например, разными сортами пшеницы) не наблюдается как при зрительном восприятии, так и при получении описательных характеристик. Это может говорить как о не вполне подходящем методе получения образцов для определенного вещества, так и о не очень удачно подобранном методе численного анализа.
Так, для некоторых классов изображений растительных препаратов вычисление текстурных характеристик Харалика, наиболее часто используемых в текстурном анализе, оказалось неэффективным. Отличительной особенностью изображений исследуемых типов является их сложная мультифрактальная структура, что во многом предопределяет выбор методов анализа. К настоящему времени можно выделить несколько методов фрактального и мультифрактального анализа, которые можно использовать в текстурном анализе различных классов изображений биологического характера.
Актуальность задачи, решаемой в работе, обусловлена тем, что к настоящему времени не сформирован подход к анализу изображений растительных препаратов и почвы, позволяющий определить набор методов для эффективного анализа определенных классов изображений и построения их классификационных признаков, позволяющих отличать разные классы в условиях данного эксперимента.
Новизна подхода состоит в применении новых методов извлечения признаков и анализа, не представленных в литературе, и оценке полученных результатов и возможности их применимости для анализа целевых изображений.
Цель исследования заключается в:
- предварительном анализе изображений растительных препаратов и почвы разной природы, полученных с помощью различных методов формирования изображений для выявления их ключевых характеристик;
- выборе методов анализа путем применения существующих и разработки новых;
- оценке применимости предложенных методов для классификации и кластеризации, то есть разделения на подмножества таким образом, чтобы объекты из одного подмножества (кластера) были более похожи на друг на друга, чем на объекты из других подмножеств по определенному критерию.
Для реализации цели в зависимости от методов формирования изображений, методов построения признаков и анализа изображений выделяются следующие задачи:
а) Выбор методов анализа изображений, включая фрактальные и мультифрактальные, позволяющих получать классификационные признаки для изображений выделенных классов;
б) Реализация выбранных методов;
в) Экспериментальное подтверждение возможности применения реализованных методов для классификации изображений.
Работа состоит из четырех разделов. Раздел 1 представляет обзор литературы, связанной с вычислительным анализом изображений, в разделе 2 описываются подходы к анализу и классификации изображений препаратов растений и почвы, раздел 3 представляет основные методы, используемые в работе, в разделе 4 приводятся результаты экспериментов по анализу 4 классов тестовых изображений, заключение содержит выводы о применимости использованных методов анализа для работы с изображениями описанных классов.
В данной работе предложен подход к формированию набора методов анализа и классификации изображений препаратов растений и почвы. В качестве методов извлечения признаков предлагается метод вычисления мультифрактального спектра, метод разворачивания кривой на изображении, метод вычисления нормированной меры над изображением и метод поиска особых точек на изображении.
Автором предложен и реализован метод разворачивания кривой на изображении, который позволяет строить характеристики изображений, полученных методом капиллярного динамолиза. Этот метод основан на выделении ключевых геометрических форм, характеризующих каждое изображение уникальным образом.
В качестве методов оценки полученных характеристик изображений использовались различные алгоритмы классификации такие как машина опорных векторов, случайный лес, линейная регрессия и линейный дискриминантный анализ, методы кластерного анализа, такие как к-средних, иерархическая кластеризация и самоорганизующаяся карта Кохонена и методы оценки степени сходства вероятностных распределений, в том числе расчет взаимной корреляции и расстояния Йенсена-Шеннона. Для визуализации и снижения размерности данных использовался метод главных компонент.
Результаты позволили обобщить и выделить ключевые характеристики исходных изображений трех разных видов: изображений пшеницы, изображений почвы и изображений бобов. В ходе анализа лучшие результаты классификации образцов пшеницы показал метод случайного леса обученный на проекции исходных признаков, полученных методом мультифрактального спектра в трехмерное пространство, полученной с помощью метода главных компонент. Точность классификации составила 74%. Лучшие результаты классификации образцов почвы, полученных методом капиллярного динамолиза, показал метод линейного дискриминантного анализа обученный на признаках, полученных на основе вычисления нормированной меры над изображением. Точность классификации составила 71% с f-мерой в 0.68.
Анализ изображений пшеницы, проведенный различными мультифрактальными методами, показал, что результаты нельзя считать достаточными для однозначного разделения объектов по разным классам, так как метод получения препаратов пшеницы (кристаллизация с добавлениями) не позволяет получить результаты, пригодные для однозначной интерпретации, при этом он не отражает полностью специфику того или иного образца пшеницы.
Анализ изображений почвы с применением различных подходов к построению характеристик изображений показал, что характеристики, полученные с помощью метода разворачивания кривой и метода вычисления нормированной меры на изображении, позволяют разделить изображения разных классов с некоторой погрешностью, в частности, в большей степени изображения, соответствующие образцам разной природы (например, почвы и соли NaOH).
Таким образом, исследование применимости предложенного и реализованного набора методов анализа сложноструктурированных изображений растительных препаратов и почвы и используемых методов классификации показывает, что эта техника применима для оценки изображений и позволяет отличать объекты разной природы. Результаты, полученные в ходе исследования, убедительно показывают, что соединение предложенных методов построения классификационных характеристик и классификаторов позволяет разделить исследуемые изображения .
Автором предложен и реализован метод разворачивания кривой на изображении, который позволяет строить характеристики изображений, полученных методом капиллярного динамолиза. Этот метод основан на выделении ключевых геометрических форм, характеризующих каждое изображение уникальным образом.
В качестве методов оценки полученных характеристик изображений использовались различные алгоритмы классификации такие как машина опорных векторов, случайный лес, линейная регрессия и линейный дискриминантный анализ, методы кластерного анализа, такие как к-средних, иерархическая кластеризация и самоорганизующаяся карта Кохонена и методы оценки степени сходства вероятностных распределений, в том числе расчет взаимной корреляции и расстояния Йенсена-Шеннона. Для визуализации и снижения размерности данных использовался метод главных компонент.
Результаты позволили обобщить и выделить ключевые характеристики исходных изображений трех разных видов: изображений пшеницы, изображений почвы и изображений бобов. В ходе анализа лучшие результаты классификации образцов пшеницы показал метод случайного леса обученный на проекции исходных признаков, полученных методом мультифрактального спектра в трехмерное пространство, полученной с помощью метода главных компонент. Точность классификации составила 74%. Лучшие результаты классификации образцов почвы, полученных методом капиллярного динамолиза, показал метод линейного дискриминантного анализа обученный на признаках, полученных на основе вычисления нормированной меры над изображением. Точность классификации составила 71% с f-мерой в 0.68.
Анализ изображений пшеницы, проведенный различными мультифрактальными методами, показал, что результаты нельзя считать достаточными для однозначного разделения объектов по разным классам, так как метод получения препаратов пшеницы (кристаллизация с добавлениями) не позволяет получить результаты, пригодные для однозначной интерпретации, при этом он не отражает полностью специфику того или иного образца пшеницы.
Анализ изображений почвы с применением различных подходов к построению характеристик изображений показал, что характеристики, полученные с помощью метода разворачивания кривой и метода вычисления нормированной меры на изображении, позволяют разделить изображения разных классов с некоторой погрешностью, в частности, в большей степени изображения, соответствующие образцам разной природы (например, почвы и соли NaOH).
Таким образом, исследование применимости предложенного и реализованного набора методов анализа сложноструктурированных изображений растительных препаратов и почвы и используемых методов классификации показывает, что эта техника применима для оценки изображений и позволяет отличать объекты разной природы. Результаты, полученные в ходе исследования, убедительно показывают, что соединение предложенных методов построения классификационных характеристик и классификаторов позволяет разделить исследуемые изображения .



