Реферат 4
Список сокращений 7
Введение 8
1 Обзор литературных источников 11
1.1 Технология изобретения иммуносигнатур 12
1.1.1 Первичная обработка иммуносигнатур 14
1.1.2 Статистическая обработка иммуносигнатур 15
1.2 Типы статистического анализа данных 18
1.2.1 Описательная статистика 18
1.2.2 Индуктивная статистика 22
1.3 Выводы: по главе 26
2 Применение и разработка 27
2.1 Статистические критерии 27
2.1.1 Параметрические критерии 27
2.1.2 Непараметрические критерии 29
2.2 Метод Джеффриса Мацуситы 32
2.3 Применение гибридного подхода 33
2.4 Зашумление данных 35
2.5 Выводы по главе 37
3 Экспериментальные исследования 39
3.1 Характеристики исходных данных 39
3.2 Технический инструмент для проведения экспериментов 40
3.3 Проведенные эксперименты 42
3.4 Выводы по главе 58
Заключение 60
СПИСОК ЛИТЕРАТУРЫ 61
Часто при решении задач классификации данных большой размерности необходимо решать проблему выбора информативных признаков. Особенно остро проблема анализа информативности признаков видна в задаче диагностики заболеваний по биомедицинским данным [ 1, 2]. Существует много подходов к отбору информативных признаков, например, на основе дискретных методов поиска в обучающей выборке информативной зоны [3, 4]; на основе методов кластеризации [5 - 7]; на основе предположения о нормальности распределений объектов в кластерах; на основе теоретико -информационного понятия энтропии [2, 7]; на основе непараметрических оценок плотности [8]. В медицине статистика является одним из инструментов анализа экспериментальных данных и клинических наблюдений. Математический аппарат широко применяется в диагностических целях, решении классификационных задач и поиске новых закономерностей, для постановки новых научных гипотез. Многие пособия, учебники и справочники, ориентированные на статистическую обработку данных [5], рекомендуют в первую очередь использовать параметрические критерии, и только во вторую очередь непараметрические.
За границей приобретает большие перспективы метод, названный иммуносигнатуры [2]. Филипп Стаффорд и его коллеги из Университета штата Аризона описали инновационную технику для ранней диагностики заболеваний — иммуносигнатуру. Микрочипы представляют собой набор пептидов, которые при взаимодействии с сывороткой крови определяют наличие и тип заболевания [3]. Особенно метод перспективен для ранней диагностики рака.
Первое поколение микрочипов производилось методом нанесения синтезированных пептидов и содержало 10 000 пептидов. Микрочипы второго поколения содержат уже 330 000 пептидов.
Технология интенсивно изучается, исследования обширны и многие ученые мира занимаются поиском совокупностей методов и решений, направленных на точную обработку иммуносигнатурных данных. К примеру, Российско-Американский противораковый центр (Шаповал А.И., Легутки Д.Б.) совместно с Институтом Биодизайна (Стаффорд Ф., Джонстон С.А.) отбирают информативные пептиды, представляющие иммунный профиль заболевания, с помощью T-теста, и с последующей классификацией, используя машинное обучение.
Кроме того, использование пептидных микрочипов не ограничивается сравнением контрольной группы (т.е. здоровых) с одним типом заболевания, а исследуется сразу несколько видов болезней. Анализ данных и статистическая оценка результатов наиболее важная и сложная часть каждого эксперимента.
Применение различных способов понижения размерности признакового пространства, не всегда обеспечивает наименьший отбор информативных признаков, и репрезентативная выборка может оставаться достаточно большой. Возникает вопрос, возможно ли дальнейшее сужение пространства признаков без потери качества и точности классификации. Кроме того при выполнении сканирования микрочипов и биологической части эксперимента также возможны искажения результатов, дающее изображение светимости пептидов недостаточного качества.
В связи с этим, в данной работе было поставлено несколько задач:
5. Исследовать применение различных статистических критериев с целью сравнения их по отбору информативных признаков.
6. Разработать гибридный способ по отбору наименьшего количества признаков и исследовать его применение для выбора репрезентативных данных, на основе совместного использования нескольких статистических критериев.
7. Проверить на помехоустойчивость к зашумлённым данным исследованные критерии и сравнить их работу с разработанным гибридным критерием.
В данной выпускной квалификационной работе исследовалась проблема отбора информативных признаков биомаркерных иммуносигнатурных данных путем разработки подхода к формированию репрезентативной выборки с использованием различных критериев.
По результатам проведённых исследований можно сделать следующие заключения:
- Выполнен анализ существующих статистических критериев, применяемых для обработки биомедицинских данных. Их математический аппарат, применен на практике, выполнено сравнение работы критериев;
- Разработан оригинальный комбинаторно - гибридный подход по отбору информативных признаков, на основе исследуемых критериев, с уменьшением признакового пространства, и сохранением точности классификации;
- Показано что в условиях шумов на основе предложенного гибридного метода точность классификации остается на достаточно высоком уровне относительно других методов.
Предложенный подход по отбору информативных признаков можно применять не только для обработки иммуносигнатурных данных, но и в дальнейшем для исследования подобных медицинских диагностик