Тип работы:
Предмет:
Язык работы:


АНАЛИЗ ИНФОРМАТИВНОСТИ ПРИЗНАКОВ БИОМАРКЕРНЫХ ИММУНОСИГНАТУРНЫХ ДАННЫХ В ЗАДАЧЕ РАННЕЙ МЕДИЦИНСКОЙ ДИАГНОСТИКИ

Работа №193195

Тип работы

Магистерская диссертация

Предмет

информатика

Объем работы65
Год сдачи2018
Стоимость4900 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
5
Не подходит работа?

Узнай цену на написание


Реферат 4
Список сокращений 7
Введение 8
1 Обзор литературных источников 11
1.1 Технология изобретения иммуносигнатур 12
1.1.1 Первичная обработка иммуносигнатур 14
1.1.2 Статистическая обработка иммуносигнатур 15
1.2 Типы статистического анализа данных 18
1.2.1 Описательная статистика 18
1.2.2 Индуктивная статистика 22
1.3 Выводы: по главе 26
2 Применение и разработка 27
2.1 Статистические критерии 27
2.1.1 Параметрические критерии 27
2.1.2 Непараметрические критерии 29
2.2 Метод Джеффриса Мацуситы 32
2.3 Применение гибридного подхода 33
2.4 Зашумление данных 35
2.5 Выводы по главе 37
3 Экспериментальные исследования 39
3.1 Характеристики исходных данных 39
3.2 Технический инструмент для проведения экспериментов 40
3.3 Проведенные эксперименты 42
3.4 Выводы по главе 58
Заключение 60
СПИСОК ЛИТЕРАТУРЫ 61

Часто при решении задач классификации данных большой размерности необходимо решать проблему выбора информативных признаков. Особенно остро проблема анализа информативности признаков видна в задаче диагностики заболеваний по биомедицинским данным [ 1, 2]. Существует много подходов к отбору информативных признаков, например, на основе дискретных методов поиска в обучающей выборке информативной зоны [3, 4]; на основе методов кластеризации [5 - 7]; на основе предположения о нормальности распределений объектов в кластерах; на основе теоретико -информационного понятия энтропии [2, 7]; на основе непараметрических оценок плотности [8]. В медицине статистика является одним из инструментов анализа экспериментальных данных и клинических наблюдений. Математический аппарат широко применяется в диагностических целях, решении классификационных задач и поиске новых закономерностей, для постановки новых научных гипотез. Многие пособия, учебники и справочники, ориентированные на статистическую обработку данных [5], рекомендуют в первую очередь использовать параметрические критерии, и только во вторую очередь непараметрические.
За границей приобретает большие перспективы метод, названный иммуносигнатуры [2]. Филипп Стаффорд и его коллеги из Университета штата Аризона описали инновационную технику для ранней диагностики заболеваний — иммуносигнатуру. Микрочипы представляют собой набор пептидов, которые при взаимодействии с сывороткой крови определяют наличие и тип заболевания [3]. Особенно метод перспективен для ранней диагностики рака.
Первое поколение микрочипов производилось методом нанесения синтезированных пептидов и содержало 10 000 пептидов. Микрочипы второго поколения содержат уже 330 000 пептидов.
Технология интенсивно изучается, исследования обширны и многие ученые мира занимаются поиском совокупностей методов и решений, направленных на точную обработку иммуносигнатурных данных. К примеру, Российско-Американский противораковый центр (Шаповал А.И., Легутки Д.Б.) совместно с Институтом Биодизайна (Стаффорд Ф., Джонстон С.А.) отбирают информативные пептиды, представляющие иммунный профиль заболевания, с помощью T-теста, и с последующей классификацией, используя машинное обучение.
Кроме того, использование пептидных микрочипов не ограничивается сравнением контрольной группы (т.е. здоровых) с одним типом заболевания, а исследуется сразу несколько видов болезней. Анализ данных и статистическая оценка результатов наиболее важная и сложная часть каждого эксперимента.
Применение различных способов понижения размерности признакового пространства, не всегда обеспечивает наименьший отбор информативных признаков, и репрезентативная выборка может оставаться достаточно большой. Возникает вопрос, возможно ли дальнейшее сужение пространства признаков без потери качества и точности классификации. Кроме того при выполнении сканирования микрочипов и биологической части эксперимента также возможны искажения результатов, дающее изображение светимости пептидов недостаточного качества.
В связи с этим, в данной работе было поставлено несколько задач:
5. Исследовать применение различных статистических критериев с целью сравнения их по отбору информативных признаков.
6. Разработать гибридный способ по отбору наименьшего количества признаков и исследовать его применение для выбора репрезентативных данных, на основе совместного использования нескольких статистических критериев.
7. Проверить на помехоустойчивость к зашумлённым данным исследованные критерии и сравнить их работу с разработанным гибридным критерием.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной выпускной квалификационной работе исследовалась проблема отбора информативных признаков биомаркерных иммуносигнатурных данных путем разработки подхода к формированию репрезентативной выборки с использованием различных критериев.
По результатам проведённых исследований можно сделать следующие заключения:
- Выполнен анализ существующих статистических критериев, применяемых для обработки биомедицинских данных. Их математический аппарат, применен на практике, выполнено сравнение работы критериев;
- Разработан оригинальный комбинаторно - гибридный подход по отбору информативных признаков, на основе исследуемых критериев, с уменьшением признакового пространства, и сохранением точности классификации;
- Показано что в условиях шумов на основе предложенного гибридного метода точность классификации остается на достаточно высоком уровне относительно других методов.
Предложенный подход по отбору информативных признаков можно применять не только для обработки иммуносигнатурных данных, но и в дальнейшем для исследования подобных медицинских диагностик



1. Кочетов А.Г., Лянг О.В., Масенко В.П., Жиров И.В., Наконечников С.Н, Терещенко С.Н.. Методы статистической обработки медицинских данных: Методические рекомендации для ординаторов и аспирантов медицинских учебных заведений, научных работников сост. — Москва: РКНПК, 2012. - 42 с.
2. Stafford P, et al. Physical characterization of the “immunosignaturing effect”. Mol Cell Proteomics 2012
3. Шаповал А.И., Легутки Д.Б., Стаффорд Ф., Требухов А.В., Джонстон С.А., Шойхент Я.Н., Лазарев А.Ф..Иммуносигнатура - пептидный микроэррей для диагностики рака и других заболеваний.— Российский онкологический журнал, № 4 / том 19 / 2014. - 11 с.
4. Мастицкий С.Э., Шитиков В.К. Статистический анализ и визуализация данных с помощью R. — Хайдельберг - Лондон - Тольятти, 2014. - 400 с.
5. Мухаматзанова М. Ш., Захарова М. А., Вельш В. А.. О выборе метода
статистической обработки данных для медико - социологических исследований [Электронный ресурс]// URL: http://medstatistic.ru/articles/choiceOfMethod.pdf(дата
обращения: 15.05.17)
6. Brian O’Donnell1, Alexander Maurer, Antonia Papandreou-Suppappola and Phillip Stafford. Time-Frequency Analysis of Peptide Microarray Data: Application to Brain Cancer Immunosignatures.
7. Волков П.А., Шипунов А. Б.. Статистическая обработка данных в учебно - исследовательских работах, 2008. — 72 с.
8. Корнеев А. А., Кричевец А. Н.. Условия применимости критериев Стьюдента и Манна - Уитни ,2011 г.
9. Портал знаний/ Непараметрические критерии. [Электронный ресурс]// URL: http://statistica.ru/theory/neparametricheskie-kriterii/(дата обращения: 15.05.17)
10. Компьютерные технологии в науке, образовании и профессиональной деятельности// Анализ двух выборок [Электронный ресурс] // URL: https://sites.google.com/site/ktnoscience/Home/lecture/l6(дата обращения: 15.05.17)
11. В.С. Андрющенко, Е.Ю. Перец. Анализ методов классификации иммуносигнатурных данных, 2017 г.
12. Gene Expression Omnibus. [Электронный ресурс]// URL:
www.ncbi.nlm.nih.gov/geo/(дата обращения: 15.05.17)
13. Литобзор/ Дисперсионный анализ ANalysis Of VAriance (ANOVA).
[Электронный ресурс]// URL: https://lit-review.ru/biostatistika/dispersionnyjj-analiz-anova
(дата обращения: 15.05.17)
14. StudFiles. [Электронный ресурс]// URL:
http://www.studfiles.ru/preview/1564646/page:5/(дата обращения: 15.05.17)
15. Дмитриев А.И., Журавлев Ю.И., Кренделев Ф.П. О математических принципах классификации предметов или явлений // Дискретный анализ. Новосибирск: ИМ СО АНСССР, 1966. Вып. 7. С. 1 - 17.
16. Дюкова Е.В., Песков Н.В. Построение распознающих процедур на базе элементарных классификаторов. URL: www.ccas.ru/lrc/papers/djukova05construction.pdf
17. Миркин Б.Г. Анализ качественных признаков и структур. М.: Статистика, 1980. 317 с.
18. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: Изд-во Ин-та математики, 1999. 270 с.
19. Ту Дж., Гонсалес Р. Принципы распознавания образов. М.: Мир, 1978. 415 с.
20. Воронцов К.В. Обзор современных исследований по проблеме качества обучения алгоритмов // Таврический вестник информатики и математики. 2004. № 1. С.
5 - 24. URL:http://www.ccas.ru/frc/papers/voron 04twim.pdf
21. Воронцов К.В. Лекции по методам оценивания и выбора моделей. 2007. URL: www.ccas.ru/voro n/download/Mode ling.pdf
22. Шурыгин А.М. Статистический кластер-алгоритм // Математические методы
распознавания образов: Сб. докл. 13-й Всерос. конф. Ленинградская обл., г. Зеленогорск, 30 сентября - 6 октября 2007 г. М.: МАКС Пресс, 2007. С. 241 - 242.
23. Meshalkin L.D. Some mathematical methods for the study of noncommunicable diseases //Proc. 6-th Intern. Meeting of Uses of Epidemiol. in Planning Health Services. Yugoslavia, Primosten, 1971. V. 1. P. 250 - 256.
24. Pearson K. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling // Phil. Mag. 1900. V. 50. P. 157 - 175.
25. Перегудов Ф.И., Тарасенко Ф.П. Введение в системный анализ. М.: Высшая школа, 2001. 396 с.
26. Колесникова С.И., Янковская А.Е. Статистический подход к оцениванию зависимыхпризнаков в интеллектуальных системах // Математические методы распознавания образов: Сб. докл. 13-й Всерос. конф. Ленинградская обл., г. Зеленогорск, 30 сентября -6 октября 2007 г. М.: МАКС Пресс, 2007. С. 143 - 146.
27. Орлов А.И. Анализ нечисловой информации в социологических исследованиях. М.Наука, 1985. С. 58 - 92.10.
28. Podlesnykh S.V., Kolosova E.A., Anisimov D.S., Scherbakov D.N., Ryazanov M.A., et al. The highly specific and sensitive analysis of repertoire of serum antibodies using peptide microchips in patients with diagnosis of breast cancer. Clinical laboratory diagnosis 2017;
62(9): 557 563, 10.18821/0869-2084-2017-62-9-557-563
29. Kotera Y, Fontenot JD, Pecher G, Metzgar RS, Finn OJ (1994) Humoral immunity against a tandem repeat epitope of human mucin MUC-1 in sera from breast, pancreatic, and colon cancer patients. Cancer Res 54(11)2856-2860.
30. Dunn GP, Old LJ, Schreiber RD (2004) The immunobiology of cancer immunosurveillance and immunoediting. Immunity 21(2):137-148.
31. Hudson ME, Pozdnyakova I, Haines K, Mor G, Snyder M (2007) Identification of differentially expressed proteins in ovarian cancer using high-density protein microarrays.
Proc Natl Acad Sci USA 104(44):17494-17499.
32. Анализ многомерных данных пептидных микрочипов с использованием метода проекции на латентные структуры
33. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
34. Hastie, T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. — 2nd ed. — Springer-Verlag, 2009. — 746 p.
35. Метод опорных векторов [Электронный ресурс]. 2018. URL: https://ru.wikipedia.org/wiki/Метод_опорных_векторов (дата обращения 17.05.2018)
36. Random_forest [Электронный ресурс]. 2018. URL: https://ru.wikipedia.org/ wiki/ Random_forest (дата обращения 17.05.2018)
37. Friedman J. H. Greedy function approximation: A gradient boosting machine. The annals of statistics. 2001; 29(5): 1189 1232, https://doi.org/10.1214/aos/1013203451
38. Лялюхова И.Е., Перец Е.Ю., Стогнушко О.Д., Андрющенко В.С. Анализ информативности признаков при сканировании пептидных матриц //Информационные технологии и математическое моделирование (ИТММ-2017) : материалы XVI Междунар. конф, имени А. Ф. Терпугова, 29 сент. - 3 окт. 2017 г. Ч. 2. Томск: Изд-во НТЛ, 2017. С. 74-80.
39. Kumar P., Prasad R., Choudhary A., Mishra V.N., et al. A statistical significance of differences in classification accuracy of crop types using different classification algorithms. Geocarto International 2016; 1-19. https://doi.org/10.1080/10106049.2015.1132483
40. Андрющенко В.С., Перец Е.Ю., Лялюхова И.Е. Классификация
иммуносигнатурных данных для задач ранней диагностики опасных заболеваний //Информационные технологии и математическое моделирование (ИТММ-2017) :
материалы XVI Междунар. конф. имени А. Ф. Терпугова, 29 сент. - 3 окт. 2017 г. Ч. 2. Томск: Изд-во НТЛ, 2017. С. 18-25.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ