Введение 4
1 Основы анализа данных 7
1.1 Термины и определения 7
1.2 Задачи анализа данных 13
1.3 Информативные признаки в задачах анализа данных 17
2 Использование информативных признаков данных в медицине 21
2.1 Диагностирование заболеваний на основе наборов данных 21
2.2 Математические методы исследований в медицине 24
2.3 Методы оценки информативных признаков 30
3 Автоматизация оценки информативности признаков при
диагностировании заболеваний 38
3.1 Постановка задачи 38
3.2 Выбор средств разработки 40
3.3 Разработка и тестирование 47
Заключение 54
Список использованных источников 56
Приложение А Код расчета по методу Шеннона 58
Приложение Б Код расчета по методу Кульбака 59
Приложение В Код расчета по методу накопленных частот 63
Многие мировые ученые, специализирующиеся в самых разных областях знаний, сходятся во мнении, что в настоящее время человечество находится на стадии перехода от постиндустриального общества к информационному обществу[11].
Понятие «информационное общество», в современной его трактовке, впервые появилось в работах экспертной группы европейской комиссии под руководством Мартина Бангеманна, одного из наиболее уважаемых в Европе исследователей информационных магистралей и супермагистралей.
Термин «информационное общество», начиная с 1992 года, стали употреблять в западных странах, а в США ввели понятие «национальная глобальная информационная инфраструктура» после конференции Национального научного фонда и доклада Б. Клинтона и А. Гора.
В конце XX в. термины «информационное общество» и «информатизация» прочно заняли свое место, причем не только в лексиконе специалистов в области информации, но и в лексиконе политических деятелей, экономистов, преподавателей и ученых.
В большинстве случаев эти понятия ассоциировались с развитием информационных технологий и средств телекоммуникации, позволяющих на платформе постиндустриального общества осуществить новый эволюционный скачок и достойно войти в следующий, XXI век уже в качестве информационного общества или его начального этапа.
В развернутом и детализированном виде концепция информационного общества основана на том, что в XXI столетии решающее значение для экономической и социальной жизни, способов производства знаний, а также для характера трудовой деятельности человека приобретает становление нового уклада, основывающегося на информации.
Из этого следует, что особо значимыми, в ближайшей перспективе, становятся вопросы, связанные с получением, хранением, анализом и использованием информации.
Высокие темпы развития информационных технологий на сегодняшний день привели к тому, что в различных хранилищах и базах данных накоплены огромные объемы самой разнообразной информации. Особенно остро встал вопрос об отделении более информативных данных от менее информативных, для дальнейшего анализа и использования.
Именно этим определяется актуальность исследования, выполненного в рамках бакалаврской работы.
Предметом исследования в бакалаврской работе является анализ данных, а объектом исследования - выделение информативных признаков в данных.
Основная цель бакалаврской работы: разработка компьютерной программы, автоматизирующей оценку информативных признаков, на примере данных, используемых в медицине при диагностике заболеваний.
Для достижения поставленной цели в работе поставлены следующие задачи:
1) изучить основы теории анализа данных;
2) изучить основные задачи, решаемые в теории анализа данных;
3) изучить механизмы оценки информативности признаков в наборах данных;
4) изучить программные средства, используемые при разработке программ автоматизации;
5) разработать компьютерную программу, автоматизирующую оценку информативных признаков, на примере данных, используемых в медицине при диагностике заболеваний;
6) оценить результаты проектирования и разработки.
Практическая значимость бакалаврской работы заключается в том, что разработанная программа может использоваться для оценки информативности признаков в дискретных наборах данных, что способствует более качественному анализу данных.
Пояснительная записка к бакалаврской работе состоит из трех частей.
В первой части рассмотрены основы анализа данных, представлены основные термины и определения, описаны задачи, в которых используется анализ данных и значение информативных признаков в задачах анализа данных.
Во второй части рассмотрено использование информативных признаков анализируемых данных в медицине для диагностики заболеваний, описаны методы диагностирования заболеваний на основе наборов данных и составлена математическая модель диагностирования заболеваний.
В третьей части работы разработана компьютерная программа, автоматизирующая оценку информативности признаков при диагностировании заболеваний. Для этого выполнена постановка задачи, произведен выбор средств разработки, разработана и протестирована программа.
В заключении выполнен анализ результатов проектирования.
Приложения содержат исходные тексты разработанных программных модулей и результатов тестирования.
В ходе проведенных исследований были изучены методы оценки информативности дискретных наборов данных: метод Шеннона, метод накопленных частот и метод Кульбака.
В работе не реализованы средства, принимающие решения.
Основные решения, принимаемые специалистами при постановке диагноза: наблюдаются или не наблюдаются у пациента симптомы какого- либо заболевания. Принятие таких решений в разработанной программе невозможно. Программа лишь информирует специалиста о то, что один набор данных более информативен, а другой набор данных менее информативен. Имея такую информацию специалисту легче принимать решение.
Работа ориентирована на то, что специалист, имеющий актуальную информацию примет более правильное решение, чем компьютер.
В результате разработки программы сделан следующий вывод: использование вычислительных средств для автоматизации оценки информативности признаков способствует снижению временных затрат специалиста на анализ исходных данных.
Разработанная программа предназначена для повышения качества работы медицинских специалистов, осуществляющих постановку диагнозов и должна использоваться на рабочих местах врачей и других медицинских работников.
Разработанное приложение выполняет следующие функции:
1 Автоматизирует выборку данных из таблицы с исходными данными;
2 Формирует графическое представление выбранных данных;
3 Выполняет расчет информативности признака по выбранному пользователем методу;
4 Предоставляет информацию для принятия решений и постановки диагноза.
Созданное приложение имеет знакомый всем пользователям Microsoft Windows интерфейс и не требует от оператора дополнительного обучения.
Созданное приложение может легко расширяться. Для добавления нового метода расчета достаточно создать новую вкладку и написать код, выполняющий расчет. Разрабатывать для него графический интерфейс не придется.
Поставленные перед разработкой программы задачи выполнены, и цель работы достигнута.
1 Объектно-ориентированный анализ и проектирование с примерами приложений / Г.Буч [и др.]. — Москва: Издательский дом "Вильямс", 2008.— 720 с.
2 Избачков, Ю. С. Информационные системы: учебное пособие / Ю.С. Избачков. — Санкт - Петербург: Издательский дом "Питер", 2011.— 539 с.
3 Культин, Н. Основы программирования в Delphi XE / Н. Культин. — Санкт - Петербург: БХВ-Петербург, 2011. — 416 с.
4 Основы научных исследований: учеб. пособие / В.С. Кравченко [и др.]. - Краснодар: КГАУ, 2015. - 136 с.
5 Ларман, К. Применение UML 2.0 и шаблонов проектирования.
Введение в объектно-ориентированный анализ, проектирование и итеративную разработку / К. Ларман. — Москва: Издательство " Вильямс", 2013.— 736 с.
6 Маклафлин, Б. Объектно-ориентированный анализ и проектирование / Б. Маклафлин, Д. Уэст, Г. Поллайс. — Санкт - Петербург: Издательство " Питер", 2015.— 692 с.
7 Мандрыкин, А.В. Информационные технологии в экономике: учебное пособие / А.В. Мандрыкин. — Воронеж: ВГТУ, 2012. — 241 с.
8 Рихтер, Дж. Программирование на платформе Microsoft .NET Framework 4.0 на языке C# : 3-е издание / Дж. Рихтер. — Санкт - Петербург: Питер, 2012. - 812 с.
9 Скрипкин, К.Г. Экономическая эффективность информационных систем в России / К.Г.Скрипкин. — Москва: Издательство «Экономический факультет МГУ», 2016. — 172 с.
10 Титоренко, Г.А. Автоматизированные информационные технологии в экономике / Г.А.Титоренко. - Москва: Юнити, 2012. - 400 с.
11 Форд, М. Технологии, которые изменят мир / М.Форд. - Москва: Издательство «Манн, Иванов и Фербер», 2014. - 349с.;
12 Анализ данных и процессов / И. Холод [и др.]. — Санкт - Петербург: БХВ-Петербург, 2015. — 512 с.
13 СТО 4.2-07-2014 Система менеджмента качества. Общие требования к построению, изложению и оформлению документов учебной деятельности. - Введ. 30.12. 2013. - Красноярск: СФУ, 2014. - 60с.
14 Сайт компании Embarcadero [Электронный ресурс]: техн. информация. - Режим доступа: https://www. embarcadero.com/.
15 Википедия [Электронный ресурс]: свободная энциклопедия. - Режим доступа: http://wikipedia.org/.