Тип работы:
Предмет:
Язык работы:


Тестирование эффективности алгоритмов нелинейной классификации в задаче распознавания типа медицинского вмешательства для рефератов статей из коллекции MEDLINE

Работа №127414

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы30
Год сдачи2016
Стоимость4760 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
15
Не подходит работа?

Узнай цену на написание


Введение 5
Глава 1. Задача 6
Глава 2. Оценка качества классификатора 7
Глава 3. Представления документов 9
3.1. Векторная модель (Vector Space Model) 9
3.2. Term Frequency 9
3.3. Term Frequency - Inverse Document Frequency 10
3.4. Latent Semantic Indexing 10
3.5. Probabilistic Latent Semantic Indexing 11
Глава 4. Алгоритмы классификации 13
4.1. Логистическая регрессия 13
4.2. Машины опорных векторов 14
4.3. Ансамбли деревьев решений 16
4.3.1. Random Forest 16
4.3.2. Gradient Boosting 17
Глава 5. Обобщение бинарного классификатора на мультикласси¬фикатор 18
Глава 6. Несбалансированность данных 19
Глава 7. Эксперименты и результаты 20
7.1. Эксперименты с представлением pLSA 20
7.2. Выбор наилучшего представления данных для каждого
алгоритма 21
7.2.1. SVM с линейным ядром 22
7.2.2. SVM c ядром RBF 22
7.2.3. Логистическая регрессия 23
7.2.4. Gradient Boosting 24
7.2.5. Random Forest 24
Глава 8. Балансировка данных 26
Глава 9. Выводы 28
Глава 10.Заключение 29 
Список литературы


На протяжении почти всей истории медицина была крайне эмпирической областью. Врачи принимали решения, полагаясь либо на свой
опыт, либо на опыт своих коллег, современников или нет. Врачебные
практики разрабатывались в какой-то мере стихийно и передавались
от целителя к целителю. Отсюда появились известные всем сомнительные практики пускания крови или даже чего-либо более мрачного —
лоботомии психически больных пациентов. И даже после открытия научного метода в медицине еще долгое время преобладал опыт, а не
свидетельства. В последние 20 лет, однако, все большую поддержку
набирает доказательная медицина — подход, при котором врач принимает решения, основываясь исключительно на данных, полученных из
подтвержденно надежных медицинских исследований, а не на опыте.
Разумеется, чтобы врачу принимать решения, основываясь на исследованиям, ему нужно иметь доступ к этим исследованиям. В этом сценарии трудно переоценить полезность какой-либо поисковой системы,
которая позволила бы врачу находить нужные ему исследования без
каких-либо затруднений. Конечно, исследование исследованию рознь,
и то, как именно проводилось исследование, имеет большое значение.
Хирургу вряд ли понадобится опыт врача-диетолога, и наоборот. Таким
образом, мы приходим к основной задаче этой работы.
Основная цель — научиться автоматически различать медицинские
рефераты, описывающие некий врачебный опыт, по типу медицинского вмешательства. Для этого имеется набор документов, уже размеченных по типу вмешательства, и стоит задача применить методы
машинного обучения для того, чтобы обобщить этот опыт на произвольные документы.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Таким образом, была рассмотрена задача классификации медицинских рефератов по типу вмешательства. Были рассмотренью различные классификаторы и представления данных и определены оптимальные их сочетания для этой конкретной задачи. Была проведена попытка сбалансировать данные с помощью техники oversampling, обернувшаяся неудачей на реальных данных.


[1] Breiman, Leo. ’’Bagging predictors.” Machine learning 24.2 (1996): 123¬140.
[2] Bishop, Christopher M. ’Pattern Recognition.” Machine Learning (2006).
[3] Cosma Shalizi. Undergraduate Advanced Data Analysis. 2012. http: //www.stat.cmu.edu/~cshalizi/uADA/12/lectures/ch12.pdf
[4] Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze. An Introduction to Information Retrieval. Cambridge University Press, Cambridge, England, 2009.
[5] Cortes, Corinna, and Vladimir Vapnik. ’Support-vector networks.” Machine learning 20.3 (1995): 273-297.
[6] Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., and Harshman, R. Indexing by latent semantic analysis. Journal of the American Society for Information Science (1990).
[7] Hofmann, Thomas. ”Probabilistic latent semantic indexing.” Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 1999.
[8] scikit-learn documentation. Grid Search: Searching for estimator parameters http://scikit-learn.org/stable/modules/grid_ search.html
[9] Ridgeway, Greg. ”Generalized Boosted Models: A guide to the gbm package.” Update 1.1 (2007): 2007.
[10] Rifkin, Ryan. ”Multiclass Classification.” Lecture Slides. February (2008).


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ