Введение 3
Постановка задачи 4
Обзор литературы 5
Глава 1. Анализ и извлечение данных 8
1.1. Описание структуры БД 8
1.2. Определение критериев отбора записей 9
1.3. Сбор данных 10
Глава 2. Представление данных 12
2.1. Предобработка текстовых признаков 12
2.2. Векторное представление текстовых признаков 13
2.2.1 Word2Vec 13
2.2.2 FastText 14
2.2.3 BertEmbedings 15
2.3. Векторное представление категориальных признаков ... 16
2.4. Векторное представление пациента 17
Глава 3. Определение уровня риска 18
3.1. Методы классификации 18
3.2. Результаты 19
Вывод 22
Заключение 24
Список литературы
Рост достижений в сфере информационных технологий положительно сказывается на развитии практически всех областей знаний. Разработка и внедрение информационных систем в нашу жизни являются на сегодняшний день одними из самых актуальных задач.
В период пандемии на медицинские учреждения и их работников сильно возросла нагрузка, поэтому использование автоматизированных систем, упрощающих работу персонала, приобрело особое значение. Это дало толчок к развитию направления дистанционных медицинских консультаций, позволяющих поддерживать связь пациентов с медработниками и сократить количество личных обращений в больницы. Для оптимизации времени ожидания от такой системы полезна программа, которая могла бы проанализировать ответы пациента на простые вопросы о самочувствии и автоматических вывести по ним предварительную оценку состояния человека.
Такая задача осложняется тем, что в ней невозможно учесть все имеющиеся условия, влияющие на ответ, — можно лишь выделить примерный набор наиболее важных признаков. Полученный результат при этом будет носить только приблизительный характер, а алгоритм его нахождения не может быть выписан точно и последовательно [1].
В приложении «ТАДАМ» компании «Виста» уже организуются индивидуальные комнаты консультаций с врачом с помощью чат-ботов, позволяющие получить рекомендации, не посещая больницу. Удаленные консультации со специальными возможностями для беременных женщин являются следующим шагом развития продукта.
В ходе работы были выполнены следующие задачи:
1. Исследование структуры базы данных и анализ представленной в ней информации.
2. Изучение возможных подходов обработки данных и их применение на полученных признаках для создания представления пациента.
3. Обучение собственных моделей Word2Vec и FastText и оценка их эффективности.
4. Подбор параметров и анализ результатов 4 алгоритмов классификации.
5. Разработка программного кода [32], реализующего:
- сбор данных из вышеописанной базы данных,
- предобработку данных,
- векторизацию данных,
- классификацию полученного векторного представления