Тип работы:
Предмет:
Язык работы:


РАЗРАБОТКА И ИССЛЕДОВАНИЕ АЛГОРИТМОВ КЛАССИФИКАЦИИ АТОМ-АТОМНЫХ ОТОБРАЖЕНИЙ ХИМИЧЕСКИХ РЕАКЦИЙ

Работа №77657

Тип работы

Магистерская диссертация

Предмет

информатика

Объем работы87
Год сдачи2017
Стоимость4920 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
28
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 3
ОПИСАНИЕ ЗАДАЧИ 3
АНАЛИЗ СУЩЕСТВУЮЩИХ АЛГОРИТМОВ 5
НАПРАВЛЕНИЯ ИССЛЕДОВАНИЙ, РЕШАЮЩИХ ЗАДАЧУ АТОМ-АТОМНОГО ОТОБРАЖЕНИЯ 8
ТЕОРЕТИЧЕСКИЕ АСПЕКТЫ МЕТОДИКИ РЕШЕНИЯ ЗАДАЧИ 11
СОЗДАНИЕ МАТЕМАТИЧЕСКОЙ МОДЕЛИ ХИМИЧЕСКОГО ОТОБРАЖЕНИЯ. ОПИСАНИЕ ДАННЫХ 11
ОПИСАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ И ПРИМЕНЕНИЕ ИХ К ЗАДАЧЕ КЛАССИФИКАЦИИ ХИМИЧЕСКОГО ОТОБРАЖЕНИЯ 25
МОДЕЛЬ 1. НАИВНЫЙ БАЙЕС 25
МОДЕЛЬ 2. ЛИНЕЙНАЯ РЕГРЕССИЯ 28
МОДЕЛЬ 3. ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ 34
МОДЕЛЬ 4. МЕТОД ОПОРНЫХ ВЕКТОРОВ ДЛЯ ЗАДАЧИ АТОМ-АТОМНОГ ОТОБРАЖЕНИЯ 37
ОПИСАНИЕ ПРОГРАММНЫХ ПРОДУКТОВ 39
АНАЛИЗ РЕЗУЛЬТАТОВ ЭКСПЕРИМЕНТОВ 45
ЗАКЛЮЧЕНИЕ 60
СПИСОК ЛИТЕРАТУРЫ 64
ПРИЛОЖЕНИЕ

Около 40 лет назад произошло возникновение и впоследствии становление такой науки, как хемоинформатика. Учеными было осознано, что многие области изучения химии содержат огромный объем информации, накопленный в результате химических экспериментов и исследований, и для решения многих проблем химии требуются новые подходы и методы, основанные на применении методов информатики. Определение хемоинформатики впервые было введено Ф.К. Брауном в 1998 году [1]: «Хемоинформатика означает совместное использование информационных ресурсов для преобразования данных в информацию и информации в знания для быстрейшего принятия наилучших решений при поиске соединений- лидеров в разработке лекарств и их оптимизации». Как и любая другая наука, хемоинформатика имеет несколько основных разделов изучения:
1) Создание и управление базами данных по химии. Такие базы позволяют осуществлять быстрый поиск нужного химического соединения, используя различные методы.
2) Прогнозирование свойств химических соединений и материалов. На основе структуры химического соединения, используя методы машинного обучения и математической статистики, можно предсказывать его физические, химические свойства.
3) Молекулярное подобие и поиск по молекулярному подобию. Поиск молекулярной структуры по заданным признакам, схожими с признаками заданного соединения.
4) Компьютерный синтез. Данный раздел содержит в себе методы, алгоритмы, программное обеспечение, позволяющие химики проводить синтез органических соединений.
В данной работе будет рассматриваться одна из задач хемоинформатики, а именно задача маппинга химической реакции. Для понимания этой задачи необходимо ввести несколько определений.
[2]: «Химическая реакция — превращение одного или нескольких исходных веществ (реагентов) в другие вещества, при которых ядра атомов не меняются, при этом происходит перераспределение электронов и ядер, и образуются новые химические вещества».
Задача маппинга - определение и поиск объектов после выполнения над ними определенных действий и преобразований.
Таким образом, данная задача, mapping (далее маппинг или атом- атомное отображение) химической реакции, определяется, как поиск соответствия атомов левой и правой частей химической реакции. В работе будут рассматриваться только соединения органической химии, так как именно в ней наиболее сложно предсказать атомные переходы во время осуществления реакций.
Согласно статье [3] «Automatic reaction mapping and reaction center detection», которая была опубликована в 2013, поиск оптимального и эффективного решения этой задачи является достаточно актуальной проблемой среди ученых, исследующих основные задачи хеминформатики. В публикации данная задача ставится как поиск оптимального отображения атом-атом и так же называется задачей маппинга (AAM - atom-atom mapping). Информация AAM помогает определить измененную часть реакционного центра, что в свою очередь (вместе с AAM) является основой для создания всего механизма реакции.
Данные AMM и реакционный центр химических реакций способствуют созданию многих химический приложений. На основе этих технологий могут быть разработаны различные базы данных химических реакций, что является одной из основных задач хеминформатики. Эта информация играет все большую роль в биохимии и биохимических реакциях, катализируемых ферментами.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Итак, в результате данной работы удалось построить классификаторы, решающие задачу атом-атомного отображения или поиска правильного химического мапа.
Наилучший результат, как и предполагалась, был показан методом опорных векторов (порядка 91% точности правильно определенных атом- атомных отображений). В данном методе химические данные были описаны наиболее подробно, что скорее всего привело к самому лучшему результату.
В ходе экспериментов удалось получить достаточно неплохие проценты правильно решенных задач: 76% (69% для теста более высокой точности) для метода, использующего полиномиальную регрессию и 85% для метода, основанного на применении логистической регрессии. Считается, что полученный результат лучше, чем был получен в 2015 году, так как в этот раз использовались реальные данные о химических реакциях, тогда как в прошлый раз они генерировались вручную, что привело к большому количеству однотипных и одинаковых реакций. Однако, для модели полиномиальной регрессии с увеличением разнообразия различных неправильных отображений его точность падает с 88% до 69%.
Основной сложностью явилось получение данных о неправильных химических отображениях, так как они не были представлены в исходной обучающей выборке. Тем не менее, удалось получить такие данные в достаточном количестве для эксперимента. Построенные алгоритмы, классификаторы и математические модели подразумевают за собой использование теоретических аспектов машинного обучения ,что позволяет сделать вывод об их корректности и возможности применения на реальные задачи, описанные в данном исследовании.
В ходе исследования удалось переформулировать задачу от классификации атомов в некотором атом-атомном отображении к классификации правильных и неправильных отображений реакций.
Одним из важных аспектов данной работы было преобразование химических данных к виду, который используют построенные классификаторы. Были формализованы и определены различные химические характеристики, такие как различные данные о смежных атомах, взаимное расположение атомов в двумерном пространстве и другие. В конечном итоге, обучающие вектора состояли из 12 различных характеристик, формализованных и полученных в ходе выполнения работы. Важнейшим преимуществом последних алгоритмов было то, что реакции, на которые они опирались были реальные а не сгенерированные программой.
В ходе работы удалось построить алгоритм, использующий в своей основе метод опорных векторов, использующий жадное добавление ограничений для решения внутри алгоритма оптимизационной задачи. В результате тестов выяснилось, что среди построенных, это алгоритм показывает самую высокую точность правильного определения реакций на правильные и неправильные, порядка 91% правильно решенных задач.
В целом, результаты работы оцениваются как успешные. За 3 года удалось достичь понимания, как работать с химическими данными и каким образом их лучше использовать при построении классификаторов. Среди преимуществ результатов работы можно выделить следующие пункты:
• Был реализован солидный преобразователь химических данных из формата RXN в вид, который необходим для классификаторов на языке C#.
• С течением времени количество компонент в обучающих векторах выросло с 2 до 12, что значительно увеличивает описание многообразия химических реакций.
• Удалось решить проблему с различным количеством атомов химических реакций путем обобщения химических свойств, которые скорее рассматривали саму реакцию, а не каждый атом по отдельности.
• В связи с прошлым пунктом задача обобщилась с построения атом- атомного отображения до поиска и определения корректного атом- атомного отображения.
• Были реализованы сначала тривиальные классификаторы (линейная и логистическая регрессия), что позволило использовать полученные знания для построения классификатора с более сложной структурой (особый метод опорных векторов, усложненный жадной задачей оптимизации).
• Сравнение построенных алгоритмов позволит достичь понимания, в какую сторону можно двигаться дальше при решении данной задачи.
Так же в ходе работы можно выделить несомненные недостатки:
• Некоторая нестабильность первых классификаторов, которая проявляется в сильном варьировании результатов тестов (около 20% разницы). Слабые классификаторы не справлялись с увеличением количества данных и снижали свою точность, в отличие от метода, основанного на SVM.
• Обобщение химических данных об атомах приводило к потере чистых данных, не использующих искусственные математические преобразования, что приводило к снижению размерности обучающих векторов, что все равно говорит о неполном описании химических данных.
Таким образом, можно выделить следующие направления изучения данной задачи:
1) Существует ли возможность построения алгоритма, который будет использовать вектора разных размеров, в зависимости от количества
атомов, которые содержат молекулы веществ?
2) Есть ли смысл для данной задачи строить более сложные алгоритмы машинного обучения, и смогут ли они дать более высокую точность чем та, которая была получена в этой работе?
3) Попробовать в более широком смысле использовать энергетические и квантовые химические характеристики, формализовав законы сохранения энергии и другие физические и химические свойства, присущие реакциям.
Итак, данная задача в очередной раз была решена. Стоит напомнить, что это всего лишь первые шаги решения данной проблемы химии. Поставив вышеприведенные вопросы, можно придумать еще большое количество способов, эффективно решающих данную задачу.



1. F.K. Brown «Chapter 35. Chemoinformatics: What is it and How does it Impact Drug Discovery». Annual Reports in Med. Chem. 1998, 33: 375.
2. Эмануэль Н. М., Кнорре Д. Г. Курс химической кинетики. — 4-е изд., переработанное и дополненное. — М.: Высшая школа, 1984. — 48 с.
3. William Lingran Chen, David Z. Chen and Keith T. Taylor. Automatic reaction mapping and reaction center detection // WIREs Comput Mol Sci 2013, 3:p.560-593.
4. McGregor JJ, Willett P. Use of a maximal common subgraph algorithm in the automatic identification of the ostensible bond changes occurring in chemical reactions.// J Chem Inf Comput Sci 1981, 21:p.137-140.
5. Химические приложения топологии и теории графов / Под ред.Р. Кинга.- М.: Мир, 1987. - 560 с.
6. Trudeau Richard J. Introduction to Graph Theory. — Corrected, enlarged republication// — New York: Dover Pub., 1993. — p. 19.
7. Akutsu T. Efficient extraction of mapping rules of atoms from enzymatic reaction data. Comoput Biol 2004, 11:449-462.
8. First EL, Gounaris CE, Floudas CA. Stereochemically consistent reaction mapping and identification of multiple reaction mechanisms through integer linear optimization. J Chem Inf Model 2012, 52:84-92.
9. Yu C. N. J. et al. Support vector training of protein alignment models //Research in Computational Molecular Biology. - Springer Berlin Heidelberg, 2007. - С. 253-267.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ