Введение 3
2 Обзор литературы 5
3 Материалы и методы 10
3.1 Используемые данные 10
3.2 Предобработка данных 10
3.3 Архитектура модели 13
3.4 Метод оценки работы модели 14
4 Результаты 15
4.1 Выбор гиперпараметров 15
4.2 Эффективность модели 16
4.3 Доступность модели 16
5 Обсуждение 17
6 Выводы 18
Из всех типов пост-трансляционных модификаций (ПТМ) изучению фосфорилирования было отведено наибольшее внимание. Фосфорилирование играет ключевую роль
в качестве “молекулярного переключателя” во множестве типов регуляторных процессов в эукариотической клетке [1–3].
Для экспериментального изучения фосфорилирования и других ПТМ за последние
три десятилетия учеными было разработано множество методов. Их можно разделить
на две группы: низкопропускные и высокопропускные [4]. Объектом исследования низкопропускных методов является, как правило, один или несколько интересующих исследователя белков, в то время как высокопропускные методы, такие как тандемная
масс-спектрометрия, позволяют проводить изучение ПТМ, а в частности, фосфорилирования полноценных клеточных протеомов.
В результате широкомасштабного использования высокопропускных экспериментальных методик за последние годы было накоплено большое количество фосфопротеомных данных. Последние сегодня доступны для широкому кругу пользователей посредством открытых баз данных в сети Интернет. Несмотря на то, что большинство данных были вручную извлечены экспертами из соответствующих научных статей, лишь
немногие из баз данных в достаточной мере обеспечивают свое содержимое сопроводительной информацией, касающейся экспериментального базиса, использованного для
обнаружения того или иного сайта ПТМ. Частое отсутствие подобных аннотаций в
совокупности с аккумуляцей экспериментальных результатов, значительно отягощает
оценку качества записей. Особенно явно это проявляется в случае использования вычислительных методов идентификации сайтов ПТМ, так как подобные методы базируются
в подавляющем большинстве случаев на алгоритмах машинного обучения, эффективность которых напрямую зависит от качества выборки, используемой для обучения
модели.
Точное предсказание сайтов ПТМ при помощи алгоритмов машинного обучения является крайне желаемой альтернативой экспериментальным техникам по причине дешевизны, доступности, легкости в использовании. На протяжении последних двадцати
лет множество усилий было затрачено на создание подобных моделей, и сегодня на сайте Omictools.org [5] предлагается более пятидесяти моделей, подходящих для задачи
предсказания сайтов фосфорилирования. Тем не менее, в данном списке отсутствует
предиктор, способный к киназо- и таксоно- неспецифичным предсказаниям. Помимо
этого, зачастую авторы прекращают поддержку моделей по истечении нескольких лет
после публикации, что делает работу с ними попросту невозможной. В силу того, что
масштаб исследований со временем увеличивается, необходимой является
и способность предиктора работать с большими массивами данных.
Задача точного определения сайтов фосфорилирования вычислительными методами не является простой сама по себе и при этом значительно осложняется отсутствием
возможности введения строгих критериев на этапе формирования выборки. Базы данных продолжают интенсивно расти, поэтому введение подробных сопроводительных
аннотаций в значительной мере повысило бы эффективность создаваемых вычислительных моделей, ориентированных на предсказания сайтов пост-трансляционных модификаций, что было успешно продемонстрировано в данной работе.
Существующие вычислительные методы предсказания сайтов фосфорилирования
на сегодняшний момент не отличаются высокой точностью работы, а также по ряду
причин, подчеркнутых в данной работе, являются устаревшими. Несмотря на многочисленные успешные применения методов глубокого обучения в различных областях
вычислительной биологии, поиски актуальных на сегодняшний момент предикторов,
основанных на данных методах, не увенчались успехом. По этой причине была предложена гибридная модель, основанная на новейших результатах в области глубокого
обучения - конволюционных и рекуррентных нейронных сетях. Созданную модель отличает ряд важных особенностей, среди которых неспецифичность по отношению к
определенной группе киназ или филогенетической группе, высокая вычислительная
эффективность, простота в использовании, открытость и модифицируемость. Её пре-
18восходство было продемонстрировано путем сравнения её с существующими решениями
на независимых тестовых выборках, сформированных на основе наиболее свежих экспериментальных данных. Это же, в свою очередь, показывает высокую эффективность
примененных методов, что позволяет предположить плодотворное их применение для
создания моделей, ориентированных на предсказания и других сайтов ПТМ. Отдельно стоит отметить способность нейронных сетей обучаться без выделения каких-либо
репрезентативных особенностей в тренировочных выборках. Созданная модель была
дополнена интерфейсом в виде командной строки, а весь сопутствующий программный код и созданные выборки данных были опубликованы в открытом репозитории на
ресурсе GitHub.