Тип работы:
Предмет:
Язык работы:


ИСПОЛЬЗОВАНИЕ БЫСТРОГО ПРЕОБРАЗОВАНИЯ ФУРЬЕ И СВЁРТОЧНЫХ ФУНКЦИЙ ДЛЯ СРАВНЕНИЯ НУКЛЕОТИДНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

Работа №167489

Тип работы

Бакалаврская работа

Предмет

математика

Объем работы40
Год сдачи2020
Стоимость4620 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
6
Не подходит работа?

Узнай цену на написание


Введение 3
1 Основные понятия и подходы 5
1.1 Постановка задачи исследования 5
1.1.1 Задача поиска точных соответствий 6
1.1.2 Задача поиска неточных соответствий 6
1.1.3 Задача сравнения символьных последовательностей 8
1.2 Обзор литературы 8
1.3 Основные понятия, используемые при построении нового алгоритма сравнения символьных последовательностей 11
1.3.1 Понятие свёртки двух функций 11
1.3.2 Дискретное преобразование Фурье и его свойства 13
1.3.3 Быстрое преобразование Фурье 15
2 Описание алгоритма 17
2.1 О преобразовании символьных последовательностей 17
2.2 Почему вместо вычисления свёртки последовательностей {а0;...,an} и {b0; ..., bk} можно перемножать многочлены с коэффициентами {а0,..., an}и {bk;...,b0}? 18
2.3 Способ вычисления свёртки 19
3 Вычислительные эксперименты 21
3.1 Выбор тестовых последовательностей 21
3.2 Результаты экспериментов со случайными последовательностями . . 21
3.2.1 Последовательности, не имеющие совпадающих участков 21
3.2.2 Последовательности с искусственно внедрёнными совпадениями . 23
3.3 Результаты экспериментов с реальными последовательностями ... 25
3.4 Последовательности с неточными совпадениями 26
3.5 Проблема локализации 27
3.6 Обсуждение 29
Заключение 33
Список использованных источников 34

Задача поиска повторов или общих подпоследовательностей в символьных последовательностях является одной из классических задач математики и информатики. Она имеет большое количество различных приложений во многих областях современной науки, в том числе и в области биоинформатики. Наиболее значимой здесь является задача организации быстрого и эффективного сравнения больших (длиной до 1012 символов) последовательностей, представляющих собой цепочки ДНК. Кроме этого, также очень важно уметь осуществлять быстрый поиск по образцу в таких обширных массивах данных. Несмотря на заметный прогресс в этом направлении, достигнутый в основном благодаря развитию вычислительной техники, обе эти задачи далеки от окончательного решения.
В настоящее время большинство алгоритмов, так или иначе решающих эту задачу, базируются на идее выравнивания (alignment). Суть выравнивания в том, что мы каким-то образом находим в сравниваемых последовательностях общее «ядро», а затем расширяем его до тех пор, пока не накопится слишком много ошибок. Выравнивание является исторически первым методом, получившим широкое распространение, однако при этом обладающее рядом существенных недостатков, к которым относятся
1) расходимость метода и следовательно его неспособность сравнивать последовательности длиннее l~ 104, и
2) произвол в выборе штрафных функций, который не может быть устранён формальными методами.
Целью настоящей работы является разработка и программная реализация нового метода сравнения символьных последовательностей, основанного на преобразовании символьных последовательностей в цифровые и работе с ними, на примере генетических текстов, а также его тестирование и расширение.
Основная идея данного метода принадлежит доктору физико-математических наук, профессору Владимиру Викторовичу Шайдурову.
Для достижения указанной цели были поставлены следующие задачи.
1. Анализ научной литературы по теме выпускной работы.
2. Разработка метода сравнения символьных последовательностей, основывающегося на вычислении функции свёртки двух полиномов и использовании быстрого преобразования Фурье.
3. Реализация разработанного алгоритма на языке C#, отладка и тестирование программы.
4. Проведение серии вычислительных экспериментов с целью определения пределов применимости разработанного метода и его алгоритмической реализации.
5. Проведение серии вычислительных экспериментов на реальных генетических текстах с целью сравнения с иными распространёнными приложениями, использующимися для сравнения и поиска в последовательностях.
Работа состоит из введения, трех глав, заключения и списка цитируемой литературы. В первой главе содержится постановка задачи данной работы, вводятся основные понятия и описываются подходы к решению поставленной проблемы. Вторая глава содержит подробное описание разработанного алгоритма. В третьей главе приведены результаты вычислительных экспериментов на различных типах входных данных, а также ведётся обсуждение полученных результатов и возможных путей развития метода. Список литературы состоит из 30 источников.
Особая благодарность доктору физико-математических наук, профессору Михаилу Георгиевичу Садовскому за биологическую постановку задачи, полезные обсуждения и помощь в освоении предметной области, а также Игорю Анатольевичу Боровикову из EADP Data and AI, Electronic Arts in Redwood Shores, Калифорния, США за стимулирующий интерес к работе.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В ходе выполнения данной работы все поставленные задачи были выполнены, а цель достигнута.
1. Разработан метод сравнения символьных последовательностей, основанный на вычислении свёртки двух полиномов, построенных на базе данных последовательностей, и использовании быстрого преобразования Фурье.
2. Написана компьютерная программа, реализующая данный метод, проведено её тестирование и отладка на большом классе входных последовательностей.
3. Проведены серии вычислительных экспериментов на специально сгенерированных последовательностях с целью определения пределов применимости разработанного метода и его алгоритмической реализации.
4. Проведены серии вычислительных экспериментов на реальных генетических последовательностях для сравнения с другими распространёнными инструментами, использующимися для сравнения и поиска в последовательностях.
Апробация работы. Основные результаты работы докладывались на следующих конференциях и семинарах:
1) XXVIII Всероссийском семинаре «Нейроинформатика, её приложения и анализ данных», Красноярск, 3-5 октября 2019 г.;
2) Международной молодёжной научной конференции «Проспект Свободный — 2020», Красноярск, 24 апреля 2020 г.;
3) 1-ом Сибирском научном семинаре по технологиям анализа данных и приложениям (The 1st Siberian Scientific Workshop on Data Analysis Tech-nologies with Applications, SibDATA-2020), Красноярск, 10 июня 2020 г;
4) 8-ой Международной рабочей конференции по биоинформатике и биоинженерии (8th International Work-Conference on Bioinformatics and Biomedical Engineering, IWBBIO 2020), Гранада (Испания).
Основные результаты выпускной квалификационной работы опубликованы в:
1) A. Molyavko, V. Shaidurov, Eu. Karepova, M. Sadovsky Highly Parallel Convolution Method to Compare DNA Sequences with Enforced In/Del and Mutation Tolerance // LNBI, 2020, vol.12108, pp.472-481;
2) В.В. Шайдуров, А. А. Молявко, А. А. Поплаухин, А. И. Аксенова, М. Г. Садовский. Об одном алгоритме поиска общих подпоследовательностей с неточным совпадением (включая вставки и выпадения) на основе свёрточных функций и быстрого преобразования Фурье // Материалы XXVIII Всероссийского семинара Нейроинформатика, её приложения и анализ дан-ных, Красноярск, 2019, с.138-144.


[1] Hintzsche, J. D. A survey of computational tools to analyze and interpret whole exome sequencing data / J. D. Hintzsche, W. A. Robinson, A. C. Tan // International journal of genomics. — 2016. — Vol. 2016.
[2] Hetland, M. L. A survey of recent methods for efficient retrieval of similar time sequences / M. L. Hetland // Data mining in time series databases. — World Scientific, 2004. — Pp. 23-42.
[3] Левенштейн, В. И. О совершенных кодах в метрике выпадений и вставок / В. И. Левенштейн // Дискретная математика. — 1991. — Vol. 3, no. 1. — Pp. 3-20.
[4] Levenshtein, V. I. Efficient reconstruction of sequences from their subse¬quences or supersequences / V. I. Levenshtein // Journal of Combinatorial Theory, Series A. — 2001. — Vol. 93, no. 2. — Pp. 310-332.
[5] Levenshtein, V. I. Bounds for deletion/insertion correcting codes / V. I. Lev- enshtein // Proceedings IEEE International Symposium on Information The¬ory / IEEE. — 2002. — P. 370.
[6] Ng, H.-C. Reconfigurable acceleration of genetic sequence alignment: A Sur¬vey of two decades of efforts / H.-C. Ng, S. Liu, W. Luk // 2017 27th Inter¬national Conference on Field Programmable Logic and Applications (FPL) / IEEE. — 2017. — Pp. 1-8.
[7] Ning, K. Finding patterns in biological sequences by longest common sub-sequences and shortest common supersequences / K. Ning, H. K. Ng, H. W. Leong // Sixth IEEE Symposium on BioInformatics and BioEngi¬neering (BIBE’06) / IEEE. — 2006. — Pp. 53-60.
[8] Iliopoulos, C. S. Pattern matching algorithms with don’t cares / C. S. Il- iopoulos, M. S. Rahman // Proc. 33rd SOFSEM. — 2007. — Pp. 116-126.
[9] Alignment-free sequence comparison: benefits, applications, and tools / A. Zielezinski, S. Vinga, J. Almeida, W. M. Karlowski // Genome biology. — 2017. — Vol. 18, no. 1. — P. 186.
[10] A Survey of Methods and Tools for Large-Scale DNA Mixture Profiling / E. Alamoudi, R. Mehmood, A. Albeshri, T. Gojobori // Smart Infrastructure and Applications: Foundations for Smarter Cities and Societies. — Cham: Springer International Publishing, 2020. — Pp. 217-248.
[11] Basic local alignment search tool / S. F. Altschul, W. Gish, W. Miller et al. // Journal of molecular biology. — 1990. — Vol. 215, no. 3. — Pp. 403-410.
[12] Левенштейн, В. И. Двоичные коды с исправлением выпадений, вставок и замещений символов / В. И. Левенштейн // ДАН СССР. — 1965. — Vol. 163, no. 4. — Pp. 845-848.
[13] Miller, F.P. Levenshtein Distance / F.P. Miller, A.F. Vandome, J. McBrew- ster. — VDM Publishing, 2009.
[14] Marteau, P.-F. On recursive edit distance kernels with application to time series classification / P.-F. Marteau, S. Gibet // IEEE transactions on neural networks and learning systems. — 2015. — Vol. 26, no. 6. — Pp. 1121-1133.
[15] Efficient genome-wide, privacy-preserving similar patient query based on pri¬vate edit distance / X. S. Wang, Y. Huang, Y. Zhao et al. // Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security / ACM. — 2015. — Pp. 492-503...(30)


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ