Тип работы:
Предмет:
Язык работы:


Сжатие данных генома без потерь с использованием V-gram

Работа №126635

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы14
Год сдачи2022
Стоимость4750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
44
Не подходит работа?

Узнай цену на написание


Глава 1. Введение 3
Глава 2. Постановка задачи 5
Глава 3. Литературный обзор 5
Глава 4. Материал и методы 7
4.1. подоплека 7
Глава 5. Результаты 10
Глава 6. заключение 11
Список литературы 12

В биоинформатике формат FASTA является универсальным стандартом для хранения последовательностей нуклеотидов или последовательностей аминокислот. Fasta — это текстовый формат, состоящий из отдельных
букв, обозначающих каждый нуклеотид или аминокислоту. Последовательности генома представлены буквами, называемыми нуклеотидами или основаниями, с четырьмя различными символами, а именно гуанином (G), тимином
(T), аденином (A) и цитозином (C). Эти последовательности показаны в стандартных кодах нуклеиновых кислот и аминокислот IUB/IUPAC. [1].
Исследования генома стимулируют развитие персонализированной медицины и открытие лекарств от рака, редких заболеваний и других серьезных заболеваний. Однако данные генома гораздо более разнородны, чем в
физике, а сгенерированные файлы огромны и считаются конфиденциальной
личной информацией. Таким образом, их необходимо поддерживать таким
образом, чтобы поддерживать непрерывное обнаружение, а затем их необходимо удерживать для соответствия нормативным требованиям. Биологи
вступают в Клуб больших данных, и у них возникают проблемы с хранением,
обработкой и перемещением информации, которые когда-то были прерогативой астрономов и физиков высоких энергий. Следовательно, мы должны
сжимать эти данные, но из-за высокой скорости энтропии в данных генома
мы должны попробовать другой подход, чем традиционный. [2].
На видном месте сжатие касается того, как информация структурирована в данных, и переплетение этой структуры приводит к оптимизации отображения данных и, как следствие, к уменьшению их объема. Если производство
данных достигнуто, были предприняты шаги для их лучшего понимания и
более легкого представления. В тех случаях, когда невозможно правильно
определить источник, алгоритмы сжатия пытаются приблизительно обнаружить эту структуру и использовать ее при сжатии данных. Концептуальные
инструменты, разработанные для кодирования знаний, которые помогли сократить данные, помогли определить эти структуры, которые также использовались для анализа биологических данных.
Формальные грамматики были успешными моделями для анализа воз-
3растных последовательностей и извлечения их структуры. Изучение ДНК с
лингвистической точки зрения, которое привело к извлечению формальных
грамматик из их структуры, имеет продолжительность жизни, равную продолжительности жизни открытия ДНК.
В последние десятилетия требования к хранению значительно выросли.
С финансированием хранения проблем больше, чем с секвенированием. Это
большая проблема, с которой приходится сталкиваться современному ученому. Секвенирование стало более проблематичным, и эта проблема усложняет
весь процесс. Мотивация секвенировать и производить новые данные уменьшилась [3].
Такие данные поступают в виде коротких строк, длина которых обычно
находится в диапазоне 75-150. Каждый символ представляет собой нуклеотид
и может принимать значения A (аденин), C (цитозин), G (гуанин), T (тимин)
или N (ошибка в вызове основания). [4]. Все эти данные необходимо извлекать и обрабатывать, чтобы сохранить трафик ввода-вывода из-за медленной
вычислительной мощности. [5].
Важно сжать информацию без потери данных. Например, данные, созданные в определенное время, могут использоваться для ссылки на результаты других ранее созданных данных, что подразумевает повторную обработку, возможно, гораздо большего набора данных. Таким образом, необходимо
разработать надежный алгоритм сжатия данных без потерь. ар Построение
словаря V-грамм основано на принципе минимальной длины описания. Этот
подход позволяет нам достигать конкурентоспособных результатов в задачах
сжатия данных, таких как сжатие данных генома, по сравнению с другими
методами.
В этой работе предложен алгоритм сжатия данных генома без потерь с
использованием V-граммы с помощью построения словаря из последовательных данных на основе машинного обучения без присмотра и прогнозирования
следующих символов.



Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Наша работа показала, что можно сжимать последовательности генома
человека с помощью подхода рекуррентной нейронной сети. Это поможет
лучше понять законы, управляющие данными о последовательностях ДНК,
поскольку определение лучшего сжатия данных тесно связано с определением лучших моделей прогнозирования данных. Биологический анализ иссле-
11дует больше особенностей последовательностей генома в будущем, а методы
сжатия могут предоставить больше информации об избыточности и более высоком повышении производительности сжатия. и тандемные повторы и т.д.


[1] William R Pearson and David J Lipman. Improved tools for biological sequence comparison. Proceedings of the National Academy of Sciences, 85(8):2444-2448, 1988.
[2] Dan Greenfield, Vaughan Wittorff, and Michael Hultner. The importance of data compression in the field of genomics. IEEE pulse, 10(2):20-23, 2019.
[3] Mohd Sayeed Akhtar, Ibrahim A Alaraidh, and Mallappa Kumara Swamy. Data measurement, data redundancy, and their biological relevance. In Essentials of Bioinformatics, Volume III, pages 103-107. Springer, 2019.
[4] Camille Sessegolo, Corinne Cruaud, Corinne Da Silva, Audric Cologne, Marion Dubarry, Thomas Derrien, Vincent Lacroix, and Jean-Marc Aury. Transcriptome profiling of mouse samples using nanopore sequencing of cdna and rna molecules. Scientific reports, 9(1):1-12, 2019.
[5] Christian Bischof and Daniela Wilfinger. Big data-enhanced risk management. Transactions of FAMENA, 43(2):73-84, 2019.
[6] Gzip. Available online.
[7] Bzip. Available online.
[8] phane Grumbach and Fariza Tahi. Compression of dna sequences. In [Proceedings] DCC93: Data Compression Conference, pages 340-350. IEEE, 1993.
[9] Stephane Grumbach and Fariza Tahi. A new challenge for compression algorithms: genetic sequences. Information Processing & Management, 30(6):875-886, 1994.
[10] David Salomon and Giovanni Motta. Handbook of data compression. Springer Science & Business Media, 2010.
[11] Xin Chen, Sam Kwong, and Ming Li. A compression algorithm for dna sequences and its applications in genome comparison. Genome informatics, 10:51-61, 1999.
[12] Kalyan Kumar Kaipa, Ajit S Bopardikar, Srikantha Abhilash, Parthasarathy Venkataraman, Kyusang Lee, Taejin Ahn, and Rangavittal Narayanan. Algorithm for dna sequence compression based on prediction of mismatch bases and repeat location. In 2010 IEEE International Conference on Bioinformatics and Biomedicine Workshops (BIBMW), pages 851-852. IEEE, 2010.
[13] Pinghao Li, Shuang Wang, Jihoon Kim, Hongkai Xiong, Lucila Ohno- Machado, and Xiaoqian Jiang. Dna-compact: Dna compression based on a pattern-aware contextual modeling technique. PloS one, 8(11):e80377, 2013.
[14] Armando J Pinho and Diogo Pratas. Mfcompress: a compression tool for fasta and multi-fasta data. Bioinformatics, 30(1):117-118, 2013.
[15] Timothy L Bailey, Nadya Williams, Chris Misleh, and Wilfred W Li. Meme: discovering and analyzing dna and protein sequence motifs. Nucleic acids research, 34(suppl_2):W369-W373, 2006.
[16] Kamel Jabbari and Giorgio Bernardi. Cytosine methylation and cpg, tpg (cpa) and tpa frequencies. Gene, 333:143-149, 2004.
[17] Julien Jorda, Bin Xue, Vladimir N Uversky, and Andrey V Kajava. Protein tandem repeats-the more perfect, the less structured. The FEBS journal, 277(12):2673-2682, 2010.
[18] Amartya Sanyal, Bryan R Lajoie, Gaurav Jain, and Job Dekker. The long- range interaction landscape of gene promoters. Nature, 489(7414):109, 2012.
[19] Adriana Miele and Job Dekker. Long-range chromosomal interactions and gene regulation. Molecular biosystems, 4(11):1046-1057, 2008.
[20] Kedar Tatwawadi. Deepzip: Lossless compression using recurrent networks. URLhttps://web. Stanford. edu/class/cs224n/reports/2761006. pdf 2018.
[21] Ha§im Sak, Andrew Senior, and Francoise Beaufays. Long short-term memory recurrent neural network architectures for large scale acoustic modeling. In Fifteenth annual conference of the international speech communication association, 2014.
[22] Igor Kuralenok, Natalia Starikova, Aleksandr Khvorov, and Julian Serdyuk. Construction of efficient v-gram dictionary for sequential data analysis. In Proceedings of the 27th ACM International Conference on Information and Knowledge Management, CIKM ’18, pages 1343-1352, New York, NY, USA, 2018. ACM.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ