Análise de sequências de DNA através de códigos corretores de erros
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UNESP |
Texto Completo: | http://hdl.handle.net/11449/203138 http://www.athena.biblioteca.unesp.br/exlibris/bd/capelo/2019-03-19/000913029.pdf |
Resumo: | Information and coding theory as well as genetics are concerned with the transfer and storage of information. For decades, scientists have studied the integration of these theories, but there is a great difficulty in determining a mathematical structure related to the structure of DNA (deoxyribonucleic acid). In the present work, based on a genetic import system model proposed in [ROCHA 2010] through BCH codes (Bose-Chaudhuri-Hocquenghem) on the Galois ring extension, we implemented an algorithm capable of identifying and reproducing two sequences of DNA, with different biological functions and length of 63 nucleotides, using for both the same six primitive polynomials and generators of degree 6. For this, we need to associate the nitrogen bases of the DNA (adenine, thymine, guanine and cytosine) to the elements of the alphabet of the finite ring Z4 = f0; 1; 2; 3g. This process is called labeling and, in the two results obtained, applying the same generator polynomial, we find 8 codewords with the same labeling. These codewords differ a nucleotide from the original sequence, where the exchanges of nitrogen base occurred in different positions, causing different bases, codons and amino acids. The algorithm is also capable of analyzing mutations in DNA sequences. To exemplify this application, we used the sequence related to exon 14 of the BRCA1 gene (Breast Cancer1) with length 127 analyzing nonsense and missense point mutations through a generation polynomial of degree 7. From the identification and reproduction functions, we find codewords to be used as reference in these analysis. Subsequently, applying each mutation punctually, we observe that the code is able to retrieve the original sequence. Pointing to a mathematical structure associated with error-correcting codes for single strand of DNA, this algorithm can contribute to the development of a methodology that can reduce laboratory time and costs... |
id |
UNSP_9786d4488193ee691d52732fdf77a9cd |
---|---|
oai_identifier_str |
oai:repositorio.unesp.br:11449/203138 |
network_acronym_str |
UNSP |
network_name_str |
Repositório Institucional da UNESP |
repository_id_str |
2946 |
spelling |
Análise de sequências de DNA através de códigos corretores de errosAnalysis of DNA sequences through error-correcting codesCódigos corretores de erros (Teoria da informação)Codigo genéticoDNA - AnáliseTelecomunicaçõesDNA - AnalysisError-correcting codes (Information theory)Genetic codeTelecommunicationInformation and coding theory as well as genetics are concerned with the transfer and storage of information. For decades, scientists have studied the integration of these theories, but there is a great difficulty in determining a mathematical structure related to the structure of DNA (deoxyribonucleic acid). In the present work, based on a genetic import system model proposed in [ROCHA 2010] through BCH codes (Bose-Chaudhuri-Hocquenghem) on the Galois ring extension, we implemented an algorithm capable of identifying and reproducing two sequences of DNA, with different biological functions and length of 63 nucleotides, using for both the same six primitive polynomials and generators of degree 6. For this, we need to associate the nitrogen bases of the DNA (adenine, thymine, guanine and cytosine) to the elements of the alphabet of the finite ring Z4 = f0; 1; 2; 3g. This process is called labeling and, in the two results obtained, applying the same generator polynomial, we find 8 codewords with the same labeling. These codewords differ a nucleotide from the original sequence, where the exchanges of nitrogen base occurred in different positions, causing different bases, codons and amino acids. The algorithm is also capable of analyzing mutations in DNA sequences. To exemplify this application, we used the sequence related to exon 14 of the BRCA1 gene (Breast Cancer1) with length 127 analyzing nonsense and missense point mutations through a generation polynomial of degree 7. From the identification and reproduction functions, we find codewords to be used as reference in these analysis. Subsequently, applying each mutation punctually, we observe that the code is able to retrieve the original sequence. Pointing to a mathematical structure associated with error-correcting codes for single strand of DNA, this algorithm can contribute to the development of a methodology that can reduce laboratory time and costs...A teoria da informação e codificação, bem como, a genética preocupam-se com a transferência e armazenamento de informações. Há décadas, os cientistas estudam o casamento dessas teorias, porém, há uma grande dificuldade em determinar uma estrutura matemática relacionada à estrutura do DNA (ácido desoxirribonucleico). No presente trabalho, baseado em um modelo de sistema para importação genética proposto em [ROCHA 2010] através de códigos BCH (Bose-Chaudhuri-Hocquenghem) sobre a extensão de anel de Galois, implementamos um algoritmo capaz de identificar e reproduzir duas sequências de DNA, com funções biológicas distintas e comprimento de 63 nucleotídeos, utilizando para ambas os mesmos seis polinômios primitivos e geradores de grau 6. Para isso, precisamos associar as bases nitrogenadas do DNA (adenina, timina, guanina e citosina) aos elementos do alfabeto do anel finito Z4 = f0; 1; 2; 3g. Esse processo denomina-se rotulamento e, nas duas sequências analisadas de comprimento 63, aplicando um mesmo polinômio gerador, encontramos 8 palavras-código ambas com o mesmo tipo de rotulamento. Essas palavras-código distam um nucleotídeo da sequência original, onde as trocas de base nitrogenada ocorreram em posições distintas, ocasionando diferentes bases, códons e aminoácidos. O algoritmo também é capaz de analisar mutações em sequências de DNA. Para exemplificar esta aplicação, utilizamos a sequência relacionada ao éxon 14 do gene BRCA1 (Breast Cancer 1) com comprimento 127 analisando mutações pontuais nonsense e missense através de um polinômio gerador de grau 7. A partir das funções de identificação e reprodução, encontramos palavras-código para serem utilizadas como referência nessas análises. Posteriormente, aplicando cada mutação pontualmente, observamos que o código é capaz de recuperar a sequência original. Apontando uma estrutura matemática...Universidade Estadual Paulista (Unesp)Benedito, Cintya Wink de Oliveira [UNESP]Universidade Estadual Paulista (Unesp)Bassi, Mariana Venezian Musto [UNESP]2021-03-10T12:55:42Z2021-03-10T12:55:42Z2019info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis84 f.application/pdfBASSI, Mariana Venezian Musto. Análise de sequências de DNA através de códigos corretores de erros. 2019. 84 f. Trabalho de conclusão de curso (bacharelado - Engenharia de Telecomunicações) - Universidade Estadual Paulista Julio de Mesquita Filho, Câmpus Experimental de São João da Boa Vista, 2019.http://hdl.handle.net/11449/203138990009130290206341http://www.athena.biblioteca.unesp.br/exlibris/bd/capelo/2019-03-19/000913029.pdf79163755740508210000-0002-4806-3399Almareponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESPporinfo:eu-repo/semantics/openAccess2024-08-06T14:18:21Zoai:repositorio.unesp.br:11449/203138Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-06T14:18:21Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false |
dc.title.none.fl_str_mv |
Análise de sequências de DNA através de códigos corretores de erros Analysis of DNA sequences through error-correcting codes |
title |
Análise de sequências de DNA através de códigos corretores de erros |
spellingShingle |
Análise de sequências de DNA através de códigos corretores de erros Bassi, Mariana Venezian Musto [UNESP] Códigos corretores de erros (Teoria da informação) Codigo genético DNA - Análise Telecomunicações DNA - Analysis Error-correcting codes (Information theory) Genetic code Telecommunication |
title_short |
Análise de sequências de DNA através de códigos corretores de erros |
title_full |
Análise de sequências de DNA através de códigos corretores de erros |
title_fullStr |
Análise de sequências de DNA através de códigos corretores de erros |
title_full_unstemmed |
Análise de sequências de DNA através de códigos corretores de erros |
title_sort |
Análise de sequências de DNA através de códigos corretores de erros |
author |
Bassi, Mariana Venezian Musto [UNESP] |
author_facet |
Bassi, Mariana Venezian Musto [UNESP] |
author_role |
author |
dc.contributor.none.fl_str_mv |
Benedito, Cintya Wink de Oliveira [UNESP] Universidade Estadual Paulista (Unesp) |
dc.contributor.author.fl_str_mv |
Bassi, Mariana Venezian Musto [UNESP] |
dc.subject.por.fl_str_mv |
Códigos corretores de erros (Teoria da informação) Codigo genético DNA - Análise Telecomunicações DNA - Analysis Error-correcting codes (Information theory) Genetic code Telecommunication |
topic |
Códigos corretores de erros (Teoria da informação) Codigo genético DNA - Análise Telecomunicações DNA - Analysis Error-correcting codes (Information theory) Genetic code Telecommunication |
description |
Information and coding theory as well as genetics are concerned with the transfer and storage of information. For decades, scientists have studied the integration of these theories, but there is a great difficulty in determining a mathematical structure related to the structure of DNA (deoxyribonucleic acid). In the present work, based on a genetic import system model proposed in [ROCHA 2010] through BCH codes (Bose-Chaudhuri-Hocquenghem) on the Galois ring extension, we implemented an algorithm capable of identifying and reproducing two sequences of DNA, with different biological functions and length of 63 nucleotides, using for both the same six primitive polynomials and generators of degree 6. For this, we need to associate the nitrogen bases of the DNA (adenine, thymine, guanine and cytosine) to the elements of the alphabet of the finite ring Z4 = f0; 1; 2; 3g. This process is called labeling and, in the two results obtained, applying the same generator polynomial, we find 8 codewords with the same labeling. These codewords differ a nucleotide from the original sequence, where the exchanges of nitrogen base occurred in different positions, causing different bases, codons and amino acids. The algorithm is also capable of analyzing mutations in DNA sequences. To exemplify this application, we used the sequence related to exon 14 of the BRCA1 gene (Breast Cancer1) with length 127 analyzing nonsense and missense point mutations through a generation polynomial of degree 7. From the identification and reproduction functions, we find codewords to be used as reference in these analysis. Subsequently, applying each mutation punctually, we observe that the code is able to retrieve the original sequence. Pointing to a mathematical structure associated with error-correcting codes for single strand of DNA, this algorithm can contribute to the development of a methodology that can reduce laboratory time and costs... |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019 2021-03-10T12:55:42Z 2021-03-10T12:55:42Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
BASSI, Mariana Venezian Musto. Análise de sequências de DNA através de códigos corretores de erros. 2019. 84 f. Trabalho de conclusão de curso (bacharelado - Engenharia de Telecomunicações) - Universidade Estadual Paulista Julio de Mesquita Filho, Câmpus Experimental de São João da Boa Vista, 2019. http://hdl.handle.net/11449/203138 990009130290206341 http://www.athena.biblioteca.unesp.br/exlibris/bd/capelo/2019-03-19/000913029.pdf 7916375574050821 0000-0002-4806-3399 |
identifier_str_mv |
BASSI, Mariana Venezian Musto. Análise de sequências de DNA através de códigos corretores de erros. 2019. 84 f. Trabalho de conclusão de curso (bacharelado - Engenharia de Telecomunicações) - Universidade Estadual Paulista Julio de Mesquita Filho, Câmpus Experimental de São João da Boa Vista, 2019. 990009130290206341 7916375574050821 0000-0002-4806-3399 |
url |
http://hdl.handle.net/11449/203138 http://www.athena.biblioteca.unesp.br/exlibris/bd/capelo/2019-03-19/000913029.pdf |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
84 f. application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
dc.source.none.fl_str_mv |
Alma reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP |
instname_str |
Universidade Estadual Paulista (UNESP) |
instacron_str |
UNESP |
institution |
UNESP |
reponame_str |
Repositório Institucional da UNESP |
collection |
Repositório Institucional da UNESP |
repository.name.fl_str_mv |
Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP) |
repository.mail.fl_str_mv |
|
_version_ |
1808128205521944576 |