Análise estatística da linguagem genética

Detalhes bibliográficos
Autor(a) principal: Afreixo, Vera Mónica Almeida
Data de Publicação: 2002
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10773/2885
Resumo: O objectivo principal deste trabalho é analisar a linguagem genética no contexto dos codões, ou seja, da parte codificante dos genes responsável pela produção de proteínas. Concretamente, pretende-se decifrar leis gerais que governem a tradução do mRNA pelo ribossoma. Para esse efeito foram utilizados dados genéticos de duas espécies distintas, que partilham todavia o mesmo ancestral: Candida albicans e Saccharomyces cerevisiae. No presente estudo são empregues diferentes metodologias e modelos estatísticos adequados a dados de natureza discreta; nomeadamente, Análise de Tabelas de Contingência, Análise Classificatória, Análise em Componentes Principais, Cadeias de Markov, Análise de Zipf, Critério de Informação Bayesiana e Teoria da Informação. Com as Tabelas de Contingência, averigua-se, do ponto de vista da independência e associação, o comportamento de pares de codões ou nucleótidos, justapostos ou espaçados. As Análises Classificatória e em Componentes Principais permitem estudar, de forma exploratória, a preferência de um codão face ao codão justaposto e aos seus nucleótidos constituíntes. As cadeias de Markov são aplicadas com o objectivo de averiguar a adequação do modelo no sequenciamento dos codões. A Análise de Zipf visa estimar a respectiva lei e averiguar a existência de correlações de longo alcance entre os codões sequenciados. Para estimar a ordem da cadeia de Markov no sequenciamento de codões é usado o Critério de Informação Bayesiana. A Teoria da Informação é aplicada com o intuito de obter valores de entropia no conjunto das sequências de código. Tudo leva a crer que os textos genéticos são estruturas bem organizadas, em que existe alguma associação entre um dado codão e os símbolos (codões ou nucleótidos) justapostos ou espaçados. Esta associação decresce à medida que o espaçamento aumenta. ABSTRACT: The main aim of this work is to analyse the genetic language at the codon context. In other words, the coding part of the genes responsible for protein production is studied with the goal of deciphering general laws which govern the mRNA translation by the ribosome. For this purpose, it was used genetic data from two species that share the same ancestral: Candida albicans e Saccharomyces cerevisiae. In this study different methodologies and statistical models are employed, namely: Contingency Tables, Cluster Analysis, Principal Components Analysis, Markov Chains, Zipf Analysis, Bayesian Information Criterion and Information Theory. With the Contingency Tables, we investigate, from the independency and association point of view, the behaviour of the codon or nucleotide pairs, placed side by side or spaced. The Cluster Analysis and Principal Component Analysis allow studying, in an exploratory way, the preference of a codon relative to its adjacent and its nucleotides. The Markov Chains are applied with the goal of investigate the fitting of the model in the codon sequencing. The Zipf Analysis aims to estimate the respective law and examine the existence of long range correlations among sequencing codons. The Bayesian Information Criterion is applied to estimate the order of the Markov chain in the codon sequencing. Finally, the Information Theory is used to obtain entropy values for the set of code sequences. As a result of this study, we are inclined to think that genetic texts are well organized structures, with some association between a given codon and contiguous or spaced symbols (codons or nucleotides). That association decreases as the spacing goes by.
id RCAP_8f5037aae2955f36df1eec4d00cdd3c3
oai_identifier_str oai:ria.ua.pt:10773/2885
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Análise estatística da linguagem genéticaGenéticaCódigo genéticoO objectivo principal deste trabalho é analisar a linguagem genética no contexto dos codões, ou seja, da parte codificante dos genes responsável pela produção de proteínas. Concretamente, pretende-se decifrar leis gerais que governem a tradução do mRNA pelo ribossoma. Para esse efeito foram utilizados dados genéticos de duas espécies distintas, que partilham todavia o mesmo ancestral: Candida albicans e Saccharomyces cerevisiae. No presente estudo são empregues diferentes metodologias e modelos estatísticos adequados a dados de natureza discreta; nomeadamente, Análise de Tabelas de Contingência, Análise Classificatória, Análise em Componentes Principais, Cadeias de Markov, Análise de Zipf, Critério de Informação Bayesiana e Teoria da Informação. Com as Tabelas de Contingência, averigua-se, do ponto de vista da independência e associação, o comportamento de pares de codões ou nucleótidos, justapostos ou espaçados. As Análises Classificatória e em Componentes Principais permitem estudar, de forma exploratória, a preferência de um codão face ao codão justaposto e aos seus nucleótidos constituíntes. As cadeias de Markov são aplicadas com o objectivo de averiguar a adequação do modelo no sequenciamento dos codões. A Análise de Zipf visa estimar a respectiva lei e averiguar a existência de correlações de longo alcance entre os codões sequenciados. Para estimar a ordem da cadeia de Markov no sequenciamento de codões é usado o Critério de Informação Bayesiana. A Teoria da Informação é aplicada com o intuito de obter valores de entropia no conjunto das sequências de código. Tudo leva a crer que os textos genéticos são estruturas bem organizadas, em que existe alguma associação entre um dado codão e os símbolos (codões ou nucleótidos) justapostos ou espaçados. Esta associação decresce à medida que o espaçamento aumenta. ABSTRACT: The main aim of this work is to analyse the genetic language at the codon context. In other words, the coding part of the genes responsible for protein production is studied with the goal of deciphering general laws which govern the mRNA translation by the ribosome. For this purpose, it was used genetic data from two species that share the same ancestral: Candida albicans e Saccharomyces cerevisiae. In this study different methodologies and statistical models are employed, namely: Contingency Tables, Cluster Analysis, Principal Components Analysis, Markov Chains, Zipf Analysis, Bayesian Information Criterion and Information Theory. With the Contingency Tables, we investigate, from the independency and association point of view, the behaviour of the codon or nucleotide pairs, placed side by side or spaced. The Cluster Analysis and Principal Component Analysis allow studying, in an exploratory way, the preference of a codon relative to its adjacent and its nucleotides. The Markov Chains are applied with the goal of investigate the fitting of the model in the codon sequencing. The Zipf Analysis aims to estimate the respective law and examine the existence of long range correlations among sequencing codons. The Bayesian Information Criterion is applied to estimate the order of the Markov chain in the codon sequencing. Finally, the Information Theory is used to obtain entropy values for the set of code sequences. As a result of this study, we are inclined to think that genetic texts are well organized structures, with some association between a given codon and contiguous or spaced symbols (codons or nucleotides). That association decreases as the spacing goes by.Universidade de Aveiro2011-04-19T14:29:34Z2002-01-01T00:00:00Z2002info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10773/2885porAfreixo, Vera Mónica Almeidainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-02-22T11:01:24Zoai:ria.ua.pt:10773/2885Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T02:41:12.702278Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Análise estatística da linguagem genética
title Análise estatística da linguagem genética
spellingShingle Análise estatística da linguagem genética
Afreixo, Vera Mónica Almeida
Genética
Código genético
title_short Análise estatística da linguagem genética
title_full Análise estatística da linguagem genética
title_fullStr Análise estatística da linguagem genética
title_full_unstemmed Análise estatística da linguagem genética
title_sort Análise estatística da linguagem genética
author Afreixo, Vera Mónica Almeida
author_facet Afreixo, Vera Mónica Almeida
author_role author
dc.contributor.author.fl_str_mv Afreixo, Vera Mónica Almeida
dc.subject.por.fl_str_mv Genética
Código genético
topic Genética
Código genético
description O objectivo principal deste trabalho é analisar a linguagem genética no contexto dos codões, ou seja, da parte codificante dos genes responsável pela produção de proteínas. Concretamente, pretende-se decifrar leis gerais que governem a tradução do mRNA pelo ribossoma. Para esse efeito foram utilizados dados genéticos de duas espécies distintas, que partilham todavia o mesmo ancestral: Candida albicans e Saccharomyces cerevisiae. No presente estudo são empregues diferentes metodologias e modelos estatísticos adequados a dados de natureza discreta; nomeadamente, Análise de Tabelas de Contingência, Análise Classificatória, Análise em Componentes Principais, Cadeias de Markov, Análise de Zipf, Critério de Informação Bayesiana e Teoria da Informação. Com as Tabelas de Contingência, averigua-se, do ponto de vista da independência e associação, o comportamento de pares de codões ou nucleótidos, justapostos ou espaçados. As Análises Classificatória e em Componentes Principais permitem estudar, de forma exploratória, a preferência de um codão face ao codão justaposto e aos seus nucleótidos constituíntes. As cadeias de Markov são aplicadas com o objectivo de averiguar a adequação do modelo no sequenciamento dos codões. A Análise de Zipf visa estimar a respectiva lei e averiguar a existência de correlações de longo alcance entre os codões sequenciados. Para estimar a ordem da cadeia de Markov no sequenciamento de codões é usado o Critério de Informação Bayesiana. A Teoria da Informação é aplicada com o intuito de obter valores de entropia no conjunto das sequências de código. Tudo leva a crer que os textos genéticos são estruturas bem organizadas, em que existe alguma associação entre um dado codão e os símbolos (codões ou nucleótidos) justapostos ou espaçados. Esta associação decresce à medida que o espaçamento aumenta. ABSTRACT: The main aim of this work is to analyse the genetic language at the codon context. In other words, the coding part of the genes responsible for protein production is studied with the goal of deciphering general laws which govern the mRNA translation by the ribosome. For this purpose, it was used genetic data from two species that share the same ancestral: Candida albicans e Saccharomyces cerevisiae. In this study different methodologies and statistical models are employed, namely: Contingency Tables, Cluster Analysis, Principal Components Analysis, Markov Chains, Zipf Analysis, Bayesian Information Criterion and Information Theory. With the Contingency Tables, we investigate, from the independency and association point of view, the behaviour of the codon or nucleotide pairs, placed side by side or spaced. The Cluster Analysis and Principal Component Analysis allow studying, in an exploratory way, the preference of a codon relative to its adjacent and its nucleotides. The Markov Chains are applied with the goal of investigate the fitting of the model in the codon sequencing. The Zipf Analysis aims to estimate the respective law and examine the existence of long range correlations among sequencing codons. The Bayesian Information Criterion is applied to estimate the order of the Markov chain in the codon sequencing. Finally, the Information Theory is used to obtain entropy values for the set of code sequences. As a result of this study, we are inclined to think that genetic texts are well organized structures, with some association between a given codon and contiguous or spaced symbols (codons or nucleotides). That association decreases as the spacing goes by.
publishDate 2002
dc.date.none.fl_str_mv 2002-01-01T00:00:00Z
2002
2011-04-19T14:29:34Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10773/2885
url http://hdl.handle.net/10773/2885
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade de Aveiro
publisher.none.fl_str_mv Universidade de Aveiro
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799137460514455552