Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA

Detalhes bibliográficos
Autor(a) principal: Francisco Prosdocimi de Castro Santos
Data de Publicação: 2006
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/GRFO-7ZGK4Q
Resumo: A ciência é, por vezes, dogmática. Mesmo o cientista questionador às vezes é obrigadoa tomar como verdade algo que se acredita na comunidade de forma a realizar suaspesquisas em busca do conhecimento. Na área da genômica, alguns dogmas estãoainda arraigados à cultura científica e o objetivo principal da presente tese foi tentar,na medida do possível, questionar e testar alguns desses dogmas com a intenção detrazer à luz da razão um conhecimento mais sólido sobre alguns limitados aspectosrelacionados, principalmente, ao processo de nomeação das bases (base-calling). Paraavaliar, portanto, a utilização do algoritmo PHRED, o principal nomeador de basesutilizado em projetos genoma, desenvolvemos primeiro uma metodologia sólida deanálise. Tal metodologia tentou diminuir o número de variáveis a se analisar em umacorrida de seqüenciamento para que nossas análises não levassem em consideraçãopeculiaridades específicas de uma ou outra reação produzida. Dessa forma, realizamoso seqüenciamento de um vetor de clonagem bastante conhecido (pUC18) em um únicoconjunto, homogeneizando as amostras de forma que a única variável possível fosse aseparação eletroforética e o padrão de nomeação de bases. Produzimos, portanto, 846seqüências do vetor pUC18 que foram comparadas, através de alinhamentos locais,com um controle positivo: a seqüência já publicada para esta molécula. Dessa forma,pudemos identificar os erros do seqüenciamento / nomeação de bases e avaliardiferentes parâmetros de utilização do algoritmo PHRED. Verificamos que o padrão deerros observado era relativamente igual ao esperado, que as bases incorretas nãopodiam ser previstas através da observação dos valores de qualidade de suavizinhança e que as trocas (mismatches) são mais comuns quando associadas avalores baixos de qualidade, enquanto se nota a presença de erros relacionados aindels de alta qualidade. Percebemos também uma aplicação desta abordagem para oprocesso de desenho de iniciadores de seqüenciamento e realizamos um estudoavaliando este tópico, o qual mostra que a leitura de boa qualidade é iniciada a umadistância mensurável à jusante do iniciador de seqüenciamento. Com o objetivo detentar mascarar as bases incorretas em letras minúsculas, observamos que o valor dequalidade 7 parece ser o mais adequado para utilizar nesses casos, em boa parte dassituações. Além disso, calibramos o programa PHRED para funcionar de forma aapresentar apenas a informação não-ruidosa, biologicamente relevante. Por último,analisamos ainda a formação de consensos a partir dessas seqüências e mostramos asurpreendente ineficiência do re-seqüenciamento de forma a produzir seqüências fiéisà molécula molde.
id UFMG_f112462e1b05af2bed64e6a5818d50d4
oai_identifier_str oai:repositorio.ufmg.br:1843/GRFO-7ZGK4Q
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Jose Miguel OrtegaFabricio Rodrigues dos SantosGeorgios Joannis PappasAna Tereza Ribeiro VasconcelosMarcos Augusto dos SantosSergio Danilo Junho PenaFrancisco Prosdocimi de Castro Santos2019-08-11T19:03:26Z2019-08-11T19:03:26Z2006-11-01http://hdl.handle.net/1843/GRFO-7ZGK4QA ciência é, por vezes, dogmática. Mesmo o cientista questionador às vezes é obrigadoa tomar como verdade algo que se acredita na comunidade de forma a realizar suaspesquisas em busca do conhecimento. Na área da genômica, alguns dogmas estãoainda arraigados à cultura científica e o objetivo principal da presente tese foi tentar,na medida do possível, questionar e testar alguns desses dogmas com a intenção detrazer à luz da razão um conhecimento mais sólido sobre alguns limitados aspectosrelacionados, principalmente, ao processo de nomeação das bases (base-calling). Paraavaliar, portanto, a utilização do algoritmo PHRED, o principal nomeador de basesutilizado em projetos genoma, desenvolvemos primeiro uma metodologia sólida deanálise. Tal metodologia tentou diminuir o número de variáveis a se analisar em umacorrida de seqüenciamento para que nossas análises não levassem em consideraçãopeculiaridades específicas de uma ou outra reação produzida. Dessa forma, realizamoso seqüenciamento de um vetor de clonagem bastante conhecido (pUC18) em um únicoconjunto, homogeneizando as amostras de forma que a única variável possível fosse aseparação eletroforética e o padrão de nomeação de bases. Produzimos, portanto, 846seqüências do vetor pUC18 que foram comparadas, através de alinhamentos locais,com um controle positivo: a seqüência já publicada para esta molécula. Dessa forma,pudemos identificar os erros do seqüenciamento / nomeação de bases e avaliardiferentes parâmetros de utilização do algoritmo PHRED. Verificamos que o padrão deerros observado era relativamente igual ao esperado, que as bases incorretas nãopodiam ser previstas através da observação dos valores de qualidade de suavizinhança e que as trocas (mismatches) são mais comuns quando associadas avalores baixos de qualidade, enquanto se nota a presença de erros relacionados aindels de alta qualidade. Percebemos também uma aplicação desta abordagem para oprocesso de desenho de iniciadores de seqüenciamento e realizamos um estudoavaliando este tópico, o qual mostra que a leitura de boa qualidade é iniciada a umadistância mensurável à jusante do iniciador de seqüenciamento. Com o objetivo detentar mascarar as bases incorretas em letras minúsculas, observamos que o valor dequalidade 7 parece ser o mais adequado para utilizar nesses casos, em boa parte dassituações. Além disso, calibramos o programa PHRED para funcionar de forma aapresentar apenas a informação não-ruidosa, biologicamente relevante. Por último,analisamos ainda a formação de consensos a partir dessas seqüências e mostramos asurpreendente ineficiência do re-seqüenciamento de forma a produzir seqüências fiéisà molécula molde.Science is sometimes dogmatic. Even the very thinker scientists are sometimes forcedto accept as true something believed by the community in order to advance theirresearch. In the genomic research field, some dogmas are still attached to scientificculture and the main goal of this thesis is the tentative to question some of thesedogmas and bring to the light of reason a consistent knowledge about some restrictaspects related to the base-calling process. Therefore, in order to evaluate theexecution of PHRED, the main base-caller used in genome projects, we first develop aconsistent methodology of analysis. Using this methodology we have tried to reducethe number of variables to be analyzed in sequencing reads, making our analysis freeof particularities happening in some specific sequencing reaction. With this in mind, wehave performed the sequencing of a well-known cloning vector (pUC18) in a singlepool,homogenizing the samples before and after the sequencing reaction. So, 846sequences from the pUC18 cloning vector were produced by single-pool and compared,through local alignments, with a positive control: the sequence published for thismolecule. This comparison allowed us both to identify precisely the errors happening inthe sequencing and/or base-calling and to evaluate different parameters used forPHRED running. We have verified (1) an error pattern very similar to the expected one,(2) the impossibility to predict errors evaluating the base quality values surroundingthe neighborhood of miscalled bases, (3) the high presence of mismatches in lowquality values and (4) the presence of some indels in high quality regions. We haverealized also an application of these base-calling data to the process of designingprimers for sequencing and one study was published on this subject. Trying tosoftmask low quality bases, we have made another study to find the best PHREDquality value to be used to mask most of the errors without masking correct bases.Moreover, we have studied and adjusted PHRED trimming parameters in order toretrieve from the sequence just the biologically relevant information. At last, we haveanalyzed the consensus production through different number of sequencing reads inorder to find the appropriate number of sample re-sequencing to generate a highfidelitymolecule.Universidade Federal de Minas GeraisUFMGBioinformáticaSequenciamento e análise de cDNAsAlgoritmos geneticosAlgoritmo PHREDsequênciamento de DNARacionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNAinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALprosdocimiphdthesis.pdfapplication/pdf5030519https://repositorio.ufmg.br/bitstream/1843/GRFO-7ZGK4Q/1/prosdocimiphdthesis.pdf89660165d82eccc7a56d388fe3d1ccc9MD51TEXTprosdocimiphdthesis.pdf.txtprosdocimiphdthesis.pdf.txtExtracted texttext/plain252466https://repositorio.ufmg.br/bitstream/1843/GRFO-7ZGK4Q/2/prosdocimiphdthesis.pdf.txta467663b95c53fad873b8164d03607d9MD521843/GRFO-7ZGK4Q2019-11-14 03:23:24.172oai:repositorio.ufmg.br:1843/GRFO-7ZGK4QRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T06:23:24Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
title Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
spellingShingle Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
Francisco Prosdocimi de Castro Santos
Algoritmo PHRED
sequênciamento de DNA
Bioinformática
Sequenciamento e análise de cDNAs
Algoritmos geneticos
title_short Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
title_full Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
title_fullStr Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
title_full_unstemmed Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
title_sort Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
author Francisco Prosdocimi de Castro Santos
author_facet Francisco Prosdocimi de Castro Santos
author_role author
dc.contributor.advisor1.fl_str_mv Jose Miguel Ortega
dc.contributor.advisor-co1.fl_str_mv Fabricio Rodrigues dos Santos
dc.contributor.referee1.fl_str_mv Georgios Joannis Pappas
dc.contributor.referee2.fl_str_mv Ana Tereza Ribeiro Vasconcelos
dc.contributor.referee3.fl_str_mv Marcos Augusto dos Santos
dc.contributor.referee4.fl_str_mv Sergio Danilo Junho Pena
dc.contributor.author.fl_str_mv Francisco Prosdocimi de Castro Santos
contributor_str_mv Jose Miguel Ortega
Fabricio Rodrigues dos Santos
Georgios Joannis Pappas
Ana Tereza Ribeiro Vasconcelos
Marcos Augusto dos Santos
Sergio Danilo Junho Pena
dc.subject.por.fl_str_mv Algoritmo PHRED
sequênciamento de DNA
topic Algoritmo PHRED
sequênciamento de DNA
Bioinformática
Sequenciamento e análise de cDNAs
Algoritmos geneticos
dc.subject.other.pt_BR.fl_str_mv Bioinformática
Sequenciamento e análise de cDNAs
Algoritmos geneticos
description A ciência é, por vezes, dogmática. Mesmo o cientista questionador às vezes é obrigadoa tomar como verdade algo que se acredita na comunidade de forma a realizar suaspesquisas em busca do conhecimento. Na área da genômica, alguns dogmas estãoainda arraigados à cultura científica e o objetivo principal da presente tese foi tentar,na medida do possível, questionar e testar alguns desses dogmas com a intenção detrazer à luz da razão um conhecimento mais sólido sobre alguns limitados aspectosrelacionados, principalmente, ao processo de nomeação das bases (base-calling). Paraavaliar, portanto, a utilização do algoritmo PHRED, o principal nomeador de basesutilizado em projetos genoma, desenvolvemos primeiro uma metodologia sólida deanálise. Tal metodologia tentou diminuir o número de variáveis a se analisar em umacorrida de seqüenciamento para que nossas análises não levassem em consideraçãopeculiaridades específicas de uma ou outra reação produzida. Dessa forma, realizamoso seqüenciamento de um vetor de clonagem bastante conhecido (pUC18) em um únicoconjunto, homogeneizando as amostras de forma que a única variável possível fosse aseparação eletroforética e o padrão de nomeação de bases. Produzimos, portanto, 846seqüências do vetor pUC18 que foram comparadas, através de alinhamentos locais,com um controle positivo: a seqüência já publicada para esta molécula. Dessa forma,pudemos identificar os erros do seqüenciamento / nomeação de bases e avaliardiferentes parâmetros de utilização do algoritmo PHRED. Verificamos que o padrão deerros observado era relativamente igual ao esperado, que as bases incorretas nãopodiam ser previstas através da observação dos valores de qualidade de suavizinhança e que as trocas (mismatches) são mais comuns quando associadas avalores baixos de qualidade, enquanto se nota a presença de erros relacionados aindels de alta qualidade. Percebemos também uma aplicação desta abordagem para oprocesso de desenho de iniciadores de seqüenciamento e realizamos um estudoavaliando este tópico, o qual mostra que a leitura de boa qualidade é iniciada a umadistância mensurável à jusante do iniciador de seqüenciamento. Com o objetivo detentar mascarar as bases incorretas em letras minúsculas, observamos que o valor dequalidade 7 parece ser o mais adequado para utilizar nesses casos, em boa parte dassituações. Além disso, calibramos o programa PHRED para funcionar de forma aapresentar apenas a informação não-ruidosa, biologicamente relevante. Por último,analisamos ainda a formação de consensos a partir dessas seqüências e mostramos asurpreendente ineficiência do re-seqüenciamento de forma a produzir seqüências fiéisà molécula molde.
publishDate 2006
dc.date.issued.fl_str_mv 2006-11-01
dc.date.accessioned.fl_str_mv 2019-08-11T19:03:26Z
dc.date.available.fl_str_mv 2019-08-11T19:03:26Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/GRFO-7ZGK4Q
url http://hdl.handle.net/1843/GRFO-7ZGK4Q
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/GRFO-7ZGK4Q/1/prosdocimiphdthesis.pdf
https://repositorio.ufmg.br/bitstream/1843/GRFO-7ZGK4Q/2/prosdocimiphdthesis.pdf.txt
bitstream.checksum.fl_str_mv 89660165d82eccc7a56d388fe3d1ccc9
a467663b95c53fad873b8164d03607d9
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589153703591936