Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
Autor(a) principal: | |
---|---|
Data de Publicação: | 2006 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFMG |
Texto Completo: | http://hdl.handle.net/1843/GRFO-7ZGK4Q |
Resumo: | A ciência é, por vezes, dogmática. Mesmo o cientista questionador às vezes é obrigadoa tomar como verdade algo que se acredita na comunidade de forma a realizar suaspesquisas em busca do conhecimento. Na área da genômica, alguns dogmas estãoainda arraigados à cultura científica e o objetivo principal da presente tese foi tentar,na medida do possível, questionar e testar alguns desses dogmas com a intenção detrazer à luz da razão um conhecimento mais sólido sobre alguns limitados aspectosrelacionados, principalmente, ao processo de nomeação das bases (base-calling). Paraavaliar, portanto, a utilização do algoritmo PHRED, o principal nomeador de basesutilizado em projetos genoma, desenvolvemos primeiro uma metodologia sólida deanálise. Tal metodologia tentou diminuir o número de variáveis a se analisar em umacorrida de seqüenciamento para que nossas análises não levassem em consideraçãopeculiaridades específicas de uma ou outra reação produzida. Dessa forma, realizamoso seqüenciamento de um vetor de clonagem bastante conhecido (pUC18) em um únicoconjunto, homogeneizando as amostras de forma que a única variável possível fosse aseparação eletroforética e o padrão de nomeação de bases. Produzimos, portanto, 846seqüências do vetor pUC18 que foram comparadas, através de alinhamentos locais,com um controle positivo: a seqüência já publicada para esta molécula. Dessa forma,pudemos identificar os erros do seqüenciamento / nomeação de bases e avaliardiferentes parâmetros de utilização do algoritmo PHRED. Verificamos que o padrão deerros observado era relativamente igual ao esperado, que as bases incorretas nãopodiam ser previstas através da observação dos valores de qualidade de suavizinhança e que as trocas (mismatches) são mais comuns quando associadas avalores baixos de qualidade, enquanto se nota a presença de erros relacionados aindels de alta qualidade. Percebemos também uma aplicação desta abordagem para oprocesso de desenho de iniciadores de seqüenciamento e realizamos um estudoavaliando este tópico, o qual mostra que a leitura de boa qualidade é iniciada a umadistância mensurável à jusante do iniciador de seqüenciamento. Com o objetivo detentar mascarar as bases incorretas em letras minúsculas, observamos que o valor dequalidade 7 parece ser o mais adequado para utilizar nesses casos, em boa parte dassituações. Além disso, calibramos o programa PHRED para funcionar de forma aapresentar apenas a informação não-ruidosa, biologicamente relevante. Por último,analisamos ainda a formação de consensos a partir dessas seqüências e mostramos asurpreendente ineficiência do re-seqüenciamento de forma a produzir seqüências fiéisà molécula molde. |
id |
UFMG_f112462e1b05af2bed64e6a5818d50d4 |
---|---|
oai_identifier_str |
oai:repositorio.ufmg.br:1843/GRFO-7ZGK4Q |
network_acronym_str |
UFMG |
network_name_str |
Repositório Institucional da UFMG |
repository_id_str |
|
spelling |
Jose Miguel OrtegaFabricio Rodrigues dos SantosGeorgios Joannis PappasAna Tereza Ribeiro VasconcelosMarcos Augusto dos SantosSergio Danilo Junho PenaFrancisco Prosdocimi de Castro Santos2019-08-11T19:03:26Z2019-08-11T19:03:26Z2006-11-01http://hdl.handle.net/1843/GRFO-7ZGK4QA ciência é, por vezes, dogmática. Mesmo o cientista questionador às vezes é obrigadoa tomar como verdade algo que se acredita na comunidade de forma a realizar suaspesquisas em busca do conhecimento. Na área da genômica, alguns dogmas estãoainda arraigados à cultura científica e o objetivo principal da presente tese foi tentar,na medida do possível, questionar e testar alguns desses dogmas com a intenção detrazer à luz da razão um conhecimento mais sólido sobre alguns limitados aspectosrelacionados, principalmente, ao processo de nomeação das bases (base-calling). Paraavaliar, portanto, a utilização do algoritmo PHRED, o principal nomeador de basesutilizado em projetos genoma, desenvolvemos primeiro uma metodologia sólida deanálise. Tal metodologia tentou diminuir o número de variáveis a se analisar em umacorrida de seqüenciamento para que nossas análises não levassem em consideraçãopeculiaridades específicas de uma ou outra reação produzida. Dessa forma, realizamoso seqüenciamento de um vetor de clonagem bastante conhecido (pUC18) em um únicoconjunto, homogeneizando as amostras de forma que a única variável possível fosse aseparação eletroforética e o padrão de nomeação de bases. Produzimos, portanto, 846seqüências do vetor pUC18 que foram comparadas, através de alinhamentos locais,com um controle positivo: a seqüência já publicada para esta molécula. Dessa forma,pudemos identificar os erros do seqüenciamento / nomeação de bases e avaliardiferentes parâmetros de utilização do algoritmo PHRED. Verificamos que o padrão deerros observado era relativamente igual ao esperado, que as bases incorretas nãopodiam ser previstas através da observação dos valores de qualidade de suavizinhança e que as trocas (mismatches) são mais comuns quando associadas avalores baixos de qualidade, enquanto se nota a presença de erros relacionados aindels de alta qualidade. Percebemos também uma aplicação desta abordagem para oprocesso de desenho de iniciadores de seqüenciamento e realizamos um estudoavaliando este tópico, o qual mostra que a leitura de boa qualidade é iniciada a umadistância mensurável à jusante do iniciador de seqüenciamento. Com o objetivo detentar mascarar as bases incorretas em letras minúsculas, observamos que o valor dequalidade 7 parece ser o mais adequado para utilizar nesses casos, em boa parte dassituações. Além disso, calibramos o programa PHRED para funcionar de forma aapresentar apenas a informação não-ruidosa, biologicamente relevante. Por último,analisamos ainda a formação de consensos a partir dessas seqüências e mostramos asurpreendente ineficiência do re-seqüenciamento de forma a produzir seqüências fiéisà molécula molde.Science is sometimes dogmatic. Even the very thinker scientists are sometimes forcedto accept as true something believed by the community in order to advance theirresearch. In the genomic research field, some dogmas are still attached to scientificculture and the main goal of this thesis is the tentative to question some of thesedogmas and bring to the light of reason a consistent knowledge about some restrictaspects related to the base-calling process. Therefore, in order to evaluate theexecution of PHRED, the main base-caller used in genome projects, we first develop aconsistent methodology of analysis. Using this methodology we have tried to reducethe number of variables to be analyzed in sequencing reads, making our analysis freeof particularities happening in some specific sequencing reaction. With this in mind, wehave performed the sequencing of a well-known cloning vector (pUC18) in a singlepool,homogenizing the samples before and after the sequencing reaction. So, 846sequences from the pUC18 cloning vector were produced by single-pool and compared,through local alignments, with a positive control: the sequence published for thismolecule. This comparison allowed us both to identify precisely the errors happening inthe sequencing and/or base-calling and to evaluate different parameters used forPHRED running. We have verified (1) an error pattern very similar to the expected one,(2) the impossibility to predict errors evaluating the base quality values surroundingthe neighborhood of miscalled bases, (3) the high presence of mismatches in lowquality values and (4) the presence of some indels in high quality regions. We haverealized also an application of these base-calling data to the process of designingprimers for sequencing and one study was published on this subject. Trying tosoftmask low quality bases, we have made another study to find the best PHREDquality value to be used to mask most of the errors without masking correct bases.Moreover, we have studied and adjusted PHRED trimming parameters in order toretrieve from the sequence just the biologically relevant information. At last, we haveanalyzed the consensus production through different number of sequencing reads inorder to find the appropriate number of sample re-sequencing to generate a highfidelitymolecule.Universidade Federal de Minas GeraisUFMGBioinformáticaSequenciamento e análise de cDNAsAlgoritmos geneticosAlgoritmo PHREDsequênciamento de DNARacionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNAinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALprosdocimiphdthesis.pdfapplication/pdf5030519https://repositorio.ufmg.br/bitstream/1843/GRFO-7ZGK4Q/1/prosdocimiphdthesis.pdf89660165d82eccc7a56d388fe3d1ccc9MD51TEXTprosdocimiphdthesis.pdf.txtprosdocimiphdthesis.pdf.txtExtracted texttext/plain252466https://repositorio.ufmg.br/bitstream/1843/GRFO-7ZGK4Q/2/prosdocimiphdthesis.pdf.txta467663b95c53fad873b8164d03607d9MD521843/GRFO-7ZGK4Q2019-11-14 03:23:24.172oai:repositorio.ufmg.br:1843/GRFO-7ZGK4QRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T06:23:24Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false |
dc.title.pt_BR.fl_str_mv |
Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA |
title |
Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA |
spellingShingle |
Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA Francisco Prosdocimi de Castro Santos Algoritmo PHRED sequênciamento de DNA Bioinformática Sequenciamento e análise de cDNAs Algoritmos geneticos |
title_short |
Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA |
title_full |
Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA |
title_fullStr |
Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA |
title_full_unstemmed |
Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA |
title_sort |
Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA |
author |
Francisco Prosdocimi de Castro Santos |
author_facet |
Francisco Prosdocimi de Castro Santos |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Jose Miguel Ortega |
dc.contributor.advisor-co1.fl_str_mv |
Fabricio Rodrigues dos Santos |
dc.contributor.referee1.fl_str_mv |
Georgios Joannis Pappas |
dc.contributor.referee2.fl_str_mv |
Ana Tereza Ribeiro Vasconcelos |
dc.contributor.referee3.fl_str_mv |
Marcos Augusto dos Santos |
dc.contributor.referee4.fl_str_mv |
Sergio Danilo Junho Pena |
dc.contributor.author.fl_str_mv |
Francisco Prosdocimi de Castro Santos |
contributor_str_mv |
Jose Miguel Ortega Fabricio Rodrigues dos Santos Georgios Joannis Pappas Ana Tereza Ribeiro Vasconcelos Marcos Augusto dos Santos Sergio Danilo Junho Pena |
dc.subject.por.fl_str_mv |
Algoritmo PHRED sequênciamento de DNA |
topic |
Algoritmo PHRED sequênciamento de DNA Bioinformática Sequenciamento e análise de cDNAs Algoritmos geneticos |
dc.subject.other.pt_BR.fl_str_mv |
Bioinformática Sequenciamento e análise de cDNAs Algoritmos geneticos |
description |
A ciência é, por vezes, dogmática. Mesmo o cientista questionador às vezes é obrigadoa tomar como verdade algo que se acredita na comunidade de forma a realizar suaspesquisas em busca do conhecimento. Na área da genômica, alguns dogmas estãoainda arraigados à cultura científica e o objetivo principal da presente tese foi tentar,na medida do possível, questionar e testar alguns desses dogmas com a intenção detrazer à luz da razão um conhecimento mais sólido sobre alguns limitados aspectosrelacionados, principalmente, ao processo de nomeação das bases (base-calling). Paraavaliar, portanto, a utilização do algoritmo PHRED, o principal nomeador de basesutilizado em projetos genoma, desenvolvemos primeiro uma metodologia sólida deanálise. Tal metodologia tentou diminuir o número de variáveis a se analisar em umacorrida de seqüenciamento para que nossas análises não levassem em consideraçãopeculiaridades específicas de uma ou outra reação produzida. Dessa forma, realizamoso seqüenciamento de um vetor de clonagem bastante conhecido (pUC18) em um únicoconjunto, homogeneizando as amostras de forma que a única variável possível fosse aseparação eletroforética e o padrão de nomeação de bases. Produzimos, portanto, 846seqüências do vetor pUC18 que foram comparadas, através de alinhamentos locais,com um controle positivo: a seqüência já publicada para esta molécula. Dessa forma,pudemos identificar os erros do seqüenciamento / nomeação de bases e avaliardiferentes parâmetros de utilização do algoritmo PHRED. Verificamos que o padrão deerros observado era relativamente igual ao esperado, que as bases incorretas nãopodiam ser previstas através da observação dos valores de qualidade de suavizinhança e que as trocas (mismatches) são mais comuns quando associadas avalores baixos de qualidade, enquanto se nota a presença de erros relacionados aindels de alta qualidade. Percebemos também uma aplicação desta abordagem para oprocesso de desenho de iniciadores de seqüenciamento e realizamos um estudoavaliando este tópico, o qual mostra que a leitura de boa qualidade é iniciada a umadistância mensurável à jusante do iniciador de seqüenciamento. Com o objetivo detentar mascarar as bases incorretas em letras minúsculas, observamos que o valor dequalidade 7 parece ser o mais adequado para utilizar nesses casos, em boa parte dassituações. Além disso, calibramos o programa PHRED para funcionar de forma aapresentar apenas a informação não-ruidosa, biologicamente relevante. Por último,analisamos ainda a formação de consensos a partir dessas seqüências e mostramos asurpreendente ineficiência do re-seqüenciamento de forma a produzir seqüências fiéisà molécula molde. |
publishDate |
2006 |
dc.date.issued.fl_str_mv |
2006-11-01 |
dc.date.accessioned.fl_str_mv |
2019-08-11T19:03:26Z |
dc.date.available.fl_str_mv |
2019-08-11T19:03:26Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1843/GRFO-7ZGK4Q |
url |
http://hdl.handle.net/1843/GRFO-7ZGK4Q |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.publisher.initials.fl_str_mv |
UFMG |
publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
instname_str |
Universidade Federal de Minas Gerais (UFMG) |
instacron_str |
UFMG |
institution |
UFMG |
reponame_str |
Repositório Institucional da UFMG |
collection |
Repositório Institucional da UFMG |
bitstream.url.fl_str_mv |
https://repositorio.ufmg.br/bitstream/1843/GRFO-7ZGK4Q/1/prosdocimiphdthesis.pdf https://repositorio.ufmg.br/bitstream/1843/GRFO-7ZGK4Q/2/prosdocimiphdthesis.pdf.txt |
bitstream.checksum.fl_str_mv |
89660165d82eccc7a56d388fe3d1ccc9 a467663b95c53fad873b8164d03607d9 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG) |
repository.mail.fl_str_mv |
|
_version_ |
1803589153703591936 |