Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA

Francisco Prosdocimi de Castro Santos

Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA

Detalhes bibliográficos
Autor(a) principal:	Francisco Prosdocimi de Castro Santos
Data de Publicação:	2006
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Repositório Institucional da UFMG
Texto Completo:	http://hdl.handle.net/1843/GRFO-7ZGK4Q
Resumo:	A ciência é, por vezes, dogmática. Mesmo o cientista questionador às vezes é obrigadoa tomar como verdade algo que se acredita na comunidade de forma a realizar suaspesquisas em busca do conhecimento. Na área da genômica, alguns dogmas estãoainda arraigados à cultura científica e o objetivo principal da presente tese foi tentar,na medida do possível, questionar e testar alguns desses dogmas com a intenção detrazer à luz da razão um conhecimento mais sólido sobre alguns limitados aspectosrelacionados, principalmente, ao processo de nomeação das bases (base-calling). Paraavaliar, portanto, a utilização do algoritmo PHRED, o principal nomeador de basesutilizado em projetos genoma, desenvolvemos primeiro uma metodologia sólida deanálise. Tal metodologia tentou diminuir o número de variáveis a se analisar em umacorrida de seqüenciamento para que nossas análises não levassem em consideraçãopeculiaridades específicas de uma ou outra reação produzida. Dessa forma, realizamoso seqüenciamento de um vetor de clonagem bastante conhecido (pUC18) em um únicoconjunto, homogeneizando as amostras de forma que a única variável possível fosse aseparação eletroforética e o padrão de nomeação de bases. Produzimos, portanto, 846seqüências do vetor pUC18 que foram comparadas, através de alinhamentos locais,com um controle positivo: a seqüência já publicada para esta molécula. Dessa forma,pudemos identificar os erros do seqüenciamento / nomeação de bases e avaliardiferentes parâmetros de utilização do algoritmo PHRED. Verificamos que o padrão deerros observado era relativamente igual ao esperado, que as bases incorretas nãopodiam ser previstas através da observação dos valores de qualidade de suavizinhança e que as trocas (mismatches) são mais comuns quando associadas avalores baixos de qualidade, enquanto se nota a presença de erros relacionados aindels de alta qualidade. Percebemos também uma aplicação desta abordagem para oprocesso de desenho de iniciadores de seqüenciamento e realizamos um estudoavaliando este tópico, o qual mostra que a leitura de boa qualidade é iniciada a umadistância mensurável à jusante do iniciador de seqüenciamento. Com o objetivo detentar mascarar as bases incorretas em letras minúsculas, observamos que o valor dequalidade 7 parece ser o mais adequado para utilizar nesses casos, em boa parte dassituações. Além disso, calibramos o programa PHRED para funcionar de forma aapresentar apenas a informação não-ruidosa, biologicamente relevante. Por último,analisamos ainda a formação de consensos a partir dessas seqüências e mostramos asurpreendente ineficiência do re-seqüenciamento de forma a produzir seqüências fiéisà molécula molde.

Metadados do item

id	UFMG_f112462e1b05af2bed64e6a5818d50d4
oai_identifier_str	oai:repositorio.ufmg.br:1843/GRFO-7ZGK4Q
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Jose Miguel OrtegaFabricio Rodrigues dos SantosGeorgios Joannis PappasAna Tereza Ribeiro VasconcelosMarcos Augusto dos SantosSergio Danilo Junho PenaFrancisco Prosdocimi de Castro Santos2019-08-11T19:03:26Z2019-08-11T19:03:26Z2006-11-01http://hdl.handle.net/1843/GRFO-7ZGK4QA ciência é, por vezes, dogmática. Mesmo o cientista questionador às vezes é obrigadoa tomar como verdade algo que se acredita na comunidade de forma a realizar suaspesquisas em busca do conhecimento. Na área da genômica, alguns dogmas estãoainda arraigados à cultura científica e o objetivo principal da presente tese foi tentar,na medida do possível, questionar e testar alguns desses dogmas com a intenção detrazer à luz da razão um conhecimento mais sólido sobre alguns limitados aspectosrelacionados, principalmente, ao processo de nomeação das bases (base-calling). Paraavaliar, portanto, a utilização do algoritmo PHRED, o principal nomeador de basesutilizado em projetos genoma, desenvolvemos primeiro uma metodologia sólida deanálise. Tal metodologia tentou diminuir o número de variáveis a se analisar em umacorrida de seqüenciamento para que nossas análises não levassem em consideraçãopeculiaridades específicas de uma ou outra reação produzida. Dessa forma, realizamoso seqüenciamento de um vetor de clonagem bastante conhecido (pUC18) em um únicoconjunto, homogeneizando as amostras de forma que a única variável possível fosse aseparação eletroforética e o padrão de nomeação de bases. Produzimos, portanto, 846seqüências do vetor pUC18 que foram comparadas, através de alinhamentos locais,com um controle positivo: a seqüência já publicada para esta molécula. Dessa forma,pudemos identificar os erros do seqüenciamento / nomeação de bases e avaliardiferentes parâmetros de utilização do algoritmo PHRED. Verificamos que o padrão deerros observado era relativamente igual ao esperado, que as bases incorretas nãopodiam ser previstas através da observação dos valores de qualidade de suavizinhança e que as trocas (mismatches) são mais comuns quando associadas avalores baixos de qualidade, enquanto se nota a presença de erros relacionados aindels de alta qualidade. Percebemos também uma aplicação desta abordagem para oprocesso de desenho de iniciadores de seqüenciamento e realizamos um estudoavaliando este tópico, o qual mostra que a leitura de boa qualidade é iniciada a umadistância mensurável à jusante do iniciador de seqüenciamento. Com o objetivo detentar mascarar as bases incorretas em letras minúsculas, observamos que o valor dequalidade 7 parece ser o mais adequado para utilizar nesses casos, em boa parte dassituações. Além disso, calibramos o programa PHRED para funcionar de forma aapresentar apenas a informação não-ruidosa, biologicamente relevante. Por último,analisamos ainda a formação de consensos a partir dessas seqüências e mostramos asurpreendente ineficiência do re-seqüenciamento de forma a produzir seqüências fiéisà molécula molde.Science is sometimes dogmatic. Even the very thinker scientists are sometimes forcedto accept as true something believed by the community in order to advance theirresearch. In the genomic research field, some dogmas are still attached to scientificculture and the main goal of this thesis is the tentative to question some of thesedogmas and bring to the light of reason a consistent knowledge about some restrictaspects related to the base-calling process. Therefore, in order to evaluate theexecution of PHRED, the main base-caller used in genome projects, we first develop aconsistent methodology of analysis. Using this methodology we have tried to reducethe number of variables to be analyzed in sequencing reads, making our analysis freeof particularities happening in some specific sequencing reaction. With this in mind, wehave performed the sequencing of a well-known cloning vector (pUC18) in a singlepool,homogenizing the samples before and after the sequencing reaction. So, 846sequences from the pUC18 cloning vector were produced by single-pool and compared,through local alignments, with a positive control: the sequence published for thismolecule. This comparison allowed us both to identify precisely the errors happening inthe sequencing and/or base-calling and to evaluate different parameters used forPHRED running. We have verified (1) an error pattern very similar to the expected one,(2) the impossibility to predict errors evaluating the base quality values surroundingthe neighborhood of miscalled bases, (3) the high presence of mismatches in lowquality values and (4) the presence of some indels in high quality regions. We haverealized also an application of these base-calling data to the process of designingprimers for sequencing and one study was published on this subject. Trying tosoftmask low quality bases, we have made another study to find the best PHREDquality value to be used to mask most of the errors without masking correct bases.Moreover, we have studied and adjusted PHRED trimming parameters in order toretrieve from the sequence just the biologically relevant information. At last, we haveanalyzed the consensus production through different number of sequencing reads inorder to find the appropriate number of sample re-sequencing to generate a highfidelitymolecule.Universidade Federal de Minas GeraisUFMGBioinformáticaSequenciamento e análise de cDNAsAlgoritmos geneticosAlgoritmo PHREDsequênciamento de DNARacionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNAinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALprosdocimiphdthesis.pdfapplication/pdf5030519https://repositorio.ufmg.br/bitstream/1843/GRFO-7ZGK4Q/1/prosdocimiphdthesis.pdf89660165d82eccc7a56d388fe3d1ccc9MD51TEXTprosdocimiphdthesis.pdf.txtprosdocimiphdthesis.pdf.txtExtracted texttext/plain252466https://repositorio.ufmg.br/bitstream/1843/GRFO-7ZGK4Q/2/prosdocimiphdthesis.pdf.txta467663b95c53fad873b8164d03607d9MD521843/GRFO-7ZGK4Q2019-11-14 03:23:24.172oai:repositorio.ufmg.br:1843/GRFO-7ZGK4QRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T06:23:24Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv	Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
title	Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
spellingShingle	Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA Francisco Prosdocimi de Castro Santos Algoritmo PHRED sequênciamento de DNA Bioinformática Sequenciamento e análise de cDNAs Algoritmos geneticos
title_short	Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
title_full	Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
title_fullStr	Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
title_full_unstemmed	Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
title_sort	Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
author	Francisco Prosdocimi de Castro Santos
author_facet	Francisco Prosdocimi de Castro Santos
author_role	author
dc.contributor.advisor1.fl_str_mv	Jose Miguel Ortega
dc.contributor.advisor-co1.fl_str_mv	Fabricio Rodrigues dos Santos
dc.contributor.referee1.fl_str_mv	Georgios Joannis Pappas
dc.contributor.referee2.fl_str_mv	Ana Tereza Ribeiro Vasconcelos
dc.contributor.referee3.fl_str_mv	Marcos Augusto dos Santos
dc.contributor.referee4.fl_str_mv	Sergio Danilo Junho Pena
dc.contributor.author.fl_str_mv	Francisco Prosdocimi de Castro Santos
contributor_str_mv	Jose Miguel Ortega Fabricio Rodrigues dos Santos Georgios Joannis Pappas Ana Tereza Ribeiro Vasconcelos Marcos Augusto dos Santos Sergio Danilo Junho Pena
dc.subject.por.fl_str_mv	Algoritmo PHRED sequênciamento de DNA
topic	Algoritmo PHRED sequênciamento de DNA Bioinformática Sequenciamento e análise de cDNAs Algoritmos geneticos
dc.subject.other.pt_BR.fl_str_mv	Bioinformática Sequenciamento e análise de cDNAs Algoritmos geneticos
description	A ciência é, por vezes, dogmática. Mesmo o cientista questionador às vezes é obrigadoa tomar como verdade algo que se acredita na comunidade de forma a realizar suaspesquisas em busca do conhecimento. Na área da genômica, alguns dogmas estãoainda arraigados à cultura científica e o objetivo principal da presente tese foi tentar,na medida do possível, questionar e testar alguns desses dogmas com a intenção detrazer à luz da razão um conhecimento mais sólido sobre alguns limitados aspectosrelacionados, principalmente, ao processo de nomeação das bases (base-calling). Paraavaliar, portanto, a utilização do algoritmo PHRED, o principal nomeador de basesutilizado em projetos genoma, desenvolvemos primeiro uma metodologia sólida deanálise. Tal metodologia tentou diminuir o número de variáveis a se analisar em umacorrida de seqüenciamento para que nossas análises não levassem em consideraçãopeculiaridades específicas de uma ou outra reação produzida. Dessa forma, realizamoso seqüenciamento de um vetor de clonagem bastante conhecido (pUC18) em um únicoconjunto, homogeneizando as amostras de forma que a única variável possível fosse aseparação eletroforética e o padrão de nomeação de bases. Produzimos, portanto, 846seqüências do vetor pUC18 que foram comparadas, através de alinhamentos locais,com um controle positivo: a seqüência já publicada para esta molécula. Dessa forma,pudemos identificar os erros do seqüenciamento / nomeação de bases e avaliardiferentes parâmetros de utilização do algoritmo PHRED. Verificamos que o padrão deerros observado era relativamente igual ao esperado, que as bases incorretas nãopodiam ser previstas através da observação dos valores de qualidade de suavizinhança e que as trocas (mismatches) são mais comuns quando associadas avalores baixos de qualidade, enquanto se nota a presença de erros relacionados aindels de alta qualidade. Percebemos também uma aplicação desta abordagem para oprocesso de desenho de iniciadores de seqüenciamento e realizamos um estudoavaliando este tópico, o qual mostra que a leitura de boa qualidade é iniciada a umadistância mensurável à jusante do iniciador de seqüenciamento. Com o objetivo detentar mascarar as bases incorretas em letras minúsculas, observamos que o valor dequalidade 7 parece ser o mais adequado para utilizar nesses casos, em boa parte dassituações. Além disso, calibramos o programa PHRED para funcionar de forma aapresentar apenas a informação não-ruidosa, biologicamente relevante. Por último,analisamos ainda a formação de consensos a partir dessas seqüências e mostramos asurpreendente ineficiência do re-seqüenciamento de forma a produzir seqüências fiéisà molécula molde.
publishDate	2006
dc.date.issued.fl_str_mv	2006-11-01
dc.date.accessioned.fl_str_mv	2019-08-11T19:03:26Z
dc.date.available.fl_str_mv	2019-08-11T19:03:26Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1843/GRFO-7ZGK4Q
url	http://hdl.handle.net/1843/GRFO-7ZGK4Q
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv	UFMG
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br/bitstream/1843/GRFO-7ZGK4Q/1/prosdocimiphdthesis.pdf https://repositorio.ufmg.br/bitstream/1843/GRFO-7ZGK4Q/2/prosdocimiphdthesis.pdf.txt
bitstream.checksum.fl_str_mv	89660165d82eccc7a56d388fe3d1ccc9 a467663b95c53fad873b8164d03607d9
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_	1803589153703591936

Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA

Registros relacionados