Uma abordagem para detecção e remoção de artefatos em sequencias ESTs

Detalhes bibliográficos
Autor(a) principal: Baudet, Christian, 1979-
Data de Publicação: 2006
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
Texto Completo: https://hdl.handle.net/20.500.12733/1604244
Resumo: Orientador: Zanoni Dias
id UNICAMP-30_3d049a8d51ea47c4fed6e48fb0d1bbd5
oai_identifier_str oai::393814
network_acronym_str UNICAMP-30
network_name_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository_id_str
spelling Uma abordagem para detecção e remoção de artefatos em sequencias ESTsAn approach to detect and remove artifacts in EST sequencesSequência de nucleotídeosDNA - AnáliseBioinformáticaSequenciamento de DNAExpressed sequence tagsNucleotide sequenceDNA - AnalysisBioinformaticsDNA sequencingExpressed Sequence TagsOrientador: Zanoni DiasDissertação (mestrado) - Universidade Estadual de Campinas, Instituto de ComputaçãoResumo: O sequenciamento de ESTs (Expressed Sequence Tag) [2] e uma tecnica que trabalha com bibliotecas de cDNAs tendo como objetivo a obtençao de uma boa aproximaçao para o ?ndice genico, que e a listagem de genes existentes no genoma do organismo estudado. Antes da serem analisadas, as sequencias obtidas do sequenciamento dos ESTs devem ser processadas para eliminaçao de artefatos. Artefatos sao trechos que nao pertencem ao organismo ou que possuem baixa qualidade ou baixa complexidade. Trechos de vetores, adaptadores e caudas poli-A podem ser citados como exemplos de artefatos. A eliminaçao dos artefatos deve ser feita para que a an'alise das sequencias produzidas no projeto nao seja prejudicada por estes ?ru?dos?. Por exemplo, artefatos presentes em sequencias freq¨uentemente produzem erros em processos de clusterizaçao, pois eles podem determinar se sequencias serao unidas em um mesmo cluster ou separadas em clusters diferentes. Observando a importancia da realizaçao de um bom processo de limpeza das sequencias, o trabalho desenvolvido nesta dissertaçao teve como principal objetivo a obtençao de um conjunto eficiente de procedimentos de detecçao e remoçao de artefatos. Este conjunto foi produzido a partir de uma nova estrategia de deteçao de artefatos. Normalmente, cada projeto de seq¨uenciamento possui seu proprio conjunto de procedimentos dividido em varias etapas. Estas etapas sao, em geral, ligadas entre si e o resultado de uma pode influenciar o resultado de outra. A nossa estrategia visa a realizaçao destas etapas de forma totalmente independente. Alem da avaliaçao desta nova estrategia, o trabalho tambem realizou um estudo mais detalhado sobre dois tipos de artefatos: baixa qualidade e derrapagem. Para cada um deles, algoritmos foram propostos e validados atraves de testes com conjuntos de seq¨u?encias produzidas em projetos reais de sequenciamento. O conjunto final de procedimentos, baseado nos estudos desenvolvidos durante a escrita deste texto, foi testado com as sequencias do projeto SUCEST [100, 103, 113] e mostrou bons resultados. O clustering produzido com as sequencias processadas por nossos metodos apresentou melhores consistencia interna e externa e menores taxas de redundancia quando comparado ao clustering original do projetoAbstract: Expressed Sequence Tag (EST) Sequencing [2] is one technique that works with cDNA libraries. It aims to achieve a good approximation for the gene index of an organism. Before analyzing the sequences obtained by sequencing ESTs, they must be processed for artifact removal. An artifact is a sequence that does not belong to the studied organism or that has low quality or low complexity. As example of artifacts, we have adapters, poly- A tails, vectors, etc. Artifacts removal must be performed because their presence can produce ?noises? in the sequencing project data analysis. For example, artifact can join two sequences in a same cluster inappropriately or separate them in two different clusters when they should be put together. Motivated by the sequence cleaning process importance, our main objective in this work was to develop an efficient set of procedures to detect and to remove sequence artifacts. Usually, each EST sequencing project has its own procedure set divided in many steps. These steps are, in general, linked and the result of one given step might influence the result of the next one. Our strategy was to perform each step independently assuring that any execution order of those steps would lead to the same result. Additionally to the new strategy evaluation, this work also studied detailedly two type of artifacts: low quality and slippage. For each one, algorithms were proposed and validated through tests with sequences of real sequencing projects. The final set of procedure, developed in this work, was evaluated using the sequences of the SUCEST project [100, 103, 113] and produced good results. The resulting clustering from our method has better external and internal consistency and lower redundacy rate than those produced by the SUCEST project clusteringMestradoCiência da ComputaçãoMestre em Ciência da Computação[s.n.]Dias, Zanoni, 1975-Telles, Guilherme PimentelMeidanis, JoãoUniversidade Estadual de Campinas (UNICAMP). Instituto de ComputaçãoPrograma de Pós-Graduação em Ciência da ComputaçãoUNIVERSIDADE ESTADUAL DE CAMPINASBaudet, Christian, 1979-20062006-01-12T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf202 p. : il.(Broch.)https://hdl.handle.net/20.500.12733/1604244BAUDET, Christian. Uma abordagem para detecção e remoção de artefatos em sequencias ESTs. 2006. 202 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1604244. Acesso em: 2 set. 2024.https://repositorio.unicamp.br/acervo/detalhe/393814porreponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2017-02-18T04:45:57Zoai::393814Biblioteca Digital de Teses e DissertaçõesPUBhttp://repositorio.unicamp.br/oai/tese/oai.aspsbubd@unicamp.bropendoar:2017-02-18T04:45:57Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)false
dc.title.none.fl_str_mv Uma abordagem para detecção e remoção de artefatos em sequencias ESTs
An approach to detect and remove artifacts in EST sequences
title Uma abordagem para detecção e remoção de artefatos em sequencias ESTs
spellingShingle Uma abordagem para detecção e remoção de artefatos em sequencias ESTs
Baudet, Christian, 1979-
Sequência de nucleotídeos
DNA - Análise
Bioinformática
Sequenciamento de DNA
Expressed sequence tags
Nucleotide sequence
DNA - Analysis
Bioinformatics
DNA sequencing
Expressed Sequence Tags
title_short Uma abordagem para detecção e remoção de artefatos em sequencias ESTs
title_full Uma abordagem para detecção e remoção de artefatos em sequencias ESTs
title_fullStr Uma abordagem para detecção e remoção de artefatos em sequencias ESTs
title_full_unstemmed Uma abordagem para detecção e remoção de artefatos em sequencias ESTs
title_sort Uma abordagem para detecção e remoção de artefatos em sequencias ESTs
author Baudet, Christian, 1979-
author_facet Baudet, Christian, 1979-
author_role author
dc.contributor.none.fl_str_mv Dias, Zanoni, 1975-
Telles, Guilherme Pimentel
Meidanis, João
Universidade Estadual de Campinas (UNICAMP). Instituto de Computação
Programa de Pós-Graduação em Ciência da Computação
UNIVERSIDADE ESTADUAL DE CAMPINAS
dc.contributor.author.fl_str_mv Baudet, Christian, 1979-
dc.subject.por.fl_str_mv Sequência de nucleotídeos
DNA - Análise
Bioinformática
Sequenciamento de DNA
Expressed sequence tags
Nucleotide sequence
DNA - Analysis
Bioinformatics
DNA sequencing
Expressed Sequence Tags
topic Sequência de nucleotídeos
DNA - Análise
Bioinformática
Sequenciamento de DNA
Expressed sequence tags
Nucleotide sequence
DNA - Analysis
Bioinformatics
DNA sequencing
Expressed Sequence Tags
description Orientador: Zanoni Dias
publishDate 2006
dc.date.none.fl_str_mv 2006
2006-01-12T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv (Broch.)
https://hdl.handle.net/20.500.12733/1604244
BAUDET, Christian. Uma abordagem para detecção e remoção de artefatos em sequencias ESTs. 2006. 202 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1604244. Acesso em: 2 set. 2024.
identifier_str_mv (Broch.)
BAUDET, Christian. Uma abordagem para detecção e remoção de artefatos em sequencias ESTs. 2006. 202 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1604244. Acesso em: 2 set. 2024.
url https://hdl.handle.net/20.500.12733/1604244
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://repositorio.unicamp.br/acervo/detalhe/393814
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
202 p. : il.
dc.publisher.none.fl_str_mv [s.n.]
publisher.none.fl_str_mv [s.n.]
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
instname:Universidade Estadual de Campinas (UNICAMP)
instacron:UNICAMP
instname_str Universidade Estadual de Campinas (UNICAMP)
instacron_str UNICAMP
institution UNICAMP
reponame_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
collection Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)
repository.mail.fl_str_mv sbubd@unicamp.br
_version_ 1809188958883545088