Uma abordagem para detecção e remoção de artefatos em sequencias ESTs
Autor(a) principal: | |
---|---|
Data de Publicação: | 2006 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
Texto Completo: | https://hdl.handle.net/20.500.12733/1604244 |
Resumo: | Orientador: Zanoni Dias |
id |
UNICAMP-30_3d049a8d51ea47c4fed6e48fb0d1bbd5 |
---|---|
oai_identifier_str |
oai::393814 |
network_acronym_str |
UNICAMP-30 |
network_name_str |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
repository_id_str |
|
spelling |
Uma abordagem para detecção e remoção de artefatos em sequencias ESTsAn approach to detect and remove artifacts in EST sequencesSequência de nucleotídeosDNA - AnáliseBioinformáticaSequenciamento de DNAExpressed sequence tagsNucleotide sequenceDNA - AnalysisBioinformaticsDNA sequencingExpressed Sequence TagsOrientador: Zanoni DiasDissertação (mestrado) - Universidade Estadual de Campinas, Instituto de ComputaçãoResumo: O sequenciamento de ESTs (Expressed Sequence Tag) [2] e uma tecnica que trabalha com bibliotecas de cDNAs tendo como objetivo a obtençao de uma boa aproximaçao para o ?ndice genico, que e a listagem de genes existentes no genoma do organismo estudado. Antes da serem analisadas, as sequencias obtidas do sequenciamento dos ESTs devem ser processadas para eliminaçao de artefatos. Artefatos sao trechos que nao pertencem ao organismo ou que possuem baixa qualidade ou baixa complexidade. Trechos de vetores, adaptadores e caudas poli-A podem ser citados como exemplos de artefatos. A eliminaçao dos artefatos deve ser feita para que a an'alise das sequencias produzidas no projeto nao seja prejudicada por estes ?ru?dos?. Por exemplo, artefatos presentes em sequencias freq¨uentemente produzem erros em processos de clusterizaçao, pois eles podem determinar se sequencias serao unidas em um mesmo cluster ou separadas em clusters diferentes. Observando a importancia da realizaçao de um bom processo de limpeza das sequencias, o trabalho desenvolvido nesta dissertaçao teve como principal objetivo a obtençao de um conjunto eficiente de procedimentos de detecçao e remoçao de artefatos. Este conjunto foi produzido a partir de uma nova estrategia de deteçao de artefatos. Normalmente, cada projeto de seq¨uenciamento possui seu proprio conjunto de procedimentos dividido em varias etapas. Estas etapas sao, em geral, ligadas entre si e o resultado de uma pode influenciar o resultado de outra. A nossa estrategia visa a realizaçao destas etapas de forma totalmente independente. Alem da avaliaçao desta nova estrategia, o trabalho tambem realizou um estudo mais detalhado sobre dois tipos de artefatos: baixa qualidade e derrapagem. Para cada um deles, algoritmos foram propostos e validados atraves de testes com conjuntos de seq¨u?encias produzidas em projetos reais de sequenciamento. O conjunto final de procedimentos, baseado nos estudos desenvolvidos durante a escrita deste texto, foi testado com as sequencias do projeto SUCEST [100, 103, 113] e mostrou bons resultados. O clustering produzido com as sequencias processadas por nossos metodos apresentou melhores consistencia interna e externa e menores taxas de redundancia quando comparado ao clustering original do projetoAbstract: Expressed Sequence Tag (EST) Sequencing [2] is one technique that works with cDNA libraries. It aims to achieve a good approximation for the gene index of an organism. Before analyzing the sequences obtained by sequencing ESTs, they must be processed for artifact removal. An artifact is a sequence that does not belong to the studied organism or that has low quality or low complexity. As example of artifacts, we have adapters, poly- A tails, vectors, etc. Artifacts removal must be performed because their presence can produce ?noises? in the sequencing project data analysis. For example, artifact can join two sequences in a same cluster inappropriately or separate them in two different clusters when they should be put together. Motivated by the sequence cleaning process importance, our main objective in this work was to develop an efficient set of procedures to detect and to remove sequence artifacts. Usually, each EST sequencing project has its own procedure set divided in many steps. These steps are, in general, linked and the result of one given step might influence the result of the next one. Our strategy was to perform each step independently assuring that any execution order of those steps would lead to the same result. Additionally to the new strategy evaluation, this work also studied detailedly two type of artifacts: low quality and slippage. For each one, algorithms were proposed and validated through tests with sequences of real sequencing projects. The final set of procedure, developed in this work, was evaluated using the sequences of the SUCEST project [100, 103, 113] and produced good results. The resulting clustering from our method has better external and internal consistency and lower redundacy rate than those produced by the SUCEST project clusteringMestradoCiência da ComputaçãoMestre em Ciência da Computação[s.n.]Dias, Zanoni, 1975-Telles, Guilherme PimentelMeidanis, JoãoUniversidade Estadual de Campinas (UNICAMP). Instituto de ComputaçãoPrograma de Pós-Graduação em Ciência da ComputaçãoUNIVERSIDADE ESTADUAL DE CAMPINASBaudet, Christian, 1979-20062006-01-12T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf202 p. : il.(Broch.)https://hdl.handle.net/20.500.12733/1604244BAUDET, Christian. Uma abordagem para detecção e remoção de artefatos em sequencias ESTs. 2006. 202 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1604244. Acesso em: 2 set. 2024.https://repositorio.unicamp.br/acervo/detalhe/393814porreponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2017-02-18T04:45:57Zoai::393814Biblioteca Digital de Teses e DissertaçõesPUBhttp://repositorio.unicamp.br/oai/tese/oai.aspsbubd@unicamp.bropendoar:2017-02-18T04:45:57Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)false |
dc.title.none.fl_str_mv |
Uma abordagem para detecção e remoção de artefatos em sequencias ESTs An approach to detect and remove artifacts in EST sequences |
title |
Uma abordagem para detecção e remoção de artefatos em sequencias ESTs |
spellingShingle |
Uma abordagem para detecção e remoção de artefatos em sequencias ESTs Baudet, Christian, 1979- Sequência de nucleotídeos DNA - Análise Bioinformática Sequenciamento de DNA Expressed sequence tags Nucleotide sequence DNA - Analysis Bioinformatics DNA sequencing Expressed Sequence Tags |
title_short |
Uma abordagem para detecção e remoção de artefatos em sequencias ESTs |
title_full |
Uma abordagem para detecção e remoção de artefatos em sequencias ESTs |
title_fullStr |
Uma abordagem para detecção e remoção de artefatos em sequencias ESTs |
title_full_unstemmed |
Uma abordagem para detecção e remoção de artefatos em sequencias ESTs |
title_sort |
Uma abordagem para detecção e remoção de artefatos em sequencias ESTs |
author |
Baudet, Christian, 1979- |
author_facet |
Baudet, Christian, 1979- |
author_role |
author |
dc.contributor.none.fl_str_mv |
Dias, Zanoni, 1975- Telles, Guilherme Pimentel Meidanis, João Universidade Estadual de Campinas (UNICAMP). Instituto de Computação Programa de Pós-Graduação em Ciência da Computação UNIVERSIDADE ESTADUAL DE CAMPINAS |
dc.contributor.author.fl_str_mv |
Baudet, Christian, 1979- |
dc.subject.por.fl_str_mv |
Sequência de nucleotídeos DNA - Análise Bioinformática Sequenciamento de DNA Expressed sequence tags Nucleotide sequence DNA - Analysis Bioinformatics DNA sequencing Expressed Sequence Tags |
topic |
Sequência de nucleotídeos DNA - Análise Bioinformática Sequenciamento de DNA Expressed sequence tags Nucleotide sequence DNA - Analysis Bioinformatics DNA sequencing Expressed Sequence Tags |
description |
Orientador: Zanoni Dias |
publishDate |
2006 |
dc.date.none.fl_str_mv |
2006 2006-01-12T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
(Broch.) https://hdl.handle.net/20.500.12733/1604244 BAUDET, Christian. Uma abordagem para detecção e remoção de artefatos em sequencias ESTs. 2006. 202 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1604244. Acesso em: 2 set. 2024. |
identifier_str_mv |
(Broch.) BAUDET, Christian. Uma abordagem para detecção e remoção de artefatos em sequencias ESTs. 2006. 202 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1604244. Acesso em: 2 set. 2024. |
url |
https://hdl.handle.net/20.500.12733/1604244 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://repositorio.unicamp.br/acervo/detalhe/393814 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf 202 p. : il. |
dc.publisher.none.fl_str_mv |
[s.n.] |
publisher.none.fl_str_mv |
[s.n.] |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) instname:Universidade Estadual de Campinas (UNICAMP) instacron:UNICAMP |
instname_str |
Universidade Estadual de Campinas (UNICAMP) |
instacron_str |
UNICAMP |
institution |
UNICAMP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
collection |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP) |
repository.mail.fl_str_mv |
sbubd@unicamp.br |
_version_ |
1809188958883545088 |