An efficient and accurate framework for large-scale sequences of DNA barcodes
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://hdl.handle.net/1822/82579 |
Resumo: | Dissertação de mestrado integrado em Engenharia Informática |
id |
RCAP_a7b761924ea9b867c42480adcd00fab6 |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/82579 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
An efficient and accurate framework for large-scale sequences of DNA barcodesHigh-throughput sequencingHigh performance computingDNA barcodingDNA metabarcodinCódigos de barras ADNSequenciação de ADNComputação de alto desempenhoDissertação de mestrado integrado em Engenharia InformáticaDNA barcodes are short sequences of pre-defined gene regions that contain a sufficient amount of intra- and inter-species genetic information. High-throughput sequencing techniques are currently used to identify large sequences of DNA barcodes in a species genome, in a relatively short time. Domain experts require adequate self-contained tools to accurately and efficiently process DNA barcode data in a reasonable time, taking advantage of current parallel and heterogeneous computing systems. They also expect to use these tools on different computing platforms, from laptops to high-performance servers, without requiring a broad knowledge in software engineering to develop efficient computational applications. The main goal of this project was to develop a framework and associated user-friendly tools for domain experts to efficiently support DNA barcoding studies, providing an abstraction of the performance issues. 4SpecID is the key outcome of this work: an application software that integrates a semi-automated auditing and annotation tool for reference libraries, to ensure the quality standards of the compiled data, aiming to enable a grounded decision when identifying species from DNA barcodes. Its graphics interface aids the end user to specify the operations and it also simplifies data filtering and remote file handling. The C++ ported version (from MATLAB) was fully tested and is more robust than the original version. Architecture features common to laptop and compute servers were exploited, namely parallel programming techniques and memory models. The presented validation and performance results show significant improvements on execution times, not only on the sequential version, but also by using the available parallel capabilities of the underlying computing platforms.Os códigos de barras de ADN são pequenas sequência de regiões genéticas predefinidas que contêm uma quantidade suficiente de informação genética intra e interespécies. Técnicas de sequenciamento de alto desempenho são usadas na identificação de grandes sequências de códigos de barras de ADN no genoma de uma espécie. No entanto, é necessário que sejam desenvolvidas ferramentas adequadas para que os especialistas de domínio processem dados de código de barras de ADN de forma precisa e num intervalo de tempo viável, utilizando os sistemas de computação paralelos e heterogêneos que existem. Destas ferramentas é esperado que possam ser utilizadas recorrendo a diferentes plataformas de computação, de laptops a servidores de alto desempenho, sem exigir um amplo conhecimento em engenharia de software para serem utilizadas ou usadas para a criação de outras ferramentas. O objetivo principal deste projeto é desenvolver uma estrutura que forneça uma abstração dos possíveis desafios de desempenho e permitir que especialistas no domínio tenham uma forma computacional eficiente para realizar um estudo de código de barras de DNA. Neste projecto desenvolveu-se uma ferramenta, 4SpecID, que visa permitir uma decisão fundamentada na identificação de espécies através de códigos de barras de DNA: uma auditoria semi-automática e ferramenta de anotação para bibliotecas de referência, para garantir os padrões de qualidade dos dados compilados. Este projeto também explorou as vantagens das arquiteturas de servidores de computação e laptops mais comuns, como técnicas de programação paralela e modelos de memória. Os resultados de validação e desempenho apresentados mostram que é possível obter melhores tempos de execução utilizando as características disponíveis das plataformas subjacentes.Proença, Alberto JoséSousa, Eduardo CondeUniversidade do MinhoNeto, Luís Manuel Pacheco2021-12-022021-12-02T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/82579eng203143817info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:04:42Zoai:repositorium.sdum.uminho.pt:1822/82579Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T18:55:00.551785Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
An efficient and accurate framework for large-scale sequences of DNA barcodes |
title |
An efficient and accurate framework for large-scale sequences of DNA barcodes |
spellingShingle |
An efficient and accurate framework for large-scale sequences of DNA barcodes Neto, Luís Manuel Pacheco High-throughput sequencing High performance computing DNA barcoding DNA metabarcodin Códigos de barras ADN Sequenciação de ADN Computação de alto desempenho |
title_short |
An efficient and accurate framework for large-scale sequences of DNA barcodes |
title_full |
An efficient and accurate framework for large-scale sequences of DNA barcodes |
title_fullStr |
An efficient and accurate framework for large-scale sequences of DNA barcodes |
title_full_unstemmed |
An efficient and accurate framework for large-scale sequences of DNA barcodes |
title_sort |
An efficient and accurate framework for large-scale sequences of DNA barcodes |
author |
Neto, Luís Manuel Pacheco |
author_facet |
Neto, Luís Manuel Pacheco |
author_role |
author |
dc.contributor.none.fl_str_mv |
Proença, Alberto José Sousa, Eduardo Conde Universidade do Minho |
dc.contributor.author.fl_str_mv |
Neto, Luís Manuel Pacheco |
dc.subject.por.fl_str_mv |
High-throughput sequencing High performance computing DNA barcoding DNA metabarcodin Códigos de barras ADN Sequenciação de ADN Computação de alto desempenho |
topic |
High-throughput sequencing High performance computing DNA barcoding DNA metabarcodin Códigos de barras ADN Sequenciação de ADN Computação de alto desempenho |
description |
Dissertação de mestrado integrado em Engenharia Informática |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-12-02 2021-12-02T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1822/82579 |
url |
https://hdl.handle.net/1822/82579 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
203143817 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799132334245543936 |