R-seqQI: RNA-Seq Quality Indicator
Autor(a) principal: | |
---|---|
Data de Publicação: | 2016 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/1822/47443 |
Resumo: | Dissertação de mestrado em Bioinformática (área de especialização em Tecnologias da Informação) |
id |
RCAP_826873d90309015b08731065e02f2302 |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/47443 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
R-seqQI: RNA-Seq Quality IndicatorR-seqQI: Indicador de Qualidade de RNA-SeqEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em Bioinformática (área de especialização em Tecnologias da Informação)The current progress of sequencing systems facilitates the sequencing of the genomes and transcriptomes of countless organisms on our planet. However, it is not simple to measure the quality of the processed data, mainly in the study of non-model organisms, for which there is little if any, information available. The Korf Lab developed a method for the evaluation of genomes integrity, through the identification of 248 core eukaryotic genes (CEGs) that are present in nearly all of the eukaryotes. The main goal of this work is to evaluate the use of the CEGs in RNA-Seq of non-model organisms. For that two software’s were developed: seqQIrefmetrics to calculate a set of referencebased quality metrics, including identification, chimerism, accuracy and contiguity, based on the literature, and three new metrics, comprising fragmentation(1,2,3,4,5+), coverage and non-match, increasing the number of metrics available for transcriptome quality assessment; and seqQIidentifyCEGs to identify and report the number of CEGs present in each transcriptome assembly. To carry out the main objective, RNA-Seq data from nine model organisms (Arabidopsis thaliana, Aspergillus nidulans, Caenorhabditis elegans, Drosophila melanogaster, Homo sapiens, Mus musculus, Oryza sativa, Saccharomyces cerevisiae and Xenopus tropicalis), processed with Trinity, were used to evaluate how CEG detection correlates with the quality of the transcriptomes. In order to identify CEGs, protein sequences from assembled transcripts were predicted with TransDecoder. Metrics calculated by seqQIrefmetrics were associated with the number of CEGs identified by seqQIidentifyCEGs in each assembled transcriptome, through linear regressions. Among these metrics only contiguity and coverage were used to create predictive models, achieving an R2 of 0.787 and 0.640; and a RMSE of 5.86 and 6.90, respectively. These findings indicate that the CEGs can be used as a quality tool. In fact, the linear regressions enable to infer prospectively the quality of the assembled transcripts, without the necessity of additional information, such as a reference genome sequence or structural annotations. This approach is extremely important for RNA-Seq of non-model organisms, where there is no such information to evaluate the quality of the assembled transcripts in a reliable manner.Os progressos nas plataformas de sequenciação atuais permitem a obtenção dos genomas e transcritomas dos inúmeros organismos que habitam o nosso planeta. Contudo, não é simples avaliar a qualidade dos dados já processados, principalmente em estudos de organismos não modelo, para os quais existe pouca, se alguma, informação disponível. O grupo de investigação “The Korf Lab” desenvolveu um método para avaliar a integridade de sequências genómicas, através da identificação de 248 “core eukaryotic genes” (CEGs) que são conservados nos eucariontes. O principal objetivo deste trabalho é avaliar a utilização dos CEGs em RNA-Seq de organismos não modelo. De modo a atingir este objectivo dois softwares foram desenvolvidos: seqQIrefmetrics, para calcular um conjunto de métricas baseadas em referência, incluindo “identification”, “chimerism”, “accuracy” e “contiguity”, com base na literatura, e três novas métricas, “fragmentation(1,2,3,4,5+)”, “coverage” e “non-match”, aumentando assim o numero de métricas disponíveis para a avaliação da qualidade de transcritomas; e seqQIidentifyCEGs para identificar e reportar o número de CEGs presentes em cada transcritoma. Os dados de RNA-Seq de nove organismos modelo (Arabidopsis thaliana, Aspergillus nidulans, Caenorhabditis elegans, Drosophila melanogaster, Homo sapiens, Mus musculus, Oryza sativa, Saccharomyces cerevisiae e Xenopus tropicalis), processados com o Trinity, foram usados para avaliar como a detecção dos CEGs se correlaciona com a qualidade dos transcritomas. De modo a identificar os CEGs, as sequências proteicas dos transcritos assemblados foram determinadas com o TransDecoder. As métricas calculadas com seqQIrefmetrics foram associadas com o número de CEGs identificados com seqQIidentifyCEGs, em cada transcritoma assemblado, através de regressões lineares. Entre estas métricas apenas “contiguity” e “coverage” foram usadas para criar modelos preditivos, atingindo um R2 de 0,787 e 0,640; e um RMSE de 5,86 e 6,90, respetivamente. Estes resultados sugerem que os CEGs poderão ser usados como uma ferramenta de qualidade. Na verdade, as regressões lineares permitem inferir a qualidade dos transcritos assemblados, sem a necessidade de informação adicional, como um genoma de referência ou anotações estruturais. Este método é assim extremamente importante para estudos de RNA-Seq de organismos não modelo, onde não existe tal informação que permita avaliar a qualidade dos transcritos de um modo viável.Mendes, RuiEgas, ConceiçãoFroufe, HugoUniversidade do MinhoSousa, Abel Ernesto Fernandes de2016-03-032016-03-03T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/47443eng201601052info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:23:18Zoai:repositorium.sdum.uminho.pt:1822/47443Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:16:59.222148Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
R-seqQI: RNA-Seq Quality Indicator R-seqQI: Indicador de Qualidade de RNA-Seq |
title |
R-seqQI: RNA-Seq Quality Indicator |
spellingShingle |
R-seqQI: RNA-Seq Quality Indicator Sousa, Abel Ernesto Fernandes de Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
title_short |
R-seqQI: RNA-Seq Quality Indicator |
title_full |
R-seqQI: RNA-Seq Quality Indicator |
title_fullStr |
R-seqQI: RNA-Seq Quality Indicator |
title_full_unstemmed |
R-seqQI: RNA-Seq Quality Indicator |
title_sort |
R-seqQI: RNA-Seq Quality Indicator |
author |
Sousa, Abel Ernesto Fernandes de |
author_facet |
Sousa, Abel Ernesto Fernandes de |
author_role |
author |
dc.contributor.none.fl_str_mv |
Mendes, Rui Egas, Conceição Froufe, Hugo Universidade do Minho |
dc.contributor.author.fl_str_mv |
Sousa, Abel Ernesto Fernandes de |
dc.subject.por.fl_str_mv |
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
topic |
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
description |
Dissertação de mestrado em Bioinformática (área de especialização em Tecnologias da Informação) |
publishDate |
2016 |
dc.date.none.fl_str_mv |
2016-03-03 2016-03-03T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1822/47443 |
url |
http://hdl.handle.net/1822/47443 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
201601052 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799132620613746688 |