Assembly and annotation of the sardine (Sardina pilchardus) transcriptome

Detalhes bibliográficos
Autor(a) principal: Garcia, Carlos Miguel Estevens Vieira Rolo
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.1/12621
Resumo: The European sardine (Sardina pilchardus) is a fish of high cultural and economic importance in Portugal and current stock assessment studies report an alarming stock biomass decrease due to overfishing and/or environmental change. For better management of the sardine fisheries, there is an urgent need to understand the causal factors leading to the historically low level of the sardine stock in Portuguese waters. Important biological questions such as population diversity level, structure and migrations can be tackled with the development and usage of genomic tools. The ability to answer such important biological questions will be valuable and can be integrated into stock assessment data modelling and aid data-based policy making for better biological resource management. Eleven tissues were sequenced and curated to assemble the transcriptome. Through the comparison of different approaches, the best seemed to go through a quality control step with Trim Galore and a de novo assembly. A post-assembly quality control with Transrate seemed to be better when assembling a group of different tissues rather than one specific ones. The assembly with reads from all the tissues studied contained 170,478 contigs and had an N50 value of 486. Before this project almost no genomic/genetics resources existed to assist biological studies of the sardine and the species genome and transcriptome are cornerstone resources needed to translate applied scientific genetic data into management measures. In this project, a reference transcriptome of the sardine was assembled and functionally annotated.
id RCAP_f30bdf6c9a8e870bca2362edb183abc8
oai_identifier_str oai:sapientia.ualg.pt:10400.1/12621
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Assembly and annotation of the sardine (Sardina pilchardus) transcriptomeSardinhaTranscriptomaAnotaçãoBioinformáticaDieta mediterrânicaDomínio/Área Científica::Ciências Naturais::Ciências BiológicasThe European sardine (Sardina pilchardus) is a fish of high cultural and economic importance in Portugal and current stock assessment studies report an alarming stock biomass decrease due to overfishing and/or environmental change. For better management of the sardine fisheries, there is an urgent need to understand the causal factors leading to the historically low level of the sardine stock in Portuguese waters. Important biological questions such as population diversity level, structure and migrations can be tackled with the development and usage of genomic tools. The ability to answer such important biological questions will be valuable and can be integrated into stock assessment data modelling and aid data-based policy making for better biological resource management. Eleven tissues were sequenced and curated to assemble the transcriptome. Through the comparison of different approaches, the best seemed to go through a quality control step with Trim Galore and a de novo assembly. A post-assembly quality control with Transrate seemed to be better when assembling a group of different tissues rather than one specific ones. The assembly with reads from all the tissues studied contained 170,478 contigs and had an N50 value of 486. Before this project almost no genomic/genetics resources existed to assist biological studies of the sardine and the species genome and transcriptome are cornerstone resources needed to translate applied scientific genetic data into management measures. In this project, a reference transcriptome of the sardine was assembled and functionally annotated.A sardinha europeia (Sardina pilchardus) é um peixe de grande importância cultural e económica em Portugal e os atuais estudos de avaliação das unidades populacionais mostram uma diminuição preocupante da biomassa das unidades populacionais devido à sobrepesca e / ou alterações ambientais. Para uma melhor gestão da pesca da sardinha, existe uma necessidade urgente de compreender os fatores que levam ao baixo nível histórico do estoque de sardinha nas águas portuguesas. Questões importantes biológicas, como níveis de diversidade populacional, estrutura e migrações, podem ser abordadas com o desenvolvimento e uso de ferramentas genómicas. A capacidade de responder a essas importantes questões biológicas será valiosa e poderá ser integrada à modelagem de dados de avaliação de estoques e à criação de políticas baseadas em dados de ajuda para um melhor gerenciamento dos recursos biológicos. Onze tecidos foram sequenciados e tratados para montar o transcriptoma. Através da comparação de diferentes abordagens, os melhores pareciam passar por uma etapa de controlo de qualidade com o Trim Galore e uma montagem de novo. Um controlo de qualidade pós-montagem com o Transrate parecia ser melhor quando se montava um grupo de diferentes tecidos, em vez de um único específico. A montagem com leituras de todos os tecidos estudados continha 170 478 contigs e tinha um valor de N50 de 486. Através da comparação do controlo de qualidade executado pelo Trim Galore com o Trimmomatic, notou-se uma melhor qualidade de leituras após o Trimmomatic com pontuações de qualidade acima de 32 e percentagens de leituras removidas entre os 0,28 e 0,44 % em contraste com pontuações de qualidade de 28 e percentagens de leituras removidas entre os 5,77 e 8,08 % resultantes do Trim Galore, ambas as abordagens originaram em percentagens de guanina-citocina entre os 49 e 55 %. No entanto, devido a sequências menores do que 30 pares de base inesperadas e percentagens de leituras removidas maiores do que o esperado resultantes do Trimmomatic o projeto procedeu com as leituras resultantes do Trim Galore. Entre as duas abordagens para a montagem do transcriptoma com o Trinity, como a montagem guiada pelo genoma originou valores de N50 mais baixos para o primeiro tecido testado nos dois métodos de alinhamento (local e de ponta-a-ponta) mais nenhum tecido foi testado e o projeto procedeu com as montagens de novo. As montagens de novo passaram por outro passo de controlo de qualidade feito pelo Transrate que reteve entre 44 e 80 % de sequências com medias de comprimento entre os 425,98 e 686,88 pares de base e valores de N50 entre os 474 e 1 039. O Transrate diminui os valores de N50, o que não era esperado, mas diminuiu também o número de contigs para um valor mais realista para os tecidos tendo assim ter sido escolhidas para a anotação as montagens de novo após tratadas pelo Transrate. Através do Trinotate, entre 14,66 e 38,07 % dos contigs foram deduzidos em regiões codificadoras com TransDecoder; 25,49 a 44,77 % e 11,56 a 31,71 % dos contigs foram anotados com homologias de sequências via Sprot blastx Sprot blastp, respetivamente. Com base na sequência SwissProt ID obtida e no banco de dados SQL do Trinotate, 20,92 a 39,63 % anotados com homologias de sequências via BLAST + tiveram a anotação de Kegg, 19,70 a 39,20 % de eggNOG, 24,81 a 44,11 % de GO blast. Foram identificados 9,70 a 25,05 % de domínios proteicos com HMMER / PFAM e, consequentemente, 5,90 a 15,00 % anotados com GO com base nos domínios Pfam. No geral, o banco de dados que anotou o maior número de transcritos foi eggNOG, enquanto o que anotou o menor foi com SignalP, mostrando apenas uma pequena percentagem (1,02 a 1,94 % de peptídeos de sinal) dos transcritos representam proteínas que são secretadas a partir da célula, seguido por proteínas transmembranares identificadas com tmHMM, com 2,73 a 5,46 % de domínios transmembranares encontrados. Comparando a anotação antes das montagens passarem pelo Transrate, foram também anotadas as montagens do tecido da barbatana caudal e da montagem com todos os tecidos notando-se no geral uma diminuição de percentagem de transcritos anotados após o Transrate, o que não deveria acontecer. As isoformas dos genes foram retiradas para novos cálculos das percentagens para perceber se era o motivo da diminuição, com esta forma a percentagem de genes anotados diminuíram menos. Uma quantificação de transcritos fornecida pelo Trinity determinou 12 747 genes e 13 732 transcritos expressos entre 10 e 100 TPM (transcritos por milhão), dos quais 26 053 genes e 28 211 transcritos são expressos por pelo menos 10 TPM. Foram considerados entre 64 a 1189 genes específicos de tecidos dos quais foram anotados por volta de 64 % quando os genes tinham uma expressão total de 95 % nesse tecido. A anotação dos 10 genes específicos mais significantes por tecido permitiu a verificação de genes que correspondiam com a função de cada tecido e onde seriam mais expressos como também a verificação de genes duplicados. Após estes genes duplicados terem sido analisados notou-se que apenas existia uma cópia destes antes dos teleostes e entres os teleostes era possível verificar mais do que uma, confirmando assim um evento de duplicação de genoma inteiro nos teleostes. Pelo website REVIGO foram gerados gráficos de dispersão e tabelas com GOs de processos biológicos e funções moleculares que correspondiam com a função de cada tecido para os quais foram gerados. Antes, quase não existiam recursos genómicos / genéticos para auxiliar os estudos biológicos, e o genoma e o transcriptoma das espécies são recursos fundamentais necessários para transformar dados genéticos científicos aplicados em manejo. Neste projeto, o transcriptoma representativo da sardinha foi montado e funcionalmente.Power, DeborahLouro, BrunoSapientiaGarcia, Carlos Miguel Estevens Vieira Rolo2019-06-25T11:55:23Z2019-01-1020182019-01-10T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.1/12621TID:202246060porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-24T10:24:36Zoai:sapientia.ualg.pt:10400.1/12621Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:03:56.691751Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Assembly and annotation of the sardine (Sardina pilchardus) transcriptome
title Assembly and annotation of the sardine (Sardina pilchardus) transcriptome
spellingShingle Assembly and annotation of the sardine (Sardina pilchardus) transcriptome
Garcia, Carlos Miguel Estevens Vieira Rolo
Sardinha
Transcriptoma
Anotação
Bioinformática
Dieta mediterrânica
Domínio/Área Científica::Ciências Naturais::Ciências Biológicas
title_short Assembly and annotation of the sardine (Sardina pilchardus) transcriptome
title_full Assembly and annotation of the sardine (Sardina pilchardus) transcriptome
title_fullStr Assembly and annotation of the sardine (Sardina pilchardus) transcriptome
title_full_unstemmed Assembly and annotation of the sardine (Sardina pilchardus) transcriptome
title_sort Assembly and annotation of the sardine (Sardina pilchardus) transcriptome
author Garcia, Carlos Miguel Estevens Vieira Rolo
author_facet Garcia, Carlos Miguel Estevens Vieira Rolo
author_role author
dc.contributor.none.fl_str_mv Power, Deborah
Louro, Bruno
Sapientia
dc.contributor.author.fl_str_mv Garcia, Carlos Miguel Estevens Vieira Rolo
dc.subject.por.fl_str_mv Sardinha
Transcriptoma
Anotação
Bioinformática
Dieta mediterrânica
Domínio/Área Científica::Ciências Naturais::Ciências Biológicas
topic Sardinha
Transcriptoma
Anotação
Bioinformática
Dieta mediterrânica
Domínio/Área Científica::Ciências Naturais::Ciências Biológicas
description The European sardine (Sardina pilchardus) is a fish of high cultural and economic importance in Portugal and current stock assessment studies report an alarming stock biomass decrease due to overfishing and/or environmental change. For better management of the sardine fisheries, there is an urgent need to understand the causal factors leading to the historically low level of the sardine stock in Portuguese waters. Important biological questions such as population diversity level, structure and migrations can be tackled with the development and usage of genomic tools. The ability to answer such important biological questions will be valuable and can be integrated into stock assessment data modelling and aid data-based policy making for better biological resource management. Eleven tissues were sequenced and curated to assemble the transcriptome. Through the comparison of different approaches, the best seemed to go through a quality control step with Trim Galore and a de novo assembly. A post-assembly quality control with Transrate seemed to be better when assembling a group of different tissues rather than one specific ones. The assembly with reads from all the tissues studied contained 170,478 contigs and had an N50 value of 486. Before this project almost no genomic/genetics resources existed to assist biological studies of the sardine and the species genome and transcriptome are cornerstone resources needed to translate applied scientific genetic data into management measures. In this project, a reference transcriptome of the sardine was assembled and functionally annotated.
publishDate 2018
dc.date.none.fl_str_mv 2018
2019-06-25T11:55:23Z
2019-01-10
2019-01-10T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.1/12621
TID:202246060
url http://hdl.handle.net/10400.1/12621
identifier_str_mv TID:202246060
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133274595917824