Integração de dados para avaliação da qualidade da anotação dos genes codificadores de proteínas em eucariotos

Detalhes bibliográficos
Autor(a) principal: Juliana Assis Geraldo
Data de Publicação: 2019
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/33917
https://orcid.org/0000-0001-5995-8684
Resumo: Estudos de sequenciamento completo de genomas estão se tornando comuns, principalmente devido ao baixo custo, rapidez e precisão das tecnologias de sequenciamento atualmente disponíveis. Em consequência, o volume de dados está aumentando rapidamente e genomas completos e incompletos estão agora disponíveis para uma grande variedade de espécies. No entanto, a montagem e anotação desses dados de sequenciamento em genomas anotados de alta qualidade, continua sendo um grande desafio. As anotações dos genomas estão melhorando constantemente, todavia numerosos erros de anotações continuam presentes nos dados depositados em bancos de dados públicos, sejam estes erros na estrutura ou na função do gene. O processo de avaliação da qualidade da anotação, por muitas vezes, ainda é realizado manualmente o que é bastante custoso, principalmente para grandes e complexos genomas. Deste modo, o presente estudo teve como objetivo geral compreender os desafios da anotação estrutural dos genes codificadores de proteínas de genomas completos de organismos eucariotos, bem como, propôs desenvolver um novo método baseado em sintenia de ortólogos e integração de dados para avaliar de maneira automática a qualidade das anotações geradas, reduzindo, assim, o tempo de curadoria manual dos genes codificadores de proteínas. Para alcançar o objetivo, anotações dos genes codificadores de proteínas em genomas completos de diferentes eucariotos foram realizadas para os seguintes organismos: Panthera onca (mamífero), Plasmodium coatneyi e Plasmodium knowlesi (parasitos apicomplexas com genomas pequenos), Schistosoma mansoni (parasito com genoma médio e alta complexidade de estrutura). Os genomas abrangem diferentes características para representar a diversidade entre os processos de anotação. Durante o processo da anotação, foi possível levantar os casos dos erros de anotações passíveis de detecção automática. Diante do exposto, foi desenvolvida uma plataforma para avaliação automática da qualidade dos genes codificadores de proteínas. A plataforma permite realizar a detecção de erros, utilizando a integração de dados multi- ômicos, com informações da sintenia de genes ortólogos de espécies intimamente relacionadas e informações da estrutura da anotação do gene. No total, o programa contém três módulos: 1- Sintenia de Ortólogos, 2- Estrutural e 3-Transcricional. Os genes com possíveis erros detectados recebem uma baixa pontuação, enquanto aos genes confiáveis é atribuída uma pontuação mais alta. Assim, o novo arquivo de saída gerado pode ser carregado diretamente em programas como WebApollo e Artemis, para executar uma curadoria manual naqueles genes com baixa pontuação, reduzindo o tempo de curadoria manual da anotação. Com a ferramenta foi possível reduzir em 58% a necessidade de curadoria manual dos genes codificadores de proteínas dos genomas estudados.
id UFMG_f9f9c1b1bde78cba6effb19d9d1cfc00
oai_identifier_str oai:repositorio.ufmg.br:1843/33917
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Gabriel da Rocha Fernandeshttp://lattes.cnpq.br/8989178759075946Jessica Carol KissingerJosé Miguel OrtegaJoão Luís Reis CunhaGlória Regina FrancoArthur Gruberhttp://lattes.cnpq.br/2149775668715222Juliana Assis Geraldo2020-08-06T20:35:54Z2020-08-06T20:35:54Z2019-06-10http://hdl.handle.net/1843/33917https://orcid.org/0000-0001-5995-8684Estudos de sequenciamento completo de genomas estão se tornando comuns, principalmente devido ao baixo custo, rapidez e precisão das tecnologias de sequenciamento atualmente disponíveis. Em consequência, o volume de dados está aumentando rapidamente e genomas completos e incompletos estão agora disponíveis para uma grande variedade de espécies. No entanto, a montagem e anotação desses dados de sequenciamento em genomas anotados de alta qualidade, continua sendo um grande desafio. As anotações dos genomas estão melhorando constantemente, todavia numerosos erros de anotações continuam presentes nos dados depositados em bancos de dados públicos, sejam estes erros na estrutura ou na função do gene. O processo de avaliação da qualidade da anotação, por muitas vezes, ainda é realizado manualmente o que é bastante custoso, principalmente para grandes e complexos genomas. Deste modo, o presente estudo teve como objetivo geral compreender os desafios da anotação estrutural dos genes codificadores de proteínas de genomas completos de organismos eucariotos, bem como, propôs desenvolver um novo método baseado em sintenia de ortólogos e integração de dados para avaliar de maneira automática a qualidade das anotações geradas, reduzindo, assim, o tempo de curadoria manual dos genes codificadores de proteínas. Para alcançar o objetivo, anotações dos genes codificadores de proteínas em genomas completos de diferentes eucariotos foram realizadas para os seguintes organismos: Panthera onca (mamífero), Plasmodium coatneyi e Plasmodium knowlesi (parasitos apicomplexas com genomas pequenos), Schistosoma mansoni (parasito com genoma médio e alta complexidade de estrutura). Os genomas abrangem diferentes características para representar a diversidade entre os processos de anotação. Durante o processo da anotação, foi possível levantar os casos dos erros de anotações passíveis de detecção automática. Diante do exposto, foi desenvolvida uma plataforma para avaliação automática da qualidade dos genes codificadores de proteínas. A plataforma permite realizar a detecção de erros, utilizando a integração de dados multi- ômicos, com informações da sintenia de genes ortólogos de espécies intimamente relacionadas e informações da estrutura da anotação do gene. No total, o programa contém três módulos: 1- Sintenia de Ortólogos, 2- Estrutural e 3-Transcricional. Os genes com possíveis erros detectados recebem uma baixa pontuação, enquanto aos genes confiáveis é atribuída uma pontuação mais alta. Assim, o novo arquivo de saída gerado pode ser carregado diretamente em programas como WebApollo e Artemis, para executar uma curadoria manual naqueles genes com baixa pontuação, reduzindo o tempo de curadoria manual da anotação. Com a ferramenta foi possível reduzir em 58% a necessidade de curadoria manual dos genes codificadores de proteínas dos genomas estudados.Whole genome sequencing studies are becoming common in view of the low cost of the sequencing technologies currently available. In consequence, the volume of genome projects is rapidly increasing, and complete genomes are now available for a wide variety of species. Due to the amount of new whole genome sequencing several software and strategies has been developed to evaluate the genome assembly quality. Even in the face of a high-quality genome assembled, the challenge of obtaining a good genome annotation remains. One of the biggest claims is to evaluate the quality of the whole genome annotation. The process of evaluating annotation quality, for many times, is still performed manually which is costly, especially for large and complex genomes. The present study aimed to comprehend the challenges of structural annotation of genes encoding proteins from complete genomes of eukaryotic organisms, as well as, proposed to develop a new method based on synteny of orthologs and integration of multi-omics data, to evaluate automatically the quality of the annotations generated, thus reducing the time of manual curation of the genes encoding proteins. To obtain the result, genes encoding proteins in whole genomes of different eukaryotic organisms were required for the following organisms: Panthera onca (mammal), Plasmodium coatneyi and Plasmodium knowlesi (small genome parasites), Schistosoma mansoni (medium genome parasite and high complexity of structure). The genomes cover different characteristics to represent the diversity between the annotation processes. During the annotation process, was possible to raise the cases of annotation errors that can be detected automatically. In this context, a platform was developed for automatic evaluation of the quality of the genes encoding proteins. The platform allows to detect the errors using multi-omic data integration, with synteny information from orthologous genes of closely related species and information on the structure of the gene annotation. In total, the program contains three modules: 1- Synteny of Orthologous, 2- Structural and 3- Transcriptional. The genes with possible errors detected receive a low score, while the reliable genes are assigned with a higher score. Thus, the new generated output file can be loaded directly into programs such as WebApollo an Artemis to perform a manual curation on those genes with low scoring, reducing manual annotation curation time. It was possible to reduce by 58% the need for manual curation of the genes encoding proteins of the studied genomes.CNPq - Conselho Nacional de Desenvolvimento Científico e TecnológicoCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorporUniversidade Federal de Minas GeraisPrograma de Pós-Graduação em BioinformaticaUFMGBrasilICB - INSTITUTO DE CIÊNCIAS BIOLOGICASBioinformáticaGenomasDNASintemiaGeneGenomaAnotaçãoAvaliação-QualidadeRNA-SEqOrtólogosSinteniaIntegração de dados para avaliação da qualidade da anotação dos genes codificadores de proteínas em eucariotosData integration for quality assessment of the annotation of coding genes in Eukaryotes.info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALJulianaAssisGeraldo_Tese_Bioinformatica.pdfJulianaAssisGeraldo_Tese_Bioinformatica.pdfTeseapplication/pdf8492853https://repositorio.ufmg.br/bitstream/1843/33917/1/JulianaAssisGeraldo_Tese_Bioinformatica.pdf1f8c9756d5280f95c191bcf85d674120MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82119https://repositorio.ufmg.br/bitstream/1843/33917/2/license.txt34badce4be7e31e3adb4575ae96af679MD521843/339172023-05-24 13:50:57.969oai:repositorio.ufmg.br:1843/33917TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEgRE8gUkVQT1NJVMOTUklPIElOU1RJVFVDSU9OQUwgREEgVUZNRwoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIChSSS1VRk1HKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZSBpcnJldm9nw6F2ZWwgZGUgcmVwcm9kdXppciBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBkZWNsYXJhIHF1ZSBjb25oZWNlIGEgcG9sw610aWNhIGRlIGNvcHlyaWdodCBkYSBlZGl0b3JhIGRvIHNldSBkb2N1bWVudG8gZSBxdWUgY29uaGVjZSBlIGFjZWl0YSBhcyBEaXJldHJpemVzIGRvIFJJLVVGTUcuCgpWb2PDqiBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGTUcgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRlIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHB1YmxpY2HDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBQVUJMSUNBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCk8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lKHMpIG91IG8ocykgbm9tZXMocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KCg==Repositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2023-05-24T16:50:57Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Integração de dados para avaliação da qualidade da anotação dos genes codificadores de proteínas em eucariotos
dc.title.alternative.pt_BR.fl_str_mv Data integration for quality assessment of the annotation of coding genes in Eukaryotes.
title Integração de dados para avaliação da qualidade da anotação dos genes codificadores de proteínas em eucariotos
spellingShingle Integração de dados para avaliação da qualidade da anotação dos genes codificadores de proteínas em eucariotos
Juliana Assis Geraldo
Genoma
Anotação
Avaliação-Qualidade
RNA-SEq
Ortólogos
Sintenia
Bioinformática
Genomas
DNA
Sintemia
Gene
title_short Integração de dados para avaliação da qualidade da anotação dos genes codificadores de proteínas em eucariotos
title_full Integração de dados para avaliação da qualidade da anotação dos genes codificadores de proteínas em eucariotos
title_fullStr Integração de dados para avaliação da qualidade da anotação dos genes codificadores de proteínas em eucariotos
title_full_unstemmed Integração de dados para avaliação da qualidade da anotação dos genes codificadores de proteínas em eucariotos
title_sort Integração de dados para avaliação da qualidade da anotação dos genes codificadores de proteínas em eucariotos
author Juliana Assis Geraldo
author_facet Juliana Assis Geraldo
author_role author
dc.contributor.advisor1.fl_str_mv Gabriel da Rocha Fernandes
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/8989178759075946
dc.contributor.advisor-co1.fl_str_mv Jessica Carol Kissinger
dc.contributor.referee1.fl_str_mv José Miguel Ortega
dc.contributor.referee2.fl_str_mv João Luís Reis Cunha
dc.contributor.referee3.fl_str_mv Glória Regina Franco
dc.contributor.referee4.fl_str_mv Arthur Gruber
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/2149775668715222
dc.contributor.author.fl_str_mv Juliana Assis Geraldo
contributor_str_mv Gabriel da Rocha Fernandes
Jessica Carol Kissinger
José Miguel Ortega
João Luís Reis Cunha
Glória Regina Franco
Arthur Gruber
dc.subject.por.fl_str_mv Genoma
Anotação
Avaliação-Qualidade
RNA-SEq
Ortólogos
Sintenia
topic Genoma
Anotação
Avaliação-Qualidade
RNA-SEq
Ortólogos
Sintenia
Bioinformática
Genomas
DNA
Sintemia
Gene
dc.subject.other.pt_BR.fl_str_mv Bioinformática
Genomas
DNA
Sintemia
Gene
description Estudos de sequenciamento completo de genomas estão se tornando comuns, principalmente devido ao baixo custo, rapidez e precisão das tecnologias de sequenciamento atualmente disponíveis. Em consequência, o volume de dados está aumentando rapidamente e genomas completos e incompletos estão agora disponíveis para uma grande variedade de espécies. No entanto, a montagem e anotação desses dados de sequenciamento em genomas anotados de alta qualidade, continua sendo um grande desafio. As anotações dos genomas estão melhorando constantemente, todavia numerosos erros de anotações continuam presentes nos dados depositados em bancos de dados públicos, sejam estes erros na estrutura ou na função do gene. O processo de avaliação da qualidade da anotação, por muitas vezes, ainda é realizado manualmente o que é bastante custoso, principalmente para grandes e complexos genomas. Deste modo, o presente estudo teve como objetivo geral compreender os desafios da anotação estrutural dos genes codificadores de proteínas de genomas completos de organismos eucariotos, bem como, propôs desenvolver um novo método baseado em sintenia de ortólogos e integração de dados para avaliar de maneira automática a qualidade das anotações geradas, reduzindo, assim, o tempo de curadoria manual dos genes codificadores de proteínas. Para alcançar o objetivo, anotações dos genes codificadores de proteínas em genomas completos de diferentes eucariotos foram realizadas para os seguintes organismos: Panthera onca (mamífero), Plasmodium coatneyi e Plasmodium knowlesi (parasitos apicomplexas com genomas pequenos), Schistosoma mansoni (parasito com genoma médio e alta complexidade de estrutura). Os genomas abrangem diferentes características para representar a diversidade entre os processos de anotação. Durante o processo da anotação, foi possível levantar os casos dos erros de anotações passíveis de detecção automática. Diante do exposto, foi desenvolvida uma plataforma para avaliação automática da qualidade dos genes codificadores de proteínas. A plataforma permite realizar a detecção de erros, utilizando a integração de dados multi- ômicos, com informações da sintenia de genes ortólogos de espécies intimamente relacionadas e informações da estrutura da anotação do gene. No total, o programa contém três módulos: 1- Sintenia de Ortólogos, 2- Estrutural e 3-Transcricional. Os genes com possíveis erros detectados recebem uma baixa pontuação, enquanto aos genes confiáveis é atribuída uma pontuação mais alta. Assim, o novo arquivo de saída gerado pode ser carregado diretamente em programas como WebApollo e Artemis, para executar uma curadoria manual naqueles genes com baixa pontuação, reduzindo o tempo de curadoria manual da anotação. Com a ferramenta foi possível reduzir em 58% a necessidade de curadoria manual dos genes codificadores de proteínas dos genomas estudados.
publishDate 2019
dc.date.issued.fl_str_mv 2019-06-10
dc.date.accessioned.fl_str_mv 2020-08-06T20:35:54Z
dc.date.available.fl_str_mv 2020-08-06T20:35:54Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/33917
dc.identifier.orcid.pt_BR.fl_str_mv https://orcid.org/0000-0001-5995-8684
url http://hdl.handle.net/1843/33917
https://orcid.org/0000-0001-5995-8684
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Bioinformatica
dc.publisher.initials.fl_str_mv UFMG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv ICB - INSTITUTO DE CIÊNCIAS BIOLOGICAS
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/33917/1/JulianaAssisGeraldo_Tese_Bioinformatica.pdf
https://repositorio.ufmg.br/bitstream/1843/33917/2/license.txt
bitstream.checksum.fl_str_mv 1f8c9756d5280f95c191bcf85d674120
34badce4be7e31e3adb4575ae96af679
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589259274223616