A evolução da complexidade biológica em Eukarya: funções biológicas e domínios de proteínas associados ao número de tipos celulares diferentes

Detalhes bibliográficos
Autor(a) principal: Dalbert Benjamim da Costa
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/33945
Resumo: Durante o curso da evolução biológica de eucariotos, organismos com diferentes graus de complexidade emergiram. Para fins práticos, o número de tipos celulares distintos tem sido comumente utilizado como um proxy para a complexidade biológica. Também durante o curso da evolução, novas proteínas emergiram em Eukarya como resultado de evolução de novo, duplicações gênicas seguidas por divergência e, em vários casos, embaralhamento de domínios (domain shuffling). Utilizamos uma abordagem estatística e de genômica comparativa para estudar a evolução da complexidade biológica em eucariotos, pesquisando por funções biológicas (representadas como a frequência de domínios de proteínas e de funções gênicas codificadas em uma ampla gama de genomas eucarióticos) associadas ao seu número de tipos celulares diferentes. Para tal, inicialmente selecionamos 41 proteomas não-redundantes eucarióticos de alta qualidade em termos de completude do repertório gênico, estimado pelo software BUSCO, e que possuam informação sobre o número de tipos celulares. Para os proteomas selecionados, realizamos a anotação dos mesmos usando o programa InterProscan, de modo a detectarmos quais são os domínios protéicos (identificados no banco de dados Pfam) e quais funções biológicas (identificados por termos Gene Ontology) codificados nestes genomas. Buscamos dois tipos de associação entre as frequências de domínios/termos GO em cada proteoma não-redundante e o número de diferentes tipos de células para as espécies correspondentes. Uma das associações consiste na correlação de Spearman, sendo o outro tipo de modelo corrigido de modo a levar em consideração a história filogenética das espécies analisadas, de modo a eliminar possíveis dependências dos dados em função da origem evolutiva comum dos organismos em análise. Para ambos computamos valores p, os quais são posteriormente corrigidos em função do cenário de múltiplas hipóteses (BH). Consideramos como positivos os modelos onde obtivemos valores p corrigidos menores que p ≤ 0.05. Encontramos 256 domínios Pfam e 304 funções biológicas que desempenham papéis importantes nos processos de matriz extracelular, interação célula-célula, fatores de transcrição, hormônios, processos regulatórios e fatores-chave para diferenciação celular e processos de desenvolvimento corporal. Em conjunto, nossa abordagem destaca importantes processos biológicos associados ao aumento da complexidade em Eukarya, sugerindo sua importância para o estabelecimento da complexidade biológica existente.
id UFMG_ec996cc14f19d8d43b1a839198c0a3c4
oai_identifier_str oai:repositorio.ufmg.br:1843/33945
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Francisco Pereira Lobohttp://lattes.cnpq.br/9614758933055047Romeu Cardoso GuimarãesGustavo Campos e Silva Kuhnhttp://lattes.cnpq.br/7270082067797075Dalbert Benjamim da Costa2020-08-11T01:52:00Z2020-08-11T01:52:00Z2019-09-26http://hdl.handle.net/1843/33945Durante o curso da evolução biológica de eucariotos, organismos com diferentes graus de complexidade emergiram. Para fins práticos, o número de tipos celulares distintos tem sido comumente utilizado como um proxy para a complexidade biológica. Também durante o curso da evolução, novas proteínas emergiram em Eukarya como resultado de evolução de novo, duplicações gênicas seguidas por divergência e, em vários casos, embaralhamento de domínios (domain shuffling). Utilizamos uma abordagem estatística e de genômica comparativa para estudar a evolução da complexidade biológica em eucariotos, pesquisando por funções biológicas (representadas como a frequência de domínios de proteínas e de funções gênicas codificadas em uma ampla gama de genomas eucarióticos) associadas ao seu número de tipos celulares diferentes. Para tal, inicialmente selecionamos 41 proteomas não-redundantes eucarióticos de alta qualidade em termos de completude do repertório gênico, estimado pelo software BUSCO, e que possuam informação sobre o número de tipos celulares. Para os proteomas selecionados, realizamos a anotação dos mesmos usando o programa InterProscan, de modo a detectarmos quais são os domínios protéicos (identificados no banco de dados Pfam) e quais funções biológicas (identificados por termos Gene Ontology) codificados nestes genomas. Buscamos dois tipos de associação entre as frequências de domínios/termos GO em cada proteoma não-redundante e o número de diferentes tipos de células para as espécies correspondentes. Uma das associações consiste na correlação de Spearman, sendo o outro tipo de modelo corrigido de modo a levar em consideração a história filogenética das espécies analisadas, de modo a eliminar possíveis dependências dos dados em função da origem evolutiva comum dos organismos em análise. Para ambos computamos valores p, os quais são posteriormente corrigidos em função do cenário de múltiplas hipóteses (BH). Consideramos como positivos os modelos onde obtivemos valores p corrigidos menores que p ≤ 0.05. Encontramos 256 domínios Pfam e 304 funções biológicas que desempenham papéis importantes nos processos de matriz extracelular, interação célula-célula, fatores de transcrição, hormônios, processos regulatórios e fatores-chave para diferenciação celular e processos de desenvolvimento corporal. Em conjunto, nossa abordagem destaca importantes processos biológicos associados ao aumento da complexidade em Eukarya, sugerindo sua importância para o estabelecimento da complexidade biológica existente.During the course of biological evolution, organisms with different degrees of complexity have arisen. For practical purposes, the number of distinct cell types has been commonly used as a proxy for biological complexity. Also during the course of evolution, new proteins emerged in Eukarya as the result of de novo gene evolution, gene duplications followed by divergence and, in several cases, functional domain shuffling. We used a statistical comparative genomics approach to study the evolution of biological complexity in Eukarya by searching for biological functions (represented as the frequency of protein domains and gene functions coded in a wide range of eukaryotic genomes) associated with their number of cell types. We selected 41 high-quality non-redundant eucaryotic proteomes in terms of gene repertoire completeness as estimated by BUSCO and, for each proteome was annotated to identify protein domains (Pfam) and biological functions (Gene Ontology - GO - terms) using InterProScan. We compute two classes of association metrics for the frequencies of each Pfam/GO term and the number of cell types. One class consists on traditional Spearman correlation, while the other is corrected to take into account the common ancestry relationships across species data, therefore correcting for this bias. For each linear model we computed p-values, and we applied multiple hypothesis correction (BH methods) to take into account the multiple-comparison problem. We considered as positive models with corrected p-values smaller than 0.05 resulting in 256 Pfam domains and 304 GO terms significantly associated with biological complexity. Among these sets we found several domains that play important roles in extracellular matrix processes, cell-cell interaction, transcription factors, hormones, regulatory processes and key factors for cell differentiation and body development processes. Taken together, our approach highlights important biological processes associated with the increase of complexity in Eukarya, suggesting their importance for the establishment of extant biological complexity.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorporUniversidade Federal de Minas GeraisPrograma de Pós-Graduação em GenéticaUFMGBrasilICB - INSTITUTO DE CIÊNCIAS BIOLOGICASPrograma Institucional de Internacionalização – CAPES - PrInthttp://creativecommons.org/licenses/by-nd/3.0/pt/info:eu-repo/semantics/openAccessGenéticaEucariotosGenômicaBiologia computacionalOntologia genéticaEukaryaComplexidade biológicaGenômica comparativaNúmero de diferentes tipos de célulasBiologia computacionalDomínio de proteínasPfamGene OntologyA evolução da complexidade biológica em Eukarya: funções biológicas e domínios de proteínas associados ao número de tipos celulares diferentesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8805https://repositorio.ufmg.br/bitstream/1843/33945/2/license_rdf00e5e6a57d5512d202d12cb48704dfd6MD52ORIGINALdissertacao_dalbert_benjamim_da_costa_ppg_genetica.pdfdissertacao_dalbert_benjamim_da_costa_ppg_genetica.pdfapplication/pdf5075338https://repositorio.ufmg.br/bitstream/1843/33945/4/dissertacao_dalbert_benjamim_da_costa_ppg_genetica.pdfe6a55dd9e3084d73e1e5e51bc35458a5MD54LICENSElicense.txtlicense.txttext/plain; charset=utf-82119https://repositorio.ufmg.br/bitstream/1843/33945/5/license.txt34badce4be7e31e3adb4575ae96af679MD551843/339452020-08-10 22:52:00.651oai:repositorio.ufmg.br:1843/33945TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEgRE8gUkVQT1NJVMOTUklPIElOU1RJVFVDSU9OQUwgREEgVUZNRwoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIChSSS1VRk1HKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZSBpcnJldm9nw6F2ZWwgZGUgcmVwcm9kdXppciBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBkZWNsYXJhIHF1ZSBjb25oZWNlIGEgcG9sw610aWNhIGRlIGNvcHlyaWdodCBkYSBlZGl0b3JhIGRvIHNldSBkb2N1bWVudG8gZSBxdWUgY29uaGVjZSBlIGFjZWl0YSBhcyBEaXJldHJpemVzIGRvIFJJLVVGTUcuCgpWb2PDqiBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGTUcgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRlIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHB1YmxpY2HDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBQVUJMSUNBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCk8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lKHMpIG91IG8ocykgbm9tZXMocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KCg==Repositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2020-08-11T01:52Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv A evolução da complexidade biológica em Eukarya: funções biológicas e domínios de proteínas associados ao número de tipos celulares diferentes
title A evolução da complexidade biológica em Eukarya: funções biológicas e domínios de proteínas associados ao número de tipos celulares diferentes
spellingShingle A evolução da complexidade biológica em Eukarya: funções biológicas e domínios de proteínas associados ao número de tipos celulares diferentes
Dalbert Benjamim da Costa
Eukarya
Complexidade biológica
Genômica comparativa
Número de diferentes tipos de células
Biologia computacional
Domínio de proteínas
Pfam
Gene Ontology
Genética
Eucariotos
Genômica
Biologia computacional
Ontologia genética
title_short A evolução da complexidade biológica em Eukarya: funções biológicas e domínios de proteínas associados ao número de tipos celulares diferentes
title_full A evolução da complexidade biológica em Eukarya: funções biológicas e domínios de proteínas associados ao número de tipos celulares diferentes
title_fullStr A evolução da complexidade biológica em Eukarya: funções biológicas e domínios de proteínas associados ao número de tipos celulares diferentes
title_full_unstemmed A evolução da complexidade biológica em Eukarya: funções biológicas e domínios de proteínas associados ao número de tipos celulares diferentes
title_sort A evolução da complexidade biológica em Eukarya: funções biológicas e domínios de proteínas associados ao número de tipos celulares diferentes
author Dalbert Benjamim da Costa
author_facet Dalbert Benjamim da Costa
author_role author
dc.contributor.advisor1.fl_str_mv Francisco Pereira Lobo
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/9614758933055047
dc.contributor.referee1.fl_str_mv Romeu Cardoso Guimarães
dc.contributor.referee2.fl_str_mv Gustavo Campos e Silva Kuhn
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/7270082067797075
dc.contributor.author.fl_str_mv Dalbert Benjamim da Costa
contributor_str_mv Francisco Pereira Lobo
Romeu Cardoso Guimarães
Gustavo Campos e Silva Kuhn
dc.subject.por.fl_str_mv Eukarya
Complexidade biológica
Genômica comparativa
Número de diferentes tipos de células
Biologia computacional
Domínio de proteínas
Pfam
Gene Ontology
topic Eukarya
Complexidade biológica
Genômica comparativa
Número de diferentes tipos de células
Biologia computacional
Domínio de proteínas
Pfam
Gene Ontology
Genética
Eucariotos
Genômica
Biologia computacional
Ontologia genética
dc.subject.other.pt_BR.fl_str_mv Genética
Eucariotos
Genômica
Biologia computacional
Ontologia genética
description Durante o curso da evolução biológica de eucariotos, organismos com diferentes graus de complexidade emergiram. Para fins práticos, o número de tipos celulares distintos tem sido comumente utilizado como um proxy para a complexidade biológica. Também durante o curso da evolução, novas proteínas emergiram em Eukarya como resultado de evolução de novo, duplicações gênicas seguidas por divergência e, em vários casos, embaralhamento de domínios (domain shuffling). Utilizamos uma abordagem estatística e de genômica comparativa para estudar a evolução da complexidade biológica em eucariotos, pesquisando por funções biológicas (representadas como a frequência de domínios de proteínas e de funções gênicas codificadas em uma ampla gama de genomas eucarióticos) associadas ao seu número de tipos celulares diferentes. Para tal, inicialmente selecionamos 41 proteomas não-redundantes eucarióticos de alta qualidade em termos de completude do repertório gênico, estimado pelo software BUSCO, e que possuam informação sobre o número de tipos celulares. Para os proteomas selecionados, realizamos a anotação dos mesmos usando o programa InterProscan, de modo a detectarmos quais são os domínios protéicos (identificados no banco de dados Pfam) e quais funções biológicas (identificados por termos Gene Ontology) codificados nestes genomas. Buscamos dois tipos de associação entre as frequências de domínios/termos GO em cada proteoma não-redundante e o número de diferentes tipos de células para as espécies correspondentes. Uma das associações consiste na correlação de Spearman, sendo o outro tipo de modelo corrigido de modo a levar em consideração a história filogenética das espécies analisadas, de modo a eliminar possíveis dependências dos dados em função da origem evolutiva comum dos organismos em análise. Para ambos computamos valores p, os quais são posteriormente corrigidos em função do cenário de múltiplas hipóteses (BH). Consideramos como positivos os modelos onde obtivemos valores p corrigidos menores que p ≤ 0.05. Encontramos 256 domínios Pfam e 304 funções biológicas que desempenham papéis importantes nos processos de matriz extracelular, interação célula-célula, fatores de transcrição, hormônios, processos regulatórios e fatores-chave para diferenciação celular e processos de desenvolvimento corporal. Em conjunto, nossa abordagem destaca importantes processos biológicos associados ao aumento da complexidade em Eukarya, sugerindo sua importância para o estabelecimento da complexidade biológica existente.
publishDate 2019
dc.date.issued.fl_str_mv 2019-09-26
dc.date.accessioned.fl_str_mv 2020-08-11T01:52:00Z
dc.date.available.fl_str_mv 2020-08-11T01:52:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/33945
url http://hdl.handle.net/1843/33945
dc.language.iso.fl_str_mv por
language por
dc.relation.pt_BR.fl_str_mv Programa Institucional de Internacionalização – CAPES - PrInt
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nd/3.0/pt/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nd/3.0/pt/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Genética
dc.publisher.initials.fl_str_mv UFMG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv ICB - INSTITUTO DE CIÊNCIAS BIOLOGICAS
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/33945/2/license_rdf
https://repositorio.ufmg.br/bitstream/1843/33945/4/dissertacao_dalbert_benjamim_da_costa_ppg_genetica.pdf
https://repositorio.ufmg.br/bitstream/1843/33945/5/license.txt
bitstream.checksum.fl_str_mv 00e5e6a57d5512d202d12cb48704dfd6
e6a55dd9e3084d73e1e5e51bc35458a5
34badce4be7e31e3adb4575ae96af679
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589281217773568