Identificação de genes novos de Drosophila utilizando machine learning

Detalhes bibliográficos
Autor(a) principal: Goldstein, Gabriel Nassar Reich
Data de Publicação: 2022
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/41/41131/tde-09062022-181940/
Resumo: Genes novos são definidos por sua presença em um táxon e ausência em táxons irmãos. Estes genes possuem grande importância biológica e estão envolvidos em processos de alta pressão seletiva, sendo expressos em tecidos como cérebro e testículo. Há uma variedade de mecanismos genéticos que podem levar à geração de genes novos, como duplicações e retrotransposições por exemplo, mas a maioria dos genes novos é derivada de duplicações. As funções exatas destes genes nos organismos ainda estão sendo estudadas, mas alguns trabalhos já mostraram relação com resolução de conflitos sexuais, por exemplo. Apesar disto, existem uma série de características biológicas que são sabidamente diferentes entre genes novos e antigos. Um exemplo disso é o perfil de expressão destes grupos, já que genes novos se expressam majoritariamente na gametogênese masculina e genes antigos são expressos de maneira generalista. O principal método de datação de genes para identificação de genes novos utiliza sintenia, que é o fenômeno de conservação da ordem e conteúdo gênico de uma região no genoma que ocorre em espécies relacionadas, e parcimônia ao comparar genomas de espécies relacionadas para datar todos os genes de uma espécie focal. Apesar da precisão do método, ele é extremamente dependente da montagem e anotação do genoma de interesse, o que limita sua aplicação para espécies modelo que tem uma anotação manual e curada. Com estes fatos em mente, propomos neste trabalho um método de identificação de genes novos que utiliza informações biológicas para separar genes novos de antigos através do uso de machine learning. Os algoritmos de machine learning são aqueles capazes de mudar com experiência e são capazes de identificar padrões complexos e identificar classes a partir de uma diversidade de informações. Com isso, treinamos um modelo com o algoritmo de random forest na espécie modelo Drosophila melanogaster e obtivemos 0.508 de precision e 0.718 de recall com dados que geramos. Além disso, identificamos os 1523 genes novos de D. pseudoobscura utilizando o método já existente para que possamos utilizar esta espécie como segundo ponto de controle do nosso método.
id USP_b2b598a8087ae419169c6c9c55ceaec3
oai_identifier_str oai:teses.usp.br:tde-09062022-181940
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Identificação de genes novos de Drosophila utilizando machine learningIdentifying Drosophila new genes using machine learningAprendizado de máquinaGenes novosGenomasGenomesMachine learningNew genesTranscriptomasTranscriptomesGenes novos são definidos por sua presença em um táxon e ausência em táxons irmãos. Estes genes possuem grande importância biológica e estão envolvidos em processos de alta pressão seletiva, sendo expressos em tecidos como cérebro e testículo. Há uma variedade de mecanismos genéticos que podem levar à geração de genes novos, como duplicações e retrotransposições por exemplo, mas a maioria dos genes novos é derivada de duplicações. As funções exatas destes genes nos organismos ainda estão sendo estudadas, mas alguns trabalhos já mostraram relação com resolução de conflitos sexuais, por exemplo. Apesar disto, existem uma série de características biológicas que são sabidamente diferentes entre genes novos e antigos. Um exemplo disso é o perfil de expressão destes grupos, já que genes novos se expressam majoritariamente na gametogênese masculina e genes antigos são expressos de maneira generalista. O principal método de datação de genes para identificação de genes novos utiliza sintenia, que é o fenômeno de conservação da ordem e conteúdo gênico de uma região no genoma que ocorre em espécies relacionadas, e parcimônia ao comparar genomas de espécies relacionadas para datar todos os genes de uma espécie focal. Apesar da precisão do método, ele é extremamente dependente da montagem e anotação do genoma de interesse, o que limita sua aplicação para espécies modelo que tem uma anotação manual e curada. Com estes fatos em mente, propomos neste trabalho um método de identificação de genes novos que utiliza informações biológicas para separar genes novos de antigos através do uso de machine learning. Os algoritmos de machine learning são aqueles capazes de mudar com experiência e são capazes de identificar padrões complexos e identificar classes a partir de uma diversidade de informações. Com isso, treinamos um modelo com o algoritmo de random forest na espécie modelo Drosophila melanogaster e obtivemos 0.508 de precision e 0.718 de recall com dados que geramos. Além disso, identificamos os 1523 genes novos de D. pseudoobscura utilizando o método já existente para que possamos utilizar esta espécie como segundo ponto de controle do nosso método.New genes are defined by their presence in a taxon and absence in sibling taxa. These genes have great biological importance and are involved in processes of high selective pressure, being expressed in tissues such as the brain and testis. There are a variety of genetic mechanisms that can lead to the generation of new genes, such as duplications and retrotranspositions for example, but most new genes are derived from duplications. The exact functions of these genes in organisms are still being studied, but some work has already shown a relationship with the resolution of sexual conflicts, for example. Despite this, there are a number of biological characteristics that are known to be different between new and old genes. An example of this is the expression profile of these groups, since new genes are mostly expressed in male gametogenesis and old genes are broadly expressed. The main gene dating method for identifying new genes uses synteny, which is the phenomenon of conservation of the order and gene content of a region in the genome that occurs in related species, and parsimony when comparing genomes of related species to date all genes of a focal species. Despite the accuracy of the method, it is extremely dependent on the assembly and annotation of the genome of interest, which limits its application to model species that have a manual and curated annotation. With these facts in mind, we propose in this work a method of identifying new genes that uses biological information to separate new and old genes through the use of machine learning. Machine learning algorithms are those able to change with experience and are able to identify complex patterns and identify classes from a variety of information. With this, we trained a model with the random forest algorithm in the model species Drosophila melanogaster and obtained 0.508 precision and 0.718 recall with generated data. In addition, we identified the 1523 new genes of D. pseudoobscura using the existing method so that we can use this species as a second control point for our method.Biblioteca Digitais de Teses e Dissertações da USPVibranovski, Maria DulcettiGoldstein, Gabriel Nassar Reich2022-04-05info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/41/41131/tde-09062022-181940/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2022-07-22T17:27:44Zoai:teses.usp.br:tde-09062022-181940Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212022-07-22T17:27:44Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Identificação de genes novos de Drosophila utilizando machine learning
Identifying Drosophila new genes using machine learning
title Identificação de genes novos de Drosophila utilizando machine learning
spellingShingle Identificação de genes novos de Drosophila utilizando machine learning
Goldstein, Gabriel Nassar Reich
Aprendizado de máquina
Genes novos
Genomas
Genomes
Machine learning
New genes
Transcriptomas
Transcriptomes
title_short Identificação de genes novos de Drosophila utilizando machine learning
title_full Identificação de genes novos de Drosophila utilizando machine learning
title_fullStr Identificação de genes novos de Drosophila utilizando machine learning
title_full_unstemmed Identificação de genes novos de Drosophila utilizando machine learning
title_sort Identificação de genes novos de Drosophila utilizando machine learning
author Goldstein, Gabriel Nassar Reich
author_facet Goldstein, Gabriel Nassar Reich
author_role author
dc.contributor.none.fl_str_mv Vibranovski, Maria Dulcetti
dc.contributor.author.fl_str_mv Goldstein, Gabriel Nassar Reich
dc.subject.por.fl_str_mv Aprendizado de máquina
Genes novos
Genomas
Genomes
Machine learning
New genes
Transcriptomas
Transcriptomes
topic Aprendizado de máquina
Genes novos
Genomas
Genomes
Machine learning
New genes
Transcriptomas
Transcriptomes
description Genes novos são definidos por sua presença em um táxon e ausência em táxons irmãos. Estes genes possuem grande importância biológica e estão envolvidos em processos de alta pressão seletiva, sendo expressos em tecidos como cérebro e testículo. Há uma variedade de mecanismos genéticos que podem levar à geração de genes novos, como duplicações e retrotransposições por exemplo, mas a maioria dos genes novos é derivada de duplicações. As funções exatas destes genes nos organismos ainda estão sendo estudadas, mas alguns trabalhos já mostraram relação com resolução de conflitos sexuais, por exemplo. Apesar disto, existem uma série de características biológicas que são sabidamente diferentes entre genes novos e antigos. Um exemplo disso é o perfil de expressão destes grupos, já que genes novos se expressam majoritariamente na gametogênese masculina e genes antigos são expressos de maneira generalista. O principal método de datação de genes para identificação de genes novos utiliza sintenia, que é o fenômeno de conservação da ordem e conteúdo gênico de uma região no genoma que ocorre em espécies relacionadas, e parcimônia ao comparar genomas de espécies relacionadas para datar todos os genes de uma espécie focal. Apesar da precisão do método, ele é extremamente dependente da montagem e anotação do genoma de interesse, o que limita sua aplicação para espécies modelo que tem uma anotação manual e curada. Com estes fatos em mente, propomos neste trabalho um método de identificação de genes novos que utiliza informações biológicas para separar genes novos de antigos através do uso de machine learning. Os algoritmos de machine learning são aqueles capazes de mudar com experiência e são capazes de identificar padrões complexos e identificar classes a partir de uma diversidade de informações. Com isso, treinamos um modelo com o algoritmo de random forest na espécie modelo Drosophila melanogaster e obtivemos 0.508 de precision e 0.718 de recall com dados que geramos. Além disso, identificamos os 1523 genes novos de D. pseudoobscura utilizando o método já existente para que possamos utilizar esta espécie como segundo ponto de controle do nosso método.
publishDate 2022
dc.date.none.fl_str_mv 2022-04-05
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/41/41131/tde-09062022-181940/
url https://www.teses.usp.br/teses/disponiveis/41/41131/tde-09062022-181940/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809090550397140992