Plawss: power law semantic similarity metodologia data-driven baseada em lei de potência para o cálculo de similaridade semântica GO

Detalhes bibliográficos
Autor(a) principal: Ito, Eric Augusto
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/30171
Resumo: Genes são amplamente estudados pela comunidade científica devido a sua importância em diversas pesquisas, muitas delas relacionadas a saúde. Por conta disto, muitos métodos foram desenvolvidos para calcular a Similaridade Semântica (SS) entre genes. A Similaridade Semântica tem sido usado em várias pesquisas como inferência e validação de redes, dobramento de proteínas, entre outras. Inicialmente proposto por Wang el al. (WANG et al., 2007) e que foi incrementado na ferramenta GOGO (ZHAO; WANG, 2018), a metodologia apresentada por Wang e GOGO não se limita a usar Information content (IC) para calcular a similaridade semântica. Wang propôs um método híbrido que calcula a similaridade a partir da topologia do grafo acíclico direcionado GO. GOGO por sua vez propôs usar o número de termos filhos como substituto de IC, visto que o GOGO notou a correlação inversa entre IC e o número de termos filho, dessa forma mesmo sem usar o IC, GOGO consegue ter as vantagens de métodos baseados em IC junto com o método híbrido de Wang. Porém o GOGO propõe um método que depende de variáveis que não se ajustam aos dados de ontologias, por outro o Wang se limita a pesar os termos GO somente dependendo do tipo de ligação entre os termos GO. Este trabalho apresenta um novo método chamado de Power LAW Semantic Similarity (PLAWSS) para o cálculo da similaridade semântica em genes utilizando um modelo híbrido para calcular a similaridade semântica utilizando a Ontologia Gênica, o qual é data-driven se adaptando aos dados de ontologia utilizando lei de potência para pesar cada termo GO, e que em adição ao tipo de ligação, neste trabalho também é levado em consideração o número de filhos do ancestral para identificar a especificidade do termo GO. Seis conjuntos de dados compostos por vias metabólicas foram clusterizados utilizando as similaridades semânticas calculadas entre cada par de gene, os clusters formados a partir das funções moleculares e processos biológicos apresentaram os melhores resultados, sendo eles, 83,33% e 66,67% respectivamente, corroborando para a provação do método proposto.
id UTFPR-12_f1a8c14981d9131e8a95537278ec0d43
oai_identifier_str oai:repositorio.utfpr.edu.br:1/30171
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling 2022-11-24T14:37:49Z2022-11-24T14:37:49Z2020-10-21ITO, Eric Augusto. Plawss: power law semantic similarity metodologia data-driven baseada em lei de potência para o cálculo de similaridade semântica go. 2020. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2020.http://repositorio.utfpr.edu.br/jspui/handle/1/30171Genes são amplamente estudados pela comunidade científica devido a sua importância em diversas pesquisas, muitas delas relacionadas a saúde. Por conta disto, muitos métodos foram desenvolvidos para calcular a Similaridade Semântica (SS) entre genes. A Similaridade Semântica tem sido usado em várias pesquisas como inferência e validação de redes, dobramento de proteínas, entre outras. Inicialmente proposto por Wang el al. (WANG et al., 2007) e que foi incrementado na ferramenta GOGO (ZHAO; WANG, 2018), a metodologia apresentada por Wang e GOGO não se limita a usar Information content (IC) para calcular a similaridade semântica. Wang propôs um método híbrido que calcula a similaridade a partir da topologia do grafo acíclico direcionado GO. GOGO por sua vez propôs usar o número de termos filhos como substituto de IC, visto que o GOGO notou a correlação inversa entre IC e o número de termos filho, dessa forma mesmo sem usar o IC, GOGO consegue ter as vantagens de métodos baseados em IC junto com o método híbrido de Wang. Porém o GOGO propõe um método que depende de variáveis que não se ajustam aos dados de ontologias, por outro o Wang se limita a pesar os termos GO somente dependendo do tipo de ligação entre os termos GO. Este trabalho apresenta um novo método chamado de Power LAW Semantic Similarity (PLAWSS) para o cálculo da similaridade semântica em genes utilizando um modelo híbrido para calcular a similaridade semântica utilizando a Ontologia Gênica, o qual é data-driven se adaptando aos dados de ontologia utilizando lei de potência para pesar cada termo GO, e que em adição ao tipo de ligação, neste trabalho também é levado em consideração o número de filhos do ancestral para identificar a especificidade do termo GO. Seis conjuntos de dados compostos por vias metabólicas foram clusterizados utilizando as similaridades semânticas calculadas entre cada par de gene, os clusters formados a partir das funções moleculares e processos biológicos apresentaram os melhores resultados, sendo eles, 83,33% e 66,67% respectivamente, corroborando para a provação do método proposto.Genes are widely studied by the scientific community due to their importance in various researches, many of them related to health. Because of this, many methods were developed to calculate the SS between genes. Semantic Similarity has been used in several researches such as network inference and validation, protein folding, among others. Initially proposed by Wang el al. (WANG et al., 2007) and which was added to the GOGO tool (ZHAO; WANG, 2018), the methodology presented by Wang and GOGO is not limited to using IC to calculate the semantic similarity. Wang proposed a hybrid method that calculates similarity from the topology of the directed acyclic graph GO. GOGO in turn proposed to use the number of child terms as a substitute for IC, since GOGO noticed the inverse correlation between IC and the number of child terms, so even without using the IC, GOGO manages to take advantage of methods based on IC along with Wang’s hybrid method. However, GOGO proposes a method that depends on variables that do not fit the data of ontologies, on the other hand Wang is limited to weighing the terms GO only depending on the type of connection between the terms GO. This work presents a new method named PLAWSS for calculating semantic similarity in genes using a hybrid model to calculate semantic similarity using Genetic Ontology, which is data-driven adapting to ontology data using power law to weigh each GO term, and that in addition to the type of connection, this work also takes into account the number of children of the ancestor to identify the specificity of the GO term. Six data sets composed of metabolic pathways were clustered using the semantic similarities calculated between each pair of genes, the clusters formed from the molecular functions and biological processes showed the best results, being 83.33% and 66.67% respectively, corroborating for the testing of the proposed method.porUniversidade Tecnológica Federal do ParanáCornelio ProcopioPrograma de Pós-Graduação em BioinformáticaUTFPRBrasilCNPQ::CIENCIAS EXATAS E DA TERRAEngenharia/Tecnologia/GestãoComputação semânticaBioinformáticaOntologiaSemantic computingBioinformaticsOntologyPlawss: power law semantic similarity metodologia data-driven baseada em lei de potência para o cálculo de similaridade semântica GOPower law data-driven methodology for calculating semantic similarity GOinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisCornélio ProcópioLopes, Fabrício Martinshttp://orcid.org/0000-0002-8786-3313http://lattes.cnpq.br/1660070580824436Kashiwabara, Andre Yoshiakihttps://orcid.org/0000-0003-3280-2035http://lattes.cnpq.br/3194328548975437Vicente, Fabio Fernandes da Rochahttps://orcid.org/0000-0001-7716-3260http://lattes.cnpq.br/5799700325728628Lopes, Fabrício Martinshttp://orcid.org/0000-0002-8786-3313http://lattes.cnpq.br/1660070580824436Castro, Mauro Antônio Alveshttps://orcid.org/0000-0003-4942-8131http://lattes.cnpq.br/64848774876623550000-0002-0030-6881http://lattes.cnpq.br/5833263148868450Ito, Eric Augustoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRORIGINALsemanticametodologiadatadriven.pdfapplication/pdf2958961http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30171/1/semanticametodologiadatadriven.pdf22425cf455cb98edb8f952866b17184dMD51TEXTsemanticametodologiadatadriven.pdf.txtsemanticametodologiadatadriven.pdf.txtExtracted texttext/plain125342http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30171/2/semanticametodologiadatadriven.pdf.txta92cc295abe2a23eeb9c1d5d9405509bMD52THUMBNAILsemanticametodologiadatadriven.pdf.jpgsemanticametodologiadatadriven.pdf.jpgGenerated Thumbnailimage/jpeg1313http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30171/3/semanticametodologiadatadriven.pdf.jpg9485cac79d702913fef274ed83899e60MD531/301712022-11-25 04:05:35.708oai:repositorio.utfpr.edu.br:1/30171Repositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2022-11-25T06:05:35Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv Plawss: power law semantic similarity metodologia data-driven baseada em lei de potência para o cálculo de similaridade semântica GO
dc.title.alternative.pt_BR.fl_str_mv Power law data-driven methodology for calculating semantic similarity GO
title Plawss: power law semantic similarity metodologia data-driven baseada em lei de potência para o cálculo de similaridade semântica GO
spellingShingle Plawss: power law semantic similarity metodologia data-driven baseada em lei de potência para o cálculo de similaridade semântica GO
Ito, Eric Augusto
CNPQ::CIENCIAS EXATAS E DA TERRA
Computação semântica
Bioinformática
Ontologia
Semantic computing
Bioinformatics
Ontology
Engenharia/Tecnologia/Gestão
title_short Plawss: power law semantic similarity metodologia data-driven baseada em lei de potência para o cálculo de similaridade semântica GO
title_full Plawss: power law semantic similarity metodologia data-driven baseada em lei de potência para o cálculo de similaridade semântica GO
title_fullStr Plawss: power law semantic similarity metodologia data-driven baseada em lei de potência para o cálculo de similaridade semântica GO
title_full_unstemmed Plawss: power law semantic similarity metodologia data-driven baseada em lei de potência para o cálculo de similaridade semântica GO
title_sort Plawss: power law semantic similarity metodologia data-driven baseada em lei de potência para o cálculo de similaridade semântica GO
author Ito, Eric Augusto
author_facet Ito, Eric Augusto
author_role author
dc.contributor.advisor1.fl_str_mv Lopes, Fabrício Martins
dc.contributor.advisor1ID.fl_str_mv http://orcid.org/0000-0002-8786-3313
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/1660070580824436
dc.contributor.referee1.fl_str_mv Kashiwabara, Andre Yoshiaki
dc.contributor.referee1ID.fl_str_mv https://orcid.org/0000-0003-3280-2035
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/3194328548975437
dc.contributor.referee2.fl_str_mv Vicente, Fabio Fernandes da Rocha
dc.contributor.referee2ID.fl_str_mv https://orcid.org/0000-0001-7716-3260
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/5799700325728628
dc.contributor.referee3.fl_str_mv Lopes, Fabrício Martins
dc.contributor.referee3ID.fl_str_mv http://orcid.org/0000-0002-8786-3313
dc.contributor.referee3Lattes.fl_str_mv http://lattes.cnpq.br/1660070580824436
dc.contributor.referee4.fl_str_mv Castro, Mauro Antônio Alves
dc.contributor.referee4ID.fl_str_mv https://orcid.org/0000-0003-4942-8131
dc.contributor.referee4Lattes.fl_str_mv http://lattes.cnpq.br/6484877487662355
dc.contributor.authorID.fl_str_mv 0000-0002-0030-6881
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/5833263148868450
dc.contributor.author.fl_str_mv Ito, Eric Augusto
contributor_str_mv Lopes, Fabrício Martins
Kashiwabara, Andre Yoshiaki
Vicente, Fabio Fernandes da Rocha
Lopes, Fabrício Martins
Castro, Mauro Antônio Alves
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA
topic CNPQ::CIENCIAS EXATAS E DA TERRA
Computação semântica
Bioinformática
Ontologia
Semantic computing
Bioinformatics
Ontology
Engenharia/Tecnologia/Gestão
dc.subject.por.fl_str_mv Computação semântica
Bioinformática
Ontologia
Semantic computing
Bioinformatics
Ontology
dc.subject.capes.pt_BR.fl_str_mv Engenharia/Tecnologia/Gestão
description Genes são amplamente estudados pela comunidade científica devido a sua importância em diversas pesquisas, muitas delas relacionadas a saúde. Por conta disto, muitos métodos foram desenvolvidos para calcular a Similaridade Semântica (SS) entre genes. A Similaridade Semântica tem sido usado em várias pesquisas como inferência e validação de redes, dobramento de proteínas, entre outras. Inicialmente proposto por Wang el al. (WANG et al., 2007) e que foi incrementado na ferramenta GOGO (ZHAO; WANG, 2018), a metodologia apresentada por Wang e GOGO não se limita a usar Information content (IC) para calcular a similaridade semântica. Wang propôs um método híbrido que calcula a similaridade a partir da topologia do grafo acíclico direcionado GO. GOGO por sua vez propôs usar o número de termos filhos como substituto de IC, visto que o GOGO notou a correlação inversa entre IC e o número de termos filho, dessa forma mesmo sem usar o IC, GOGO consegue ter as vantagens de métodos baseados em IC junto com o método híbrido de Wang. Porém o GOGO propõe um método que depende de variáveis que não se ajustam aos dados de ontologias, por outro o Wang se limita a pesar os termos GO somente dependendo do tipo de ligação entre os termos GO. Este trabalho apresenta um novo método chamado de Power LAW Semantic Similarity (PLAWSS) para o cálculo da similaridade semântica em genes utilizando um modelo híbrido para calcular a similaridade semântica utilizando a Ontologia Gênica, o qual é data-driven se adaptando aos dados de ontologia utilizando lei de potência para pesar cada termo GO, e que em adição ao tipo de ligação, neste trabalho também é levado em consideração o número de filhos do ancestral para identificar a especificidade do termo GO. Seis conjuntos de dados compostos por vias metabólicas foram clusterizados utilizando as similaridades semânticas calculadas entre cada par de gene, os clusters formados a partir das funções moleculares e processos biológicos apresentaram os melhores resultados, sendo eles, 83,33% e 66,67% respectivamente, corroborando para a provação do método proposto.
publishDate 2020
dc.date.issued.fl_str_mv 2020-10-21
dc.date.accessioned.fl_str_mv 2022-11-24T14:37:49Z
dc.date.available.fl_str_mv 2022-11-24T14:37:49Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv ITO, Eric Augusto. Plawss: power law semantic similarity metodologia data-driven baseada em lei de potência para o cálculo de similaridade semântica go. 2020. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2020.
dc.identifier.uri.fl_str_mv http://repositorio.utfpr.edu.br/jspui/handle/1/30171
identifier_str_mv ITO, Eric Augusto. Plawss: power law semantic similarity metodologia data-driven baseada em lei de potência para o cálculo de similaridade semântica go. 2020. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2020.
url http://repositorio.utfpr.edu.br/jspui/handle/1/30171
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Bioinformática
dc.publisher.initials.fl_str_mv UTFPR
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30171/1/semanticametodologiadatadriven.pdf
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30171/2/semanticametodologiadatadriven.pdf.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30171/3/semanticametodologiadatadriven.pdf.jpg
bitstream.checksum.fl_str_mv 22425cf455cb98edb8f952866b17184d
a92cc295abe2a23eeb9c1d5d9405509b
9485cac79d702913fef274ed83899e60
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_ 1797043993356271616