Uma heuristica para o problema de classificação de classificação de conferências explorando relacionamentos múltiplos e indiretos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2008 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFMG |
Texto Completo: | http://hdl.handle.net/1843/RVMR-7PVQPU |
Resumo: | A habilidade de extrair conhecimento usável de grandes massas de dados tornou-se um dos mais importantes desafios para diversas comunidades, sejam elas científicas, industriais ou governamentais. A extração de tal conhecimento requer que os dados estejam representados de uma forma que não somente capture a informação relacional, mas também proporcione uma mineração efetiva e eficiente desses dados e uma capacidade de compreensão do conhecimento resultante. Na maioria dos casos, entretanto, os dados são modelados em grafos que não permitem a representação de relacionamentosmúltiplos. Essa restrição, por sua vez, pode causar uma falha na capacidade de abstração entre os dados e o modelo, fazendo com que informações essenciais da aplicação real sejam completamente negligenciadas. Este trabalho, portanto, versa sobre mineração de dados baseadas em relações, em que, em contraste a técnicas tradicionais, propomos uma heurística inovadora de mineraçãode multigrafos capaz de tratar relacionamentos múltiplos e indiretos nos dados, utilizando esses relacionamentos para identificar grupos correlacionados. Assim, construímos uma base teórica sobre a qual diversas aplicações reais podem ser modeladas, de forma a preservar relações importantes existentes nos dados, que eram ignoradaspor outros modelos. Aplicamos, então, a nossa técnica em um cenário real de redes de co-autoria, buscando agrupar e classificar fóruns científicos com base em afinidades de autoria. Para tal, modelamos os dados dessas redes como uma floresta de multigrafos e, então, osutilizamos para encontrar conjuntos de conferências que estejam interligadas. Caso tais conjuntos possam ser identificados em, pelo menos, um dado número de partes distintas da floresta, os mesmos serão vistos como pertencentes a uma mesma área de conhecimento.Resultados experimentais demonstram que a técnica é efetiva em extrair áreas distintas, mesmo diante de dados esparsos, a despeito do problema ser NP-Completo e o custo computacional da heurística ainda apresentar uma alta variabilidade. |
id |
UFMG_c186761bf8a4de59ce7457a6ea3fd560 |
---|---|
oai_identifier_str |
oai:repositorio.ufmg.br:1843/RVMR-7PVQPU |
network_acronym_str |
UFMG |
network_name_str |
Repositório Institucional da UFMG |
repository_id_str |
|
spelling |
Wagner Meira JuniorCristina Duarte MurtaGisele Lobo PappaMarcos Andre GoncalvesGuilherme Henrique Trielli Ferreira2019-08-13T17:17:09Z2019-08-13T17:17:09Z2008-12-12http://hdl.handle.net/1843/RVMR-7PVQPUA habilidade de extrair conhecimento usável de grandes massas de dados tornou-se um dos mais importantes desafios para diversas comunidades, sejam elas científicas, industriais ou governamentais. A extração de tal conhecimento requer que os dados estejam representados de uma forma que não somente capture a informação relacional, mas também proporcione uma mineração efetiva e eficiente desses dados e uma capacidade de compreensão do conhecimento resultante. Na maioria dos casos, entretanto, os dados são modelados em grafos que não permitem a representação de relacionamentosmúltiplos. Essa restrição, por sua vez, pode causar uma falha na capacidade de abstração entre os dados e o modelo, fazendo com que informações essenciais da aplicação real sejam completamente negligenciadas. Este trabalho, portanto, versa sobre mineração de dados baseadas em relações, em que, em contraste a técnicas tradicionais, propomos uma heurística inovadora de mineraçãode multigrafos capaz de tratar relacionamentos múltiplos e indiretos nos dados, utilizando esses relacionamentos para identificar grupos correlacionados. Assim, construímos uma base teórica sobre a qual diversas aplicações reais podem ser modeladas, de forma a preservar relações importantes existentes nos dados, que eram ignoradaspor outros modelos. Aplicamos, então, a nossa técnica em um cenário real de redes de co-autoria, buscando agrupar e classificar fóruns científicos com base em afinidades de autoria. Para tal, modelamos os dados dessas redes como uma floresta de multigrafos e, então, osutilizamos para encontrar conjuntos de conferências que estejam interligadas. Caso tais conjuntos possam ser identificados em, pelo menos, um dado número de partes distintas da floresta, os mesmos serão vistos como pertencentes a uma mesma área de conhecimento.Resultados experimentais demonstram que a técnica é efetiva em extrair áreas distintas, mesmo diante de dados esparsos, a despeito do problema ser NP-Completo e o custo computacional da heurística ainda apresentar uma alta variabilidade.Extracting usable knowledge from large amounts of data has become one of the main challenges to a variety of fields, such as scientific, industrial or governmental areas. This task requires the data to be represented in a way that not only is the relational information captured, but that it also allows an effective and efficient mining of thesedata and the understanding of the resulting knowledge. In most of the cases, however, the data are modeled as graphs that arent able to represent multiple relations. This restriction may cause a flaw in the process of matching the real data with the model constructed, and, as a consequence, essential information of the real application is lost.Therefore, this work discuss data mining based on relations where, in contrast with traditional techniques, we propose an innovative heuristic of multigraph mining capable of dealing with multiple and indirect relations in the data, using these relations to identify correlated groups. We constructed a theoretical base on which many reallifeapplications can be modeled, so that they preserve important relations that exist in the data and are ignored by other models. We applied our new technique in a real scenario of co-authorship networks, in whichwe intend to group and classify scientific conferences based on authorship affinities. In order to do that, we modeled the data of these networks as multigraph sets, and then we use them to find groups of conferences that are correlated. If these groups can befound in, at least, a certain number of different parts of the multigraph, they will be considered as belonging to the same area. In spite of the fact that the problem we dealt with is NP-Complete and that there is a quite variety in the computational cost of the heuristic, experimental results show that our technique is effective in identifying different areas, even when the data is sparse.Universidade Federal de Minas GeraisUFMGComputaçãoRecuperação de informaçãomultigrafosredes de co-autoriamineração de dadosagrupamento de dadosUma heuristica para o problema de classificação de classificação de conferências explorando relacionamentos múltiplos e indiretosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALguilhermehenriquetrielliferreira.pdfapplication/pdf855013https://repositorio.ufmg.br/bitstream/1843/RVMR-7PVQPU/1/guilhermehenriquetrielliferreira.pdff6420e72d0dbf1aa25192d033f083186MD51TEXTguilhermehenriquetrielliferreira.pdf.txtguilhermehenriquetrielliferreira.pdf.txtExtracted texttext/plain133248https://repositorio.ufmg.br/bitstream/1843/RVMR-7PVQPU/2/guilhermehenriquetrielliferreira.pdf.txt2f7a7434385feba54bbc530881d200e2MD521843/RVMR-7PVQPU2019-11-14 16:15:26.436oai:repositorio.ufmg.br:1843/RVMR-7PVQPURepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T19:15:26Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false |
dc.title.pt_BR.fl_str_mv |
Uma heuristica para o problema de classificação de classificação de conferências explorando relacionamentos múltiplos e indiretos |
title |
Uma heuristica para o problema de classificação de classificação de conferências explorando relacionamentos múltiplos e indiretos |
spellingShingle |
Uma heuristica para o problema de classificação de classificação de conferências explorando relacionamentos múltiplos e indiretos Guilherme Henrique Trielli Ferreira multigrafos redes de co-autoria mineração de dados agrupamento de dados Computação Recuperação de informação |
title_short |
Uma heuristica para o problema de classificação de classificação de conferências explorando relacionamentos múltiplos e indiretos |
title_full |
Uma heuristica para o problema de classificação de classificação de conferências explorando relacionamentos múltiplos e indiretos |
title_fullStr |
Uma heuristica para o problema de classificação de classificação de conferências explorando relacionamentos múltiplos e indiretos |
title_full_unstemmed |
Uma heuristica para o problema de classificação de classificação de conferências explorando relacionamentos múltiplos e indiretos |
title_sort |
Uma heuristica para o problema de classificação de classificação de conferências explorando relacionamentos múltiplos e indiretos |
author |
Guilherme Henrique Trielli Ferreira |
author_facet |
Guilherme Henrique Trielli Ferreira |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Wagner Meira Junior |
dc.contributor.referee1.fl_str_mv |
Cristina Duarte Murta |
dc.contributor.referee2.fl_str_mv |
Gisele Lobo Pappa |
dc.contributor.referee3.fl_str_mv |
Marcos Andre Goncalves |
dc.contributor.author.fl_str_mv |
Guilherme Henrique Trielli Ferreira |
contributor_str_mv |
Wagner Meira Junior Cristina Duarte Murta Gisele Lobo Pappa Marcos Andre Goncalves |
dc.subject.por.fl_str_mv |
multigrafos redes de co-autoria mineração de dados agrupamento de dados |
topic |
multigrafos redes de co-autoria mineração de dados agrupamento de dados Computação Recuperação de informação |
dc.subject.other.pt_BR.fl_str_mv |
Computação Recuperação de informação |
description |
A habilidade de extrair conhecimento usável de grandes massas de dados tornou-se um dos mais importantes desafios para diversas comunidades, sejam elas científicas, industriais ou governamentais. A extração de tal conhecimento requer que os dados estejam representados de uma forma que não somente capture a informação relacional, mas também proporcione uma mineração efetiva e eficiente desses dados e uma capacidade de compreensão do conhecimento resultante. Na maioria dos casos, entretanto, os dados são modelados em grafos que não permitem a representação de relacionamentosmúltiplos. Essa restrição, por sua vez, pode causar uma falha na capacidade de abstração entre os dados e o modelo, fazendo com que informações essenciais da aplicação real sejam completamente negligenciadas. Este trabalho, portanto, versa sobre mineração de dados baseadas em relações, em que, em contraste a técnicas tradicionais, propomos uma heurística inovadora de mineraçãode multigrafos capaz de tratar relacionamentos múltiplos e indiretos nos dados, utilizando esses relacionamentos para identificar grupos correlacionados. Assim, construímos uma base teórica sobre a qual diversas aplicações reais podem ser modeladas, de forma a preservar relações importantes existentes nos dados, que eram ignoradaspor outros modelos. Aplicamos, então, a nossa técnica em um cenário real de redes de co-autoria, buscando agrupar e classificar fóruns científicos com base em afinidades de autoria. Para tal, modelamos os dados dessas redes como uma floresta de multigrafos e, então, osutilizamos para encontrar conjuntos de conferências que estejam interligadas. Caso tais conjuntos possam ser identificados em, pelo menos, um dado número de partes distintas da floresta, os mesmos serão vistos como pertencentes a uma mesma área de conhecimento.Resultados experimentais demonstram que a técnica é efetiva em extrair áreas distintas, mesmo diante de dados esparsos, a despeito do problema ser NP-Completo e o custo computacional da heurística ainda apresentar uma alta variabilidade. |
publishDate |
2008 |
dc.date.issued.fl_str_mv |
2008-12-12 |
dc.date.accessioned.fl_str_mv |
2019-08-13T17:17:09Z |
dc.date.available.fl_str_mv |
2019-08-13T17:17:09Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1843/RVMR-7PVQPU |
url |
http://hdl.handle.net/1843/RVMR-7PVQPU |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.publisher.initials.fl_str_mv |
UFMG |
publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
instname_str |
Universidade Federal de Minas Gerais (UFMG) |
instacron_str |
UFMG |
institution |
UFMG |
reponame_str |
Repositório Institucional da UFMG |
collection |
Repositório Institucional da UFMG |
bitstream.url.fl_str_mv |
https://repositorio.ufmg.br/bitstream/1843/RVMR-7PVQPU/1/guilhermehenriquetrielliferreira.pdf https://repositorio.ufmg.br/bitstream/1843/RVMR-7PVQPU/2/guilhermehenriquetrielliferreira.pdf.txt |
bitstream.checksum.fl_str_mv |
f6420e72d0dbf1aa25192d033f083186 2f7a7434385feba54bbc530881d200e2 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG) |
repository.mail.fl_str_mv |
|
_version_ |
1803589213278437376 |