Avaliação comparativa entre medidas de redes complexas para a classificação de dados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFU |
Texto Completo: | https://repositorio.ufu.br/handle/123456789/28507 |
Resumo: | Complex networks are networks with nontrivial connection structures, which do not follow a regular or random pattern. Their usage for data classification has become an increasingly relevant research topic in recent years, with many techniques in the literature successfully exploring complex network properties and measures. In data classification, the use of complex networks allows to interpret and model semantic relationships among data items, enabling the detection of structural and topological patterns related, for example, to the formation pattern of the input data. Several measures of complex networks have already been used in this sense. However, a systematic study capable of characterizing the behavior and performance of such measures in the context of data classification is lacking in the literature. As there are many measures of complex networks that have different characteristics, this work consists of developing an experimental environment in order to analyze and compare the behavior of some measures, revealing more adequate measures for one or another circumstance. Specifically, the computational environment involves to build up a network by applying the k-nearest neighbor criterion over the input data, and to explore complex network measures through of the classification via pattern conformation (a.k.a. high-level classification). For this purpose, six complex network measures were selected from the literature, namely: assortativity, clustering coefficient, average degree, betweenness, shortest average path and closeness. For our analyses, both artificial and real-world data sets represented as feature vectors were considered. The results show that measures such as shortest average path and clustering coefficient, besides presenting better predictive performance in data sets with higher noise level, are also more robust to the variation of the network construction parameter. In summary, this research is an important initiative to support other related works in selecting more appropriate complex network measures for data classification. |
id |
UFU_107de01058869cbb1a23727ef0f7b913 |
---|---|
oai_identifier_str |
oai:repositorio.ufu.br:123456789/28507 |
network_acronym_str |
UFU |
network_name_str |
Repositório Institucional da UFU |
repository_id_str |
|
spelling |
Avaliação comparativa entre medidas de redes complexas para a classificação de dadosAprendizado de máquinaRedes complexasClassificação de dadosMedidas de redes complexasConformidade padrãoClassificação de alto-nívelCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOComplex networks are networks with nontrivial connection structures, which do not follow a regular or random pattern. Their usage for data classification has become an increasingly relevant research topic in recent years, with many techniques in the literature successfully exploring complex network properties and measures. In data classification, the use of complex networks allows to interpret and model semantic relationships among data items, enabling the detection of structural and topological patterns related, for example, to the formation pattern of the input data. Several measures of complex networks have already been used in this sense. However, a systematic study capable of characterizing the behavior and performance of such measures in the context of data classification is lacking in the literature. As there are many measures of complex networks that have different characteristics, this work consists of developing an experimental environment in order to analyze and compare the behavior of some measures, revealing more adequate measures for one or another circumstance. Specifically, the computational environment involves to build up a network by applying the k-nearest neighbor criterion over the input data, and to explore complex network measures through of the classification via pattern conformation (a.k.a. high-level classification). For this purpose, six complex network measures were selected from the literature, namely: assortativity, clustering coefficient, average degree, betweenness, shortest average path and closeness. For our analyses, both artificial and real-world data sets represented as feature vectors were considered. The results show that measures such as shortest average path and clustering coefficient, besides presenting better predictive performance in data sets with higher noise level, are also more robust to the variation of the network construction parameter. In summary, this research is an important initiative to support other related works in selecting more appropriate complex network measures for data classification.Trabalho de Conclusão de Curso (Graduação)Redes complexas são redes com estruturas de conexão não triviais, as quais não seguem um padrão regular nem aleatório. O uso delas para classificação de dados tem se tornado tópico de pesquisa cada vez mais relevante na literatura, com vários trabalhos explorando de maneira bem sucedida medidas e propriedades de redes complexas. Na classificação de dados, o uso de redes complexas possibilita interpretar e modelar as relações semânticas entre os dados, permitindo a detecção de padrões estruturais e topológicos relacionados, por exemplo, à formação de padrão dos dados. Várias medidas de redes complexas já foram utilizadas nesse sentido, porém, falta na literatura um estudo sistemático capaz de caracterizar a influência e o comportamento de tais medidas no contexto da classificação de dados. Como existem muitas medidas de redes complexas que possuem características diferentes, este trabalho consiste em desenvolver um ambiente experimental a fim de analisar e comparar o comportamento de algumas medidas, revelando cenários mais adequados para usar uma ou outra medida. Especificamente, o ambiente desenvolvido contempla a construção da rede a partir da rede k-vizinhos mais próximos, e a exploração de medidas de redes complexas a partir da técnica de classificação baseada em conformidade de padrão (classificação de alto-nível). Para isso, foram selecionadas seis medidas de redes complexas, a saber: assortatividade, coeficiente de agrupamento, grau médio, intermedialidade, menor caminho médio e proximidade. Para as análises, foram consideradas tanto bases artificiais quanto reais, todas na forma de vetor de atributos. Os resultados obtidos apontam que medidas, tais como, menor caminho médio e coeficiente de agrupamento, além de apresentarem melhor desempenho preditivo nos cenários com maior nível de ruído, também são mais robustas à variação do parâmetro de construção da rede. Em suma, esta pesquisa consiste em uma importante iniciativa para auxiliar outros trabalhos relacionados na seleção das medidas de redes complexas para classificação de dados.Universidade Federal de UberlândiaBrasilSistemas de InformaçãoCarneiro, Murillo Guimarãeshttp://lattes.cnpq.br/8158868389973535Gama, Barbara Cristina2020-01-24T13:19:07Z2020-01-24T13:19:07Z2020-01-16info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfGAMA, Barbara Cristina. Avaliação comparativa entre medidas de redes complexas para classificação de dados. 2020. 44 f. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) – Universidade Federal de Uberlândia, Monte Carmelo, 2020.https://repositorio.ufu.br/handle/123456789/28507porhttp://creativecommons.org/licenses/by-nc-nd/3.0/us/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFUinstname:Universidade Federal de Uberlândia (UFU)instacron:UFU2020-01-25T06:15:53Zoai:repositorio.ufu.br:123456789/28507Repositório InstitucionalONGhttp://repositorio.ufu.br/oai/requestdiinf@dirbi.ufu.bropendoar:2020-01-25T06:15:53Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)false |
dc.title.none.fl_str_mv |
Avaliação comparativa entre medidas de redes complexas para a classificação de dados |
title |
Avaliação comparativa entre medidas de redes complexas para a classificação de dados |
spellingShingle |
Avaliação comparativa entre medidas de redes complexas para a classificação de dados Gama, Barbara Cristina Aprendizado de máquina Redes complexas Classificação de dados Medidas de redes complexas Conformidade padrão Classificação de alto-nível CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
title_short |
Avaliação comparativa entre medidas de redes complexas para a classificação de dados |
title_full |
Avaliação comparativa entre medidas de redes complexas para a classificação de dados |
title_fullStr |
Avaliação comparativa entre medidas de redes complexas para a classificação de dados |
title_full_unstemmed |
Avaliação comparativa entre medidas de redes complexas para a classificação de dados |
title_sort |
Avaliação comparativa entre medidas de redes complexas para a classificação de dados |
author |
Gama, Barbara Cristina |
author_facet |
Gama, Barbara Cristina |
author_role |
author |
dc.contributor.none.fl_str_mv |
Carneiro, Murillo Guimarães http://lattes.cnpq.br/8158868389973535 |
dc.contributor.author.fl_str_mv |
Gama, Barbara Cristina |
dc.subject.por.fl_str_mv |
Aprendizado de máquina Redes complexas Classificação de dados Medidas de redes complexas Conformidade padrão Classificação de alto-nível CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
topic |
Aprendizado de máquina Redes complexas Classificação de dados Medidas de redes complexas Conformidade padrão Classificação de alto-nível CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
description |
Complex networks are networks with nontrivial connection structures, which do not follow a regular or random pattern. Their usage for data classification has become an increasingly relevant research topic in recent years, with many techniques in the literature successfully exploring complex network properties and measures. In data classification, the use of complex networks allows to interpret and model semantic relationships among data items, enabling the detection of structural and topological patterns related, for example, to the formation pattern of the input data. Several measures of complex networks have already been used in this sense. However, a systematic study capable of characterizing the behavior and performance of such measures in the context of data classification is lacking in the literature. As there are many measures of complex networks that have different characteristics, this work consists of developing an experimental environment in order to analyze and compare the behavior of some measures, revealing more adequate measures for one or another circumstance. Specifically, the computational environment involves to build up a network by applying the k-nearest neighbor criterion over the input data, and to explore complex network measures through of the classification via pattern conformation (a.k.a. high-level classification). For this purpose, six complex network measures were selected from the literature, namely: assortativity, clustering coefficient, average degree, betweenness, shortest average path and closeness. For our analyses, both artificial and real-world data sets represented as feature vectors were considered. The results show that measures such as shortest average path and clustering coefficient, besides presenting better predictive performance in data sets with higher noise level, are also more robust to the variation of the network construction parameter. In summary, this research is an important initiative to support other related works in selecting more appropriate complex network measures for data classification. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-01-24T13:19:07Z 2020-01-24T13:19:07Z 2020-01-16 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
GAMA, Barbara Cristina. Avaliação comparativa entre medidas de redes complexas para classificação de dados. 2020. 44 f. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) – Universidade Federal de Uberlândia, Monte Carmelo, 2020. https://repositorio.ufu.br/handle/123456789/28507 |
identifier_str_mv |
GAMA, Barbara Cristina. Avaliação comparativa entre medidas de redes complexas para classificação de dados. 2020. 44 f. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) – Universidade Federal de Uberlândia, Monte Carmelo, 2020. |
url |
https://repositorio.ufu.br/handle/123456789/28507 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/us/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/us/ |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de Uberlândia Brasil Sistemas de Informação |
publisher.none.fl_str_mv |
Universidade Federal de Uberlândia Brasil Sistemas de Informação |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFU instname:Universidade Federal de Uberlândia (UFU) instacron:UFU |
instname_str |
Universidade Federal de Uberlândia (UFU) |
instacron_str |
UFU |
institution |
UFU |
reponame_str |
Repositório Institucional da UFU |
collection |
Repositório Institucional da UFU |
repository.name.fl_str_mv |
Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU) |
repository.mail.fl_str_mv |
diinf@dirbi.ufu.br |
_version_ |
1813711324159410176 |