Metodologia de seleção de features não supervisionada para clustering em conjunto de dados de alta dimensionalidade
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPE |
Texto Completo: | https://repositorio.ufpe.br/handle/123456789/33642 |
Resumo: | Em mineração de dados, a seleção de features é uma tarefa importante na eliminação de features irrelevantes/redundantes do conjunto de dados. Na aprendizagem de máquina não-supervisionada, a seleção de features é considerada ainda mais difícil do que na aprendizagem supervisionada, por não possuir a informação de classe, que possa ser utilizada para a avaliação das features. Muitos métodos de seleção de features na aprendizagem não-supervisionada são propostos na literatura, porém a avaliação do melhor conjunto de features é realizada através de critérios supervisionados, onde as classes são exigidas, o que nem sempre ocorre em um cenário real. Outro problema é que os métodos atribuem scores para cada feature e utilizam números mágicos para escolher as -melhores features. Assim, neste trabalho é proposta uma metodologia que tentará ajudar especialistas de dados a responder questões simples, mas importantes, como: (1) os métodos de seleção de features existentes possuem um resultado similar? (2) Existe um método consistentemente “melhor” ? Geralmente, esses métodos ordenam os atributos baseando-se em um score. Portanto, em relação aos resultados obtidos pelos métodos surgem algumas questões importantes: (3) Se selecionarmos -melhores features, qual será considerado o melhor? Além disso, muitos desses métodos não são totalmente livres de parâmetros, nos remetendo a uma outra questão: (4) Como selecionar bons parâmetros para os métodos em um cenário não-supervisionado? Outra questão interessante é: (5) Assumindo que nós temos diferentes opções para os métodos de seleção de features, poderíamos obter melhores resultados se selecionarmos as features usando uma combinação de métodos? Se sim, então como podemos combinar os métodos? Neste trabalho nós analisamos essas questões e propomos uma metodologia que irá realizar a seleção de features não-supervisionada para clustering em conjunto de dados de alta dimensionalidade. Nós avaliamos a metodologia proposta em vários conjuntos de dados de domínios como processamento de imagens e bioinformática. Os resultados mostraram que através do subconjunto de features sugerido ela metodologia é possível obter resultados melhores para os indicadores de acurácia, NMI e Corrected Rand, do que quando utilizado o conjunto original de features. Ao final também elencamos melhorias a serem realizadas em trabalhos futuros com potencial de melhorar o desempenho já obtido. |
id |
UFPE_739b6606b64658e59e5b9f7fdeca3203 |
---|---|
oai_identifier_str |
oai:repositorio.ufpe.br:123456789/33642 |
network_acronym_str |
UFPE |
network_name_str |
Repositório Institucional da UFPE |
repository_id_str |
2221 |
spelling |
OLIVEIRA, Marcos de Souzahttp://lattes.cnpq.br/6137784444858483http://lattes.cnpq.br/9263224550858823QUEIROZ, Sérgio Ricardo de Melo2019-09-25T20:16:52Z2019-09-25T20:16:52Z2018-08-30https://repositorio.ufpe.br/handle/123456789/33642Em mineração de dados, a seleção de features é uma tarefa importante na eliminação de features irrelevantes/redundantes do conjunto de dados. Na aprendizagem de máquina não-supervisionada, a seleção de features é considerada ainda mais difícil do que na aprendizagem supervisionada, por não possuir a informação de classe, que possa ser utilizada para a avaliação das features. Muitos métodos de seleção de features na aprendizagem não-supervisionada são propostos na literatura, porém a avaliação do melhor conjunto de features é realizada através de critérios supervisionados, onde as classes são exigidas, o que nem sempre ocorre em um cenário real. Outro problema é que os métodos atribuem scores para cada feature e utilizam números mágicos para escolher as -melhores features. Assim, neste trabalho é proposta uma metodologia que tentará ajudar especialistas de dados a responder questões simples, mas importantes, como: (1) os métodos de seleção de features existentes possuem um resultado similar? (2) Existe um método consistentemente “melhor” ? Geralmente, esses métodos ordenam os atributos baseando-se em um score. Portanto, em relação aos resultados obtidos pelos métodos surgem algumas questões importantes: (3) Se selecionarmos -melhores features, qual será considerado o melhor? Além disso, muitos desses métodos não são totalmente livres de parâmetros, nos remetendo a uma outra questão: (4) Como selecionar bons parâmetros para os métodos em um cenário não-supervisionado? Outra questão interessante é: (5) Assumindo que nós temos diferentes opções para os métodos de seleção de features, poderíamos obter melhores resultados se selecionarmos as features usando uma combinação de métodos? Se sim, então como podemos combinar os métodos? Neste trabalho nós analisamos essas questões e propomos uma metodologia que irá realizar a seleção de features não-supervisionada para clustering em conjunto de dados de alta dimensionalidade. Nós avaliamos a metodologia proposta em vários conjuntos de dados de domínios como processamento de imagens e bioinformática. Os resultados mostraram que através do subconjunto de features sugerido ela metodologia é possível obter resultados melhores para os indicadores de acurácia, NMI e Corrected Rand, do que quando utilizado o conjunto original de features. Ao final também elencamos melhorias a serem realizadas em trabalhos futuros com potencial de melhorar o desempenho já obtido.In Data Mining, feature selection is an important task to eliminate uninformative features from datasets. In unsupervised learning, the selection of features is considered even more difficult than in supervised learning, we do not have any class information, that can be used to evaluate the features. Many feature selection methods in unsupervised learning are proposed in the literature, but the evaluation of the best subset of features is performed through supervised criteria, where class labels are required, which does not always occur in a real scenario. Another problem is that the methods assign scores for each feature nd use magic numbers to choose the -better features. Thus, in this work is proposed a methodology that will try to help data specialists to answersimple but important questions, such as: (1) do the existing features selection methods have a similar result? (2) Is there a consistently "better" method? Generally, these methods rank attributes based on a score. Therefore, in relation to the obtained results by the methods, some important questions arise: (3) If we select -better features, what will be considered the best? In addition, many of these methods are not fully parameter-free, referring to another question: (4) How to select good parameters for the methods in an unsupervised scenario? Another interesting question is: (5) Assuming we have different options for feature selection methods, could we get better results if we select features using a combination of methods? If yes, then how can we combine the methods? In this work we analyze these questions and propose a methodology that will perform the unsupervised feature selection for clustering in high dimensional data sets. We have evaluated the methodology proposed in several data sets from bioinformatics and image processing domains. The results showed that by using subsets of features suggested by the methodology it is possible to obtain better results for the indicators of accuracy, NMI and Corrected Rand, that when using the original set of features. However, it seens that there are future improvements to be made with potential to increase the performance already obtained.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência artificialAprendizagem de máquinaMetodologia de seleção de features não supervisionada para clustering em conjunto de dados de alta dimensionalidadeinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILDISSERTAÇÃO Marcos de Souza Oliveira.pdf.jpgDISSERTAÇÃO Marcos de Souza Oliveira.pdf.jpgGenerated Thumbnailimage/jpeg1362https://repositorio.ufpe.br/bitstream/123456789/33642/5/DISSERTA%c3%87%c3%83O%20Marcos%20de%20Souza%20Oliveira.pdf.jpgc0815fbfe0c982643fb743af21d24129MD55ORIGINALDISSERTAÇÃO Marcos de Souza Oliveira.pdfDISSERTAÇÃO Marcos de Souza Oliveira.pdfapplication/pdf2915351https://repositorio.ufpe.br/bitstream/123456789/33642/1/DISSERTA%c3%87%c3%83O%20Marcos%20de%20Souza%20Oliveira.pdf6864e7a0b341f777ba74ebcb1aed095dMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/33642/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82310https://repositorio.ufpe.br/bitstream/123456789/33642/3/license.txtbd573a5ca8288eb7272482765f819534MD53TEXTDISSERTAÇÃO Marcos de Souza Oliveira.pdf.txtDISSERTAÇÃO Marcos de Souza Oliveira.pdf.txtExtracted texttext/plain170916https://repositorio.ufpe.br/bitstream/123456789/33642/4/DISSERTA%c3%87%c3%83O%20Marcos%20de%20Souza%20Oliveira.pdf.txtb156e07301949fe646086b75a20c1adcMD54123456789/336422019-10-25 21:06:04.334oai:repositorio.ufpe.br:123456789/33642TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLCBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWlzcXVlciBvYnJpZ2HDp8O1ZXMgZXhpZ2lkYXMgcGVsbyByZXNwZWN0aXZvIGNvbnRyYXRvIG91IGFjb3Jkby4KCkEgVUZQRSBpZGVudGlmaWNhcsOhIGNsYXJhbWVudGUgbyhzKSBub21lKHMpIGRvKHMpIGF1dG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50byBlbnRyZWd1ZSBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZG8gcHJldmlzdG8gbmEgYWzDrW5lYSBjKS4KRepositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-26T00:06:04Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
dc.title.pt_BR.fl_str_mv |
Metodologia de seleção de features não supervisionada para clustering em conjunto de dados de alta dimensionalidade |
title |
Metodologia de seleção de features não supervisionada para clustering em conjunto de dados de alta dimensionalidade |
spellingShingle |
Metodologia de seleção de features não supervisionada para clustering em conjunto de dados de alta dimensionalidade OLIVEIRA, Marcos de Souza Inteligência artificial Aprendizagem de máquina |
title_short |
Metodologia de seleção de features não supervisionada para clustering em conjunto de dados de alta dimensionalidade |
title_full |
Metodologia de seleção de features não supervisionada para clustering em conjunto de dados de alta dimensionalidade |
title_fullStr |
Metodologia de seleção de features não supervisionada para clustering em conjunto de dados de alta dimensionalidade |
title_full_unstemmed |
Metodologia de seleção de features não supervisionada para clustering em conjunto de dados de alta dimensionalidade |
title_sort |
Metodologia de seleção de features não supervisionada para clustering em conjunto de dados de alta dimensionalidade |
author |
OLIVEIRA, Marcos de Souza |
author_facet |
OLIVEIRA, Marcos de Souza |
author_role |
author |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/6137784444858483 |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/9263224550858823 |
dc.contributor.author.fl_str_mv |
OLIVEIRA, Marcos de Souza |
dc.contributor.advisor1.fl_str_mv |
QUEIROZ, Sérgio Ricardo de Melo |
contributor_str_mv |
QUEIROZ, Sérgio Ricardo de Melo |
dc.subject.por.fl_str_mv |
Inteligência artificial Aprendizagem de máquina |
topic |
Inteligência artificial Aprendizagem de máquina |
description |
Em mineração de dados, a seleção de features é uma tarefa importante na eliminação de features irrelevantes/redundantes do conjunto de dados. Na aprendizagem de máquina não-supervisionada, a seleção de features é considerada ainda mais difícil do que na aprendizagem supervisionada, por não possuir a informação de classe, que possa ser utilizada para a avaliação das features. Muitos métodos de seleção de features na aprendizagem não-supervisionada são propostos na literatura, porém a avaliação do melhor conjunto de features é realizada através de critérios supervisionados, onde as classes são exigidas, o que nem sempre ocorre em um cenário real. Outro problema é que os métodos atribuem scores para cada feature e utilizam números mágicos para escolher as -melhores features. Assim, neste trabalho é proposta uma metodologia que tentará ajudar especialistas de dados a responder questões simples, mas importantes, como: (1) os métodos de seleção de features existentes possuem um resultado similar? (2) Existe um método consistentemente “melhor” ? Geralmente, esses métodos ordenam os atributos baseando-se em um score. Portanto, em relação aos resultados obtidos pelos métodos surgem algumas questões importantes: (3) Se selecionarmos -melhores features, qual será considerado o melhor? Além disso, muitos desses métodos não são totalmente livres de parâmetros, nos remetendo a uma outra questão: (4) Como selecionar bons parâmetros para os métodos em um cenário não-supervisionado? Outra questão interessante é: (5) Assumindo que nós temos diferentes opções para os métodos de seleção de features, poderíamos obter melhores resultados se selecionarmos as features usando uma combinação de métodos? Se sim, então como podemos combinar os métodos? Neste trabalho nós analisamos essas questões e propomos uma metodologia que irá realizar a seleção de features não-supervisionada para clustering em conjunto de dados de alta dimensionalidade. Nós avaliamos a metodologia proposta em vários conjuntos de dados de domínios como processamento de imagens e bioinformática. Os resultados mostraram que através do subconjunto de features sugerido ela metodologia é possível obter resultados melhores para os indicadores de acurácia, NMI e Corrected Rand, do que quando utilizado o conjunto original de features. Ao final também elencamos melhorias a serem realizadas em trabalhos futuros com potencial de melhorar o desempenho já obtido. |
publishDate |
2018 |
dc.date.issued.fl_str_mv |
2018-08-30 |
dc.date.accessioned.fl_str_mv |
2019-09-25T20:16:52Z |
dc.date.available.fl_str_mv |
2019-09-25T20:16:52Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufpe.br/handle/123456789/33642 |
url |
https://repositorio.ufpe.br/handle/123456789/33642 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.publisher.program.fl_str_mv |
Programa de Pos Graduacao em Ciencia da Computacao |
dc.publisher.initials.fl_str_mv |
UFPE |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
instname_str |
Universidade Federal de Pernambuco (UFPE) |
instacron_str |
UFPE |
institution |
UFPE |
reponame_str |
Repositório Institucional da UFPE |
collection |
Repositório Institucional da UFPE |
bitstream.url.fl_str_mv |
https://repositorio.ufpe.br/bitstream/123456789/33642/5/DISSERTA%c3%87%c3%83O%20Marcos%20de%20Souza%20Oliveira.pdf.jpg https://repositorio.ufpe.br/bitstream/123456789/33642/1/DISSERTA%c3%87%c3%83O%20Marcos%20de%20Souza%20Oliveira.pdf https://repositorio.ufpe.br/bitstream/123456789/33642/2/license_rdf https://repositorio.ufpe.br/bitstream/123456789/33642/3/license.txt https://repositorio.ufpe.br/bitstream/123456789/33642/4/DISSERTA%c3%87%c3%83O%20Marcos%20de%20Souza%20Oliveira.pdf.txt |
bitstream.checksum.fl_str_mv |
c0815fbfe0c982643fb743af21d24129 6864e7a0b341f777ba74ebcb1aed095d e39d27027a6cc9cb039ad269a5db8e34 bd573a5ca8288eb7272482765f819534 b156e07301949fe646086b75a20c1adc |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
repository.mail.fl_str_mv |
attena@ufpe.br |
_version_ |
1802310775402921984 |