Detecção e fusão de atributos duplicados para mineração de dados

Barcelos, Hortênsia Costa

Detecção e fusão de atributos duplicados para mineração de dados

Detalhes bibliográficos
Autor(a) principal:	Barcelos, Hortênsia Costa
Data de Publicação:	2020
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo:	http://hdl.handle.net/10183/218179
Resumo:	Atributos duplicados são um problema recorrente em várias bases de dados geradas de fontes de dados similares e decentralizadas. Esta duplicação de atributos resulta em grande dimensionalidade sem aumentar proporcionalmente o valor da informação contida na base de dados. Buscando lidar com esta questão, o presente trabalho procurou aplicar métodos de identificação e fusão de atributos duplicados em conjuntos de dados utilizando algoritmos de aprendizado de máquina para tornar esse processo menos custoso a um especialista. O objetivo foi avaliar a hipótese de que a fusão de atributos duplicados pode melhorar o poder preditivo dos modelos enquanto reduz o seu tempo de treinamento. Um método foi proposto para detecção de atributos duplicados usando classificadores para rotularem pares de atributos como duplicados ou não. Esse método tem como base evidências extraídas da base de dados sendo analisada. As evidências indicam a semelhança entre os atributos de cada par e são separadas em três categorias: baseadas nos nomes dos atributos, no seus conjuntos de valores e na coocorrência de cada par. Ao tornar essa fase de identificação automática, o trabalho dos especialistas se torna menos custoso, visto que é necessário rotular manualmente um conjunto pequeno de pares de atributos para o modelo conseguir rotular os demais. Após a fase de detecção, um método de fusão das duplicatas também foi proposto, de forma que as informações presentes nos atributos duplicados fossem mantidos em um único atributo. Uma avaliação comparando a detecção de duplicados com um ground truth gerado manualmente obteve F1 de 0,91. Em seguida, os efeitos da fusão foram medidos em uma tarefa de predição de mortalidade. Assim, observamos que embora nosso modelo tenha sido bem sucedido na tarefa de encontrar pares de atributos duplicados, a fusão destes atributos de acordo com a estratégia implementada não foi efetiva na melhoria da qualidade da classificação. Ainda que tenha sido constatada uma redução do tempo de treinamento com o método de fusão de atributos, a mesma não foi compensada pelo ganho de qualidade na tarefa de classificação. Concluímos que a hipótese investigada não é válida e uma análise foi feita com relação aos pontos a serem aprimorados na fase de detecção de atributos duplicados, que se mostrou como o principal gargalo a ser tratado.

Metadados do item

id	URGS_46ff0afe163a9868daee4b02b6e187ed
oai_identifier_str	oai:www.lume.ufrgs.br:10183/218179
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str	1853
spelling	Barcelos, Hortênsia CostaMoreira, Viviane PereiraRecamonde-Mendoza, Mariana2021-02-25T04:17:47Z2020http://hdl.handle.net/10183/218179001122759Atributos duplicados são um problema recorrente em várias bases de dados geradas de fontes de dados similares e decentralizadas. Esta duplicação de atributos resulta em grande dimensionalidade sem aumentar proporcionalmente o valor da informação contida na base de dados. Buscando lidar com esta questão, o presente trabalho procurou aplicar métodos de identificação e fusão de atributos duplicados em conjuntos de dados utilizando algoritmos de aprendizado de máquina para tornar esse processo menos custoso a um especialista. O objetivo foi avaliar a hipótese de que a fusão de atributos duplicados pode melhorar o poder preditivo dos modelos enquanto reduz o seu tempo de treinamento. Um método foi proposto para detecção de atributos duplicados usando classificadores para rotularem pares de atributos como duplicados ou não. Esse método tem como base evidências extraídas da base de dados sendo analisada. As evidências indicam a semelhança entre os atributos de cada par e são separadas em três categorias: baseadas nos nomes dos atributos, no seus conjuntos de valores e na coocorrência de cada par. Ao tornar essa fase de identificação automática, o trabalho dos especialistas se torna menos custoso, visto que é necessário rotular manualmente um conjunto pequeno de pares de atributos para o modelo conseguir rotular os demais. Após a fase de detecção, um método de fusão das duplicatas também foi proposto, de forma que as informações presentes nos atributos duplicados fossem mantidos em um único atributo. Uma avaliação comparando a detecção de duplicados com um ground truth gerado manualmente obteve F1 de 0,91. Em seguida, os efeitos da fusão foram medidos em uma tarefa de predição de mortalidade. Assim, observamos que embora nosso modelo tenha sido bem sucedido na tarefa de encontrar pares de atributos duplicados, a fusão destes atributos de acordo com a estratégia implementada não foi efetiva na melhoria da qualidade da classificação. Ainda que tenha sido constatada uma redução do tempo de treinamento com o método de fusão de atributos, a mesma não foi compensada pelo ganho de qualidade na tarefa de classificação. Concluímos que a hipótese investigada não é válida e uma análise foi feita com relação aos pontos a serem aprimorados na fase de detecção de atributos duplicados, que se mostrou como o principal gargalo a ser tratado.Duplicate features generated from similar and decentralized data sources are a recurring problem found in several databases. This duplication of features results in large dimensionality without proportionally increasing the value of the information contained in the database. Seeking to deal with this issue, the present work sought to apply methods for the identification and fusion of duplicate features in data sets using machine learning algorithms to make this process less costly for a specialist. The goal was to evaluate the hypothesis that the fusion of duplicate features can improve the predictive power of the models while reducing their training time. A method has been proposed for detecting duplicate features using classifiers to label pairs of features as duplicates or not duplicates. This method is based on evidences extracted from the database being analyzed. The evidence indicates the similarity between a pair of attributes and is separated into three categories: based on the feature names, their sets of values, and their co-occurrence. Through automatic identification, the burden on the specialists is reduced, since it is only necessary to manually label a small set of attribute pairs for the model to be able to label the others. After the detection phase, a method for fusing the duplicates was also proposed, so that the information present in the duplicate features is merged into a single feature. An evaluation comparing the detection of duplicates with a manually generated ground truth obtained an F1 of 0.91. Then, the effects of the fusion were measured in a mortality prediction task. Thus, we observed that although our model was successful in finding duplicate pairs of features, the fusion of these attributes according to the strategy implemented was not effective in improving performance. Even though the feature fusion method brought a reduction in training time, it was not compensated by the performance gain in the classification task. We conclude that the investigated hypothesis is not valid and an analysis was made regarding the points to be improved in the phase of detecting duplicate features, which proved to be the main bottleneck to be addressed.application/pdfporMineração de dadosAtributos duplicadosBase de dadosAprendizado de máquinaFeature FusionDeduplicationData MiningDetecção e fusão de atributos duplicados para mineração de dadosIdentifying and fusing duplicate features for data mining info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2020mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001122759.pdf.txt001122759.pdf.txtExtracted Texttext/plain99758http://www.lume.ufrgs.br/bitstream/10183/218179/2/001122759.pdf.txt036bf6386dfeb440a799587fa605f4edMD52ORIGINAL001122759.pdfTexto completoapplication/pdf884733http://www.lume.ufrgs.br/bitstream/10183/218179/1/001122759.pdf1a518e28417fed5907fdb93b204e14a0MD5110183/2181792024-04-04 06:41:08.940888oai:www.lume.ufrgs.br:10183/218179Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532024-04-04T09:41:08Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Detecção e fusão de atributos duplicados para mineração de dados
dc.title.alternative.en.fl_str_mv	Identifying and fusing duplicate features for data mining
title	Detecção e fusão de atributos duplicados para mineração de dados
spellingShingle	Detecção e fusão de atributos duplicados para mineração de dados Barcelos, Hortênsia Costa Mineração de dados Atributos duplicados Base de dados Aprendizado de máquina Feature Fusion Deduplication Data Mining
title_short	Detecção e fusão de atributos duplicados para mineração de dados
title_full	Detecção e fusão de atributos duplicados para mineração de dados
title_fullStr	Detecção e fusão de atributos duplicados para mineração de dados
title_full_unstemmed	Detecção e fusão de atributos duplicados para mineração de dados
title_sort	Detecção e fusão de atributos duplicados para mineração de dados
author	Barcelos, Hortênsia Costa
author_facet	Barcelos, Hortênsia Costa
author_role	author
dc.contributor.author.fl_str_mv	Barcelos, Hortênsia Costa
dc.contributor.advisor1.fl_str_mv	Moreira, Viviane Pereira
dc.contributor.advisor-co1.fl_str_mv	Recamonde-Mendoza, Mariana
contributor_str_mv	Moreira, Viviane Pereira Recamonde-Mendoza, Mariana
dc.subject.por.fl_str_mv	Mineração de dados Atributos duplicados Base de dados Aprendizado de máquina
topic	Mineração de dados Atributos duplicados Base de dados Aprendizado de máquina Feature Fusion Deduplication Data Mining
dc.subject.eng.fl_str_mv	Feature Fusion Deduplication Data Mining
description	Atributos duplicados são um problema recorrente em várias bases de dados geradas de fontes de dados similares e decentralizadas. Esta duplicação de atributos resulta em grande dimensionalidade sem aumentar proporcionalmente o valor da informação contida na base de dados. Buscando lidar com esta questão, o presente trabalho procurou aplicar métodos de identificação e fusão de atributos duplicados em conjuntos de dados utilizando algoritmos de aprendizado de máquina para tornar esse processo menos custoso a um especialista. O objetivo foi avaliar a hipótese de que a fusão de atributos duplicados pode melhorar o poder preditivo dos modelos enquanto reduz o seu tempo de treinamento. Um método foi proposto para detecção de atributos duplicados usando classificadores para rotularem pares de atributos como duplicados ou não. Esse método tem como base evidências extraídas da base de dados sendo analisada. As evidências indicam a semelhança entre os atributos de cada par e são separadas em três categorias: baseadas nos nomes dos atributos, no seus conjuntos de valores e na coocorrência de cada par. Ao tornar essa fase de identificação automática, o trabalho dos especialistas se torna menos custoso, visto que é necessário rotular manualmente um conjunto pequeno de pares de atributos para o modelo conseguir rotular os demais. Após a fase de detecção, um método de fusão das duplicatas também foi proposto, de forma que as informações presentes nos atributos duplicados fossem mantidos em um único atributo. Uma avaliação comparando a detecção de duplicados com um ground truth gerado manualmente obteve F1 de 0,91. Em seguida, os efeitos da fusão foram medidos em uma tarefa de predição de mortalidade. Assim, observamos que embora nosso modelo tenha sido bem sucedido na tarefa de encontrar pares de atributos duplicados, a fusão destes atributos de acordo com a estratégia implementada não foi efetiva na melhoria da qualidade da classificação. Ainda que tenha sido constatada uma redução do tempo de treinamento com o método de fusão de atributos, a mesma não foi compensada pelo ganho de qualidade na tarefa de classificação. Concluímos que a hipótese investigada não é válida e uma análise foi feita com relação aos pontos a serem aprimorados na fase de detecção de atributos duplicados, que se mostrou como o principal gargalo a ser tratado.
publishDate	2020
dc.date.issued.fl_str_mv	2020
dc.date.accessioned.fl_str_mv	2021-02-25T04:17:47Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/218179
dc.identifier.nrb.pt_BR.fl_str_mv	001122759
url	http://hdl.handle.net/10183/218179
identifier_str_mv	001122759
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/218179/2/001122759.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/218179/1/001122759.pdf
bitstream.checksum.fl_str_mv	036bf6386dfeb440a799587fa605f4ed 1a518e28417fed5907fdb93b204e14a0
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1797064730501709824

Detecção e fusão de atributos duplicados para mineração de dados

Registros relacionados