LORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótulo

Detalhes bibliográficos
Autor(a) principal: Leticia Cavalari Pinheiro
Data de Publicação: 2015
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/BUBD-A3JHWV
Resumo: Este trabalho apresenta e desenvolve novas metodologias para classificação supervisionada, baseadas em grafos esparços. A idéia inicial é utilizar as instâncias do conjunto de dados de treinamento do modelo para construir uma árvore geradora mínima (AGM) a partir das distâncias entre atributos e, posteriormente, obter uma partição do grafo ao podar arestas desta AGM utilizando uma medida de dissimilaridade calculada a partir dos rótulos. Essa partição definirá as regiões de classificação que buscam equilibrar grandes homogeneidades internas e grande heterogeneidade entre elas, proporcionando bons resultados de posteriores classificações de instâncias com rótulos desconhecidos. Um grande avanço apresentado pela metodologia desenvolvida neste trabalho é a potencial melhora na classificação quando o conjunto de dados de treinamento apresenta ruído no rótulo. Este tipo de ruído nos dados é bastante comum e acarreta prejuízos no desempenho de métodos tradicionais de classificação supervisionada. Basicamente, este trabalho explora os temas de classificação supervisionada e de ruído no rótulo, apresenta uma metodologia de classificação com 4 variações possíveis, proporcionando possibilidades de adequação aos dados, demonstra a eficiência do método em determinados tipos de conjuntos de dados e comprova a qualidade da classificação realizada através de comparações com outros métodos popularmente utilizados. Os resultados são promissores.
id UFMG_5d1ec777f0bc1bee5e19e4cf851bd7eb
oai_identifier_str oai:repositorio.ufmg.br:1843/BUBD-A3JHWV
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Renato Martins AssuncaoRonaldo DiasAlexandre Loureiros RodriguesMarcos Oliveira PratesVinicius Diniz MayrinkLeticia Cavalari Pinheiro2019-08-13T02:48:02Z2019-08-13T02:48:02Z2015-06-26http://hdl.handle.net/1843/BUBD-A3JHWVEste trabalho apresenta e desenvolve novas metodologias para classificação supervisionada, baseadas em grafos esparços. A idéia inicial é utilizar as instâncias do conjunto de dados de treinamento do modelo para construir uma árvore geradora mínima (AGM) a partir das distâncias entre atributos e, posteriormente, obter uma partição do grafo ao podar arestas desta AGM utilizando uma medida de dissimilaridade calculada a partir dos rótulos. Essa partição definirá as regiões de classificação que buscam equilibrar grandes homogeneidades internas e grande heterogeneidade entre elas, proporcionando bons resultados de posteriores classificações de instâncias com rótulos desconhecidos. Um grande avanço apresentado pela metodologia desenvolvida neste trabalho é a potencial melhora na classificação quando o conjunto de dados de treinamento apresenta ruído no rótulo. Este tipo de ruído nos dados é bastante comum e acarreta prejuízos no desempenho de métodos tradicionais de classificação supervisionada. Basicamente, este trabalho explora os temas de classificação supervisionada e de ruído no rótulo, apresenta uma metodologia de classificação com 4 variações possíveis, proporcionando possibilidades de adequação aos dados, demonstra a eficiência do método em determinados tipos de conjuntos de dados e comprova a qualidade da classificação realizada através de comparações com outros métodos popularmente utilizados. Os resultados são promissores.This thesis presents the development of a new supervised classification method based in sparse graphs. The basic idea is to learn from data instances to build a minimum spanning tree (MST), based on the distances between attributes. Based on a dissimilarity measure calculated from the labels, we obtain a graph partition by pruning the MST edges. This partition defines the classification regions that seek to balance major intra-region homogeneity and great inter-region heterogeneity, providing good results for posterior classifications of instances with unknown labels. A great advancement presented by the developed methodology is the potential classification improvement when the training datasets have label noise. This type of noise is common and impairs the performance of most classification methods. This thesis includes a study about supervised classification and label noise data, the development of a new classification methodology with 4 possible variations making possible to adapt to diferent datasets, the proof of its efficiency under some assumptions, and the quality verification based on comparisions with other popular methods. The results are promising.Universidade Federal de Minas GeraisUFMGEstatisticaClassificação SupervisionadaDados com Ruído no RótuloÁrvore GeradoraMínimaLORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótuloinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALtese_vers_o_final_let_cia_cavalari_pinheiro.pdfapplication/pdf739250https://repositorio.ufmg.br/bitstream/1843/BUBD-A3JHWV/1/tese_vers_o_final_let_cia_cavalari_pinheiro.pdfee37424aa3b3be9d9413dcc6263f2b4aMD51TEXTtese_vers_o_final_let_cia_cavalari_pinheiro.pdf.txttese_vers_o_final_let_cia_cavalari_pinheiro.pdf.txtExtracted texttext/plain356283https://repositorio.ufmg.br/bitstream/1843/BUBD-A3JHWV/2/tese_vers_o_final_let_cia_cavalari_pinheiro.pdf.txte06abaa3ce86f5f1f9be9782c70b8eabMD521843/BUBD-A3JHWV2019-11-14 20:51:22.536oai:repositorio.ufmg.br:1843/BUBD-A3JHWVRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T23:51:22Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv LORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótulo
title LORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótulo
spellingShingle LORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótulo
Leticia Cavalari Pinheiro
Classificação Supervisionada
Dados com Ruído no Rótulo
Árvore Geradora
Mínima
Estatistica
title_short LORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótulo
title_full LORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótulo
title_fullStr LORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótulo
title_full_unstemmed LORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótulo
title_sort LORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótulo
author Leticia Cavalari Pinheiro
author_facet Leticia Cavalari Pinheiro
author_role author
dc.contributor.advisor1.fl_str_mv Renato Martins Assuncao
dc.contributor.referee1.fl_str_mv Ronaldo Dias
dc.contributor.referee2.fl_str_mv Alexandre Loureiros Rodrigues
dc.contributor.referee3.fl_str_mv Marcos Oliveira Prates
dc.contributor.referee4.fl_str_mv Vinicius Diniz Mayrink
dc.contributor.author.fl_str_mv Leticia Cavalari Pinheiro
contributor_str_mv Renato Martins Assuncao
Ronaldo Dias
Alexandre Loureiros Rodrigues
Marcos Oliveira Prates
Vinicius Diniz Mayrink
dc.subject.por.fl_str_mv Classificação Supervisionada
Dados com Ruído no Rótulo
Árvore Geradora
Mínima
topic Classificação Supervisionada
Dados com Ruído no Rótulo
Árvore Geradora
Mínima
Estatistica
dc.subject.other.pt_BR.fl_str_mv Estatistica
description Este trabalho apresenta e desenvolve novas metodologias para classificação supervisionada, baseadas em grafos esparços. A idéia inicial é utilizar as instâncias do conjunto de dados de treinamento do modelo para construir uma árvore geradora mínima (AGM) a partir das distâncias entre atributos e, posteriormente, obter uma partição do grafo ao podar arestas desta AGM utilizando uma medida de dissimilaridade calculada a partir dos rótulos. Essa partição definirá as regiões de classificação que buscam equilibrar grandes homogeneidades internas e grande heterogeneidade entre elas, proporcionando bons resultados de posteriores classificações de instâncias com rótulos desconhecidos. Um grande avanço apresentado pela metodologia desenvolvida neste trabalho é a potencial melhora na classificação quando o conjunto de dados de treinamento apresenta ruído no rótulo. Este tipo de ruído nos dados é bastante comum e acarreta prejuízos no desempenho de métodos tradicionais de classificação supervisionada. Basicamente, este trabalho explora os temas de classificação supervisionada e de ruído no rótulo, apresenta uma metodologia de classificação com 4 variações possíveis, proporcionando possibilidades de adequação aos dados, demonstra a eficiência do método em determinados tipos de conjuntos de dados e comprova a qualidade da classificação realizada através de comparações com outros métodos popularmente utilizados. Os resultados são promissores.
publishDate 2015
dc.date.issued.fl_str_mv 2015-06-26
dc.date.accessioned.fl_str_mv 2019-08-13T02:48:02Z
dc.date.available.fl_str_mv 2019-08-13T02:48:02Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/BUBD-A3JHWV
url http://hdl.handle.net/1843/BUBD-A3JHWV
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/BUBD-A3JHWV/1/tese_vers_o_final_let_cia_cavalari_pinheiro.pdf
https://repositorio.ufmg.br/bitstream/1843/BUBD-A3JHWV/2/tese_vers_o_final_let_cia_cavalari_pinheiro.pdf.txt
bitstream.checksum.fl_str_mv ee37424aa3b3be9d9413dcc6263f2b4a
e06abaa3ce86f5f1f9be9782c70b8eab
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589167301525504