LORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótulo
Autor(a) principal: | |
---|---|
Data de Publicação: | 2015 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFMG |
Texto Completo: | http://hdl.handle.net/1843/BUBD-A3JHWV |
Resumo: | Este trabalho apresenta e desenvolve novas metodologias para classificação supervisionada, baseadas em grafos esparços. A idéia inicial é utilizar as instâncias do conjunto de dados de treinamento do modelo para construir uma árvore geradora mínima (AGM) a partir das distâncias entre atributos e, posteriormente, obter uma partição do grafo ao podar arestas desta AGM utilizando uma medida de dissimilaridade calculada a partir dos rótulos. Essa partição definirá as regiões de classificação que buscam equilibrar grandes homogeneidades internas e grande heterogeneidade entre elas, proporcionando bons resultados de posteriores classificações de instâncias com rótulos desconhecidos. Um grande avanço apresentado pela metodologia desenvolvida neste trabalho é a potencial melhora na classificação quando o conjunto de dados de treinamento apresenta ruído no rótulo. Este tipo de ruído nos dados é bastante comum e acarreta prejuízos no desempenho de métodos tradicionais de classificação supervisionada. Basicamente, este trabalho explora os temas de classificação supervisionada e de ruído no rótulo, apresenta uma metodologia de classificação com 4 variações possíveis, proporcionando possibilidades de adequação aos dados, demonstra a eficiência do método em determinados tipos de conjuntos de dados e comprova a qualidade da classificação realizada através de comparações com outros métodos popularmente utilizados. Os resultados são promissores. |
id |
UFMG_5d1ec777f0bc1bee5e19e4cf851bd7eb |
---|---|
oai_identifier_str |
oai:repositorio.ufmg.br:1843/BUBD-A3JHWV |
network_acronym_str |
UFMG |
network_name_str |
Repositório Institucional da UFMG |
repository_id_str |
|
spelling |
Renato Martins AssuncaoRonaldo DiasAlexandre Loureiros RodriguesMarcos Oliveira PratesVinicius Diniz MayrinkLeticia Cavalari Pinheiro2019-08-13T02:48:02Z2019-08-13T02:48:02Z2015-06-26http://hdl.handle.net/1843/BUBD-A3JHWVEste trabalho apresenta e desenvolve novas metodologias para classificação supervisionada, baseadas em grafos esparços. A idéia inicial é utilizar as instâncias do conjunto de dados de treinamento do modelo para construir uma árvore geradora mínima (AGM) a partir das distâncias entre atributos e, posteriormente, obter uma partição do grafo ao podar arestas desta AGM utilizando uma medida de dissimilaridade calculada a partir dos rótulos. Essa partição definirá as regiões de classificação que buscam equilibrar grandes homogeneidades internas e grande heterogeneidade entre elas, proporcionando bons resultados de posteriores classificações de instâncias com rótulos desconhecidos. Um grande avanço apresentado pela metodologia desenvolvida neste trabalho é a potencial melhora na classificação quando o conjunto de dados de treinamento apresenta ruído no rótulo. Este tipo de ruído nos dados é bastante comum e acarreta prejuízos no desempenho de métodos tradicionais de classificação supervisionada. Basicamente, este trabalho explora os temas de classificação supervisionada e de ruído no rótulo, apresenta uma metodologia de classificação com 4 variações possíveis, proporcionando possibilidades de adequação aos dados, demonstra a eficiência do método em determinados tipos de conjuntos de dados e comprova a qualidade da classificação realizada através de comparações com outros métodos popularmente utilizados. Os resultados são promissores.This thesis presents the development of a new supervised classification method based in sparse graphs. The basic idea is to learn from data instances to build a minimum spanning tree (MST), based on the distances between attributes. Based on a dissimilarity measure calculated from the labels, we obtain a graph partition by pruning the MST edges. This partition defines the classification regions that seek to balance major intra-region homogeneity and great inter-region heterogeneity, providing good results for posterior classifications of instances with unknown labels. A great advancement presented by the developed methodology is the potential classification improvement when the training datasets have label noise. This type of noise is common and impairs the performance of most classification methods. This thesis includes a study about supervised classification and label noise data, the development of a new classification methodology with 4 possible variations making possible to adapt to diferent datasets, the proof of its efficiency under some assumptions, and the quality verification based on comparisions with other popular methods. The results are promising.Universidade Federal de Minas GeraisUFMGEstatisticaClassificação SupervisionadaDados com Ruído no RótuloÁrvore GeradoraMínimaLORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótuloinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALtese_vers_o_final_let_cia_cavalari_pinheiro.pdfapplication/pdf739250https://repositorio.ufmg.br/bitstream/1843/BUBD-A3JHWV/1/tese_vers_o_final_let_cia_cavalari_pinheiro.pdfee37424aa3b3be9d9413dcc6263f2b4aMD51TEXTtese_vers_o_final_let_cia_cavalari_pinheiro.pdf.txttese_vers_o_final_let_cia_cavalari_pinheiro.pdf.txtExtracted texttext/plain356283https://repositorio.ufmg.br/bitstream/1843/BUBD-A3JHWV/2/tese_vers_o_final_let_cia_cavalari_pinheiro.pdf.txte06abaa3ce86f5f1f9be9782c70b8eabMD521843/BUBD-A3JHWV2019-11-14 20:51:22.536oai:repositorio.ufmg.br:1843/BUBD-A3JHWVRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T23:51:22Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false |
dc.title.pt_BR.fl_str_mv |
LORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótulo |
title |
LORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótulo |
spellingShingle |
LORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótulo Leticia Cavalari Pinheiro Classificação Supervisionada Dados com Ruído no Rótulo Árvore Geradora Mínima Estatistica |
title_short |
LORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótulo |
title_full |
LORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótulo |
title_fullStr |
LORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótulo |
title_full_unstemmed |
LORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótulo |
title_sort |
LORC: classificação supervisionada baseada em grafos esparsos, robusta para dados com ruído no rótulo |
author |
Leticia Cavalari Pinheiro |
author_facet |
Leticia Cavalari Pinheiro |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Renato Martins Assuncao |
dc.contributor.referee1.fl_str_mv |
Ronaldo Dias |
dc.contributor.referee2.fl_str_mv |
Alexandre Loureiros Rodrigues |
dc.contributor.referee3.fl_str_mv |
Marcos Oliveira Prates |
dc.contributor.referee4.fl_str_mv |
Vinicius Diniz Mayrink |
dc.contributor.author.fl_str_mv |
Leticia Cavalari Pinheiro |
contributor_str_mv |
Renato Martins Assuncao Ronaldo Dias Alexandre Loureiros Rodrigues Marcos Oliveira Prates Vinicius Diniz Mayrink |
dc.subject.por.fl_str_mv |
Classificação Supervisionada Dados com Ruído no Rótulo Árvore Geradora Mínima |
topic |
Classificação Supervisionada Dados com Ruído no Rótulo Árvore Geradora Mínima Estatistica |
dc.subject.other.pt_BR.fl_str_mv |
Estatistica |
description |
Este trabalho apresenta e desenvolve novas metodologias para classificação supervisionada, baseadas em grafos esparços. A idéia inicial é utilizar as instâncias do conjunto de dados de treinamento do modelo para construir uma árvore geradora mínima (AGM) a partir das distâncias entre atributos e, posteriormente, obter uma partição do grafo ao podar arestas desta AGM utilizando uma medida de dissimilaridade calculada a partir dos rótulos. Essa partição definirá as regiões de classificação que buscam equilibrar grandes homogeneidades internas e grande heterogeneidade entre elas, proporcionando bons resultados de posteriores classificações de instâncias com rótulos desconhecidos. Um grande avanço apresentado pela metodologia desenvolvida neste trabalho é a potencial melhora na classificação quando o conjunto de dados de treinamento apresenta ruído no rótulo. Este tipo de ruído nos dados é bastante comum e acarreta prejuízos no desempenho de métodos tradicionais de classificação supervisionada. Basicamente, este trabalho explora os temas de classificação supervisionada e de ruído no rótulo, apresenta uma metodologia de classificação com 4 variações possíveis, proporcionando possibilidades de adequação aos dados, demonstra a eficiência do método em determinados tipos de conjuntos de dados e comprova a qualidade da classificação realizada através de comparações com outros métodos popularmente utilizados. Os resultados são promissores. |
publishDate |
2015 |
dc.date.issued.fl_str_mv |
2015-06-26 |
dc.date.accessioned.fl_str_mv |
2019-08-13T02:48:02Z |
dc.date.available.fl_str_mv |
2019-08-13T02:48:02Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1843/BUBD-A3JHWV |
url |
http://hdl.handle.net/1843/BUBD-A3JHWV |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.publisher.initials.fl_str_mv |
UFMG |
publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
instname_str |
Universidade Federal de Minas Gerais (UFMG) |
instacron_str |
UFMG |
institution |
UFMG |
reponame_str |
Repositório Institucional da UFMG |
collection |
Repositório Institucional da UFMG |
bitstream.url.fl_str_mv |
https://repositorio.ufmg.br/bitstream/1843/BUBD-A3JHWV/1/tese_vers_o_final_let_cia_cavalari_pinheiro.pdf https://repositorio.ufmg.br/bitstream/1843/BUBD-A3JHWV/2/tese_vers_o_final_let_cia_cavalari_pinheiro.pdf.txt |
bitstream.checksum.fl_str_mv |
ee37424aa3b3be9d9413dcc6263f2b4a e06abaa3ce86f5f1f9be9782c70b8eab |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG) |
repository.mail.fl_str_mv |
|
_version_ |
1803589167301525504 |