Classificação otimizada baseada em U-estatísticas

Soares, Mayara Belló

Classificação otimizada baseada em U-estatísticas

Detalhes bibliográficos
Autor(a) principal:	Soares, Mayara Belló
Data de Publicação:	2023
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo:	http://hdl.handle.net/10183/273741
Resumo:	A modelagem de dados visando agrupamento e classificação em ambientes de alta dimensão e baixo tamanho de amostra (HDLSS - High-dimension low-sample size data) é um desafio em diferentes áreas do conhecimento. Uma alternativa é a utilização de métodos não paramétricos, por permitir uma abordagem de inferência dependendo de poucos pressupostos sobre os dados. Em particular, uma série de métodos de inferência para problemas de agrupamento e classificação baseados em U-estatísticas, implementados no pacote uclust do software R, tem gerado resultados promissores no contexto HDLSS. Buscando tornar essa abordagem melhor adaptada a diferentes estruturas de dados, o foco desta dissertação é propor um método otimizado de classificação dentro desse contexto. A classificação é realizada em duas etapas: primeiro encontramos a distância ponderada que maximiza a separação entre dois grupos de referência, medida pela estatística Bn; e em seguida utilizamos essa distância para classificar novas observações, através de um enfoque comparativo. Estudos de Monte Carlo, no contexto de HDLSS, mostram que o método otimizado apresenta melhores taxas de classificações corretas quando a diferença entre grupos está concentrada em uma fração das componentes do vetor de dados. O uso desta distância otimizada também serve como base para a proposta de um novo teste U otimizado, que verifica se dois grupos de observações são de fato distintos, e também de um novo teste de hipóteses para a classificação. Estudos de simulação mostram que nos cenários simulados, onde o classificador está bem adaptado, ambos os testes apresentam mais poder que os métodos originais. E apresenta uma aplicação dos métodos a um conjunto de dados HDLSS de pacientes de linfoma, no qual o classificador otimizado apresenta resultados favoráveis.

Metadados do item

id	URGS_250602cfa77a4c8d28fc54b714bd1165
oai_identifier_str	oai:www.lume.ufrgs.br:10183/273741
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str	1853
spelling	Soares, Mayara BellóCybis, Gabriela BettellaValk, Márcio2024-03-19T05:03:06Z2023http://hdl.handle.net/10183/273741001198229A modelagem de dados visando agrupamento e classificação em ambientes de alta dimensão e baixo tamanho de amostra (HDLSS - High-dimension low-sample size data) é um desafio em diferentes áreas do conhecimento. Uma alternativa é a utilização de métodos não paramétricos, por permitir uma abordagem de inferência dependendo de poucos pressupostos sobre os dados. Em particular, uma série de métodos de inferência para problemas de agrupamento e classificação baseados em U-estatísticas, implementados no pacote uclust do software R, tem gerado resultados promissores no contexto HDLSS. Buscando tornar essa abordagem melhor adaptada a diferentes estruturas de dados, o foco desta dissertação é propor um método otimizado de classificação dentro desse contexto. A classificação é realizada em duas etapas: primeiro encontramos a distância ponderada que maximiza a separação entre dois grupos de referência, medida pela estatística Bn; e em seguida utilizamos essa distância para classificar novas observações, através de um enfoque comparativo. Estudos de Monte Carlo, no contexto de HDLSS, mostram que o método otimizado apresenta melhores taxas de classificações corretas quando a diferença entre grupos está concentrada em uma fração das componentes do vetor de dados. O uso desta distância otimizada também serve como base para a proposta de um novo teste U otimizado, que verifica se dois grupos de observações são de fato distintos, e também de um novo teste de hipóteses para a classificação. Estudos de simulação mostram que nos cenários simulados, onde o classificador está bem adaptado, ambos os testes apresentam mais poder que os métodos originais. E apresenta uma aplicação dos métodos a um conjunto de dados HDLSS de pacientes de linfoma, no qual o classificador otimizado apresenta resultados favoráveis.Data modeling for clustering and classification in high dimension and low sample size (HDLSS) environments is a challenge in different areas of knowledge. An alternative is the use of non-parametric methods, because they allow for an inferencial approach depending on a few assumptions about the data. In particular, a series of inferencial methods for clustering and classification problems based on U-statistics, implemented in the Uclust R-package, has generated promising results in the HDLSS context. With the objective of making this approach better adapted to different data structures, this work proposes an optimized classification method within this context. The classification is carried out in two stages: first, we find the weighted distance that maximizes the separation between two reference groups, measured by the Bn statistic; and then, we use this distance to classify new observations, through a comparative approach. Monte Carlo studies, in the HDLSS context, show that the optimized method presents better rates of correct classifications when the difference between groups is concentrated in a few components of the data vector. This optimized distance also serves as the basis for the proposal of a new optimized U test, which verifies whether two groups of observations are in fact distinct, and also for a new hypothesis test for classification. Simulation studies show that in scenarios where the classifier is well adapted, both tests are more powerfull than the original methods. An application of these methods in a HDLSS dataset is presented.application/pdfporTamanho da amostraAgrupamentosClassificaçãoHigh dimension low sample sizeU-statisticsClassifierClustering testClassification testClassificação otimizada baseada em U-estatísticasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de Matemática e EstatísticaPrograma de Pós-Graduação em EstatísticaPorto Alegre, BR-RS2023mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001198229.pdf.txt001198229.pdf.txtExtracted Texttext/plain93366http://www.lume.ufrgs.br/bitstream/10183/273741/2/001198229.pdf.txt31702e4eea4714d6227710955238c187MD52ORIGINAL001198229.pdfTexto completoapplication/pdf799080http://www.lume.ufrgs.br/bitstream/10183/273741/1/001198229.pdffff9761222aae89d8348fb8de8db8217MD5110183/2737412024-03-20 04:47:52.144671oai:www.lume.ufrgs.br:10183/273741Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532024-03-20T07:47:52Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Classificação otimizada baseada em U-estatísticas
title	Classificação otimizada baseada em U-estatísticas
spellingShingle	Classificação otimizada baseada em U-estatísticas Soares, Mayara Belló Tamanho da amostra Agrupamentos Classificação High dimension low sample size U-statistics Classifier Clustering test Classification test
title_short	Classificação otimizada baseada em U-estatísticas
title_full	Classificação otimizada baseada em U-estatísticas
title_fullStr	Classificação otimizada baseada em U-estatísticas
title_full_unstemmed	Classificação otimizada baseada em U-estatísticas
title_sort	Classificação otimizada baseada em U-estatísticas
author	Soares, Mayara Belló
author_facet	Soares, Mayara Belló
author_role	author
dc.contributor.author.fl_str_mv	Soares, Mayara Belló
dc.contributor.advisor1.fl_str_mv	Cybis, Gabriela Bettella
dc.contributor.advisor-co1.fl_str_mv	Valk, Márcio
contributor_str_mv	Cybis, Gabriela Bettella Valk, Márcio
dc.subject.por.fl_str_mv	Tamanho da amostra Agrupamentos Classificação
topic	Tamanho da amostra Agrupamentos Classificação High dimension low sample size U-statistics Classifier Clustering test Classification test
dc.subject.eng.fl_str_mv	High dimension low sample size U-statistics Classifier Clustering test Classification test
description	A modelagem de dados visando agrupamento e classificação em ambientes de alta dimensão e baixo tamanho de amostra (HDLSS - High-dimension low-sample size data) é um desafio em diferentes áreas do conhecimento. Uma alternativa é a utilização de métodos não paramétricos, por permitir uma abordagem de inferência dependendo de poucos pressupostos sobre os dados. Em particular, uma série de métodos de inferência para problemas de agrupamento e classificação baseados em U-estatísticas, implementados no pacote uclust do software R, tem gerado resultados promissores no contexto HDLSS. Buscando tornar essa abordagem melhor adaptada a diferentes estruturas de dados, o foco desta dissertação é propor um método otimizado de classificação dentro desse contexto. A classificação é realizada em duas etapas: primeiro encontramos a distância ponderada que maximiza a separação entre dois grupos de referência, medida pela estatística Bn; e em seguida utilizamos essa distância para classificar novas observações, através de um enfoque comparativo. Estudos de Monte Carlo, no contexto de HDLSS, mostram que o método otimizado apresenta melhores taxas de classificações corretas quando a diferença entre grupos está concentrada em uma fração das componentes do vetor de dados. O uso desta distância otimizada também serve como base para a proposta de um novo teste U otimizado, que verifica se dois grupos de observações são de fato distintos, e também de um novo teste de hipóteses para a classificação. Estudos de simulação mostram que nos cenários simulados, onde o classificador está bem adaptado, ambos os testes apresentam mais poder que os métodos originais. E apresenta uma aplicação dos métodos a um conjunto de dados HDLSS de pacientes de linfoma, no qual o classificador otimizado apresenta resultados favoráveis.
publishDate	2023
dc.date.issued.fl_str_mv	2023
dc.date.accessioned.fl_str_mv	2024-03-19T05:03:06Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/273741
dc.identifier.nrb.pt_BR.fl_str_mv	001198229
url	http://hdl.handle.net/10183/273741
identifier_str_mv	001198229
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/273741/2/001198229.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/273741/1/001198229.pdf
bitstream.checksum.fl_str_mv	31702e4eea4714d6227710955238c187 fff9761222aae89d8348fb8de8db8217
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1800309231252930560

Classificação otimizada baseada em U-estatísticas

Registros relacionados