Utility clustering with ordinal data

Detalhes bibliográficos
Autor(a) principal: Oliveira, Luís Fernando Cruz
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/80559
Resumo: Dissertação de mestrado em Estatística
id RCAP_f6635a7aaca8e547a6105ebbf35c2bfd
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/80559
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Utility clustering with ordinal dataCARTClusteringImplementação em ROtimizaçãoUtilidadeImplementation in ROptimizationUtilityCiências Naturais::MatemáticasDissertação de mestrado em EstatísticaO objetivo desta tese é aplicar a teoria de utilidade no contexto de análise de clusters para dados ordenados (numéricos ou não numéricos). Pretende-se elaborar partições por “pacotes” seguindo o princípio de K-median clustering. O principal problema é a construção de clusters com dados que não permitem operações algébricas usando a mediana como representativo. Esta nova tecnologia irá ajudar a tomada de decisão através de preferência baseada na utilidade dos dados que refletem o problema. Teorizamos duas formas de aplicar este clustering de utilidade introduzindo funções de perda específicas. A primeira, denominada “Classe de utilidade mínimo e máximo”, é baseada na avaliação das utilidades mínima e máxima dos clusters. A segunda, denominada “Classe de utilidade ponderada”, é estabelecida através do diferencial de utilidades entre os elementos de um cluster e o seu representativo. Dois algoritmos derivados do estudo teórico foram desenvolvidos e implementados usando a linguagem de programação R. O primeiro é um algoritmo de força bruta que permite alcançar a solução de partição exata. Em particular, provámos numericamente que a “Classe de utilidade mínimo e máximo” não é uma perspetiva viável pois desperdiça informação e não determina partições oportunas tendo em conta o objetivo do problema (partições triviais que não são aproveitáveis). Devido ao insustentável esforço computacional que o algoritmo de força bruta requer, um algoritmo alternativo baseado na técnica CART é proposto. Primeiro, fizemos experiências e comparamos as técnicas numéricas com apenas um atributo. Enquanto que o algoritmo de força bruta fornece pela sua génese a solução exata, já o método CART mostrou bons valores de exatidão com um menor esforço computacional e resultados mais rápidos. Prosseguindo para o caso de dois atributos, o CART provou ser de confiança, mostrando bons valores de exatidão. Juntamente com os algoritmos, foram testadas diferentes funções de utilidade. Em particular, reportamos a forte influência destas na forma como os clusters são construídos, dando ênfase ao facto de que em ambas as situações, os clusters eram sempre coesos. Aplicações desta nova tecnologia para simular problemas ditos reais foram realizadas com sucesso utilizando a análise de utilidade de cluster. No entanto, o algoritmo CART apresenta algumas fragilidades com funções de utilidade não monótonas que conduzem a clusters não conexos e levantam futuros desafios para a criação de algoritmos mais eficientes como resposta para esta situação complexa.The purpose of this thesis is to apply the utility theory in the context of cluster analysis for ordinal data (numerical or non-numerical). We aim at elaborating partitions of “packages” following the K-median clustering principle. The main issue is the construction of clusters with data that do not support algebraic operations and using the median as the represen tative. Such a new technology will help the decision making through preference based on the utility of the data that reflects the problem. We theorized two ways of performing this utility clustering by introducing specific loss functions. The first one, named “Min and max utility class”, is based on the evaluation of minimum and maximum utilities of the clusters. The second one, denoted “Weighted average utility class”, is established on the utility differential between the elements of a cluster to its representative. Two algorithms deriving from the theoretical study were developed and implemented using the R language. The first one is the brute force algorithm that enables to provide the exact partition solution. In particular, we numerically proved that the “Min and max utility class” is not a viable perspective since it wastes information and does not determine pertinent partitions regarded the objective of the problem (trivial partitions that are not exploitable). Due to the large and unsustainable computational effort of the brute force algorithm, an alternative algorithm based on the CART strategy is proposed. We first experiment and compare the numerical techniques with just one attribute. While the brute force provides the exact solution by construction, the CART method showed good accuracy values but with lower computational efforts and faster results. Proceeding to the case of two attributes, the CART proved to be reliable, showing good accuracy values. Together with the algorithms, several utility functions have been tested. In particular, we report the strong influences in the way the clusters are designed, stressing that in both situations, the clusters were always cohesive. Applications of the new technology to simulate real life problems have been carried out successfully by using utility-clustering analysis. However, the CART algorithm presents some weaknesses with non monotone utility functions that leads to non-connected clusters and gives rise to future challenges to design more efficient algorithms for that complex situation.Clain, StéphaneBrito, IreneUniversidade do MinhoOliveira, Luís Fernando Cruz2021-04-262021-04-26T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/80559eng202991059info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-12-16T01:18:11Zoai:repositorium.sdum.uminho.pt:1822/80559Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T18:57:27.194917Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Utility clustering with ordinal data
title Utility clustering with ordinal data
spellingShingle Utility clustering with ordinal data
Oliveira, Luís Fernando Cruz
CART
Clustering
Implementação em R
Otimização
Utilidade
Implementation in R
Optimization
Utility
Ciências Naturais::Matemáticas
title_short Utility clustering with ordinal data
title_full Utility clustering with ordinal data
title_fullStr Utility clustering with ordinal data
title_full_unstemmed Utility clustering with ordinal data
title_sort Utility clustering with ordinal data
author Oliveira, Luís Fernando Cruz
author_facet Oliveira, Luís Fernando Cruz
author_role author
dc.contributor.none.fl_str_mv Clain, Stéphane
Brito, Irene
Universidade do Minho
dc.contributor.author.fl_str_mv Oliveira, Luís Fernando Cruz
dc.subject.por.fl_str_mv CART
Clustering
Implementação em R
Otimização
Utilidade
Implementation in R
Optimization
Utility
Ciências Naturais::Matemáticas
topic CART
Clustering
Implementação em R
Otimização
Utilidade
Implementation in R
Optimization
Utility
Ciências Naturais::Matemáticas
description Dissertação de mestrado em Estatística
publishDate 2021
dc.date.none.fl_str_mv 2021-04-26
2021-04-26T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/80559
url https://hdl.handle.net/1822/80559
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 202991059
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132363177852928