Árvores de classificação multivariadas fundamentadas em coeficientes de dissimilaridade e entropia.

Detalhes bibliográficos
Autor(a) principal: Taconeli, Cesar Augusto
Data de Publicação: 2008
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/11/11134/tde-15102008-082243/
Resumo: A análise estatística de grandes bancos de dados requer a utilização de metodologias flexíveis, capazes de produzir resultados esclarecedores e facilmente compreensíveis frente a dificuldades como a presença de números elevados de variáveis, diferentes graus de associações entre as mesmas e dados ausentes. A construção de árvores de classificação e regressão proporciona a modelagem de uma variável resposta, categorizada ou numérica, com base em um conjunto de covariáveis, sem esbarrar nas dificuldades mencionadas. A extensão multivariada de técnicas de classificação e regressão por árvores visa permitir a análise conjunta de duas ou mais variáveis respostas. Embora seja objeto de estudos recentes, a proposição de técnicas multivariadas de classificação e regressão por árvores tem sido verificada de maneira mais acentuada para situações em que se dispõe de múltiplas variáveis respostas numéricas. Propõemse, neste trabalho, novas alternativas para a construção de árvores de classificação multivariadas, visando analisar múltiplas variáveis respostas categorizadas. Tais alternativas baseiam-se em medidas de dissimilaridade e entropia. Por meio de um estudo de simulação, verificou-se o efeito das correlações e entropias das variáveis no desempenho das metodologias propostas (os resultados são melhores quanto maiores as entropias e correlações das variáveis sob estudo). A análise de dados de consumo de álcool e fumo dos habitantes do município de Botucatu-SP complementa o presente estudo, evidenciando, dentre outras coisas, que fatores como o grau de escolaridade, a ocupação profissional e a possibilidade de compartilhar problemas com amigos têm influência sobre os consumos de álcool e fumo dos habitantes.
id USP_db4edd49fb19ddb9d4121c63d89e05f6
oai_identifier_str oai:teses.usp.br:tde-15102008-082243
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Árvores de classificação multivariadas fundamentadas em coeficientes de dissimilaridade e entropia.Multivariate classification trees based on dissimilarity and entropy coefficientsAlcoholÁlcoolAnálise multivariadaEntropia - Matemática aplicadaEntropy - applied mathematicsFumoMltivariate analysisSimulação - Estatística.Simulation - Statistics.SmokeA análise estatística de grandes bancos de dados requer a utilização de metodologias flexíveis, capazes de produzir resultados esclarecedores e facilmente compreensíveis frente a dificuldades como a presença de números elevados de variáveis, diferentes graus de associações entre as mesmas e dados ausentes. A construção de árvores de classificação e regressão proporciona a modelagem de uma variável resposta, categorizada ou numérica, com base em um conjunto de covariáveis, sem esbarrar nas dificuldades mencionadas. A extensão multivariada de técnicas de classificação e regressão por árvores visa permitir a análise conjunta de duas ou mais variáveis respostas. Embora seja objeto de estudos recentes, a proposição de técnicas multivariadas de classificação e regressão por árvores tem sido verificada de maneira mais acentuada para situações em que se dispõe de múltiplas variáveis respostas numéricas. Propõemse, neste trabalho, novas alternativas para a construção de árvores de classificação multivariadas, visando analisar múltiplas variáveis respostas categorizadas. Tais alternativas baseiam-se em medidas de dissimilaridade e entropia. Por meio de um estudo de simulação, verificou-se o efeito das correlações e entropias das variáveis no desempenho das metodologias propostas (os resultados são melhores quanto maiores as entropias e correlações das variáveis sob estudo). A análise de dados de consumo de álcool e fumo dos habitantes do município de Botucatu-SP complementa o presente estudo, evidenciando, dentre outras coisas, que fatores como o grau de escolaridade, a ocupação profissional e a possibilidade de compartilhar problemas com amigos têm influência sobre os consumos de álcool e fumo dos habitantes.The statistical analysis of large datasets requires the use of flexible methodologies, that can provide insight and understanding even in the presence of difficulties such as large numbers of variables having variable levels of association between themselves, and missing data. The construction of classification and regression trees allows for modeling of a categorical or numerical response variable as a function a set of covariates, while bypassing many of the cited difficulties. Multivariate trees extend classification and regression techniques to allow for joint analysis of two or more response variables. In recent studies, application of multivariate classification and regression techniques has been most common in situations involving numerical response variables. In this work we propose alternatives for constructing multivariate classification trees for multiple categorized response variables. Such alternatives are based on dissimilarity and entropy measures. A simulation study was used to examine the effect of variable correlations and entropies on the performance of the proposed methodology (results are better for high correlations and entropies). Analysis of data on alcohol consumption and smoking among inhabitants from Botucatu (SP) complements the analysis by showing that factors as the education level, daily occupation and possibility of sharing problems with friends have an influence on the alcohol consumption and smoking.Biblioteca Digitais de Teses e Dissertações da USPZocchi, Silvio SandovalTaconeli, Cesar Augusto2008-08-26info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/11/11134/tde-15102008-082243/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2016-07-28T16:09:57Zoai:teses.usp.br:tde-15102008-082243Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212016-07-28T16:09:57Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Árvores de classificação multivariadas fundamentadas em coeficientes de dissimilaridade e entropia.
Multivariate classification trees based on dissimilarity and entropy coefficients
title Árvores de classificação multivariadas fundamentadas em coeficientes de dissimilaridade e entropia.
spellingShingle Árvores de classificação multivariadas fundamentadas em coeficientes de dissimilaridade e entropia.
Taconeli, Cesar Augusto
Alcohol
Álcool
Análise multivariada
Entropia - Matemática aplicada
Entropy - applied mathematics
Fumo
Mltivariate analysis
Simulação - Estatística.
Simulation - Statistics.
Smoke
title_short Árvores de classificação multivariadas fundamentadas em coeficientes de dissimilaridade e entropia.
title_full Árvores de classificação multivariadas fundamentadas em coeficientes de dissimilaridade e entropia.
title_fullStr Árvores de classificação multivariadas fundamentadas em coeficientes de dissimilaridade e entropia.
title_full_unstemmed Árvores de classificação multivariadas fundamentadas em coeficientes de dissimilaridade e entropia.
title_sort Árvores de classificação multivariadas fundamentadas em coeficientes de dissimilaridade e entropia.
author Taconeli, Cesar Augusto
author_facet Taconeli, Cesar Augusto
author_role author
dc.contributor.none.fl_str_mv Zocchi, Silvio Sandoval
dc.contributor.author.fl_str_mv Taconeli, Cesar Augusto
dc.subject.por.fl_str_mv Alcohol
Álcool
Análise multivariada
Entropia - Matemática aplicada
Entropy - applied mathematics
Fumo
Mltivariate analysis
Simulação - Estatística.
Simulation - Statistics.
Smoke
topic Alcohol
Álcool
Análise multivariada
Entropia - Matemática aplicada
Entropy - applied mathematics
Fumo
Mltivariate analysis
Simulação - Estatística.
Simulation - Statistics.
Smoke
description A análise estatística de grandes bancos de dados requer a utilização de metodologias flexíveis, capazes de produzir resultados esclarecedores e facilmente compreensíveis frente a dificuldades como a presença de números elevados de variáveis, diferentes graus de associações entre as mesmas e dados ausentes. A construção de árvores de classificação e regressão proporciona a modelagem de uma variável resposta, categorizada ou numérica, com base em um conjunto de covariáveis, sem esbarrar nas dificuldades mencionadas. A extensão multivariada de técnicas de classificação e regressão por árvores visa permitir a análise conjunta de duas ou mais variáveis respostas. Embora seja objeto de estudos recentes, a proposição de técnicas multivariadas de classificação e regressão por árvores tem sido verificada de maneira mais acentuada para situações em que se dispõe de múltiplas variáveis respostas numéricas. Propõemse, neste trabalho, novas alternativas para a construção de árvores de classificação multivariadas, visando analisar múltiplas variáveis respostas categorizadas. Tais alternativas baseiam-se em medidas de dissimilaridade e entropia. Por meio de um estudo de simulação, verificou-se o efeito das correlações e entropias das variáveis no desempenho das metodologias propostas (os resultados são melhores quanto maiores as entropias e correlações das variáveis sob estudo). A análise de dados de consumo de álcool e fumo dos habitantes do município de Botucatu-SP complementa o presente estudo, evidenciando, dentre outras coisas, que fatores como o grau de escolaridade, a ocupação profissional e a possibilidade de compartilhar problemas com amigos têm influência sobre os consumos de álcool e fumo dos habitantes.
publishDate 2008
dc.date.none.fl_str_mv 2008-08-26
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/11/11134/tde-15102008-082243/
url http://www.teses.usp.br/teses/disponiveis/11/11134/tde-15102008-082243/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257031666302976