Modelo de mistura com número de componentes desconhecido: estimação via método split-merge

Detalhes bibliográficos
Autor(a) principal: Saraiva, Erlandson Ferreira
Data de Publicação: 2009
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFSCAR
Texto Completo: https://repositorio.ufscar.br/handle/ufscar/4480
Resumo: We propose the split-merge MCMC and birth-split-merge MCMC algorithms to analyse mixture models with an unknown number of components. The strategy for splitting is based on data and posterior distribution. Allocation probabilities are calculated based on component parameters which are generated from the posterior distribution given the previously allocated observations. The split-merge proposals are developed to be reversible and are accepted according to Metropolis-Hastings probability. This procedure makes possible a greater change in configuration of latent variables, in a single iteration of algorithms, allow a major exploration of clusters and avoid possible local modes. As an advantage, our approach determines a quick split proposal in contrary to former split procedures which require substantial computational effort. In the birth-split-merge MCMC algorithm, the birth movement is obtained directly from the procedure to update the latent variables and occurs when an observation determine a new cluster. The performance of the method is verified using artificial data sets and two real data sets. The first real data set consist of benchmark data of velocities from distant galaxies diverging from our own while the second is Escherichia Coli bacterium gene expression data.
id SCAR_0fc8a055f121bbabe19f4b8847d39785
oai_identifier_str oai:repositorio.ufscar.br:ufscar/4480
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Saraiva, Erlandson FerreiraMilan, Luis Aparecido78d3f62d-90b4-4fe7-9d21-ed78d7dab9d32016-06-02T20:04:50Z2009-12-162016-06-02T20:04:50Z2009-11-30SARAIVA, Erlandson Ferreira. Modelo de mistura com número de componentes desconhecido: estimação via método split-merge. 2009. 106 f. Tese (Doutorado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2009.https://repositorio.ufscar.br/handle/ufscar/4480We propose the split-merge MCMC and birth-split-merge MCMC algorithms to analyse mixture models with an unknown number of components. The strategy for splitting is based on data and posterior distribution. Allocation probabilities are calculated based on component parameters which are generated from the posterior distribution given the previously allocated observations. The split-merge proposals are developed to be reversible and are accepted according to Metropolis-Hastings probability. This procedure makes possible a greater change in configuration of latent variables, in a single iteration of algorithms, allow a major exploration of clusters and avoid possible local modes. As an advantage, our approach determines a quick split proposal in contrary to former split procedures which require substantial computational effort. In the birth-split-merge MCMC algorithm, the birth movement is obtained directly from the procedure to update the latent variables and occurs when an observation determine a new cluster. The performance of the method is verified using artificial data sets and two real data sets. The first real data set consist of benchmark data of velocities from distant galaxies diverging from our own while the second is Escherichia Coli bacterium gene expression data.Propomos uma abordagem bayesiana hierárquica e os algoritmos split-merge MCMC e birth-split-merge MCMC para a estimação conjunta dos parâmetros e do número de componentes de um modelo com mistura de distribuições. A proposta split é baseada nos dados e na distribuição a posteriori dos parâmetros. Nesta proposta, utilizamos probabilidades de alocação que são calculadas de acordo com os parâmetros associados a cada componente, que são gerados da distribuição a posteriori dado as observações previamente alocadas. As propostas split e merge são desenvolvidas para serem reversíveis e são aceitas de acordo com a probabilidade de aceitação de Metropolis-Hastings, para garantir a existência da distribuição estacionária. O algoritmo birth-split-merge apresenta as mesmas propostas split-merge porém este algoritmo permite que ao atualizar uma variável latente, esta seja capaz de determinar o nascimento" (birth) de uma nova componente. Verificamos a performance dos algoritmos propostos utilizando dados artificiais, gerados via simulação, e dois conjuntos de dados reais. O primeiro é o bem conhecido conjunto de dados sobre a velocidade de galáxias e o segundo é um conjunto de dados de expressão gênica. A contribuição teórica presente nesta tese é o desenvolvimento de um pocesso estocástico com base nos movimentos split-merge, que são baseados nos dados. Ou seja, se a amostra é proveniente de uma população composta por k subpopulações, nosso método busca informações sobre as k subpopulações diretamente nos dados observados. Com isso, quando propomos o surgimento de uma nova componente esta sempre tem dados associados, i.e., determina uma partição nos dados observados, e os parâmetros são gerados da distribuição a posteriori, o que não ocorre nos métodos alternativos.Financiadora de Estudos e Projetosapplication/pdfporUniversidade Federal de São CarlosPrograma de Pós-Graduação em Estatística - PPGEsUFSCarBREstatística - análiseMistura de distribuiçõesInferência bayesianaMCMCCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICAModelo de mistura com número de componentes desconhecido: estimação via método split-mergeinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis-1-101874dfd-bd1b-409c-81e8-3185c83eacf2info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINAL2715.pdfapplication/pdf5847504https://repositorio.ufscar.br/bitstream/ufscar/4480/1/2715.pdf33fc1cbb82d98f376e09b5096d9e726cMD51THUMBNAIL2715.pdf.jpg2715.pdf.jpgIM Thumbnailimage/jpeg7176https://repositorio.ufscar.br/bitstream/ufscar/4480/2/2715.pdf.jpge17b6da979ad44830776171edb5dbf19MD52ufscar/44802023-09-18 18:31:01.872oai:repositorio.ufscar.br:ufscar/4480Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:31:01Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Modelo de mistura com número de componentes desconhecido: estimação via método split-merge
title Modelo de mistura com número de componentes desconhecido: estimação via método split-merge
spellingShingle Modelo de mistura com número de componentes desconhecido: estimação via método split-merge
Saraiva, Erlandson Ferreira
Estatística - análise
Mistura de distribuições
Inferência bayesiana
MCMC
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA
title_short Modelo de mistura com número de componentes desconhecido: estimação via método split-merge
title_full Modelo de mistura com número de componentes desconhecido: estimação via método split-merge
title_fullStr Modelo de mistura com número de componentes desconhecido: estimação via método split-merge
title_full_unstemmed Modelo de mistura com número de componentes desconhecido: estimação via método split-merge
title_sort Modelo de mistura com número de componentes desconhecido: estimação via método split-merge
author Saraiva, Erlandson Ferreira
author_facet Saraiva, Erlandson Ferreira
author_role author
dc.contributor.author.fl_str_mv Saraiva, Erlandson Ferreira
dc.contributor.advisor1.fl_str_mv Milan, Luis Aparecido
dc.contributor.authorID.fl_str_mv 78d3f62d-90b4-4fe7-9d21-ed78d7dab9d3
contributor_str_mv Milan, Luis Aparecido
dc.subject.por.fl_str_mv Estatística - análise
Mistura de distribuições
Inferência bayesiana
MCMC
topic Estatística - análise
Mistura de distribuições
Inferência bayesiana
MCMC
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA
description We propose the split-merge MCMC and birth-split-merge MCMC algorithms to analyse mixture models with an unknown number of components. The strategy for splitting is based on data and posterior distribution. Allocation probabilities are calculated based on component parameters which are generated from the posterior distribution given the previously allocated observations. The split-merge proposals are developed to be reversible and are accepted according to Metropolis-Hastings probability. This procedure makes possible a greater change in configuration of latent variables, in a single iteration of algorithms, allow a major exploration of clusters and avoid possible local modes. As an advantage, our approach determines a quick split proposal in contrary to former split procedures which require substantial computational effort. In the birth-split-merge MCMC algorithm, the birth movement is obtained directly from the procedure to update the latent variables and occurs when an observation determine a new cluster. The performance of the method is verified using artificial data sets and two real data sets. The first real data set consist of benchmark data of velocities from distant galaxies diverging from our own while the second is Escherichia Coli bacterium gene expression data.
publishDate 2009
dc.date.available.fl_str_mv 2009-12-16
2016-06-02T20:04:50Z
dc.date.issued.fl_str_mv 2009-11-30
dc.date.accessioned.fl_str_mv 2016-06-02T20:04:50Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SARAIVA, Erlandson Ferreira. Modelo de mistura com número de componentes desconhecido: estimação via método split-merge. 2009. 106 f. Tese (Doutorado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2009.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/ufscar/4480
identifier_str_mv SARAIVA, Erlandson Ferreira. Modelo de mistura com número de componentes desconhecido: estimação via método split-merge. 2009. 106 f. Tese (Doutorado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2009.
url https://repositorio.ufscar.br/handle/ufscar/4480
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv -1
-1
dc.relation.authority.fl_str_mv 01874dfd-bd1b-409c-81e8-3185c83eacf2
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Estatística - PPGEs
dc.publisher.initials.fl_str_mv UFSCar
dc.publisher.country.fl_str_mv BR
publisher.none.fl_str_mv Universidade Federal de São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstream/ufscar/4480/1/2715.pdf
https://repositorio.ufscar.br/bitstream/ufscar/4480/2/2715.pdf.jpg
bitstream.checksum.fl_str_mv 33fc1cbb82d98f376e09b5096d9e726c
e17b6da979ad44830776171edb5dbf19
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_ 1813715536145547264