Modelo de mistura com número de componentes desconhecido: estimação via método split-merge
Autor(a) principal: | |
---|---|
Data de Publicação: | 2009 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFSCAR |
Texto Completo: | https://repositorio.ufscar.br/handle/ufscar/4480 |
Resumo: | We propose the split-merge MCMC and birth-split-merge MCMC algorithms to analyse mixture models with an unknown number of components. The strategy for splitting is based on data and posterior distribution. Allocation probabilities are calculated based on component parameters which are generated from the posterior distribution given the previously allocated observations. The split-merge proposals are developed to be reversible and are accepted according to Metropolis-Hastings probability. This procedure makes possible a greater change in configuration of latent variables, in a single iteration of algorithms, allow a major exploration of clusters and avoid possible local modes. As an advantage, our approach determines a quick split proposal in contrary to former split procedures which require substantial computational effort. In the birth-split-merge MCMC algorithm, the birth movement is obtained directly from the procedure to update the latent variables and occurs when an observation determine a new cluster. The performance of the method is verified using artificial data sets and two real data sets. The first real data set consist of benchmark data of velocities from distant galaxies diverging from our own while the second is Escherichia Coli bacterium gene expression data. |
id |
SCAR_0fc8a055f121bbabe19f4b8847d39785 |
---|---|
oai_identifier_str |
oai:repositorio.ufscar.br:ufscar/4480 |
network_acronym_str |
SCAR |
network_name_str |
Repositório Institucional da UFSCAR |
repository_id_str |
4322 |
spelling |
Saraiva, Erlandson FerreiraMilan, Luis Aparecido78d3f62d-90b4-4fe7-9d21-ed78d7dab9d32016-06-02T20:04:50Z2009-12-162016-06-02T20:04:50Z2009-11-30SARAIVA, Erlandson Ferreira. Modelo de mistura com número de componentes desconhecido: estimação via método split-merge. 2009. 106 f. Tese (Doutorado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2009.https://repositorio.ufscar.br/handle/ufscar/4480We propose the split-merge MCMC and birth-split-merge MCMC algorithms to analyse mixture models with an unknown number of components. The strategy for splitting is based on data and posterior distribution. Allocation probabilities are calculated based on component parameters which are generated from the posterior distribution given the previously allocated observations. The split-merge proposals are developed to be reversible and are accepted according to Metropolis-Hastings probability. This procedure makes possible a greater change in configuration of latent variables, in a single iteration of algorithms, allow a major exploration of clusters and avoid possible local modes. As an advantage, our approach determines a quick split proposal in contrary to former split procedures which require substantial computational effort. In the birth-split-merge MCMC algorithm, the birth movement is obtained directly from the procedure to update the latent variables and occurs when an observation determine a new cluster. The performance of the method is verified using artificial data sets and two real data sets. The first real data set consist of benchmark data of velocities from distant galaxies diverging from our own while the second is Escherichia Coli bacterium gene expression data.Propomos uma abordagem bayesiana hierárquica e os algoritmos split-merge MCMC e birth-split-merge MCMC para a estimação conjunta dos parâmetros e do número de componentes de um modelo com mistura de distribuições. A proposta split é baseada nos dados e na distribuição a posteriori dos parâmetros. Nesta proposta, utilizamos probabilidades de alocação que são calculadas de acordo com os parâmetros associados a cada componente, que são gerados da distribuição a posteriori dado as observações previamente alocadas. As propostas split e merge são desenvolvidas para serem reversíveis e são aceitas de acordo com a probabilidade de aceitação de Metropolis-Hastings, para garantir a existência da distribuição estacionária. O algoritmo birth-split-merge apresenta as mesmas propostas split-merge porém este algoritmo permite que ao atualizar uma variável latente, esta seja capaz de determinar o nascimento" (birth) de uma nova componente. Verificamos a performance dos algoritmos propostos utilizando dados artificiais, gerados via simulação, e dois conjuntos de dados reais. O primeiro é o bem conhecido conjunto de dados sobre a velocidade de galáxias e o segundo é um conjunto de dados de expressão gênica. A contribuição teórica presente nesta tese é o desenvolvimento de um pocesso estocástico com base nos movimentos split-merge, que são baseados nos dados. Ou seja, se a amostra é proveniente de uma população composta por k subpopulações, nosso método busca informações sobre as k subpopulações diretamente nos dados observados. Com isso, quando propomos o surgimento de uma nova componente esta sempre tem dados associados, i.e., determina uma partição nos dados observados, e os parâmetros são gerados da distribuição a posteriori, o que não ocorre nos métodos alternativos.Financiadora de Estudos e Projetosapplication/pdfporUniversidade Federal de São CarlosPrograma de Pós-Graduação em Estatística - PPGEsUFSCarBREstatística - análiseMistura de distribuiçõesInferência bayesianaMCMCCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICAModelo de mistura com número de componentes desconhecido: estimação via método split-mergeinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis-1-101874dfd-bd1b-409c-81e8-3185c83eacf2info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINAL2715.pdfapplication/pdf5847504https://repositorio.ufscar.br/bitstream/ufscar/4480/1/2715.pdf33fc1cbb82d98f376e09b5096d9e726cMD51THUMBNAIL2715.pdf.jpg2715.pdf.jpgIM Thumbnailimage/jpeg7176https://repositorio.ufscar.br/bitstream/ufscar/4480/2/2715.pdf.jpge17b6da979ad44830776171edb5dbf19MD52ufscar/44802023-09-18 18:31:01.872oai:repositorio.ufscar.br:ufscar/4480Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:31:01Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
dc.title.por.fl_str_mv |
Modelo de mistura com número de componentes desconhecido: estimação via método split-merge |
title |
Modelo de mistura com número de componentes desconhecido: estimação via método split-merge |
spellingShingle |
Modelo de mistura com número de componentes desconhecido: estimação via método split-merge Saraiva, Erlandson Ferreira Estatística - análise Mistura de distribuições Inferência bayesiana MCMC CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA |
title_short |
Modelo de mistura com número de componentes desconhecido: estimação via método split-merge |
title_full |
Modelo de mistura com número de componentes desconhecido: estimação via método split-merge |
title_fullStr |
Modelo de mistura com número de componentes desconhecido: estimação via método split-merge |
title_full_unstemmed |
Modelo de mistura com número de componentes desconhecido: estimação via método split-merge |
title_sort |
Modelo de mistura com número de componentes desconhecido: estimação via método split-merge |
author |
Saraiva, Erlandson Ferreira |
author_facet |
Saraiva, Erlandson Ferreira |
author_role |
author |
dc.contributor.author.fl_str_mv |
Saraiva, Erlandson Ferreira |
dc.contributor.advisor1.fl_str_mv |
Milan, Luis Aparecido |
dc.contributor.authorID.fl_str_mv |
78d3f62d-90b4-4fe7-9d21-ed78d7dab9d3 |
contributor_str_mv |
Milan, Luis Aparecido |
dc.subject.por.fl_str_mv |
Estatística - análise Mistura de distribuições Inferência bayesiana MCMC |
topic |
Estatística - análise Mistura de distribuições Inferência bayesiana MCMC CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA |
description |
We propose the split-merge MCMC and birth-split-merge MCMC algorithms to analyse mixture models with an unknown number of components. The strategy for splitting is based on data and posterior distribution. Allocation probabilities are calculated based on component parameters which are generated from the posterior distribution given the previously allocated observations. The split-merge proposals are developed to be reversible and are accepted according to Metropolis-Hastings probability. This procedure makes possible a greater change in configuration of latent variables, in a single iteration of algorithms, allow a major exploration of clusters and avoid possible local modes. As an advantage, our approach determines a quick split proposal in contrary to former split procedures which require substantial computational effort. In the birth-split-merge MCMC algorithm, the birth movement is obtained directly from the procedure to update the latent variables and occurs when an observation determine a new cluster. The performance of the method is verified using artificial data sets and two real data sets. The first real data set consist of benchmark data of velocities from distant galaxies diverging from our own while the second is Escherichia Coli bacterium gene expression data. |
publishDate |
2009 |
dc.date.available.fl_str_mv |
2009-12-16 2016-06-02T20:04:50Z |
dc.date.issued.fl_str_mv |
2009-11-30 |
dc.date.accessioned.fl_str_mv |
2016-06-02T20:04:50Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
SARAIVA, Erlandson Ferreira. Modelo de mistura com número de componentes desconhecido: estimação via método split-merge. 2009. 106 f. Tese (Doutorado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2009. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/ufscar/4480 |
identifier_str_mv |
SARAIVA, Erlandson Ferreira. Modelo de mistura com número de componentes desconhecido: estimação via método split-merge. 2009. 106 f. Tese (Doutorado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2009. |
url |
https://repositorio.ufscar.br/handle/ufscar/4480 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.confidence.fl_str_mv |
-1 -1 |
dc.relation.authority.fl_str_mv |
01874dfd-bd1b-409c-81e8-3185c83eacf2 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Estatística - PPGEs |
dc.publisher.initials.fl_str_mv |
UFSCar |
dc.publisher.country.fl_str_mv |
BR |
publisher.none.fl_str_mv |
Universidade Federal de São Carlos |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
instname_str |
Universidade Federal de São Carlos (UFSCAR) |
instacron_str |
UFSCAR |
institution |
UFSCAR |
reponame_str |
Repositório Institucional da UFSCAR |
collection |
Repositório Institucional da UFSCAR |
bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstream/ufscar/4480/1/2715.pdf https://repositorio.ufscar.br/bitstream/ufscar/4480/2/2715.pdf.jpg |
bitstream.checksum.fl_str_mv |
33fc1cbb82d98f376e09b5096d9e726c e17b6da979ad44830776171edb5dbf19 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
repository.mail.fl_str_mv |
|
_version_ |
1813715536145547264 |