Inferência em assinaturas de amostras em cadeias de memória de alcance variável

Wecsley Otero Prates

Inferência em assinaturas de amostras em cadeias de memória de alcance variável

Detalhes bibliográficos
Autor(a) principal:	Wecsley Otero Prates
Data de Publicação:	2011
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFMG
Texto Completo:	http://hdl.handle.net/1843/ICED-8TFFLC
Resumo:	A análise de um modelo estocástico que descreva, realisticamente, uma situação prática é um grande desafio, em particular porque os fenômenos reais exibem várias dependências. Neste contexto os modelos markovianos desempenham um papel fundamental, uma vezque permitem soluções mais ecientes. Uma cadeia de Markov fXt; t 2 Zg de ordem k assumindo valores em um alfabeto A nito tem jAjk(jAj .. 1) parâmetros a serem estimados. Esse número cresce exponencialmente em k e, portanto, pode tornar-se inviável mesmo para valores não muito Uma alternativa mais viável do ponto de vista da estimação, é a utilização de Cadeias de Memória de Alcance Variável (VLMC), conhecidas também por Árvores Probabilísticas de Contexto (PCT). O modelo VLMC foi introduzido por Rissanen em 1983. Nesse modelo o tamanho do passado relevante para prever o próximo símbolo muda de uma sequência para outra. Desta forma, o número de parâmetros a serem estimados dimimui muito, uma vez que não precisamos considerar todos os passados de ordem k, mas apenas aqueles relevantes que, em geral, são em número bem menor.grandes de k. A estimação dos parâmetros do modelo VLMC pode ser feita de maneira consistente através do critério de informação Bayesiano (BIC). O estimador BIC consiste em penalisar a máxima verossimilhança pelo número de parâmetros a serem estimados, estabelecendoum equilíbrio entre a verossimilhança e o número de parâmetros do modelo. Nesse trabalho foi utilizada a metodologia BIC para estimar as VLMC's baseado no algoritmo proposto no artigo de Csiszar e Talata(2006). Construímos um programa na linguagem R www.r-project.org) para fazer a estimação das VLMC e utilizamos umavariante desse algoritmo, proposto em Galves et al (2011), para estimar os valores das constantes de penalização C de cada VLMC candidata dada uma amostra da cadeia. Uma constante ótima de penalização é obtida mudando os valores da constante de penalização e escolhendo aquela que agrega um valor signicativo à verossimilhança . Para cada valor de C, temos um valor da penalização da verossimilhança, obtendo assim uma sequência de constantes de penalização Cn > Cn..1 > : : : > Copt, que chamamos de Assinatura da Amostra. E de acordo com a assinatura deixada pela amostra, encontramos um padrãode diferenciação entre textos do Corpus Histórico Tycho Brahe (www.tycho.unicamp.br) através da metodologia das Equações de Estimação Generalizadas (GEE) que vai de encontroà conjectura linguística que diz que houve mudança no ritmo do Português Brasileiro por volta do século 17.

Metadados do item

id	UFMG_658ccf8746e8a599909fe9886e2ae8cd
oai_identifier_str	oai:repositorio.ufmg.br:1843/ICED-8TFFLC
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Denise Duarte Scarpa Magalhaes AlvesMarcos Antonio da Cunha SantosEnrico Antonio ColosimoMarcos Antonio da Cunha SantosGustavo leonel GlardoniWecsley Otero Prates2019-08-13T07:13:52Z2019-08-13T07:13:52Z2011-11-25http://hdl.handle.net/1843/ICED-8TFFLCA análise de um modelo estocástico que descreva, realisticamente, uma situação prática é um grande desafio, em particular porque os fenômenos reais exibem várias dependências. Neste contexto os modelos markovianos desempenham um papel fundamental, uma vezque permitem soluções mais ecientes. Uma cadeia de Markov fXt; t 2 Zg de ordem k assumindo valores em um alfabeto A nito tem jAjk(jAj .. 1) parâmetros a serem estimados. Esse número cresce exponencialmente em k e, portanto, pode tornar-se inviável mesmo para valores não muito Uma alternativa mais viável do ponto de vista da estimação, é a utilização de Cadeias de Memória de Alcance Variável (VLMC), conhecidas também por Árvores Probabilísticas de Contexto (PCT). O modelo VLMC foi introduzido por Rissanen em 1983. Nesse modelo o tamanho do passado relevante para prever o próximo símbolo muda de uma sequência para outra. Desta forma, o número de parâmetros a serem estimados dimimui muito, uma vez que não precisamos considerar todos os passados de ordem k, mas apenas aqueles relevantes que, em geral, são em número bem menor.grandes de k. A estimação dos parâmetros do modelo VLMC pode ser feita de maneira consistente através do critério de informação Bayesiano (BIC). O estimador BIC consiste em penalisar a máxima verossimilhança pelo número de parâmetros a serem estimados, estabelecendoum equilíbrio entre a verossimilhança e o número de parâmetros do modelo. Nesse trabalho foi utilizada a metodologia BIC para estimar as VLMC's baseado no algoritmo proposto no artigo de Csiszar e Talata(2006). Construímos um programa na linguagem R www.r-project.org) para fazer a estimação das VLMC e utilizamos umavariante desse algoritmo, proposto em Galves et al (2011), para estimar os valores das constantes de penalização C de cada VLMC candidata dada uma amostra da cadeia. Uma constante ótima de penalização é obtida mudando os valores da constante de penalização e escolhendo aquela que agrega um valor signicativo à verossimilhança . Para cada valor de C, temos um valor da penalização da verossimilhança, obtendo assim uma sequência de constantes de penalização Cn > Cn..1 > : : : > Copt, que chamamos de Assinatura da Amostra. E de acordo com a assinatura deixada pela amostra, encontramos um padrãode diferenciação entre textos do Corpus Histórico Tycho Brahe (www.tycho.unicamp.br) através da metodologia das Equações de Estimação Generalizadas (GEE) que vai de encontroà conjectura linguística que diz que houve mudança no ritmo do Português Brasileiro por volta do século 17.The analysis of a stochastic model to describe realistically a practical situation is a hallenge often insurmountable, especially because the real phenomena exhibit dierent dependencies. In this context the Markov models play a fundamental role, since they allow more ecient solutions. A Markov chain fXt; t 2 Zg of order k taking values on an alphabet A nite, has jAjk(jAj .. 1) parameter to be estimated. This number growsexponentially in k, and therefore a more viable alternative in terms of estimation, is the use of variable length memory chains (VLMC), also known in literature as Probabilistic Context Tree (PCT), since in this model we have, in general, to estimate fewer parameters. In this work we introduce the Sample Signature of a Probabilistic Context Tree (PCT) or VLMC, as a way to distinguish samples of discrete random variables coming from dierent sources. The PCT model is much more interesting than Markov chains of xed order because it is more parsimonious in the sense that we need fewer parameters to describe it. Moreover, we introduce the Sample Signature of a PCT and show that it can bring more information about the generating source than the model itself. We face in this work the challenge of prosodic patterns detention in the written texts of the Historical Portuguese Corpus Tycho Brahe by using the Sample Signatures of the texts. We also use the Generalized Estimating Equation marginal model as a tool to obtain the results.Universidade Federal de Minas GeraisUFMGEstatísticaÁrovre de contextoAssinatura da amostraEquações de estimação generalizadaCadeias de memória de alcance variávelInferência em assinaturas de amostras em cadeias de memória de alcance variávelinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALmestradowesley.pdfapplication/pdf816371https://repositorio.ufmg.br/bitstream/1843/ICED-8TFFLC/1/mestradowesley.pdfa37773627052e6cc65c4ff5602429678MD51TEXTmestradowesley.pdf.txtmestradowesley.pdf.txtExtracted texttext/plain78580https://repositorio.ufmg.br/bitstream/1843/ICED-8TFFLC/2/mestradowesley.pdf.txt1fed3dbe46762f816b01ebbe4510ba5bMD521843/ICED-8TFFLC2019-11-14 21:54:31.047oai:repositorio.ufmg.br:1843/ICED-8TFFLCRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-15T00:54:31Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv	Inferência em assinaturas de amostras em cadeias de memória de alcance variável
title	Inferência em assinaturas de amostras em cadeias de memória de alcance variável
spellingShingle	Inferência em assinaturas de amostras em cadeias de memória de alcance variável Wecsley Otero Prates Árovre de contexto Assinatura da amostra Equações de estimação generalizada Cadeias de memória de alcance variável Estatística
title_short	Inferência em assinaturas de amostras em cadeias de memória de alcance variável
title_full	Inferência em assinaturas de amostras em cadeias de memória de alcance variável
title_fullStr	Inferência em assinaturas de amostras em cadeias de memória de alcance variável
title_full_unstemmed	Inferência em assinaturas de amostras em cadeias de memória de alcance variável
title_sort	Inferência em assinaturas de amostras em cadeias de memória de alcance variável
author	Wecsley Otero Prates
author_facet	Wecsley Otero Prates
author_role	author
dc.contributor.advisor1.fl_str_mv	Denise Duarte Scarpa Magalhaes Alves
dc.contributor.advisor-co1.fl_str_mv	Marcos Antonio da Cunha Santos
dc.contributor.referee1.fl_str_mv	Enrico Antonio Colosimo
dc.contributor.referee2.fl_str_mv	Marcos Antonio da Cunha Santos
dc.contributor.referee3.fl_str_mv	Gustavo leonel Glardoni
dc.contributor.author.fl_str_mv	Wecsley Otero Prates
contributor_str_mv	Denise Duarte Scarpa Magalhaes Alves Marcos Antonio da Cunha Santos Enrico Antonio Colosimo Marcos Antonio da Cunha Santos Gustavo leonel Glardoni
dc.subject.por.fl_str_mv	Árovre de contexto Assinatura da amostra Equações de estimação generalizada Cadeias de memória de alcance variável
topic	Árovre de contexto Assinatura da amostra Equações de estimação generalizada Cadeias de memória de alcance variável Estatística
dc.subject.other.pt_BR.fl_str_mv	Estatística
description	A análise de um modelo estocástico que descreva, realisticamente, uma situação prática é um grande desafio, em particular porque os fenômenos reais exibem várias dependências. Neste contexto os modelos markovianos desempenham um papel fundamental, uma vezque permitem soluções mais ecientes. Uma cadeia de Markov fXt; t 2 Zg de ordem k assumindo valores em um alfabeto A nito tem jAjk(jAj .. 1) parâmetros a serem estimados. Esse número cresce exponencialmente em k e, portanto, pode tornar-se inviável mesmo para valores não muito Uma alternativa mais viável do ponto de vista da estimação, é a utilização de Cadeias de Memória de Alcance Variável (VLMC), conhecidas também por Árvores Probabilísticas de Contexto (PCT). O modelo VLMC foi introduzido por Rissanen em 1983. Nesse modelo o tamanho do passado relevante para prever o próximo símbolo muda de uma sequência para outra. Desta forma, o número de parâmetros a serem estimados dimimui muito, uma vez que não precisamos considerar todos os passados de ordem k, mas apenas aqueles relevantes que, em geral, são em número bem menor.grandes de k. A estimação dos parâmetros do modelo VLMC pode ser feita de maneira consistente através do critério de informação Bayesiano (BIC). O estimador BIC consiste em penalisar a máxima verossimilhança pelo número de parâmetros a serem estimados, estabelecendoum equilíbrio entre a verossimilhança e o número de parâmetros do modelo. Nesse trabalho foi utilizada a metodologia BIC para estimar as VLMC's baseado no algoritmo proposto no artigo de Csiszar e Talata(2006). Construímos um programa na linguagem R www.r-project.org) para fazer a estimação das VLMC e utilizamos umavariante desse algoritmo, proposto em Galves et al (2011), para estimar os valores das constantes de penalização C de cada VLMC candidata dada uma amostra da cadeia. Uma constante ótima de penalização é obtida mudando os valores da constante de penalização e escolhendo aquela que agrega um valor signicativo à verossimilhança . Para cada valor de C, temos um valor da penalização da verossimilhança, obtendo assim uma sequência de constantes de penalização Cn > Cn..1 > : : : > Copt, que chamamos de Assinatura da Amostra. E de acordo com a assinatura deixada pela amostra, encontramos um padrãode diferenciação entre textos do Corpus Histórico Tycho Brahe (www.tycho.unicamp.br) através da metodologia das Equações de Estimação Generalizadas (GEE) que vai de encontroà conjectura linguística que diz que houve mudança no ritmo do Português Brasileiro por volta do século 17.
publishDate	2011
dc.date.issued.fl_str_mv	2011-11-25
dc.date.accessioned.fl_str_mv	2019-08-13T07:13:52Z
dc.date.available.fl_str_mv	2019-08-13T07:13:52Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1843/ICED-8TFFLC
url	http://hdl.handle.net/1843/ICED-8TFFLC
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv	UFMG
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br/bitstream/1843/ICED-8TFFLC/1/mestradowesley.pdf https://repositorio.ufmg.br/bitstream/1843/ICED-8TFFLC/2/mestradowesley.pdf.txt
bitstream.checksum.fl_str_mv	a37773627052e6cc65c4ff5602429678 1fed3dbe46762f816b01ebbe4510ba5b
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_	1803589333764014080

Inferência em assinaturas de amostras em cadeias de memória de alcance variável

Registros relacionados