Inferência em assinaturas de amostras em cadeias de memória de alcance variável

Detalhes bibliográficos
Autor(a) principal: Wecsley Otero Prates
Data de Publicação: 2011
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/ICED-8TFFLC
Resumo: A análise de um modelo estocástico que descreva, realisticamente, uma situação prática é um grande desafio, em particular porque os fenômenos reais exibem várias dependências. Neste contexto os modelos markovianos desempenham um papel fundamental, uma vezque permitem soluções mais ecientes. Uma cadeia de Markov fXt; t 2 Zg de ordem k assumindo valores em um alfabeto A nito tem jAjk(jAj .. 1) parâmetros a serem estimados. Esse número cresce exponencialmente em k e, portanto, pode tornar-se inviável mesmo para valores não muito Uma alternativa mais viável do ponto de vista da estimação, é a utilização de Cadeias de Memória de Alcance Variável (VLMC), conhecidas também por Árvores Probabilísticas de Contexto (PCT). O modelo VLMC foi introduzido por Rissanen em 1983. Nesse modelo o tamanho do passado relevante para prever o próximo símbolo muda de uma sequência para outra. Desta forma, o número de parâmetros a serem estimados dimimui muito, uma vez que não precisamos considerar todos os passados de ordem k, mas apenas aqueles relevantes que, em geral, são em número bem menor.grandes de k. A estimação dos parâmetros do modelo VLMC pode ser feita de maneira consistente através do critério de informação Bayesiano (BIC). O estimador BIC consiste em penalisar a máxima verossimilhança pelo número de parâmetros a serem estimados, estabelecendoum equilíbrio entre a verossimilhança e o número de parâmetros do modelo. Nesse trabalho foi utilizada a metodologia BIC para estimar as VLMC's baseado no algoritmo proposto no artigo de Csiszar e Talata(2006). Construímos um programa na linguagem R www.r-project.org) para fazer a estimação das VLMC e utilizamos umavariante desse algoritmo, proposto em Galves et al (2011), para estimar os valores das constantes de penalização C de cada VLMC candidata dada uma amostra da cadeia. Uma constante ótima de penalização é obtida mudando os valores da constante de penalização e escolhendo aquela que agrega um valor signicativo à verossimilhança . Para cada valor de C, temos um valor da penalização da verossimilhança, obtendo assim uma sequência de constantes de penalização Cn > Cn..1 > : : : > Copt, que chamamos de Assinatura da Amostra. E de acordo com a assinatura deixada pela amostra, encontramos um padrãode diferenciação entre textos do Corpus Histórico Tycho Brahe (www.tycho.unicamp.br) através da metodologia das Equações de Estimação Generalizadas (GEE) que vai de encontroà conjectura linguística que diz que houve mudança no ritmo do Português Brasileiro por volta do século 17.
id UFMG_658ccf8746e8a599909fe9886e2ae8cd
oai_identifier_str oai:repositorio.ufmg.br:1843/ICED-8TFFLC
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Denise Duarte Scarpa Magalhaes AlvesMarcos Antonio da Cunha SantosEnrico Antonio ColosimoMarcos Antonio da Cunha SantosGustavo leonel GlardoniWecsley Otero Prates2019-08-13T07:13:52Z2019-08-13T07:13:52Z2011-11-25http://hdl.handle.net/1843/ICED-8TFFLCA análise de um modelo estocástico que descreva, realisticamente, uma situação prática é um grande desafio, em particular porque os fenômenos reais exibem várias dependências. Neste contexto os modelos markovianos desempenham um papel fundamental, uma vezque permitem soluções mais ecientes. Uma cadeia de Markov fXt; t 2 Zg de ordem k assumindo valores em um alfabeto A nito tem jAjk(jAj .. 1) parâmetros a serem estimados. Esse número cresce exponencialmente em k e, portanto, pode tornar-se inviável mesmo para valores não muito Uma alternativa mais viável do ponto de vista da estimação, é a utilização de Cadeias de Memória de Alcance Variável (VLMC), conhecidas também por Árvores Probabilísticas de Contexto (PCT). O modelo VLMC foi introduzido por Rissanen em 1983. Nesse modelo o tamanho do passado relevante para prever o próximo símbolo muda de uma sequência para outra. Desta forma, o número de parâmetros a serem estimados dimimui muito, uma vez que não precisamos considerar todos os passados de ordem k, mas apenas aqueles relevantes que, em geral, são em número bem menor.grandes de k. A estimação dos parâmetros do modelo VLMC pode ser feita de maneira consistente através do critério de informação Bayesiano (BIC). O estimador BIC consiste em penalisar a máxima verossimilhança pelo número de parâmetros a serem estimados, estabelecendoum equilíbrio entre a verossimilhança e o número de parâmetros do modelo. Nesse trabalho foi utilizada a metodologia BIC para estimar as VLMC's baseado no algoritmo proposto no artigo de Csiszar e Talata(2006). Construímos um programa na linguagem R www.r-project.org) para fazer a estimação das VLMC e utilizamos umavariante desse algoritmo, proposto em Galves et al (2011), para estimar os valores das constantes de penalização C de cada VLMC candidata dada uma amostra da cadeia. Uma constante ótima de penalização é obtida mudando os valores da constante de penalização e escolhendo aquela que agrega um valor signicativo à verossimilhança . Para cada valor de C, temos um valor da penalização da verossimilhança, obtendo assim uma sequência de constantes de penalização Cn > Cn..1 > : : : > Copt, que chamamos de Assinatura da Amostra. E de acordo com a assinatura deixada pela amostra, encontramos um padrãode diferenciação entre textos do Corpus Histórico Tycho Brahe (www.tycho.unicamp.br) através da metodologia das Equações de Estimação Generalizadas (GEE) que vai de encontroà conjectura linguística que diz que houve mudança no ritmo do Português Brasileiro por volta do século 17.The analysis of a stochastic model to describe realistically a practical situation is a hallenge often insurmountable, especially because the real phenomena exhibit dierent dependencies. In this context the Markov models play a fundamental role, since they allow more ecient solutions. A Markov chain fXt; t 2 Zg of order k taking values on an alphabet A nite, has jAjk(jAj .. 1) parameter to be estimated. This number growsexponentially in k, and therefore a more viable alternative in terms of estimation, is the use of variable length memory chains (VLMC), also known in literature as Probabilistic Context Tree (PCT), since in this model we have, in general, to estimate fewer parameters. In this work we introduce the Sample Signature of a Probabilistic Context Tree (PCT) or VLMC, as a way to distinguish samples of discrete random variables coming from dierent sources. The PCT model is much more interesting than Markov chains of xed order because it is more parsimonious in the sense that we need fewer parameters to describe it. Moreover, we introduce the Sample Signature of a PCT and show that it can bring more information about the generating source than the model itself. We face in this work the challenge of prosodic patterns detention in the written texts of the Historical Portuguese Corpus Tycho Brahe by using the Sample Signatures of the texts. We also use the Generalized Estimating Equation marginal model as a tool to obtain the results.Universidade Federal de Minas GeraisUFMGEstatísticaÁrovre de contextoAssinatura da amostraEquações de estimação generalizadaCadeias de memória de alcance variávelInferência em assinaturas de amostras em cadeias de memória de alcance variávelinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALmestradowesley.pdfapplication/pdf816371https://repositorio.ufmg.br/bitstream/1843/ICED-8TFFLC/1/mestradowesley.pdfa37773627052e6cc65c4ff5602429678MD51TEXTmestradowesley.pdf.txtmestradowesley.pdf.txtExtracted texttext/plain78580https://repositorio.ufmg.br/bitstream/1843/ICED-8TFFLC/2/mestradowesley.pdf.txt1fed3dbe46762f816b01ebbe4510ba5bMD521843/ICED-8TFFLC2019-11-14 21:54:31.047oai:repositorio.ufmg.br:1843/ICED-8TFFLCRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-15T00:54:31Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Inferência em assinaturas de amostras em cadeias de memória de alcance variável
title Inferência em assinaturas de amostras em cadeias de memória de alcance variável
spellingShingle Inferência em assinaturas de amostras em cadeias de memória de alcance variável
Wecsley Otero Prates
Árovre de contexto
Assinatura da amostra
Equações de estimação generalizada
Cadeias de memória de alcance variável
Estatística
title_short Inferência em assinaturas de amostras em cadeias de memória de alcance variável
title_full Inferência em assinaturas de amostras em cadeias de memória de alcance variável
title_fullStr Inferência em assinaturas de amostras em cadeias de memória de alcance variável
title_full_unstemmed Inferência em assinaturas de amostras em cadeias de memória de alcance variável
title_sort Inferência em assinaturas de amostras em cadeias de memória de alcance variável
author Wecsley Otero Prates
author_facet Wecsley Otero Prates
author_role author
dc.contributor.advisor1.fl_str_mv Denise Duarte Scarpa Magalhaes Alves
dc.contributor.advisor-co1.fl_str_mv Marcos Antonio da Cunha Santos
dc.contributor.referee1.fl_str_mv Enrico Antonio Colosimo
dc.contributor.referee2.fl_str_mv Marcos Antonio da Cunha Santos
dc.contributor.referee3.fl_str_mv Gustavo leonel Glardoni
dc.contributor.author.fl_str_mv Wecsley Otero Prates
contributor_str_mv Denise Duarte Scarpa Magalhaes Alves
Marcos Antonio da Cunha Santos
Enrico Antonio Colosimo
Marcos Antonio da Cunha Santos
Gustavo leonel Glardoni
dc.subject.por.fl_str_mv Árovre de contexto
Assinatura da amostra
Equações de estimação generalizada
Cadeias de memória de alcance variável
topic Árovre de contexto
Assinatura da amostra
Equações de estimação generalizada
Cadeias de memória de alcance variável
Estatística
dc.subject.other.pt_BR.fl_str_mv Estatística
description A análise de um modelo estocástico que descreva, realisticamente, uma situação prática é um grande desafio, em particular porque os fenômenos reais exibem várias dependências. Neste contexto os modelos markovianos desempenham um papel fundamental, uma vezque permitem soluções mais ecientes. Uma cadeia de Markov fXt; t 2 Zg de ordem k assumindo valores em um alfabeto A nito tem jAjk(jAj .. 1) parâmetros a serem estimados. Esse número cresce exponencialmente em k e, portanto, pode tornar-se inviável mesmo para valores não muito Uma alternativa mais viável do ponto de vista da estimação, é a utilização de Cadeias de Memória de Alcance Variável (VLMC), conhecidas também por Árvores Probabilísticas de Contexto (PCT). O modelo VLMC foi introduzido por Rissanen em 1983. Nesse modelo o tamanho do passado relevante para prever o próximo símbolo muda de uma sequência para outra. Desta forma, o número de parâmetros a serem estimados dimimui muito, uma vez que não precisamos considerar todos os passados de ordem k, mas apenas aqueles relevantes que, em geral, são em número bem menor.grandes de k. A estimação dos parâmetros do modelo VLMC pode ser feita de maneira consistente através do critério de informação Bayesiano (BIC). O estimador BIC consiste em penalisar a máxima verossimilhança pelo número de parâmetros a serem estimados, estabelecendoum equilíbrio entre a verossimilhança e o número de parâmetros do modelo. Nesse trabalho foi utilizada a metodologia BIC para estimar as VLMC's baseado no algoritmo proposto no artigo de Csiszar e Talata(2006). Construímos um programa na linguagem R www.r-project.org) para fazer a estimação das VLMC e utilizamos umavariante desse algoritmo, proposto em Galves et al (2011), para estimar os valores das constantes de penalização C de cada VLMC candidata dada uma amostra da cadeia. Uma constante ótima de penalização é obtida mudando os valores da constante de penalização e escolhendo aquela que agrega um valor signicativo à verossimilhança . Para cada valor de C, temos um valor da penalização da verossimilhança, obtendo assim uma sequência de constantes de penalização Cn > Cn..1 > : : : > Copt, que chamamos de Assinatura da Amostra. E de acordo com a assinatura deixada pela amostra, encontramos um padrãode diferenciação entre textos do Corpus Histórico Tycho Brahe (www.tycho.unicamp.br) através da metodologia das Equações de Estimação Generalizadas (GEE) que vai de encontroà conjectura linguística que diz que houve mudança no ritmo do Português Brasileiro por volta do século 17.
publishDate 2011
dc.date.issued.fl_str_mv 2011-11-25
dc.date.accessioned.fl_str_mv 2019-08-13T07:13:52Z
dc.date.available.fl_str_mv 2019-08-13T07:13:52Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/ICED-8TFFLC
url http://hdl.handle.net/1843/ICED-8TFFLC
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/ICED-8TFFLC/1/mestradowesley.pdf
https://repositorio.ufmg.br/bitstream/1843/ICED-8TFFLC/2/mestradowesley.pdf.txt
bitstream.checksum.fl_str_mv a37773627052e6cc65c4ff5602429678
1fed3dbe46762f816b01ebbe4510ba5b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589333764014080