Seleção de modelos para segmentação de sequências simbólicas usando máxima verossimilhança penalizada

Detalhes bibliográficos
Autor(a) principal: Castro, Bruno Monte de
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/45/45133/tde-17042013-140839/
Resumo: O problema de segmentação de sequências tem o objetivo de particionar uma sequência ou um conjunto delas em um número finito de segmentos distintos tão homogêneos quanto possível. Neste trabalho consideramos o problema de segmentação de um conjunto de sequências aleatórias, com valores em um alfabeto $\\mathcal$ finito, em um número finito de blocos independentes. Supomos ainda que temos $m$ sequências independentes de tamanho $n$, construídas pela concatenação de $s$ segmentos de comprimento $l^{*}_j$, sendo que cada bloco é obtido a partir da distribuição $\\p _j$ em $\\mathcal^{l^{*}_j}, \\; j=1,\\cdots, s$. Além disso denotamos os verdadeiros pontos de corte pelo vetor ${{\\bf k}}^{*}=(k^{*}_1,\\cdots,k^{*}_)$, com $k^{*}_i=\\sum _{j=1}^l^{*}_j$, $i=1,\\cdots, s-1$, esses pontos representam a mudança de segmento. Propomos usar o critério da máxima verossimilhança penalizada para inferir simultaneamente o número de pontos de corte e a posição de cada um desses pontos. Também apresentamos um algoritmo para segmentação de sequências e realizamos algumas simulações para mostrar seu funcionamento e sua velocidade de convergência. Nosso principal resultado é a demonstração da consistência forte do estimador dos pontos de corte quando o $m$ tende ao infinito.
id USP_3fcd4d901d493bcdda6cdc15a8262652
oai_identifier_str oai:teses.usp.br:tde-17042013-140839
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Seleção de modelos para segmentação de sequências simbólicas usando máxima verossimilhança penalizadaA model selection criterion for the segmentation of symbolic sequences using penalized maximum likelihoodconsistência fortemáxima verossimilhança penalizadapenalized maximum likelihoodSegmentação de sequênciasSequence segmentationstrong consistencyO problema de segmentação de sequências tem o objetivo de particionar uma sequência ou um conjunto delas em um número finito de segmentos distintos tão homogêneos quanto possível. Neste trabalho consideramos o problema de segmentação de um conjunto de sequências aleatórias, com valores em um alfabeto $\\mathcal$ finito, em um número finito de blocos independentes. Supomos ainda que temos $m$ sequências independentes de tamanho $n$, construídas pela concatenação de $s$ segmentos de comprimento $l^{*}_j$, sendo que cada bloco é obtido a partir da distribuição $\\p _j$ em $\\mathcal^{l^{*}_j}, \\; j=1,\\cdots, s$. Além disso denotamos os verdadeiros pontos de corte pelo vetor ${{\\bf k}}^{*}=(k^{*}_1,\\cdots,k^{*}_)$, com $k^{*}_i=\\sum _{j=1}^l^{*}_j$, $i=1,\\cdots, s-1$, esses pontos representam a mudança de segmento. Propomos usar o critério da máxima verossimilhança penalizada para inferir simultaneamente o número de pontos de corte e a posição de cada um desses pontos. Também apresentamos um algoritmo para segmentação de sequências e realizamos algumas simulações para mostrar seu funcionamento e sua velocidade de convergência. Nosso principal resultado é a demonstração da consistência forte do estimador dos pontos de corte quando o $m$ tende ao infinito.The sequence segmentation problem aims to partition a sequence or a set of sequences into a finite number of segments as homogeneous as possible. In this work we consider the problem of segmenting a set of random sequences with values in a finite alphabet $\\mathcal$ into a finite number of independent blocks. We suppose also that we have $m$ independent sequences of length $n$, constructed by the concatenation of $s$ segments of length $l^{*}_j$ and each block is obtained from the distribution $\\p _j$ over $\\mathcal^{l^{*}_j}, \\; j=1,\\cdots, s$. Besides we denote the real cut points by the vector ${{\\bf k}}^{*}=(k^{*}_1,\\cdots,k^{*}_)$, with $k^{*}_i=\\sum _{j=1}^l^{*}_j$, $i=1,\\cdots, s-1$, these points represent the change of segment. We propose to use a penalized maximum likelihood criterion to infer simultaneously the number of cut points and the position of each one those points. We also present a algorithm to sequence segmentation and we present some simulations to show how it works and its convergence speed. Our principal result is the proof of strong consistency of this estimators when $m$ grows to infinity.Biblioteca Digitais de Teses e Dissertações da USPLeonardi, Florencia GracielaCastro, Bruno Monte de2013-02-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/45/45133/tde-17042013-140839/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-08-15T20:03:03Zoai:teses.usp.br:tde-17042013-140839Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-08-15T20:03:03Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Seleção de modelos para segmentação de sequências simbólicas usando máxima verossimilhança penalizada
A model selection criterion for the segmentation of symbolic sequences using penalized maximum likelihood
title Seleção de modelos para segmentação de sequências simbólicas usando máxima verossimilhança penalizada
spellingShingle Seleção de modelos para segmentação de sequências simbólicas usando máxima verossimilhança penalizada
Castro, Bruno Monte de
consistência forte
máxima verossimilhança penalizada
penalized maximum likelihood
Segmentação de sequências
Sequence segmentation
strong consistency
title_short Seleção de modelos para segmentação de sequências simbólicas usando máxima verossimilhança penalizada
title_full Seleção de modelos para segmentação de sequências simbólicas usando máxima verossimilhança penalizada
title_fullStr Seleção de modelos para segmentação de sequências simbólicas usando máxima verossimilhança penalizada
title_full_unstemmed Seleção de modelos para segmentação de sequências simbólicas usando máxima verossimilhança penalizada
title_sort Seleção de modelos para segmentação de sequências simbólicas usando máxima verossimilhança penalizada
author Castro, Bruno Monte de
author_facet Castro, Bruno Monte de
author_role author
dc.contributor.none.fl_str_mv Leonardi, Florencia Graciela
dc.contributor.author.fl_str_mv Castro, Bruno Monte de
dc.subject.por.fl_str_mv consistência forte
máxima verossimilhança penalizada
penalized maximum likelihood
Segmentação de sequências
Sequence segmentation
strong consistency
topic consistência forte
máxima verossimilhança penalizada
penalized maximum likelihood
Segmentação de sequências
Sequence segmentation
strong consistency
description O problema de segmentação de sequências tem o objetivo de particionar uma sequência ou um conjunto delas em um número finito de segmentos distintos tão homogêneos quanto possível. Neste trabalho consideramos o problema de segmentação de um conjunto de sequências aleatórias, com valores em um alfabeto $\\mathcal$ finito, em um número finito de blocos independentes. Supomos ainda que temos $m$ sequências independentes de tamanho $n$, construídas pela concatenação de $s$ segmentos de comprimento $l^{*}_j$, sendo que cada bloco é obtido a partir da distribuição $\\p _j$ em $\\mathcal^{l^{*}_j}, \\; j=1,\\cdots, s$. Além disso denotamos os verdadeiros pontos de corte pelo vetor ${{\\bf k}}^{*}=(k^{*}_1,\\cdots,k^{*}_)$, com $k^{*}_i=\\sum _{j=1}^l^{*}_j$, $i=1,\\cdots, s-1$, esses pontos representam a mudança de segmento. Propomos usar o critério da máxima verossimilhança penalizada para inferir simultaneamente o número de pontos de corte e a posição de cada um desses pontos. Também apresentamos um algoritmo para segmentação de sequências e realizamos algumas simulações para mostrar seu funcionamento e sua velocidade de convergência. Nosso principal resultado é a demonstração da consistência forte do estimador dos pontos de corte quando o $m$ tende ao infinito.
publishDate 2013
dc.date.none.fl_str_mv 2013-02-20
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/45/45133/tde-17042013-140839/
url http://www.teses.usp.br/teses/disponiveis/45/45133/tde-17042013-140839/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257095524581376