Análise de conteúdo de vídeo por meio de aprendizado ativo

Detalhes bibliográficos
Autor(a) principal: Guillermo Camara Chavez
Data de Publicação: 2007
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/RVMR-788P4U
Resumo: Avanços em técnicas de compressão, diminuição no custo de armazenamento e transmissões em grande velocidade têm facilitado a forma como os vídeos são criados, armazenados e distribuídos. Comoconseqüência, os vídeos passaram a ser utilizados em várias aplicações. Devido ao aumento na quantidade de dados dos vídeos distribuídos e usados em aplicações atuais, estes se destacam comoum tipo de dado multimídia, introduzindo, porém, o requerimento de um gerenciamento mais eficiente destes dados. Tudo isto tem aberto o caminho para novas áreas de pesquisa, tais como a indexação erecuperação de vídeo baseadas no conteúdo semântico, visual e espaço-temporal.Esta tese apresenta um trabalho dirigido à criação de um suporte unificado para a indexação semi-automática de video e recuperação iterativa. Para criar uma indexação unificada, é selecionado umconjunto de quadros-chave que capturam e encapsulam o conteúdo do vídeo. Isso é conseguido através da segmentação do vídeo em tomadas constitutivas e selecionando um número ótimo de quadros dentre os limites da tomada. Primeiro, desenvolvemos um algoritmo para segmentação automática (detecção de cortes de cena). A fim de prescindir da definição de limiares e parâmetros, utilizamos um método de classificação supervisionado. Adotamos um classificador SVM devido à habilidade para utilizar espaços de características de alta dimensão (utilizando funções de kernels) preservando a grande capacidade de generalização. Igualmente, avaliamos profundamente diferentes combinações de características ekernels. Avaliamos o desempenho do nosso classificador utilizando diferentes funções kernel visando encontrar aquele que apresente melhor desempenho. Nossos experimentos, seguem estritamente o protocolo da Avaliação TRECVID. Apresentamos os resultados obtidos na tarefa de detecção de cortes de cenas da Avaliação TRECVID de 2006. Os resultados obtidos foram satisfatórios lidando com um grande conjunto de características graças a nosso classificador SVM baseado em kernels.O passo seguinte depois da segmentação é a extração de quadros-chave. Eles são selecionados a fim de minimizar a redundância de representação enquanto preservam o conteúdo da tomada, i.e., selecionando um número ótimo de quadros dentro dos limites da tomada. Nós propomos um sistema interativo de recuperaçao de vídeo: RETINVID baseano no sistema RETIN, uma máquina de busca e recuperação por conteúdo de imagens. O objetivo do aprendizado ativo quando utilizando em indexação é reduzir significativamente o número de quadros-chave anotados pelo usuário. Usamos o aprendizado ativo para ajudar no etiquetado semântico de bases de dados de vídeos. A abordagem de aprendizado propõe amostras de tomadas-chave do vídeo para serem anotadas e posteriormente atualizar a base de dados com as novas anotações. Logo, o sistema usa o aprendizado cumulativo adquirido para propagar as etiquetas ao resto da base de dados, este processo é executado toda vez que uma amostra de quadros-chave é apresentada ao usuário para ser anotada.As amostras de quadros-chave apresentadas são selecionadas baseadas na habilidade do sistema para incrementar o conhecimento obtido. Portanto, temos escolhido o aprendizado ativo devido à capacidade de recuperar categorias complexas, especificamente a traves do uso das funções kernel. A falta de dados para treinamento, categorias não-balanceadas e o tamanho do vetor de características podem ser superados através do aprendizado ativo. Avaliamos o desempenho do nosso sistema usando a base da dados utilizada na tarefa de alto-nível da Avaliação TRECVID de 2005.
id UFMG_3f8171b222074c78bc6962c21d6dac33
oai_identifier_str oai:repositorio.ufmg.br:1843/RVMR-788P4U
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Arnaldo de Albuquerque AraujoSylvie Philipp-foliguetMatthieu CordHani Camille YehiaNeucimar Jerônimo LeiteMario Fernando Montenegro CamposGuillermo Camara Chavez2019-08-12T16:23:29Z2019-08-12T16:23:29Z2007-07-06http://hdl.handle.net/1843/RVMR-788P4UAvanços em técnicas de compressão, diminuição no custo de armazenamento e transmissões em grande velocidade têm facilitado a forma como os vídeos são criados, armazenados e distribuídos. Comoconseqüência, os vídeos passaram a ser utilizados em várias aplicações. Devido ao aumento na quantidade de dados dos vídeos distribuídos e usados em aplicações atuais, estes se destacam comoum tipo de dado multimídia, introduzindo, porém, o requerimento de um gerenciamento mais eficiente destes dados. Tudo isto tem aberto o caminho para novas áreas de pesquisa, tais como a indexação erecuperação de vídeo baseadas no conteúdo semântico, visual e espaço-temporal.Esta tese apresenta um trabalho dirigido à criação de um suporte unificado para a indexação semi-automática de video e recuperação iterativa. Para criar uma indexação unificada, é selecionado umconjunto de quadros-chave que capturam e encapsulam o conteúdo do vídeo. Isso é conseguido através da segmentação do vídeo em tomadas constitutivas e selecionando um número ótimo de quadros dentre os limites da tomada. Primeiro, desenvolvemos um algoritmo para segmentação automática (detecção de cortes de cena). A fim de prescindir da definição de limiares e parâmetros, utilizamos um método de classificação supervisionado. Adotamos um classificador SVM devido à habilidade para utilizar espaços de características de alta dimensão (utilizando funções de kernels) preservando a grande capacidade de generalização. Igualmente, avaliamos profundamente diferentes combinações de características ekernels. Avaliamos o desempenho do nosso classificador utilizando diferentes funções kernel visando encontrar aquele que apresente melhor desempenho. Nossos experimentos, seguem estritamente o protocolo da Avaliação TRECVID. Apresentamos os resultados obtidos na tarefa de detecção de cortes de cenas da Avaliação TRECVID de 2006. Os resultados obtidos foram satisfatórios lidando com um grande conjunto de características graças a nosso classificador SVM baseado em kernels.O passo seguinte depois da segmentação é a extração de quadros-chave. Eles são selecionados a fim de minimizar a redundância de representação enquanto preservam o conteúdo da tomada, i.e., selecionando um número ótimo de quadros dentro dos limites da tomada. Nós propomos um sistema interativo de recuperaçao de vídeo: RETINVID baseano no sistema RETIN, uma máquina de busca e recuperação por conteúdo de imagens. O objetivo do aprendizado ativo quando utilizando em indexação é reduzir significativamente o número de quadros-chave anotados pelo usuário. Usamos o aprendizado ativo para ajudar no etiquetado semântico de bases de dados de vídeos. A abordagem de aprendizado propõe amostras de tomadas-chave do vídeo para serem anotadas e posteriormente atualizar a base de dados com as novas anotações. Logo, o sistema usa o aprendizado cumulativo adquirido para propagar as etiquetas ao resto da base de dados, este processo é executado toda vez que uma amostra de quadros-chave é apresentada ao usuário para ser anotada.As amostras de quadros-chave apresentadas são selecionadas baseadas na habilidade do sistema para incrementar o conhecimento obtido. Portanto, temos escolhido o aprendizado ativo devido à capacidade de recuperar categorias complexas, especificamente a traves do uso das funções kernel. A falta de dados para treinamento, categorias não-balanceadas e o tamanho do vetor de características podem ser superados através do aprendizado ativo. Avaliamos o desempenho do nosso sistema usando a base da dados utilizada na tarefa de alto-nível da Avaliação TRECVID de 2005.Advances in compression techniques, decreasing cost of storage, and high-speed transmission have facilitated the way videos are created, stored and distributed. As a consequence, videos are now being used in many applications areas. The increase in the amount of video data deployed and used in today's applications reveals not only the importance as multimedia data type, but also led to the requirementof efficient management of video data. This management paved the way for new research areas, such as indexing and retrieval of video with respect to their spatio-temporal, visual and semantic contents.This thesis presents work towards a unified framework for semi-automated video indexing and interactive retrieval. To create an efficient index, a set of representative key frames are selected which capture and encapsulate the entire video content. This is achieved by, firstly, segmenting the video into its constituentshots and, secondly, selecting an optimal number of frames between the identified shot boundaries. We first developed an automatic segmentation algorithm (shot boundary detection) to get rid of parameters and thresholds, we explore a supervised classification method. We adopted a SVM classifier due to its ability to use very high dimensional feature spaces (using the kernel trick) while at the same time keeping strong generalization guarantees from a few training examples. We deeply evaluated the combination of featuresand kernels in the whole data set. We evaluate the performance of our classifier with different kernel functions. Our experiments, strictly following the TRECVID Evaluation protocol. We present the results obtained, for shot extraction TRECVID 2006 Task. We provide good results dealing with a large amount of features thanks to our kernel-based SVM classifier method.The next step after segmentation is the key frame extraction. They will be selected to minimize representational redundancy whilst still portraying the content in each shot, i.e., selecting an optimal number of frames between the identified shot boundaries. We propose an interactive video retrieval system: RETINVID based on RETIN system, a content-based search engine image retrieval. The goal of active learning when applied to indexing is to significantly reduce the number of key frames annotated by theuser. We use active learning to aid in the semantic labeling of video databases. The learning approach proposes sample key-frame(s) of a video to the user for annotation and updates the database withthe new annotations. It then uses its accumulative knowledge to propagate the labels to the rest of the database, after which it proposes new key frames samples for the user to annotate. The samplekey frames are selected based on their ability to increase the knowledge gained by the system. Therefore, we have chosen an active learning approach because of its capacity to retrieve complex categories, specifically through the use of kernel functions. The lack of training data, the unbalance of the classes and the size of the feature vectors can be overcome by active learning. We perform an experiment against the 2005 TRECVID benchmark in the high-level task.Universidade Federal de Minas GeraisUFMGIndexação automaticaComputaçãoSistemas de recuperação da informaçãoAnálise de conteúdo de vídeo por meio de aprendizado ativoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALguillermo_chavez.pdfapplication/pdf6095946https://repositorio.ufmg.br/bitstream/1843/RVMR-788P4U/1/guillermo_chavez.pdf06f87dd71f2da0267fb94d7ed1b37ec0MD51TEXTguillermo_chavez.pdf.txtguillermo_chavez.pdf.txtExtracted texttext/plain382740https://repositorio.ufmg.br/bitstream/1843/RVMR-788P4U/2/guillermo_chavez.pdf.txtd981c388e3f5b0300800400253ddff88MD521843/RVMR-788P4U2019-11-14 18:34:37.907oai:repositorio.ufmg.br:1843/RVMR-788P4URepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T21:34:37Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Análise de conteúdo de vídeo por meio de aprendizado ativo
title Análise de conteúdo de vídeo por meio de aprendizado ativo
spellingShingle Análise de conteúdo de vídeo por meio de aprendizado ativo
Guillermo Camara Chavez
Indexação automatica
Computação
Sistemas de recuperação da informação
title_short Análise de conteúdo de vídeo por meio de aprendizado ativo
title_full Análise de conteúdo de vídeo por meio de aprendizado ativo
title_fullStr Análise de conteúdo de vídeo por meio de aprendizado ativo
title_full_unstemmed Análise de conteúdo de vídeo por meio de aprendizado ativo
title_sort Análise de conteúdo de vídeo por meio de aprendizado ativo
author Guillermo Camara Chavez
author_facet Guillermo Camara Chavez
author_role author
dc.contributor.advisor1.fl_str_mv Arnaldo de Albuquerque Araujo
dc.contributor.advisor-co1.fl_str_mv Sylvie Philipp-foliguet
dc.contributor.advisor-co2.fl_str_mv Matthieu Cord
dc.contributor.referee1.fl_str_mv Hani Camille Yehia
dc.contributor.referee2.fl_str_mv Neucimar Jerônimo Leite
dc.contributor.referee3.fl_str_mv Mario Fernando Montenegro Campos
dc.contributor.author.fl_str_mv Guillermo Camara Chavez
contributor_str_mv Arnaldo de Albuquerque Araujo
Sylvie Philipp-foliguet
Matthieu Cord
Hani Camille Yehia
Neucimar Jerônimo Leite
Mario Fernando Montenegro Campos
dc.subject.other.pt_BR.fl_str_mv Indexação automatica
Computação
Sistemas de recuperação da informação
topic Indexação automatica
Computação
Sistemas de recuperação da informação
description Avanços em técnicas de compressão, diminuição no custo de armazenamento e transmissões em grande velocidade têm facilitado a forma como os vídeos são criados, armazenados e distribuídos. Comoconseqüência, os vídeos passaram a ser utilizados em várias aplicações. Devido ao aumento na quantidade de dados dos vídeos distribuídos e usados em aplicações atuais, estes se destacam comoum tipo de dado multimídia, introduzindo, porém, o requerimento de um gerenciamento mais eficiente destes dados. Tudo isto tem aberto o caminho para novas áreas de pesquisa, tais como a indexação erecuperação de vídeo baseadas no conteúdo semântico, visual e espaço-temporal.Esta tese apresenta um trabalho dirigido à criação de um suporte unificado para a indexação semi-automática de video e recuperação iterativa. Para criar uma indexação unificada, é selecionado umconjunto de quadros-chave que capturam e encapsulam o conteúdo do vídeo. Isso é conseguido através da segmentação do vídeo em tomadas constitutivas e selecionando um número ótimo de quadros dentre os limites da tomada. Primeiro, desenvolvemos um algoritmo para segmentação automática (detecção de cortes de cena). A fim de prescindir da definição de limiares e parâmetros, utilizamos um método de classificação supervisionado. Adotamos um classificador SVM devido à habilidade para utilizar espaços de características de alta dimensão (utilizando funções de kernels) preservando a grande capacidade de generalização. Igualmente, avaliamos profundamente diferentes combinações de características ekernels. Avaliamos o desempenho do nosso classificador utilizando diferentes funções kernel visando encontrar aquele que apresente melhor desempenho. Nossos experimentos, seguem estritamente o protocolo da Avaliação TRECVID. Apresentamos os resultados obtidos na tarefa de detecção de cortes de cenas da Avaliação TRECVID de 2006. Os resultados obtidos foram satisfatórios lidando com um grande conjunto de características graças a nosso classificador SVM baseado em kernels.O passo seguinte depois da segmentação é a extração de quadros-chave. Eles são selecionados a fim de minimizar a redundância de representação enquanto preservam o conteúdo da tomada, i.e., selecionando um número ótimo de quadros dentro dos limites da tomada. Nós propomos um sistema interativo de recuperaçao de vídeo: RETINVID baseano no sistema RETIN, uma máquina de busca e recuperação por conteúdo de imagens. O objetivo do aprendizado ativo quando utilizando em indexação é reduzir significativamente o número de quadros-chave anotados pelo usuário. Usamos o aprendizado ativo para ajudar no etiquetado semântico de bases de dados de vídeos. A abordagem de aprendizado propõe amostras de tomadas-chave do vídeo para serem anotadas e posteriormente atualizar a base de dados com as novas anotações. Logo, o sistema usa o aprendizado cumulativo adquirido para propagar as etiquetas ao resto da base de dados, este processo é executado toda vez que uma amostra de quadros-chave é apresentada ao usuário para ser anotada.As amostras de quadros-chave apresentadas são selecionadas baseadas na habilidade do sistema para incrementar o conhecimento obtido. Portanto, temos escolhido o aprendizado ativo devido à capacidade de recuperar categorias complexas, especificamente a traves do uso das funções kernel. A falta de dados para treinamento, categorias não-balanceadas e o tamanho do vetor de características podem ser superados através do aprendizado ativo. Avaliamos o desempenho do nosso sistema usando a base da dados utilizada na tarefa de alto-nível da Avaliação TRECVID de 2005.
publishDate 2007
dc.date.issued.fl_str_mv 2007-07-06
dc.date.accessioned.fl_str_mv 2019-08-12T16:23:29Z
dc.date.available.fl_str_mv 2019-08-12T16:23:29Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/RVMR-788P4U
url http://hdl.handle.net/1843/RVMR-788P4U
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/RVMR-788P4U/1/guillermo_chavez.pdf
https://repositorio.ufmg.br/bitstream/1843/RVMR-788P4U/2/guillermo_chavez.pdf.txt
bitstream.checksum.fl_str_mv 06f87dd71f2da0267fb94d7ed1b37ec0
d981c388e3f5b0300800400253ddff88
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589487646736384