Análise de conteúdo de vídeo por meio de aprendizado ativo

Guillermo Camara Chavez

Análise de conteúdo de vídeo por meio de aprendizado ativo

Detalhes bibliográficos
Autor(a) principal:	Guillermo Camara Chavez
Data de Publicação:	2007
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Repositório Institucional da UFMG
Texto Completo:	http://hdl.handle.net/1843/RVMR-788P4U
Resumo:	Avanços em técnicas de compressão, diminuição no custo de armazenamento e transmissões em grande velocidade têm facilitado a forma como os vídeos são criados, armazenados e distribuídos. Comoconseqüência, os vídeos passaram a ser utilizados em várias aplicações. Devido ao aumento na quantidade de dados dos vídeos distribuídos e usados em aplicações atuais, estes se destacam comoum tipo de dado multimídia, introduzindo, porém, o requerimento de um gerenciamento mais eficiente destes dados. Tudo isto tem aberto o caminho para novas áreas de pesquisa, tais como a indexação erecuperação de vídeo baseadas no conteúdo semântico, visual e espaço-temporal.Esta tese apresenta um trabalho dirigido à criação de um suporte unificado para a indexação semi-automática de video e recuperação iterativa. Para criar uma indexação unificada, é selecionado umconjunto de quadros-chave que capturam e encapsulam o conteúdo do vídeo. Isso é conseguido através da segmentação do vídeo em tomadas constitutivas e selecionando um número ótimo de quadros dentre os limites da tomada. Primeiro, desenvolvemos um algoritmo para segmentação automática (detecção de cortes de cena). A fim de prescindir da definição de limiares e parâmetros, utilizamos um método de classificação supervisionado. Adotamos um classificador SVM devido à habilidade para utilizar espaços de características de alta dimensão (utilizando funções de kernels) preservando a grande capacidade de generalização. Igualmente, avaliamos profundamente diferentes combinações de características ekernels. Avaliamos o desempenho do nosso classificador utilizando diferentes funções kernel visando encontrar aquele que apresente melhor desempenho. Nossos experimentos, seguem estritamente o protocolo da Avaliação TRECVID. Apresentamos os resultados obtidos na tarefa de detecção de cortes de cenas da Avaliação TRECVID de 2006. Os resultados obtidos foram satisfatórios lidando com um grande conjunto de características graças a nosso classificador SVM baseado em kernels.O passo seguinte depois da segmentação é a extração de quadros-chave. Eles são selecionados a fim de minimizar a redundância de representação enquanto preservam o conteúdo da tomada, i.e., selecionando um número ótimo de quadros dentro dos limites da tomada. Nós propomos um sistema interativo de recuperaçao de vídeo: RETINVID baseano no sistema RETIN, uma máquina de busca e recuperação por conteúdo de imagens. O objetivo do aprendizado ativo quando utilizando em indexação é reduzir significativamente o número de quadros-chave anotados pelo usuário. Usamos o aprendizado ativo para ajudar no etiquetado semântico de bases de dados de vídeos. A abordagem de aprendizado propõe amostras de tomadas-chave do vídeo para serem anotadas e posteriormente atualizar a base de dados com as novas anotações. Logo, o sistema usa o aprendizado cumulativo adquirido para propagar as etiquetas ao resto da base de dados, este processo é executado toda vez que uma amostra de quadros-chave é apresentada ao usuário para ser anotada.As amostras de quadros-chave apresentadas são selecionadas baseadas na habilidade do sistema para incrementar o conhecimento obtido. Portanto, temos escolhido o aprendizado ativo devido à capacidade de recuperar categorias complexas, especificamente a traves do uso das funções kernel. A falta de dados para treinamento, categorias não-balanceadas e o tamanho do vetor de características podem ser superados através do aprendizado ativo. Avaliamos o desempenho do nosso sistema usando a base da dados utilizada na tarefa de alto-nível da Avaliação TRECVID de 2005.

Metadados do item

id	UFMG_3f8171b222074c78bc6962c21d6dac33
oai_identifier_str	oai:repositorio.ufmg.br:1843/RVMR-788P4U
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Arnaldo de Albuquerque AraujoSylvie Philipp-foliguetMatthieu CordHani Camille YehiaNeucimar Jerônimo LeiteMario Fernando Montenegro CamposGuillermo Camara Chavez2019-08-12T16:23:29Z2019-08-12T16:23:29Z2007-07-06http://hdl.handle.net/1843/RVMR-788P4UAvanços em técnicas de compressão, diminuição no custo de armazenamento e transmissões em grande velocidade têm facilitado a forma como os vídeos são criados, armazenados e distribuídos. Comoconseqüência, os vídeos passaram a ser utilizados em várias aplicações. Devido ao aumento na quantidade de dados dos vídeos distribuídos e usados em aplicações atuais, estes se destacam comoum tipo de dado multimídia, introduzindo, porém, o requerimento de um gerenciamento mais eficiente destes dados. Tudo isto tem aberto o caminho para novas áreas de pesquisa, tais como a indexação erecuperação de vídeo baseadas no conteúdo semântico, visual e espaço-temporal.Esta tese apresenta um trabalho dirigido à criação de um suporte unificado para a indexação semi-automática de video e recuperação iterativa. Para criar uma indexação unificada, é selecionado umconjunto de quadros-chave que capturam e encapsulam o conteúdo do vídeo. Isso é conseguido através da segmentação do vídeo em tomadas constitutivas e selecionando um número ótimo de quadros dentre os limites da tomada. Primeiro, desenvolvemos um algoritmo para segmentação automática (detecção de cortes de cena). A fim de prescindir da definição de limiares e parâmetros, utilizamos um método de classificação supervisionado. Adotamos um classificador SVM devido à habilidade para utilizar espaços de características de alta dimensão (utilizando funções de kernels) preservando a grande capacidade de generalização. Igualmente, avaliamos profundamente diferentes combinações de características ekernels. Avaliamos o desempenho do nosso classificador utilizando diferentes funções kernel visando encontrar aquele que apresente melhor desempenho. Nossos experimentos, seguem estritamente o protocolo da Avaliação TRECVID. Apresentamos os resultados obtidos na tarefa de detecção de cortes de cenas da Avaliação TRECVID de 2006. Os resultados obtidos foram satisfatórios lidando com um grande conjunto de características graças a nosso classificador SVM baseado em kernels.O passo seguinte depois da segmentação é a extração de quadros-chave. Eles são selecionados a fim de minimizar a redundância de representação enquanto preservam o conteúdo da tomada, i.e., selecionando um número ótimo de quadros dentro dos limites da tomada. Nós propomos um sistema interativo de recuperaçao de vídeo: RETINVID baseano no sistema RETIN, uma máquina de busca e recuperação por conteúdo de imagens. O objetivo do aprendizado ativo quando utilizando em indexação é reduzir significativamente o número de quadros-chave anotados pelo usuário. Usamos o aprendizado ativo para ajudar no etiquetado semântico de bases de dados de vídeos. A abordagem de aprendizado propõe amostras de tomadas-chave do vídeo para serem anotadas e posteriormente atualizar a base de dados com as novas anotações. Logo, o sistema usa o aprendizado cumulativo adquirido para propagar as etiquetas ao resto da base de dados, este processo é executado toda vez que uma amostra de quadros-chave é apresentada ao usuário para ser anotada.As amostras de quadros-chave apresentadas são selecionadas baseadas na habilidade do sistema para incrementar o conhecimento obtido. Portanto, temos escolhido o aprendizado ativo devido à capacidade de recuperar categorias complexas, especificamente a traves do uso das funções kernel. A falta de dados para treinamento, categorias não-balanceadas e o tamanho do vetor de características podem ser superados através do aprendizado ativo. Avaliamos o desempenho do nosso sistema usando a base da dados utilizada na tarefa de alto-nível da Avaliação TRECVID de 2005.Advances in compression techniques, decreasing cost of storage, and high-speed transmission have facilitated the way videos are created, stored and distributed. As a consequence, videos are now being used in many applications areas. The increase in the amount of video data deployed and used in today's applications reveals not only the importance as multimedia data type, but also led to the requirementof efficient management of video data. This management paved the way for new research areas, such as indexing and retrieval of video with respect to their spatio-temporal, visual and semantic contents.This thesis presents work towards a unified framework for semi-automated video indexing and interactive retrieval. To create an efficient index, a set of representative key frames are selected which capture and encapsulate the entire video content. This is achieved by, firstly, segmenting the video into its constituentshots and, secondly, selecting an optimal number of frames between the identified shot boundaries. We first developed an automatic segmentation algorithm (shot boundary detection) to get rid of parameters and thresholds, we explore a supervised classification method. We adopted a SVM classifier due to its ability to use very high dimensional feature spaces (using the kernel trick) while at the same time keeping strong generalization guarantees from a few training examples. We deeply evaluated the combination of featuresand kernels in the whole data set. We evaluate the performance of our classifier with different kernel functions. Our experiments, strictly following the TRECVID Evaluation protocol. We present the results obtained, for shot extraction TRECVID 2006 Task. We provide good results dealing with a large amount of features thanks to our kernel-based SVM classifier method.The next step after segmentation is the key frame extraction. They will be selected to minimize representational redundancy whilst still portraying the content in each shot, i.e., selecting an optimal number of frames between the identified shot boundaries. We propose an interactive video retrieval system: RETINVID based on RETIN system, a content-based search engine image retrieval. The goal of active learning when applied to indexing is to significantly reduce the number of key frames annotated by theuser. We use active learning to aid in the semantic labeling of video databases. The learning approach proposes sample key-frame(s) of a video to the user for annotation and updates the database withthe new annotations. It then uses its accumulative knowledge to propagate the labels to the rest of the database, after which it proposes new key frames samples for the user to annotate. The samplekey frames are selected based on their ability to increase the knowledge gained by the system. Therefore, we have chosen an active learning approach because of its capacity to retrieve complex categories, specifically through the use of kernel functions. The lack of training data, the unbalance of the classes and the size of the feature vectors can be overcome by active learning. We perform an experiment against the 2005 TRECVID benchmark in the high-level task.Universidade Federal de Minas GeraisUFMGIndexação automaticaComputaçãoSistemas de recuperação da informaçãoAnálise de conteúdo de vídeo por meio de aprendizado ativoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALguillermo_chavez.pdfapplication/pdf6095946https://repositorio.ufmg.br/bitstream/1843/RVMR-788P4U/1/guillermo_chavez.pdf06f87dd71f2da0267fb94d7ed1b37ec0MD51TEXTguillermo_chavez.pdf.txtguillermo_chavez.pdf.txtExtracted texttext/plain382740https://repositorio.ufmg.br/bitstream/1843/RVMR-788P4U/2/guillermo_chavez.pdf.txtd981c388e3f5b0300800400253ddff88MD521843/RVMR-788P4U2019-11-14 18:34:37.907oai:repositorio.ufmg.br:1843/RVMR-788P4URepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T21:34:37Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv	Análise de conteúdo de vídeo por meio de aprendizado ativo
title	Análise de conteúdo de vídeo por meio de aprendizado ativo
spellingShingle	Análise de conteúdo de vídeo por meio de aprendizado ativo Guillermo Camara Chavez Indexação automatica Computação Sistemas de recuperação da informação
title_short	Análise de conteúdo de vídeo por meio de aprendizado ativo
title_full	Análise de conteúdo de vídeo por meio de aprendizado ativo
title_fullStr	Análise de conteúdo de vídeo por meio de aprendizado ativo
title_full_unstemmed	Análise de conteúdo de vídeo por meio de aprendizado ativo
title_sort	Análise de conteúdo de vídeo por meio de aprendizado ativo
author	Guillermo Camara Chavez
author_facet	Guillermo Camara Chavez
author_role	author
dc.contributor.advisor1.fl_str_mv	Arnaldo de Albuquerque Araujo
dc.contributor.advisor-co1.fl_str_mv	Sylvie Philipp-foliguet
dc.contributor.advisor-co2.fl_str_mv	Matthieu Cord
dc.contributor.referee1.fl_str_mv	Hani Camille Yehia
dc.contributor.referee2.fl_str_mv	Neucimar Jerônimo Leite
dc.contributor.referee3.fl_str_mv	Mario Fernando Montenegro Campos
dc.contributor.author.fl_str_mv	Guillermo Camara Chavez
contributor_str_mv	Arnaldo de Albuquerque Araujo Sylvie Philipp-foliguet Matthieu Cord Hani Camille Yehia Neucimar Jerônimo Leite Mario Fernando Montenegro Campos
dc.subject.other.pt_BR.fl_str_mv	Indexação automatica Computação Sistemas de recuperação da informação
topic	Indexação automatica Computação Sistemas de recuperação da informação
description	Avanços em técnicas de compressão, diminuição no custo de armazenamento e transmissões em grande velocidade têm facilitado a forma como os vídeos são criados, armazenados e distribuídos. Comoconseqüência, os vídeos passaram a ser utilizados em várias aplicações. Devido ao aumento na quantidade de dados dos vídeos distribuídos e usados em aplicações atuais, estes se destacam comoum tipo de dado multimídia, introduzindo, porém, o requerimento de um gerenciamento mais eficiente destes dados. Tudo isto tem aberto o caminho para novas áreas de pesquisa, tais como a indexação erecuperação de vídeo baseadas no conteúdo semântico, visual e espaço-temporal.Esta tese apresenta um trabalho dirigido à criação de um suporte unificado para a indexação semi-automática de video e recuperação iterativa. Para criar uma indexação unificada, é selecionado umconjunto de quadros-chave que capturam e encapsulam o conteúdo do vídeo. Isso é conseguido através da segmentação do vídeo em tomadas constitutivas e selecionando um número ótimo de quadros dentre os limites da tomada. Primeiro, desenvolvemos um algoritmo para segmentação automática (detecção de cortes de cena). A fim de prescindir da definição de limiares e parâmetros, utilizamos um método de classificação supervisionado. Adotamos um classificador SVM devido à habilidade para utilizar espaços de características de alta dimensão (utilizando funções de kernels) preservando a grande capacidade de generalização. Igualmente, avaliamos profundamente diferentes combinações de características ekernels. Avaliamos o desempenho do nosso classificador utilizando diferentes funções kernel visando encontrar aquele que apresente melhor desempenho. Nossos experimentos, seguem estritamente o protocolo da Avaliação TRECVID. Apresentamos os resultados obtidos na tarefa de detecção de cortes de cenas da Avaliação TRECVID de 2006. Os resultados obtidos foram satisfatórios lidando com um grande conjunto de características graças a nosso classificador SVM baseado em kernels.O passo seguinte depois da segmentação é a extração de quadros-chave. Eles são selecionados a fim de minimizar a redundância de representação enquanto preservam o conteúdo da tomada, i.e., selecionando um número ótimo de quadros dentro dos limites da tomada. Nós propomos um sistema interativo de recuperaçao de vídeo: RETINVID baseano no sistema RETIN, uma máquina de busca e recuperação por conteúdo de imagens. O objetivo do aprendizado ativo quando utilizando em indexação é reduzir significativamente o número de quadros-chave anotados pelo usuário. Usamos o aprendizado ativo para ajudar no etiquetado semântico de bases de dados de vídeos. A abordagem de aprendizado propõe amostras de tomadas-chave do vídeo para serem anotadas e posteriormente atualizar a base de dados com as novas anotações. Logo, o sistema usa o aprendizado cumulativo adquirido para propagar as etiquetas ao resto da base de dados, este processo é executado toda vez que uma amostra de quadros-chave é apresentada ao usuário para ser anotada.As amostras de quadros-chave apresentadas são selecionadas baseadas na habilidade do sistema para incrementar o conhecimento obtido. Portanto, temos escolhido o aprendizado ativo devido à capacidade de recuperar categorias complexas, especificamente a traves do uso das funções kernel. A falta de dados para treinamento, categorias não-balanceadas e o tamanho do vetor de características podem ser superados através do aprendizado ativo. Avaliamos o desempenho do nosso sistema usando a base da dados utilizada na tarefa de alto-nível da Avaliação TRECVID de 2005.
publishDate	2007
dc.date.issued.fl_str_mv	2007-07-06
dc.date.accessioned.fl_str_mv	2019-08-12T16:23:29Z
dc.date.available.fl_str_mv	2019-08-12T16:23:29Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1843/RVMR-788P4U
url	http://hdl.handle.net/1843/RVMR-788P4U
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv	UFMG
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br/bitstream/1843/RVMR-788P4U/1/guillermo_chavez.pdf https://repositorio.ufmg.br/bitstream/1843/RVMR-788P4U/2/guillermo_chavez.pdf.txt
bitstream.checksum.fl_str_mv	06f87dd71f2da0267fb94d7ed1b37ec0 d981c388e3f5b0300800400253ddff88
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_	1803589487646736384

Análise de conteúdo de vídeo por meio de aprendizado ativo

Registros relacionados