Video browsing and soundtrack labelling based on human computation

Detalhes bibliográficos
Autor(a) principal: Gomes, Jorge Miguel Correia Antunes
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/10421
Resumo: Tese de mestrado em Engenharia Informática, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2013
id RCAP_0e78dc2df7d6f1dec4d272438c67b3fb
oai_identifier_str oai:repositorio.ul.pt:10451/10421
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Video browsing and soundtrack labelling based on human computationNavegação interactivaÁudioMúsicaBanda sonoraVídeoFilmesEtiquetagemComputação baseada em humanosJogo com um propósitoGamificaçãoEntretenimentoMotivaçãoMovieCloudsSoundsLikeTeses de mestrado - 2013Tese de mestrado em Engenharia Informática, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2013A rápida expansão dos meios de comunicação permitiu a criação de enormes e complexas colecções multimédia acessíveis através da Internet e media sociais. Essas colecções exigem novos mecanismos de busca, que irão beneficiar de novas técnicas de classificação e análise automática de conteúdo de áudio e vídeo, e de relações entre os documentos multimédia e os seus conteúdos. O vídeo é um meio muito rico, combinando imagem e som e proporcionando assim uma enorme quantidade de informação e uma excelente plataforma para a criatividade ser expressa e explorada. A riqueza do vídeo e multimédia permite a extracção de propriedades interessantes que podem ser úteis em sistemas de pesquisa exploratória. No entanto, toda esta riqueza que torna tão interessantes os espaços de informação de áudio e vídeo, traz consigo uma complexidade com que é difícil lidar. Eventos sonoros, emoções expressas e sentidas, estados de espírito, cores e ritmo sonoro são exemplos de propriedades multimédia interessantes a serem exploradas. Alguns investigadores apontaram a importância para o desenvolvimento de métodos para extrair características interessantes e significativas em vídeos para efectivamente resumi-los e indexá-los ao nível das legendas, imagem e áudio. As tarefas de análise de áudio e vídeo são consideradas como árduas e complexas. As abordagens mais comuns baseiam-se em modelos estatísticos, que exigem a construção de conjuntos de dados classificados compostos por amostras de vídeo e áudio. A construção de um conjunto de dados exigiria horas incontáveis, de escuta e de classificação manual - isto é muitas vezes formulado como o problema de “arranque a frio” (“cold-start problem”) na aquisição de dados. A colecta de informações detalhadas sobre o conteúdo multimédia poderá melhorar os sistemas automáticos de extracção de informação e facilitar a prospecção de dados, para extrair relações úteis para as indústrias de multimédia, melhorar sistemas de recomendação baseados em conteúdos, publicidade contextual e “personalized retargeting”. Para tal, é necessária a exploração de novos métodos para a classificação de grandes quantidades de vídeos e áudio, com vista a solucionar o problema de “arranque a frio” da aquisição de dados, e providenciar um modo para a partilha de resultados e conjunto de dados com a comunidade científica. Entretanto, é também importante a exploração de formas de visualização de informação relativas a vídeo e filmes, ao nível de cada um e ao nível dos espaços de filmes, incluindo a representação temporal quer dentro dos filmes, que contém muita informação ao longo do tempo da sua duração, quer ao nível do tempo de lançamento ou visionamento de séries e filmes. Hoje em dia, a importância da visualização de dados está a aumentar cada vez mais. Técnicas de visualização podem ser a opção mais forte para transmitir e expressar ideias a outras pessoas recorrendo a gráficos, diagramas e animações. No entanto, isto exigirá conhecimentos sobre a linguagem da comunicação visual, que envolvem semânticas e sintaxes semelhantes à linguagem verbal. Estas técnicas podem ajudar a lidar com a complexidade de dados e explorar modos avançados e eficazes para transmitir informações provenientes de espaços de informação. Este projecto pretende contribuir na área de visualização e recuperação de informações de áudio e vídeo ao permitir aos utilizadores aperceberem-se e procurarem por certas propriedades multimédia e abordar o problema de “arranque a frio” (“cold-start problem”). A solução passa pela criação de novas abordagens que dependem de mecanismos interactivos de crowdsourcing e computação baseada em humanos que irão recorrer a elementos de jogos para motivar os utilizadores a contribuir para resolução do problema de “arranque a frio” na classificação de conteúdos. Crowdsourcing aqui significa confiar nas contribuições provenientes de um enorme grupo de pessoas, especialmente de uma comunidade on-line ou redes sociais, onde tarefas possam ser concluídas por diversas pessoas. Neste contexto, pretende-se classificar documentos multimédia e procurar um consenso geral para obter informações relevantes que descrevam com precisão estes mesmos documentos em meta-dados sugeridos pelos utilizadores. Isto irá criar bases de dados que poderão ser compartilhados e reutilizados pela comunidade científica, com vista a serem utilizados em modelos estatísticos que suportam a extracção automática de informação e prospecção de dados referidas anteriormente. Este trabalho está relacionado com outros projectos, onde as características de vídeo são extraídos por meio de processamento do áudio (tiro, gritos, risos, humor música, etc), análise de legendas (usando a interpretação semântica e análise de sentimento relativa a emoções expressas) e monitorização das emoções dos espectadores através de dados biométricos (frequência cardíaca, a respiração, a resposta galvânica da pele, etc), ou reconhecimento visual de expressões faciais. O trabalho relatado por esta dissertação foca-se nas dimensões interactivas para visualização, acesso e classificação de conteúdos em filmes, visualizações interactivas para espaços de filmes e para a representação de segmentos de áudio semelhantes, com base no teu conteúdo, e permitir uma navegação contextualizada de filmes e a classificação interactiva de conteúdos no SoundsLike. Adoptando uma abordagem de Computação baseada em humanos, SoundsLike é um Jogos com um Propósito (“GameWith A Purpose”) que tem dois objectivos em mente: 1) utilizar elementos de jogos para entreter e motivar o utilizador na navegação e classificação de vídeos e filmes; e 2) utilizar esta interacção para recolher informação e melhorar técnicas de análise de áudio baseado em conteúdo, recorrendo a paradigmas de crowdsourcing para obter consensos sobre a relevância de dados recolhidos e pontuar correctamente cada contribuição. SoundsLike está integrado no MovieClouds, uma aplicaçãoWeb interactiva desenhada para aceder, explorar e visualizar filmes baseada na informação fornecida em diferentes perspectivas do seu conteúdo. Esta abordagem de classificação poderá posteriormente ser estendida para outros tipos de conteúdos, não se limitando somente à componente de áudio.Video and audio are becoming dominant media in our lives. In a time when we witness the convergence of media, it is pertinent the creation of new and richer ways for content-based access and visualization of videos. Collections of video require new search mechanisms which will benefit from new classification techniques and automatic analysis of video and audio content and relationships among them. Video is a very rich medium combining image and sound, thus providing huge amounts of information. However, this richness that makes video and audio based information spaces so interesting comes with a challenging complexity to handle. The exploration of new visualization methods related to video and movies at the movie space level down to the each movie itself, including representations along time of the videos’ content or the time of their releases or viewing, allow pattern and trend analysis and movie browsing. The exploration of new visualization methods may enhance video and movies perception and navigation at the movie space and the individual movie levels. Representations along time of the videos’ content in their different perspectives (sound, subtitles, image, etc.) or the time of their releases or viewing, allow identifying and analysing use and content patterns and relations, for a richer understanding and access in movie browsing. Game elements, in turn, can help in this often challenging process, e.g. in the audio, to obtain user feedback to improve the efficacy of classification, while maintaining or improving the entertaining quality of the user experience. This dissertation’s project aims to improve the area of visualization and information retrieval of audio and video, by adopting a Human Computation approach through a Game With A Purpose to entertain and engage users in movies soundtrack browsing and labelling to collect data that also improve our content-based sound classification techniques. SoundsLike is integrated in MovieClouds, an interactive web application designed to access, explore and visualize movies based on the information conveyed in the different tracks or perspectives of its content.Chambel, Maria Teresa Caeiro, 1965-Repositório da Universidade de LisboaGomes, Jorge Miguel Correia Antunes2014-01-31T16:38:41Z20132013-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/10421TID:201337495enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T15:55:53Zoai:repositorio.ul.pt:10451/10421Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:34:27.013998Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Video browsing and soundtrack labelling based on human computation
title Video browsing and soundtrack labelling based on human computation
spellingShingle Video browsing and soundtrack labelling based on human computation
Gomes, Jorge Miguel Correia Antunes
Navegação interactiva
Áudio
Música
Banda sonora
Vídeo
Filmes
Etiquetagem
Computação baseada em humanos
Jogo com um propósito
Gamificação
Entretenimento
Motivação
MovieClouds
SoundsLike
Teses de mestrado - 2013
title_short Video browsing and soundtrack labelling based on human computation
title_full Video browsing and soundtrack labelling based on human computation
title_fullStr Video browsing and soundtrack labelling based on human computation
title_full_unstemmed Video browsing and soundtrack labelling based on human computation
title_sort Video browsing and soundtrack labelling based on human computation
author Gomes, Jorge Miguel Correia Antunes
author_facet Gomes, Jorge Miguel Correia Antunes
author_role author
dc.contributor.none.fl_str_mv Chambel, Maria Teresa Caeiro, 1965-
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Gomes, Jorge Miguel Correia Antunes
dc.subject.por.fl_str_mv Navegação interactiva
Áudio
Música
Banda sonora
Vídeo
Filmes
Etiquetagem
Computação baseada em humanos
Jogo com um propósito
Gamificação
Entretenimento
Motivação
MovieClouds
SoundsLike
Teses de mestrado - 2013
topic Navegação interactiva
Áudio
Música
Banda sonora
Vídeo
Filmes
Etiquetagem
Computação baseada em humanos
Jogo com um propósito
Gamificação
Entretenimento
Motivação
MovieClouds
SoundsLike
Teses de mestrado - 2013
description Tese de mestrado em Engenharia Informática, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2013
publishDate 2013
dc.date.none.fl_str_mv 2013
2013-01-01T00:00:00Z
2014-01-31T16:38:41Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/10421
TID:201337495
url http://hdl.handle.net/10451/10421
identifier_str_mv TID:201337495
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134239101288448