Fusão de informação multimodal por detecção de correlação para tarefas de análise de vídeo

Kishi, Rodrigo Mitsuo

Fusão de informação multimodal por detecção de correlação para tarefas de análise de vídeo

Detalhes bibliográficos
Autor(a) principal:	Kishi, Rodrigo Mitsuo
Data de Publicação:	2020
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da USP
Texto Completo:	https://www.teses.usp.br/teses/disponiveis/55/55134/tde-29072020-100439/
Resumo:	O emprego de fusão prévia multimodal tem se mostrado eficaz em grande parte das tarefas de análise de vídeo existentes. Os métodos de fusão prévia encontrados na literatura foram desenvolvidos para melhorar a eficácia em tarefas específicas e, por esse motivo, são essencialmente vinculados a particularidades de suas respectivas tarefas fim. Com isso, alguns aspectos importantes para a produção de uma representação expressiva por meio de fusão de informação, bem como o potencial de generalização quanto ao domínio de aplicação foram negligenciados em pesquisas até o presente momento. Esta tese de doutorado propõe um método, M4InFus, destinado a realizar fusão de informação multimodal sem utilizar especificidades de domínio de aplicação. O método M4InFus é baseado em identificação de co-ocorrência de padrões unimodais em segmentos de vídeo e cobre lacunas existentes na área de fusão de informação multimodal. O método proposto foi aplicado em dois experimentos na tarefa de Segmentação Temporal de Vídeo em Cenas e em um experimento na tarefa de Classificação de Vídeo, promovendo ganhos em eficácia em ambas as tarefas. Considerando que a eficácia em tais tarefas é limitada pela Lacuna Semântica, há um indício de que representações geradas pelo método M4InFus são menos distantes da semântica contida nos segmentos de vídeo de origem. Este projeto de doutorado também gerou, como contribuição, a implementação do M4InFus e a formação de recursos humanos em níveis de doutorado e de iniciação científica.

Metadados do item

id	USP_c22dea53679087d11490c565c4623880
oai_identifier_str	oai:teses.usp.br:tde-29072020-100439
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str	2721
spelling	Fusão de informação multimodal por detecção de correlação para tarefas de análise de vídeoMultimodal information fusion by correlation detection for video analysis tasksAnálise de co-ocorrênciaCo-occurrence analysisDigital videoEarly fusionFusão préviaMultimediaMultimídiaMultimodalidadeMultimodalityVídeo digitalO emprego de fusão prévia multimodal tem se mostrado eficaz em grande parte das tarefas de análise de vídeo existentes. Os métodos de fusão prévia encontrados na literatura foram desenvolvidos para melhorar a eficácia em tarefas específicas e, por esse motivo, são essencialmente vinculados a particularidades de suas respectivas tarefas fim. Com isso, alguns aspectos importantes para a produção de uma representação expressiva por meio de fusão de informação, bem como o potencial de generalização quanto ao domínio de aplicação foram negligenciados em pesquisas até o presente momento. Esta tese de doutorado propõe um método, M4InFus, destinado a realizar fusão de informação multimodal sem utilizar especificidades de domínio de aplicação. O método M4InFus é baseado em identificação de co-ocorrência de padrões unimodais em segmentos de vídeo e cobre lacunas existentes na área de fusão de informação multimodal. O método proposto foi aplicado em dois experimentos na tarefa de Segmentação Temporal de Vídeo em Cenas e em um experimento na tarefa de Classificação de Vídeo, promovendo ganhos em eficácia em ambas as tarefas. Considerando que a eficácia em tais tarefas é limitada pela Lacuna Semântica, há um indício de que representações geradas pelo método M4InFus são menos distantes da semântica contida nos segmentos de vídeo de origem. Este projeto de doutorado também gerou, como contribuição, a implementação do M4InFus e a formação de recursos humanos em níveis de doutorado e de iniciação científica.Multimodal early fusion has been shown to be effective on many of existing video analysis tasks. Available early fusion methods found in the literature had been developed to improve efficacy at specific tasks and, therefore, are essentially tied to particularities of their respective tasks. In this context, research on both, important aspects to compute meaningful representations by information fusion and generalization potential regarding application domain, have been negleted up to this date. This PhD thesis proposes M4InFus, a method intended to perform multimodal information fusion without using application domain specificities. M4InFus method is based on co-occurrence detection of unimodal patterns on video segments and covers existing gaps on multimodal information fusion area. The proposed method have been applied in two experiments on the Temporal Video Scene Segmentation task and one experiment on the Video Classification task, promoting efficacy gains in both tasks. Considering the efficacy in those tasks limited by the Semantic Gap, this information is a clue about the representations generated by the M4InFus method to be less distant from the semantics contained in the original video segments.This doctoral project also produced, as a contribution, an implementation of the M4InFus method and human resources formation on doctoral and undergraduate research levels.Biblioteca Digitais de Teses e Dissertações da USPGoularte, RudineiKishi, Rodrigo Mitsuo2020-03-26info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-29072020-100439/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2020-08-13T00:48:19Zoai:teses.usp.br:tde-29072020-100439Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212020-08-13T00:48:19Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Fusão de informação multimodal por detecção de correlação para tarefas de análise de vídeo Multimodal information fusion by correlation detection for video analysis tasks
title	Fusão de informação multimodal por detecção de correlação para tarefas de análise de vídeo
spellingShingle	Fusão de informação multimodal por detecção de correlação para tarefas de análise de vídeo Kishi, Rodrigo Mitsuo Análise de co-ocorrência Co-occurrence analysis Digital video Early fusion Fusão prévia Multimedia Multimídia Multimodalidade Multimodality Vídeo digital
title_short	Fusão de informação multimodal por detecção de correlação para tarefas de análise de vídeo
title_full	Fusão de informação multimodal por detecção de correlação para tarefas de análise de vídeo
title_fullStr	Fusão de informação multimodal por detecção de correlação para tarefas de análise de vídeo
title_full_unstemmed	Fusão de informação multimodal por detecção de correlação para tarefas de análise de vídeo
title_sort	Fusão de informação multimodal por detecção de correlação para tarefas de análise de vídeo
author	Kishi, Rodrigo Mitsuo
author_facet	Kishi, Rodrigo Mitsuo
author_role	author
dc.contributor.none.fl_str_mv	Goularte, Rudinei
dc.contributor.author.fl_str_mv	Kishi, Rodrigo Mitsuo
dc.subject.por.fl_str_mv	Análise de co-ocorrência Co-occurrence analysis Digital video Early fusion Fusão prévia Multimedia Multimídia Multimodalidade Multimodality Vídeo digital
topic	Análise de co-ocorrência Co-occurrence analysis Digital video Early fusion Fusão prévia Multimedia Multimídia Multimodalidade Multimodality Vídeo digital
description	O emprego de fusão prévia multimodal tem se mostrado eficaz em grande parte das tarefas de análise de vídeo existentes. Os métodos de fusão prévia encontrados na literatura foram desenvolvidos para melhorar a eficácia em tarefas específicas e, por esse motivo, são essencialmente vinculados a particularidades de suas respectivas tarefas fim. Com isso, alguns aspectos importantes para a produção de uma representação expressiva por meio de fusão de informação, bem como o potencial de generalização quanto ao domínio de aplicação foram negligenciados em pesquisas até o presente momento. Esta tese de doutorado propõe um método, M4InFus, destinado a realizar fusão de informação multimodal sem utilizar especificidades de domínio de aplicação. O método M4InFus é baseado em identificação de co-ocorrência de padrões unimodais em segmentos de vídeo e cobre lacunas existentes na área de fusão de informação multimodal. O método proposto foi aplicado em dois experimentos na tarefa de Segmentação Temporal de Vídeo em Cenas e em um experimento na tarefa de Classificação de Vídeo, promovendo ganhos em eficácia em ambas as tarefas. Considerando que a eficácia em tais tarefas é limitada pela Lacuna Semântica, há um indício de que representações geradas pelo método M4InFus são menos distantes da semântica contida nos segmentos de vídeo de origem. Este projeto de doutorado também gerou, como contribuição, a implementação do M4InFus e a formação de recursos humanos em níveis de doutorado e de iniciação científica.
publishDate	2020
dc.date.none.fl_str_mv	2020-03-26
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/55/55134/tde-29072020-100439/
url	https://www.teses.usp.br/teses/disponiveis/55/55134/tde-29072020-100439/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1815257480664449024

Fusão de informação multimodal por detecção de correlação para tarefas de análise de vídeo

Registros relacionados