Operadores de fusão prévia para segmentação temporal de vídeo em cenas
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-07022023-152229/ |
Resumo: | Técnicas de fusão prévia têm sido propostas em tarefas de análise multimídia como uma maneira de melhorar a eficácia ao gerar representações de dados mais compactas, expressivas e capazes de preservar a semântica presente nos dados. Os trabalhos recentes no domínio de vídeo digital empregam multimodalidade fazendo jus à natureza multimodal de um vídeo. Esse espaço heterogêneo, somado à dificuldade de se obter uma etapa de fusão prévia desacoplada e separável do restante do processamento, limita possíveis melhorias que poderiam ser alcançadas nas etapas isoladamente. Além disso, técnicas foram projetadas para problemas específicos, não podendo ser generalizadas, o que também as tornam inseparáveis da tarefa de análise de vídeo em questão. Motivado por esse cenário, este trabalho de mestrado propõe a aplicação dos operadores de fusão prévia, Soma, Máximo e Concatenação, que atuem no médio nível semântico, desacoplando o operador de qualquer tarefa específica e, ao mesmo tempo, com um custo computacional mais simples. Os operadores foram aplicados em duas bases de dados publicamente disponíveis da tarefa de Segmentação Temporal de Vídeo em Cenas. Os resultados atingidos competem com os do estado da arte com a vantagem de simplicidade computacional. |
id |
USP_d9159da1443c1131b65da6921f6660f6 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-07022023-152229 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Operadores de fusão prévia para segmentação temporal de vídeo em cenasEarly fusion operators for temporal video scene segmentationEarly fusionFusão multimodalFusão préviaMultimodal fusionSegmentação de vídeoVideo segmentationTécnicas de fusão prévia têm sido propostas em tarefas de análise multimídia como uma maneira de melhorar a eficácia ao gerar representações de dados mais compactas, expressivas e capazes de preservar a semântica presente nos dados. Os trabalhos recentes no domínio de vídeo digital empregam multimodalidade fazendo jus à natureza multimodal de um vídeo. Esse espaço heterogêneo, somado à dificuldade de se obter uma etapa de fusão prévia desacoplada e separável do restante do processamento, limita possíveis melhorias que poderiam ser alcançadas nas etapas isoladamente. Além disso, técnicas foram projetadas para problemas específicos, não podendo ser generalizadas, o que também as tornam inseparáveis da tarefa de análise de vídeo em questão. Motivado por esse cenário, este trabalho de mestrado propõe a aplicação dos operadores de fusão prévia, Soma, Máximo e Concatenação, que atuem no médio nível semântico, desacoplando o operador de qualquer tarefa específica e, ao mesmo tempo, com um custo computacional mais simples. Os operadores foram aplicados em duas bases de dados publicamente disponíveis da tarefa de Segmentação Temporal de Vídeo em Cenas. Os resultados atingidos competem com os do estado da arte com a vantagem de simplicidade computacional.Early fusion techniques have been proposed in multimedia analysis tasks as a way to improve efficiency by generating more compact, expressive data representations capable of preserving the semantics present in the data. Recent work in the digital video domain employs multimodality due to the multimodal nature of a video. This heterogeneous space, added to the difficulty of obtaining a early fusion step that is uncoupled and separable from the rest of the processing, limits possible improvements that could be achieved in the steps isolatedly. Furthermore, techniques were designed for specific problems and cannot be generalized, which also makes them inseparable from the video analysis task. Motivated by this scenario, this masters degree work proposes the application of the early fusion operators, Sum, Maximum and Concatenation, which act at the medium semantic level, decoupling the operator from any specific task and, at the same time, with a simpler computational cost. The operators were applied in two publicly available databases of the Temporal Video Scene Segmentation task. The achieved results competed with those of the state of the art with the advantage of computational simplicity.Biblioteca Digitais de Teses e Dissertações da USPGoularte, RudineiBeserra, Antonio Alessandro Rocha2022-11-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-07022023-152229/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-02-07T17:30:13Zoai:teses.usp.br:tde-07022023-152229Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-02-07T17:30:13Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Operadores de fusão prévia para segmentação temporal de vídeo em cenas Early fusion operators for temporal video scene segmentation |
title |
Operadores de fusão prévia para segmentação temporal de vídeo em cenas |
spellingShingle |
Operadores de fusão prévia para segmentação temporal de vídeo em cenas Beserra, Antonio Alessandro Rocha Early fusion Fusão multimodal Fusão prévia Multimodal fusion Segmentação de vídeo Video segmentation |
title_short |
Operadores de fusão prévia para segmentação temporal de vídeo em cenas |
title_full |
Operadores de fusão prévia para segmentação temporal de vídeo em cenas |
title_fullStr |
Operadores de fusão prévia para segmentação temporal de vídeo em cenas |
title_full_unstemmed |
Operadores de fusão prévia para segmentação temporal de vídeo em cenas |
title_sort |
Operadores de fusão prévia para segmentação temporal de vídeo em cenas |
author |
Beserra, Antonio Alessandro Rocha |
author_facet |
Beserra, Antonio Alessandro Rocha |
author_role |
author |
dc.contributor.none.fl_str_mv |
Goularte, Rudinei |
dc.contributor.author.fl_str_mv |
Beserra, Antonio Alessandro Rocha |
dc.subject.por.fl_str_mv |
Early fusion Fusão multimodal Fusão prévia Multimodal fusion Segmentação de vídeo Video segmentation |
topic |
Early fusion Fusão multimodal Fusão prévia Multimodal fusion Segmentação de vídeo Video segmentation |
description |
Técnicas de fusão prévia têm sido propostas em tarefas de análise multimídia como uma maneira de melhorar a eficácia ao gerar representações de dados mais compactas, expressivas e capazes de preservar a semântica presente nos dados. Os trabalhos recentes no domínio de vídeo digital empregam multimodalidade fazendo jus à natureza multimodal de um vídeo. Esse espaço heterogêneo, somado à dificuldade de se obter uma etapa de fusão prévia desacoplada e separável do restante do processamento, limita possíveis melhorias que poderiam ser alcançadas nas etapas isoladamente. Além disso, técnicas foram projetadas para problemas específicos, não podendo ser generalizadas, o que também as tornam inseparáveis da tarefa de análise de vídeo em questão. Motivado por esse cenário, este trabalho de mestrado propõe a aplicação dos operadores de fusão prévia, Soma, Máximo e Concatenação, que atuem no médio nível semântico, desacoplando o operador de qualquer tarefa específica e, ao mesmo tempo, com um custo computacional mais simples. Os operadores foram aplicados em duas bases de dados publicamente disponíveis da tarefa de Segmentação Temporal de Vídeo em Cenas. Os resultados atingidos competem com os do estado da arte com a vantagem de simplicidade computacional. |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-11-21 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-07022023-152229/ |
url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-07022023-152229/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256776469118976 |