Aprendizado não supervisionado para recuperação multimídia multimodal
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UNESP |
Texto Completo: | http://hdl.handle.net/11449/234709 |
Resumo: | Dado o crescimento vertiginoso de coleções multimídia, sejam vídeos, áudios ou imagens e a carência de dados rotulados, torna-se fundamental investigar abordagens não supervisionadas de recuperação de informação baseada no conteúdo. Considerando que informações de diferentes modalidades ou representações de um mesmo objeto tendem a ser complementares, é imprescindível explorar múltiplas modalidades no processo de recuperação de informação. Contudo, ao utilizar informações de modalidades distintas, depara-se com o desafio de como combinar as informações dessas diferentes fontes. No contexto dessa dissertação, serão investigadas abordagens de combinação utilizando múltiplos ranqueamentos por meio de métodos de aprendizado não supervisionado. De modo geral, tais métodos exploram relações contextuais entre os objetos, geralmente codificadas nas informações de similaridade das coleções, sem requerer dados rotulados ou intervenção de usuários. Além disso, foram consideradas abordagens recentes de redes convolucionais baseadas em grafos (\textit{Graph Convolutional Networks} - GCNs). O treinamento de GCNs é tradicionalmente realizado de modo que cada nó se comunica com sua vizinhança, incorporando a si informações dos nós aos quais apresenta conexões no grafo. Neste trabalho, combinamos a capacidade de métodos de aprendizado não supervisionado em explorar a geometria do conjunto de dados e definir uma medida contextual de distância com a capacidade de GCNs de criar uma representação mais eficaz de cada instância para aprimorar os resultados de recuperação de vídeos em cenários não supervisionados e multimodais. Deste modo, o trabalho apresenta um levantamento bibliográfico, discute métodos de extração de características em diferentes modalidades, e apresenta propostas de métodos para recuperação multimídia capazes de combinar as informações de diferentes modalidades em dois cenários distintos. No primeiro cenário, são propostas diferentes abordagens para recuperação de vídeos considerando informações de diferentes modalidades (imagens, áudios e vídeos) e utilizando técnicas de aprendizado não supervisionado baseadas em ranqueamento e GCNs treinadas de modo não supervisionado. No segundo cenário, é proposto um método de aprendizado de representações para recuperação de imagens baseado na fusão de representações multimodais. A representação de cada imagem é obtida através de características extraídas de uma sequência composta de sua $k$-vizinhança mais próxima, também utilizando técnicas de aprendizado não supervisionado. |
id |
UNSP_7361ddf7ef4d3924298d4f35752d7d55 |
---|---|
oai_identifier_str |
oai:repositorio.unesp.br:11449/234709 |
network_acronym_str |
UNSP |
network_name_str |
Repositório Institucional da UNESP |
repository_id_str |
2946 |
spelling |
Aprendizado não supervisionado para recuperação multimídia multimodalUnsupervised learning for multimodal multimedia retrievalAprendizado de máquinaRecuperação multimídia por conteúdoRecuperação multimodal de informaçõesAprendizado não supervisionadoDeep graph infomaxRedes convolucionais baseadas em grafosAprendizado de representaçõesUnsupervised learningMultimedia content retrievalMultimodal information retrievalRepresentation learningGraph convolutional networksDado o crescimento vertiginoso de coleções multimídia, sejam vídeos, áudios ou imagens e a carência de dados rotulados, torna-se fundamental investigar abordagens não supervisionadas de recuperação de informação baseada no conteúdo. Considerando que informações de diferentes modalidades ou representações de um mesmo objeto tendem a ser complementares, é imprescindível explorar múltiplas modalidades no processo de recuperação de informação. Contudo, ao utilizar informações de modalidades distintas, depara-se com o desafio de como combinar as informações dessas diferentes fontes. No contexto dessa dissertação, serão investigadas abordagens de combinação utilizando múltiplos ranqueamentos por meio de métodos de aprendizado não supervisionado. De modo geral, tais métodos exploram relações contextuais entre os objetos, geralmente codificadas nas informações de similaridade das coleções, sem requerer dados rotulados ou intervenção de usuários. Além disso, foram consideradas abordagens recentes de redes convolucionais baseadas em grafos (\textit{Graph Convolutional Networks} - GCNs). O treinamento de GCNs é tradicionalmente realizado de modo que cada nó se comunica com sua vizinhança, incorporando a si informações dos nós aos quais apresenta conexões no grafo. Neste trabalho, combinamos a capacidade de métodos de aprendizado não supervisionado em explorar a geometria do conjunto de dados e definir uma medida contextual de distância com a capacidade de GCNs de criar uma representação mais eficaz de cada instância para aprimorar os resultados de recuperação de vídeos em cenários não supervisionados e multimodais. Deste modo, o trabalho apresenta um levantamento bibliográfico, discute métodos de extração de características em diferentes modalidades, e apresenta propostas de métodos para recuperação multimídia capazes de combinar as informações de diferentes modalidades em dois cenários distintos. No primeiro cenário, são propostas diferentes abordagens para recuperação de vídeos considerando informações de diferentes modalidades (imagens, áudios e vídeos) e utilizando técnicas de aprendizado não supervisionado baseadas em ranqueamento e GCNs treinadas de modo não supervisionado. No segundo cenário, é proposto um método de aprendizado de representações para recuperação de imagens baseado na fusão de representações multimodais. A representação de cada imagem é obtida através de características extraídas de uma sequência composta de sua $k$-vizinhança mais próxima, também utilizando técnicas de aprendizado não supervisionado.Given the rapid growth of multimedia collections, whether videos, audios or images, and the lack of labeled data, it is essential to investigate unsupervised approaches to content-based information retrieval. Considering that information from different modalities or representations of the same object tend to be complementary, it is essential to explore multiple modalities in the information retrieval process. However, when using information from different modalities, one is faced with the challenge of how to combine information from these different sources. In the context of this dissertation, combination approaches using multiple rankings through unsupervised learning methods will be investigated. In general, such methods explore contextual relationships between objects, usually encoded in the similarity information of the collections, without requiring labeled data or user intervention. Furthermore, recent approaches to graph-based convolutional networks (\textit{Graph Convolutional Networks} - GCNs) were considered. The training of GCNs is traditionally performed so that each node communicates with its neighborhood, incorporating information from the nodes to which it has connections in the graph. In this work, we combine the ability of unsupervised learning methods to explore the geometry of the dataset and define a contextual measure of distance with the ability of GCNs to create a more effective representation of each instance to improve video retrieval results in unsupervised and multimodal scenarios. In this way, the work presents a bibliographic survey, discusses methods for extracting features in different modalities, and presents proposals for methods for multimedia retrieval capable of combining information from different modalities in two different scenarios. In the first scenario, different approaches are proposed for video retrieval considering information from different modalities (images, audios and videos) and using unsupervised learning techniques based on ranking and unsupervised trained GCNs. In the second scenario, a representation learning method for image retrieval based on the fusion of multimodal representations is proposed. The representation of each image is obtained through features extracted from a sequence composed of its nearest $k$-neighborhood, also using unsupervised learning techniques.Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)FAPESP: 2020/03311-0.Universidade Estadual Paulista (Unesp)Pedronette, Daniel Carlos Guimarães [UNESP]Universidade Estadual Paulista (Unesp)Almeida, Lucas Barbosa de2022-05-13T17:12:14Z2022-05-13T17:12:14Z2022-03-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/11449/23470933004153073P2porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2023-10-25T06:05:38Zoai:repositorio.unesp.br:11449/234709Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T15:52:24.945330Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false |
dc.title.none.fl_str_mv |
Aprendizado não supervisionado para recuperação multimídia multimodal Unsupervised learning for multimodal multimedia retrieval |
title |
Aprendizado não supervisionado para recuperação multimídia multimodal |
spellingShingle |
Aprendizado não supervisionado para recuperação multimídia multimodal Almeida, Lucas Barbosa de Aprendizado de máquina Recuperação multimídia por conteúdo Recuperação multimodal de informações Aprendizado não supervisionado Deep graph infomax Redes convolucionais baseadas em grafos Aprendizado de representações Unsupervised learning Multimedia content retrieval Multimodal information retrieval Representation learning Graph convolutional networks |
title_short |
Aprendizado não supervisionado para recuperação multimídia multimodal |
title_full |
Aprendizado não supervisionado para recuperação multimídia multimodal |
title_fullStr |
Aprendizado não supervisionado para recuperação multimídia multimodal |
title_full_unstemmed |
Aprendizado não supervisionado para recuperação multimídia multimodal |
title_sort |
Aprendizado não supervisionado para recuperação multimídia multimodal |
author |
Almeida, Lucas Barbosa de |
author_facet |
Almeida, Lucas Barbosa de |
author_role |
author |
dc.contributor.none.fl_str_mv |
Pedronette, Daniel Carlos Guimarães [UNESP] Universidade Estadual Paulista (Unesp) |
dc.contributor.author.fl_str_mv |
Almeida, Lucas Barbosa de |
dc.subject.por.fl_str_mv |
Aprendizado de máquina Recuperação multimídia por conteúdo Recuperação multimodal de informações Aprendizado não supervisionado Deep graph infomax Redes convolucionais baseadas em grafos Aprendizado de representações Unsupervised learning Multimedia content retrieval Multimodal information retrieval Representation learning Graph convolutional networks |
topic |
Aprendizado de máquina Recuperação multimídia por conteúdo Recuperação multimodal de informações Aprendizado não supervisionado Deep graph infomax Redes convolucionais baseadas em grafos Aprendizado de representações Unsupervised learning Multimedia content retrieval Multimodal information retrieval Representation learning Graph convolutional networks |
description |
Dado o crescimento vertiginoso de coleções multimídia, sejam vídeos, áudios ou imagens e a carência de dados rotulados, torna-se fundamental investigar abordagens não supervisionadas de recuperação de informação baseada no conteúdo. Considerando que informações de diferentes modalidades ou representações de um mesmo objeto tendem a ser complementares, é imprescindível explorar múltiplas modalidades no processo de recuperação de informação. Contudo, ao utilizar informações de modalidades distintas, depara-se com o desafio de como combinar as informações dessas diferentes fontes. No contexto dessa dissertação, serão investigadas abordagens de combinação utilizando múltiplos ranqueamentos por meio de métodos de aprendizado não supervisionado. De modo geral, tais métodos exploram relações contextuais entre os objetos, geralmente codificadas nas informações de similaridade das coleções, sem requerer dados rotulados ou intervenção de usuários. Além disso, foram consideradas abordagens recentes de redes convolucionais baseadas em grafos (\textit{Graph Convolutional Networks} - GCNs). O treinamento de GCNs é tradicionalmente realizado de modo que cada nó se comunica com sua vizinhança, incorporando a si informações dos nós aos quais apresenta conexões no grafo. Neste trabalho, combinamos a capacidade de métodos de aprendizado não supervisionado em explorar a geometria do conjunto de dados e definir uma medida contextual de distância com a capacidade de GCNs de criar uma representação mais eficaz de cada instância para aprimorar os resultados de recuperação de vídeos em cenários não supervisionados e multimodais. Deste modo, o trabalho apresenta um levantamento bibliográfico, discute métodos de extração de características em diferentes modalidades, e apresenta propostas de métodos para recuperação multimídia capazes de combinar as informações de diferentes modalidades em dois cenários distintos. No primeiro cenário, são propostas diferentes abordagens para recuperação de vídeos considerando informações de diferentes modalidades (imagens, áudios e vídeos) e utilizando técnicas de aprendizado não supervisionado baseadas em ranqueamento e GCNs treinadas de modo não supervisionado. No segundo cenário, é proposto um método de aprendizado de representações para recuperação de imagens baseado na fusão de representações multimodais. A representação de cada imagem é obtida através de características extraídas de uma sequência composta de sua $k$-vizinhança mais próxima, também utilizando técnicas de aprendizado não supervisionado. |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-05-13T17:12:14Z 2022-05-13T17:12:14Z 2022-03-30 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/11449/234709 33004153073P2 |
url |
http://hdl.handle.net/11449/234709 |
identifier_str_mv |
33004153073P2 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP |
instname_str |
Universidade Estadual Paulista (UNESP) |
instacron_str |
UNESP |
institution |
UNESP |
reponame_str |
Repositório Institucional da UNESP |
collection |
Repositório Institucional da UNESP |
repository.name.fl_str_mv |
Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP) |
repository.mail.fl_str_mv |
|
_version_ |
1808128576026836992 |