Estruturas de aprendizagem supervisionada para pesquisa multimédia
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10400.6/10816 |
Resumo: | Tal como escrito no título “Estruturas de aprendizagem supervisionada para pesquisa multimédia”. Este trabalho, destinase à pesquisa e deteção de uma determinada identidade numa sequência de video. É apresentado também como a técnica de aprendizagem profundo por redes neuronais artificiais consegue detetar um personagem através dos vídeos, essa técnica de deteção de um personagem em um vídeo é um campo de estudo muito interessante já pela sua complexidade em múltiplos objetos presentes nos dados em análise, a partir de vídeos de desenhos animados, usamos um banco de dados separado por dois agrupamentos de dados, incluindo o conjunto de quadros que contém a personagem a ser detetada e outro conjunto que não contém a personagem, ou seja, contém outros objetos e entidades que não é a personagem ou pessoa que queremos localizar sua presença. Nesse caso, os rótulos ou etiquetas de formação dos nossos dois estados específicos de frames podem ser ”personagem ausente ou presente” no vídeo, no entanto o 0(zero) representa a ausência da personagem e o 1(um) marcamos sua existência na sequência dos frames do vídeo; isto significa que temos um conjunto de dados brutos de 20h et 20 minutos contendo movimentos rápidos e normal e, todos eles são vídeos de desenhos animados, isto é, o casodeuso foi a pesquisa de personagem animadas em videos de desenhos animados, por uma questão de facilidade em arranjar conjuntos de dados. Devemos, a todo custo, reconhecer uma personagem (o nosso caso de uso foi o avatar ”korra”) que imaginamos detetar nas sequências de vídeos usando assim a rede neural convolucional 3D, treinado para a deteção de ações anormais nos vídeos de vigilâncias. O algoritmo de aprendizagem supervisionado permitiu finalmente neste trabalho para a deteção do indivíduo. É uma tarefa difícil que requer a extração de características espaçotemporais significativas para capturar as informações necessárias. A Rede Convolucional 3D (C3D) codifica fluxos de vídeo usando uma rede tridimensional totalmente convolucional e, esta rede gera regiões de temporárias candidatas contendo objetos nas regiões selecionadas para atividades específicas. De seguida, analisaramse os casos de erro observados, procurando perceber os padrões nos dados que levaram a tais conclusões erradas por parte dos modelos. |
id |
RCAP_86df9eb3694ed43dd26e972403e753f2 |
---|---|
oai_identifier_str |
oai:ubibliorum.ubi.pt:10400.6/10816 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Estruturas de aprendizagem supervisionada para pesquisa multimédiaAprendizagem ProfundaMultimediaRede Neuronal ConvolucionalDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaTal como escrito no título “Estruturas de aprendizagem supervisionada para pesquisa multimédia”. Este trabalho, destinase à pesquisa e deteção de uma determinada identidade numa sequência de video. É apresentado também como a técnica de aprendizagem profundo por redes neuronais artificiais consegue detetar um personagem através dos vídeos, essa técnica de deteção de um personagem em um vídeo é um campo de estudo muito interessante já pela sua complexidade em múltiplos objetos presentes nos dados em análise, a partir de vídeos de desenhos animados, usamos um banco de dados separado por dois agrupamentos de dados, incluindo o conjunto de quadros que contém a personagem a ser detetada e outro conjunto que não contém a personagem, ou seja, contém outros objetos e entidades que não é a personagem ou pessoa que queremos localizar sua presença. Nesse caso, os rótulos ou etiquetas de formação dos nossos dois estados específicos de frames podem ser ”personagem ausente ou presente” no vídeo, no entanto o 0(zero) representa a ausência da personagem e o 1(um) marcamos sua existência na sequência dos frames do vídeo; isto significa que temos um conjunto de dados brutos de 20h et 20 minutos contendo movimentos rápidos e normal e, todos eles são vídeos de desenhos animados, isto é, o casodeuso foi a pesquisa de personagem animadas em videos de desenhos animados, por uma questão de facilidade em arranjar conjuntos de dados. Devemos, a todo custo, reconhecer uma personagem (o nosso caso de uso foi o avatar ”korra”) que imaginamos detetar nas sequências de vídeos usando assim a rede neural convolucional 3D, treinado para a deteção de ações anormais nos vídeos de vigilâncias. O algoritmo de aprendizagem supervisionado permitiu finalmente neste trabalho para a deteção do indivíduo. É uma tarefa difícil que requer a extração de características espaçotemporais significativas para capturar as informações necessárias. A Rede Convolucional 3D (C3D) codifica fluxos de vídeo usando uma rede tridimensional totalmente convolucional e, esta rede gera regiões de temporárias candidatas contendo objetos nas regiões selecionadas para atividades específicas. De seguida, analisaramse os casos de erro observados, procurando perceber os padrões nos dados que levaram a tais conclusões erradas por parte dos modelos.As it was written in the title ”Supervised learning structures for multimedia research”. This work is aimed at researching and detecting a specific person within the videos. We also present how the technique of deep learning by artificial neural networks can detect a character through videos, this technique of detecting a character in a video is a very interesting field of study because of its complexity in multiple objects present in the data under analysis , from cartoon videos, we used a database separated by two data groups, including the set of frames that contains the character to be detected and another set that does not contain the character, that is, it contains other objects and entities that it is not the character or person that we want to locate your presence. In this case, the formation labels or tags of our two specific frame states can be ”missing or present character” in the video, however 0 (zero) represents the absence of the character and 1 (one) marks its existence in the sequence video frames; this means that we have a set of raw data of 20h and 20 minutes containing fast and normal movements and they are all cartoon videos, that is, the use case was the search for animated characters in cartoon videos, for the sake of ease in arranging data sets. We must, at all costs, recognize a character (in our case it was The avatar korra) that we imagine to detect in the video sequences, thus using the 3D convolutional neural network, trained to detect abnormal actions in the surveillance videos. The supervised learning algorithm finally allowed this work to detect the individual. It is a difficult task that requires the extraction of significant spatiotemporal characteristics to capture the necessary information. The 3D Convolutional Network (C3D) encodes video streams using a fully convolutional threedimensional network, and this network generates regions of temporary candidates containing objects in the regions selected for specific activities. Finally, we analyzed the error case observed, as an attempt to perceive the data patterns that led the networks to such erroneous conclusions.Proença, Hugo Pedro Martins CarriçouBibliorumMbongo, Nzakiese2020-12-21T14:33:50Z2020-07-012020-06-082020-07-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.6/10816TID:202559130porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-12-15T09:52:50Zoai:ubibliorum.ubi.pt:10400.6/10816Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T00:50:41.268283Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Estruturas de aprendizagem supervisionada para pesquisa multimédia |
title |
Estruturas de aprendizagem supervisionada para pesquisa multimédia |
spellingShingle |
Estruturas de aprendizagem supervisionada para pesquisa multimédia Mbongo, Nzakiese Aprendizagem Profunda Multimedia Rede Neuronal Convolucional Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
title_short |
Estruturas de aprendizagem supervisionada para pesquisa multimédia |
title_full |
Estruturas de aprendizagem supervisionada para pesquisa multimédia |
title_fullStr |
Estruturas de aprendizagem supervisionada para pesquisa multimédia |
title_full_unstemmed |
Estruturas de aprendizagem supervisionada para pesquisa multimédia |
title_sort |
Estruturas de aprendizagem supervisionada para pesquisa multimédia |
author |
Mbongo, Nzakiese |
author_facet |
Mbongo, Nzakiese |
author_role |
author |
dc.contributor.none.fl_str_mv |
Proença, Hugo Pedro Martins Carriço uBibliorum |
dc.contributor.author.fl_str_mv |
Mbongo, Nzakiese |
dc.subject.por.fl_str_mv |
Aprendizagem Profunda Multimedia Rede Neuronal Convolucional Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
topic |
Aprendizagem Profunda Multimedia Rede Neuronal Convolucional Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
description |
Tal como escrito no título “Estruturas de aprendizagem supervisionada para pesquisa multimédia”. Este trabalho, destinase à pesquisa e deteção de uma determinada identidade numa sequência de video. É apresentado também como a técnica de aprendizagem profundo por redes neuronais artificiais consegue detetar um personagem através dos vídeos, essa técnica de deteção de um personagem em um vídeo é um campo de estudo muito interessante já pela sua complexidade em múltiplos objetos presentes nos dados em análise, a partir de vídeos de desenhos animados, usamos um banco de dados separado por dois agrupamentos de dados, incluindo o conjunto de quadros que contém a personagem a ser detetada e outro conjunto que não contém a personagem, ou seja, contém outros objetos e entidades que não é a personagem ou pessoa que queremos localizar sua presença. Nesse caso, os rótulos ou etiquetas de formação dos nossos dois estados específicos de frames podem ser ”personagem ausente ou presente” no vídeo, no entanto o 0(zero) representa a ausência da personagem e o 1(um) marcamos sua existência na sequência dos frames do vídeo; isto significa que temos um conjunto de dados brutos de 20h et 20 minutos contendo movimentos rápidos e normal e, todos eles são vídeos de desenhos animados, isto é, o casodeuso foi a pesquisa de personagem animadas em videos de desenhos animados, por uma questão de facilidade em arranjar conjuntos de dados. Devemos, a todo custo, reconhecer uma personagem (o nosso caso de uso foi o avatar ”korra”) que imaginamos detetar nas sequências de vídeos usando assim a rede neural convolucional 3D, treinado para a deteção de ações anormais nos vídeos de vigilâncias. O algoritmo de aprendizagem supervisionado permitiu finalmente neste trabalho para a deteção do indivíduo. É uma tarefa difícil que requer a extração de características espaçotemporais significativas para capturar as informações necessárias. A Rede Convolucional 3D (C3D) codifica fluxos de vídeo usando uma rede tridimensional totalmente convolucional e, esta rede gera regiões de temporárias candidatas contendo objetos nas regiões selecionadas para atividades específicas. De seguida, analisaramse os casos de erro observados, procurando perceber os padrões nos dados que levaram a tais conclusões erradas por parte dos modelos. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-12-21T14:33:50Z 2020-07-01 2020-06-08 2020-07-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.6/10816 TID:202559130 |
url |
http://hdl.handle.net/10400.6/10816 |
identifier_str_mv |
TID:202559130 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799136397372686336 |