Visual Dialogue for Open Tasks

Detalhes bibliográficos
Autor(a) principal: Bordalo, João Pedro Alves
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10362/163263
Resumo: Visual Dialogue is a task requiring an AI agent to hold dialogue with humans in natural, conversational language about visual content. It is a challenging task, requiring a high level of understanding about both the visual world and natural language. The open nature of conversational agents further increases the complexity of this task. This task brings together the two main fields of AI and, being sufficiently detached from typical downstream tasks, serves as a general test of machine intelligence. In addition to the technical challenge, it is also an impactful application of AI, as it can help users when interacting with systems, improving their experience. In the context of this work, we propose to enrich the multimodal aspect of a task assistant, in two ways: 1) Dialogue Video Moment Retrieval: We will allow users to navigate through videos by voice. We will extract the video’s most relevant frames, create useful data about these frames, and index the data, so it can later be retrieved; 2) Task-Grounded Image Sequence Synthesis: We will use Image Synthesis models to illustrate task steps, with an emphasis on sequence coherence.
id RCAP_c245906024d565b7daa24cac85583ec2
oai_identifier_str oai:run.unl.pt:10362/163263
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Visual Dialogue for Open TasksVisual DialogueVideo Moment RetrievalImage SynthesisMultimodal ModelsDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaVisual Dialogue is a task requiring an AI agent to hold dialogue with humans in natural, conversational language about visual content. It is a challenging task, requiring a high level of understanding about both the visual world and natural language. The open nature of conversational agents further increases the complexity of this task. This task brings together the two main fields of AI and, being sufficiently detached from typical downstream tasks, serves as a general test of machine intelligence. In addition to the technical challenge, it is also an impactful application of AI, as it can help users when interacting with systems, improving their experience. In the context of this work, we propose to enrich the multimodal aspect of a task assistant, in two ways: 1) Dialogue Video Moment Retrieval: We will allow users to navigate through videos by voice. We will extract the video’s most relevant frames, create useful data about these frames, and index the data, so it can later be retrieved; 2) Task-Grounded Image Sequence Synthesis: We will use Image Synthesis models to illustrate task steps, with an emphasis on sequence coherence.Visual Dialogue é uma tarefa que requer que um agente de IA mantenha diálogos, em linguagem natural, com humanos, sobre conteúdo visual. É uma tarefa desafiante, que requer um alto nível de conhecimento acerca do mundo visual e de linguagem natural. A natureza livre dos agentes conversacionais aumenta a complexidade desta tarefa. Esta tarefa une as duas vertentes mais promissoras da Inteligência Artificial. Sendo suficientemente desconectada das tarefas típicas, pode servir como um teste geral para a Inteligência Artificial. Além do desafio técnico, é uma aplicação importante da área de IA, podendo ajudar utilizadores quando interagem com sistemas, melhorando a sua experiência. No contexto deste trabalho, propomos enriquecer um agente conversacional em dois aspetos: 1) Dialogue Video Moment Retrieval: Permitir aos utilizadores navegar pelos vídeos através da voz. Extrairemos as frames mais relevantes dos vídeos, criar dados úteis sobre estas frames, e indexá-los, para mais tarde podermos recuperá-los; 2) Task-Grounded Image Sequence Synthesis: Usaremos modelos de geração de imagem para ilustrar os passos das tarefas, com um foco na coerência da sequência.VisionBox Project (CC 04040101)Magalhães, JoãoRUNBordalo, João Pedro Alves2024-02-08T15:57:24Z2023-122023-12-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10362/163263enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-03-11T05:46:25Zoai:run.unl.pt:10362/163263Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:59:20.234062Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Visual Dialogue for Open Tasks
title Visual Dialogue for Open Tasks
spellingShingle Visual Dialogue for Open Tasks
Bordalo, João Pedro Alves
Visual Dialogue
Video Moment Retrieval
Image Synthesis
Multimodal Models
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Visual Dialogue for Open Tasks
title_full Visual Dialogue for Open Tasks
title_fullStr Visual Dialogue for Open Tasks
title_full_unstemmed Visual Dialogue for Open Tasks
title_sort Visual Dialogue for Open Tasks
author Bordalo, João Pedro Alves
author_facet Bordalo, João Pedro Alves
author_role author
dc.contributor.none.fl_str_mv Magalhães, João
RUN
dc.contributor.author.fl_str_mv Bordalo, João Pedro Alves
dc.subject.por.fl_str_mv Visual Dialogue
Video Moment Retrieval
Image Synthesis
Multimodal Models
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Visual Dialogue
Video Moment Retrieval
Image Synthesis
Multimodal Models
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Visual Dialogue is a task requiring an AI agent to hold dialogue with humans in natural, conversational language about visual content. It is a challenging task, requiring a high level of understanding about both the visual world and natural language. The open nature of conversational agents further increases the complexity of this task. This task brings together the two main fields of AI and, being sufficiently detached from typical downstream tasks, serves as a general test of machine intelligence. In addition to the technical challenge, it is also an impactful application of AI, as it can help users when interacting with systems, improving their experience. In the context of this work, we propose to enrich the multimodal aspect of a task assistant, in two ways: 1) Dialogue Video Moment Retrieval: We will allow users to navigate through videos by voice. We will extract the video’s most relevant frames, create useful data about these frames, and index the data, so it can later be retrieved; 2) Task-Grounded Image Sequence Synthesis: We will use Image Synthesis models to illustrate task steps, with an emphasis on sequence coherence.
publishDate 2023
dc.date.none.fl_str_mv 2023-12
2023-12-01T00:00:00Z
2024-02-08T15:57:24Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10362/163263
url http://hdl.handle.net/10362/163263
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799138173014507520