Integração de Datasets de Vídeo para Tradução Automática da LIBRAS com Aprendizado Profundo

Detalhes bibliográficos
Autor(a) principal: Sarmento, Amanda Hellen de Avellar
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/55/55137/tde-10012024-093541/
Resumo: A comunicação por meio de sinais é uma forma importante de linguagem natural. A língua de sinais é uma maneira rica e diversificada de expressão humana, geralmente menos estudada, mas extremamente relevante para a comunidade surda. A principal questão abordada neste trabalho é como traduzir a Língua Brasileira de Sinais (LIBRAS) implementando métodos de Aprendizado Profundo (DL) com disponibilidade limitada de dados. Estudos anteriores tipicamente usam uma única base de dados, na maioria dos casos coletada pelos próprios autores. Neste trabalho é proposta uma abordagem diferenciada, de integração de diferentes fontes de dados, resultando em um Cross-Dataset, como uma alternativa mais adequada para avaliar a performance e capacidade de generalização dos modelos em um cenário mais realista. São explorados dois métodos para extrair as características espaciais. O primeiro se concentra em Redes Neurais Convolucionais (CNN) pré-treinadas, que exploram a capacidade das CNNs em capturar padrões visuais relevantes. O segundo se concentra na Estimação de Landmarks através de dados puramente visuais (RGB), que envolvem informações do esqueleto como pontos de referência da Pose, Mãos e Face. A fim de processar os dados sequenciais e realizar a classificação dos sinais isolados, uma rede Long Short-Term Memory (LSTM) é utilizada. Além disso, as conclusões obtidas não apenas apontam para a configuração de modelo mais eficaz, mas também exploram fatores de pré-processamento de vídeos, como amostragem de frames, redimensionamento ideal para estimação de Landmarks e aplicação de Data Augmentation. Uma das contribuições marcantes deste trabalho reside na coleta e compilação de um Cross-Dataset com dados oriundos de diversas instituições de ensino, cobrindo pelo menos três estados brasileiros. Ao reunir dados de diferentes fontes, este estudo fornece uma visão mais representativa da LIBRAS, contribuindo para uma compreensão mais profunda das complexidades envolvidas e provendo diretrizes gerais para uma melhor generalização de modelos de reconhecimento e tradução da LIBRAS.
id USP_37a808a6fc4e320b2441c1f77e16a4ae
oai_identifier_str oai:teses.usp.br:tde-10012024-093541
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Integração de Datasets de Vídeo para Tradução Automática da LIBRAS com Aprendizado ProfundoVideo Datasets Integration for LIBRAS Automatic Translation with Deep LearningAprendizado profundoBase de dados da LIBRASBrazilian sign languageComputer visionDeep learningLIBRAS datasetLíngua brasileira de sinaisReconhecimento e tradução de língua de sinaisSign language recognition and translationVisão computacionalA comunicação por meio de sinais é uma forma importante de linguagem natural. A língua de sinais é uma maneira rica e diversificada de expressão humana, geralmente menos estudada, mas extremamente relevante para a comunidade surda. A principal questão abordada neste trabalho é como traduzir a Língua Brasileira de Sinais (LIBRAS) implementando métodos de Aprendizado Profundo (DL) com disponibilidade limitada de dados. Estudos anteriores tipicamente usam uma única base de dados, na maioria dos casos coletada pelos próprios autores. Neste trabalho é proposta uma abordagem diferenciada, de integração de diferentes fontes de dados, resultando em um Cross-Dataset, como uma alternativa mais adequada para avaliar a performance e capacidade de generalização dos modelos em um cenário mais realista. São explorados dois métodos para extrair as características espaciais. O primeiro se concentra em Redes Neurais Convolucionais (CNN) pré-treinadas, que exploram a capacidade das CNNs em capturar padrões visuais relevantes. O segundo se concentra na Estimação de Landmarks através de dados puramente visuais (RGB), que envolvem informações do esqueleto como pontos de referência da Pose, Mãos e Face. A fim de processar os dados sequenciais e realizar a classificação dos sinais isolados, uma rede Long Short-Term Memory (LSTM) é utilizada. Além disso, as conclusões obtidas não apenas apontam para a configuração de modelo mais eficaz, mas também exploram fatores de pré-processamento de vídeos, como amostragem de frames, redimensionamento ideal para estimação de Landmarks e aplicação de Data Augmentation. Uma das contribuições marcantes deste trabalho reside na coleta e compilação de um Cross-Dataset com dados oriundos de diversas instituições de ensino, cobrindo pelo menos três estados brasileiros. Ao reunir dados de diferentes fontes, este estudo fornece uma visão mais representativa da LIBRAS, contribuindo para uma compreensão mais profunda das complexidades envolvidas e provendo diretrizes gerais para uma melhor generalização de modelos de reconhecimento e tradução da LIBRAS.Signed communication is an important form of natural language. Sign language is a rich and diverse way of human expression, often less studied but extremely relevant for the deaf community. The main question addressed in this work is how to translate Brazilian Sign Language (LIBRAS) by implementing Deep Learning (DL) methods with limited data availability. Previous studies typically use a single dataset, in most cases collected by the authors themselves. In this work, a distinctive approach of integrating different data sources, resulting in a Cross-Dataset, is proposed as a more suitable alternative to evaluate the models performance and generalization power in a real-world scenario. Two methods for extracting spatial features are explored. The first one focuses on pre-trained Convolutional Neural Networks (CNN), which exploit the ability of CNNs to capture relevant visual patterns. The second one focuses on Landmarks Estimation through purely visual (RGB) data, which involves skeleton information such as Pose, Hands and Face keypoints. In order to process the sequential data and classify the isolated signs, a Long Short-Term Memory (LSTM) network is used. Moreover, the obtained findings dont point out only to the most effective model configuration, but also explore video preprocessing techniques such as frame sampling, optimal resizing for Landmark Estimation, and Data Augmentation. One of the outstanding contributions of this work lies in the collection and compilation of a Cross-Dataset with data from several educational institutions, covering at least three Brazilian states. By gathering data from different sources, this study provides a more representative view of LIBRAS, contributing to a deeper understanding of the involved complexities and providing general guidelines for a better generalization in terms of LIBRAS Automatic Translation.Biblioteca Digitais de Teses e Dissertações da USPPonti, Moacir AntonelliSarmento, Amanda Hellen de Avellar2023-10-26info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55137/tde-10012024-093541/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-01-10T11:47:03Zoai:teses.usp.br:tde-10012024-093541Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-01-10T11:47:03Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Integração de Datasets de Vídeo para Tradução Automática da LIBRAS com Aprendizado Profundo
Video Datasets Integration for LIBRAS Automatic Translation with Deep Learning
title Integração de Datasets de Vídeo para Tradução Automática da LIBRAS com Aprendizado Profundo
spellingShingle Integração de Datasets de Vídeo para Tradução Automática da LIBRAS com Aprendizado Profundo
Sarmento, Amanda Hellen de Avellar
Aprendizado profundo
Base de dados da LIBRAS
Brazilian sign language
Computer vision
Deep learning
LIBRAS dataset
Língua brasileira de sinais
Reconhecimento e tradução de língua de sinais
Sign language recognition and translation
Visão computacional
title_short Integração de Datasets de Vídeo para Tradução Automática da LIBRAS com Aprendizado Profundo
title_full Integração de Datasets de Vídeo para Tradução Automática da LIBRAS com Aprendizado Profundo
title_fullStr Integração de Datasets de Vídeo para Tradução Automática da LIBRAS com Aprendizado Profundo
title_full_unstemmed Integração de Datasets de Vídeo para Tradução Automática da LIBRAS com Aprendizado Profundo
title_sort Integração de Datasets de Vídeo para Tradução Automática da LIBRAS com Aprendizado Profundo
author Sarmento, Amanda Hellen de Avellar
author_facet Sarmento, Amanda Hellen de Avellar
author_role author
dc.contributor.none.fl_str_mv Ponti, Moacir Antonelli
dc.contributor.author.fl_str_mv Sarmento, Amanda Hellen de Avellar
dc.subject.por.fl_str_mv Aprendizado profundo
Base de dados da LIBRAS
Brazilian sign language
Computer vision
Deep learning
LIBRAS dataset
Língua brasileira de sinais
Reconhecimento e tradução de língua de sinais
Sign language recognition and translation
Visão computacional
topic Aprendizado profundo
Base de dados da LIBRAS
Brazilian sign language
Computer vision
Deep learning
LIBRAS dataset
Língua brasileira de sinais
Reconhecimento e tradução de língua de sinais
Sign language recognition and translation
Visão computacional
description A comunicação por meio de sinais é uma forma importante de linguagem natural. A língua de sinais é uma maneira rica e diversificada de expressão humana, geralmente menos estudada, mas extremamente relevante para a comunidade surda. A principal questão abordada neste trabalho é como traduzir a Língua Brasileira de Sinais (LIBRAS) implementando métodos de Aprendizado Profundo (DL) com disponibilidade limitada de dados. Estudos anteriores tipicamente usam uma única base de dados, na maioria dos casos coletada pelos próprios autores. Neste trabalho é proposta uma abordagem diferenciada, de integração de diferentes fontes de dados, resultando em um Cross-Dataset, como uma alternativa mais adequada para avaliar a performance e capacidade de generalização dos modelos em um cenário mais realista. São explorados dois métodos para extrair as características espaciais. O primeiro se concentra em Redes Neurais Convolucionais (CNN) pré-treinadas, que exploram a capacidade das CNNs em capturar padrões visuais relevantes. O segundo se concentra na Estimação de Landmarks através de dados puramente visuais (RGB), que envolvem informações do esqueleto como pontos de referência da Pose, Mãos e Face. A fim de processar os dados sequenciais e realizar a classificação dos sinais isolados, uma rede Long Short-Term Memory (LSTM) é utilizada. Além disso, as conclusões obtidas não apenas apontam para a configuração de modelo mais eficaz, mas também exploram fatores de pré-processamento de vídeos, como amostragem de frames, redimensionamento ideal para estimação de Landmarks e aplicação de Data Augmentation. Uma das contribuições marcantes deste trabalho reside na coleta e compilação de um Cross-Dataset com dados oriundos de diversas instituições de ensino, cobrindo pelo menos três estados brasileiros. Ao reunir dados de diferentes fontes, este estudo fornece uma visão mais representativa da LIBRAS, contribuindo para uma compreensão mais profunda das complexidades envolvidas e provendo diretrizes gerais para uma melhor generalização de modelos de reconhecimento e tradução da LIBRAS.
publishDate 2023
dc.date.none.fl_str_mv 2023-10-26
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55137/tde-10012024-093541/
url https://www.teses.usp.br/teses/disponiveis/55/55137/tde-10012024-093541/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815256901683773440