Integração de Datasets de Vídeo para Tradução Automática da LIBRAS com Aprendizado Profundo
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/55/55137/tde-10012024-093541/ |
Resumo: | A comunicação por meio de sinais é uma forma importante de linguagem natural. A língua de sinais é uma maneira rica e diversificada de expressão humana, geralmente menos estudada, mas extremamente relevante para a comunidade surda. A principal questão abordada neste trabalho é como traduzir a Língua Brasileira de Sinais (LIBRAS) implementando métodos de Aprendizado Profundo (DL) com disponibilidade limitada de dados. Estudos anteriores tipicamente usam uma única base de dados, na maioria dos casos coletada pelos próprios autores. Neste trabalho é proposta uma abordagem diferenciada, de integração de diferentes fontes de dados, resultando em um Cross-Dataset, como uma alternativa mais adequada para avaliar a performance e capacidade de generalização dos modelos em um cenário mais realista. São explorados dois métodos para extrair as características espaciais. O primeiro se concentra em Redes Neurais Convolucionais (CNN) pré-treinadas, que exploram a capacidade das CNNs em capturar padrões visuais relevantes. O segundo se concentra na Estimação de Landmarks através de dados puramente visuais (RGB), que envolvem informações do esqueleto como pontos de referência da Pose, Mãos e Face. A fim de processar os dados sequenciais e realizar a classificação dos sinais isolados, uma rede Long Short-Term Memory (LSTM) é utilizada. Além disso, as conclusões obtidas não apenas apontam para a configuração de modelo mais eficaz, mas também exploram fatores de pré-processamento de vídeos, como amostragem de frames, redimensionamento ideal para estimação de Landmarks e aplicação de Data Augmentation. Uma das contribuições marcantes deste trabalho reside na coleta e compilação de um Cross-Dataset com dados oriundos de diversas instituições de ensino, cobrindo pelo menos três estados brasileiros. Ao reunir dados de diferentes fontes, este estudo fornece uma visão mais representativa da LIBRAS, contribuindo para uma compreensão mais profunda das complexidades envolvidas e provendo diretrizes gerais para uma melhor generalização de modelos de reconhecimento e tradução da LIBRAS. |
id |
USP_37a808a6fc4e320b2441c1f77e16a4ae |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-10012024-093541 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Integração de Datasets de Vídeo para Tradução Automática da LIBRAS com Aprendizado ProfundoVideo Datasets Integration for LIBRAS Automatic Translation with Deep LearningAprendizado profundoBase de dados da LIBRASBrazilian sign languageComputer visionDeep learningLIBRAS datasetLíngua brasileira de sinaisReconhecimento e tradução de língua de sinaisSign language recognition and translationVisão computacionalA comunicação por meio de sinais é uma forma importante de linguagem natural. A língua de sinais é uma maneira rica e diversificada de expressão humana, geralmente menos estudada, mas extremamente relevante para a comunidade surda. A principal questão abordada neste trabalho é como traduzir a Língua Brasileira de Sinais (LIBRAS) implementando métodos de Aprendizado Profundo (DL) com disponibilidade limitada de dados. Estudos anteriores tipicamente usam uma única base de dados, na maioria dos casos coletada pelos próprios autores. Neste trabalho é proposta uma abordagem diferenciada, de integração de diferentes fontes de dados, resultando em um Cross-Dataset, como uma alternativa mais adequada para avaliar a performance e capacidade de generalização dos modelos em um cenário mais realista. São explorados dois métodos para extrair as características espaciais. O primeiro se concentra em Redes Neurais Convolucionais (CNN) pré-treinadas, que exploram a capacidade das CNNs em capturar padrões visuais relevantes. O segundo se concentra na Estimação de Landmarks através de dados puramente visuais (RGB), que envolvem informações do esqueleto como pontos de referência da Pose, Mãos e Face. A fim de processar os dados sequenciais e realizar a classificação dos sinais isolados, uma rede Long Short-Term Memory (LSTM) é utilizada. Além disso, as conclusões obtidas não apenas apontam para a configuração de modelo mais eficaz, mas também exploram fatores de pré-processamento de vídeos, como amostragem de frames, redimensionamento ideal para estimação de Landmarks e aplicação de Data Augmentation. Uma das contribuições marcantes deste trabalho reside na coleta e compilação de um Cross-Dataset com dados oriundos de diversas instituições de ensino, cobrindo pelo menos três estados brasileiros. Ao reunir dados de diferentes fontes, este estudo fornece uma visão mais representativa da LIBRAS, contribuindo para uma compreensão mais profunda das complexidades envolvidas e provendo diretrizes gerais para uma melhor generalização de modelos de reconhecimento e tradução da LIBRAS.Signed communication is an important form of natural language. Sign language is a rich and diverse way of human expression, often less studied but extremely relevant for the deaf community. The main question addressed in this work is how to translate Brazilian Sign Language (LIBRAS) by implementing Deep Learning (DL) methods with limited data availability. Previous studies typically use a single dataset, in most cases collected by the authors themselves. In this work, a distinctive approach of integrating different data sources, resulting in a Cross-Dataset, is proposed as a more suitable alternative to evaluate the models performance and generalization power in a real-world scenario. Two methods for extracting spatial features are explored. The first one focuses on pre-trained Convolutional Neural Networks (CNN), which exploit the ability of CNNs to capture relevant visual patterns. The second one focuses on Landmarks Estimation through purely visual (RGB) data, which involves skeleton information such as Pose, Hands and Face keypoints. In order to process the sequential data and classify the isolated signs, a Long Short-Term Memory (LSTM) network is used. Moreover, the obtained findings dont point out only to the most effective model configuration, but also explore video preprocessing techniques such as frame sampling, optimal resizing for Landmark Estimation, and Data Augmentation. One of the outstanding contributions of this work lies in the collection and compilation of a Cross-Dataset with data from several educational institutions, covering at least three Brazilian states. By gathering data from different sources, this study provides a more representative view of LIBRAS, contributing to a deeper understanding of the involved complexities and providing general guidelines for a better generalization in terms of LIBRAS Automatic Translation.Biblioteca Digitais de Teses e Dissertações da USPPonti, Moacir AntonelliSarmento, Amanda Hellen de Avellar2023-10-26info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55137/tde-10012024-093541/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-01-10T11:47:03Zoai:teses.usp.br:tde-10012024-093541Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-01-10T11:47:03Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Integração de Datasets de Vídeo para Tradução Automática da LIBRAS com Aprendizado Profundo Video Datasets Integration for LIBRAS Automatic Translation with Deep Learning |
title |
Integração de Datasets de Vídeo para Tradução Automática da LIBRAS com Aprendizado Profundo |
spellingShingle |
Integração de Datasets de Vídeo para Tradução Automática da LIBRAS com Aprendizado Profundo Sarmento, Amanda Hellen de Avellar Aprendizado profundo Base de dados da LIBRAS Brazilian sign language Computer vision Deep learning LIBRAS dataset Língua brasileira de sinais Reconhecimento e tradução de língua de sinais Sign language recognition and translation Visão computacional |
title_short |
Integração de Datasets de Vídeo para Tradução Automática da LIBRAS com Aprendizado Profundo |
title_full |
Integração de Datasets de Vídeo para Tradução Automática da LIBRAS com Aprendizado Profundo |
title_fullStr |
Integração de Datasets de Vídeo para Tradução Automática da LIBRAS com Aprendizado Profundo |
title_full_unstemmed |
Integração de Datasets de Vídeo para Tradução Automática da LIBRAS com Aprendizado Profundo |
title_sort |
Integração de Datasets de Vídeo para Tradução Automática da LIBRAS com Aprendizado Profundo |
author |
Sarmento, Amanda Hellen de Avellar |
author_facet |
Sarmento, Amanda Hellen de Avellar |
author_role |
author |
dc.contributor.none.fl_str_mv |
Ponti, Moacir Antonelli |
dc.contributor.author.fl_str_mv |
Sarmento, Amanda Hellen de Avellar |
dc.subject.por.fl_str_mv |
Aprendizado profundo Base de dados da LIBRAS Brazilian sign language Computer vision Deep learning LIBRAS dataset Língua brasileira de sinais Reconhecimento e tradução de língua de sinais Sign language recognition and translation Visão computacional |
topic |
Aprendizado profundo Base de dados da LIBRAS Brazilian sign language Computer vision Deep learning LIBRAS dataset Língua brasileira de sinais Reconhecimento e tradução de língua de sinais Sign language recognition and translation Visão computacional |
description |
A comunicação por meio de sinais é uma forma importante de linguagem natural. A língua de sinais é uma maneira rica e diversificada de expressão humana, geralmente menos estudada, mas extremamente relevante para a comunidade surda. A principal questão abordada neste trabalho é como traduzir a Língua Brasileira de Sinais (LIBRAS) implementando métodos de Aprendizado Profundo (DL) com disponibilidade limitada de dados. Estudos anteriores tipicamente usam uma única base de dados, na maioria dos casos coletada pelos próprios autores. Neste trabalho é proposta uma abordagem diferenciada, de integração de diferentes fontes de dados, resultando em um Cross-Dataset, como uma alternativa mais adequada para avaliar a performance e capacidade de generalização dos modelos em um cenário mais realista. São explorados dois métodos para extrair as características espaciais. O primeiro se concentra em Redes Neurais Convolucionais (CNN) pré-treinadas, que exploram a capacidade das CNNs em capturar padrões visuais relevantes. O segundo se concentra na Estimação de Landmarks através de dados puramente visuais (RGB), que envolvem informações do esqueleto como pontos de referência da Pose, Mãos e Face. A fim de processar os dados sequenciais e realizar a classificação dos sinais isolados, uma rede Long Short-Term Memory (LSTM) é utilizada. Além disso, as conclusões obtidas não apenas apontam para a configuração de modelo mais eficaz, mas também exploram fatores de pré-processamento de vídeos, como amostragem de frames, redimensionamento ideal para estimação de Landmarks e aplicação de Data Augmentation. Uma das contribuições marcantes deste trabalho reside na coleta e compilação de um Cross-Dataset com dados oriundos de diversas instituições de ensino, cobrindo pelo menos três estados brasileiros. Ao reunir dados de diferentes fontes, este estudo fornece uma visão mais representativa da LIBRAS, contribuindo para uma compreensão mais profunda das complexidades envolvidas e provendo diretrizes gerais para uma melhor generalização de modelos de reconhecimento e tradução da LIBRAS. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-10-26 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55137/tde-10012024-093541/ |
url |
https://www.teses.usp.br/teses/disponiveis/55/55137/tde-10012024-093541/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256901683773440 |