Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo

Detalhes bibliográficos
Autor(a) principal: Carneiro, Álvaro Leandro Cavalcante
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UNESP
Texto Completo: http://hdl.handle.net/11449/243148
Resumo: Diversas técnicas de aprendizado profundo e visão computacional têm sido utilizadas nos últimos anos para a criação de sistemas de reconhecimento e tradução de língua de sinais para a língua nativa a partir de vídeos, servindo como uma ferramenta de comunicação para os milhões de deficientes auditivos ao redor do mundo. Ainda assim, inúmeros fatores devem ser considerados para a criação de um sistema como esse, aumentando a complexidade da tarefa. Primeiramente, o treinamento de um modelo de classificação exige uma grande quantidade de dados, o que representa uma dificuldade visto que esta área sofre com a carência de bases de dados em larga escala disponíveis publicamente. Além disso, a fim de evitar a ambiguidade entre as palavras, é preciso considerar o maior número de parâmetros linguísticos possíveis na execução dos gestos que formam os sinais. Na prática, acrescenta-se ainda que o conjunto tecnológico adotado seja condizente com a realidade, evitando sensores custosos, intrusivos ou com baixa mobilidade, bem como arquiteturas muito complexas de aprendizado profundo, reduzindo os requisitos computacionais. Isso é importante para possibilitar a adoção em larga escala e em ambiente real da solução criada, promovendo a acessibilidade. Baseado nisso, este trabalho tem como objetivo propor um sistema eficiente de reconhecimento de palavras em língua de sinais, adotando sensores e técnicas de baixo custo. Para isso, diversas arquiteturas de detecção de objetos foram simplificadas e treinadas especificamente para a tarefa de detecção da face e das mãos do intérprete, garantindo o foco nas regiões mais relevantes da imagem e gerando entradas com maior valor semântico para o classificador. Além disso, uma nova abordagem foi proposta para obtenção de atributos utilizados para representação do ponto de contato e do movimento das mãos, aumentando a discriminação entre os sinais. Os resultados obtidos demonstram a eficiência dos detectores, atingindo um mAP de mais de 95% com a velocidade de inferência até 77% menor em relação à versão original do modelo. Ademais, os atributos handcrafted (criados sem a ajuda de modelos) geraram um acréscimo de 7,96% de acurácia em um dos conjuntos de dados testados, adicionando menos de 700 mil parâmetros, demonstrando o potencial da técnica em aumentar a compensação entre custo computacional e acurácia.
id UNSP_7da03ab4a4d4b4b856947db419a101a1
oai_identifier_str oai:repositorio.unesp.br:11449/243148
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str 2946
spelling Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custoWord-level sign language recognition based on deep learning and low-cost handcrafted descriptorsLíngua de sinaisInteligência artificialProcessamento de imagensReconhecimento de padrõesSign languageArtificial intelligenceImage processingPattern recognitionDiversas técnicas de aprendizado profundo e visão computacional têm sido utilizadas nos últimos anos para a criação de sistemas de reconhecimento e tradução de língua de sinais para a língua nativa a partir de vídeos, servindo como uma ferramenta de comunicação para os milhões de deficientes auditivos ao redor do mundo. Ainda assim, inúmeros fatores devem ser considerados para a criação de um sistema como esse, aumentando a complexidade da tarefa. Primeiramente, o treinamento de um modelo de classificação exige uma grande quantidade de dados, o que representa uma dificuldade visto que esta área sofre com a carência de bases de dados em larga escala disponíveis publicamente. Além disso, a fim de evitar a ambiguidade entre as palavras, é preciso considerar o maior número de parâmetros linguísticos possíveis na execução dos gestos que formam os sinais. Na prática, acrescenta-se ainda que o conjunto tecnológico adotado seja condizente com a realidade, evitando sensores custosos, intrusivos ou com baixa mobilidade, bem como arquiteturas muito complexas de aprendizado profundo, reduzindo os requisitos computacionais. Isso é importante para possibilitar a adoção em larga escala e em ambiente real da solução criada, promovendo a acessibilidade. Baseado nisso, este trabalho tem como objetivo propor um sistema eficiente de reconhecimento de palavras em língua de sinais, adotando sensores e técnicas de baixo custo. Para isso, diversas arquiteturas de detecção de objetos foram simplificadas e treinadas especificamente para a tarefa de detecção da face e das mãos do intérprete, garantindo o foco nas regiões mais relevantes da imagem e gerando entradas com maior valor semântico para o classificador. Além disso, uma nova abordagem foi proposta para obtenção de atributos utilizados para representação do ponto de contato e do movimento das mãos, aumentando a discriminação entre os sinais. Os resultados obtidos demonstram a eficiência dos detectores, atingindo um mAP de mais de 95% com a velocidade de inferência até 77% menor em relação à versão original do modelo. Ademais, os atributos handcrafted (criados sem a ajuda de modelos) geraram um acréscimo de 7,96% de acurácia em um dos conjuntos de dados testados, adicionando menos de 700 mil parâmetros, demonstrando o potencial da técnica em aumentar a compensação entre custo computacional e acurácia.Several deep learning and computer vision techniques have been used in recent years to create systems for recognizing and translating sign language into native language from videos, serving as a communication tool for the millions of hearing impaired people around the world. Nevertheless, a number of factors must be considered to create such a system, increasing the complexity of the task. First of all, training a classification model requires a large amount of data, which represents a difficulty, since this area suffers from the lack of large-scale publicly available datasets. Moreover, in order to avoid ambiguity between words, it is necessary to consider as many linguistic parameters as possible in the execution of the gestures that form the signs. In practice, it is also added that the technological set adopted is consistent with reality, avoiding expensive, intrusive, or low-mobility sensors, as well as very complex deep learning architectures, reducing the computational requirements. This is important to allow a large-scale and real-world adoption of the created solution, promoting accessibility. Based on this, this work aims to propose an efficient system for sign language recognition using low cost sensors and techniques. To this end, several object detection architectures were simplified and trained specifically for the task of detecting the interpreter’s face and hands, ensuring the focus on the most relevant regions of the image and generating inputs with higher semantic value for the classifier. In addition, a new approach was proposed for obtaining attributes used to represent the point of contact and hand movement, increasing the discrimination between the signs. The obtained results highlight the efficiency of the detectors, reaching an mAP of more than 95% and an inference speed up to 77% higher compared to the original version of the model. Furthermore, the handcrafted attributes (created without the help of models) increased the accuracy by 7.96% in one of the tested datasets with the addition of fewer than 700 thousand parameters, demonstrating the potential of the technique to improve the tradeoff between computational cost and accuracy.Universidade Estadual Paulista (Unesp)Salvadeo, Denis Henrique Pinheiro [UNESP]Universidade Estadual Paulista (Unesp)Carneiro, Álvaro Leandro Cavalcante2023-04-27T11:49:56Z2023-04-27T11:49:56Z2023-03-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/11449/24314833004153073P2porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2023-11-12T06:13:19Zoai:repositorio.unesp.br:11449/243148Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T17:29:13.518435Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo
Word-level sign language recognition based on deep learning and low-cost handcrafted descriptors
title Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo
spellingShingle Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo
Carneiro, Álvaro Leandro Cavalcante
Língua de sinais
Inteligência artificial
Processamento de imagens
Reconhecimento de padrões
Sign language
Artificial intelligence
Image processing
Pattern recognition
title_short Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo
title_full Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo
title_fullStr Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo
title_full_unstemmed Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo
title_sort Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo
author Carneiro, Álvaro Leandro Cavalcante
author_facet Carneiro, Álvaro Leandro Cavalcante
author_role author
dc.contributor.none.fl_str_mv Salvadeo, Denis Henrique Pinheiro [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Carneiro, Álvaro Leandro Cavalcante
dc.subject.por.fl_str_mv Língua de sinais
Inteligência artificial
Processamento de imagens
Reconhecimento de padrões
Sign language
Artificial intelligence
Image processing
Pattern recognition
topic Língua de sinais
Inteligência artificial
Processamento de imagens
Reconhecimento de padrões
Sign language
Artificial intelligence
Image processing
Pattern recognition
description Diversas técnicas de aprendizado profundo e visão computacional têm sido utilizadas nos últimos anos para a criação de sistemas de reconhecimento e tradução de língua de sinais para a língua nativa a partir de vídeos, servindo como uma ferramenta de comunicação para os milhões de deficientes auditivos ao redor do mundo. Ainda assim, inúmeros fatores devem ser considerados para a criação de um sistema como esse, aumentando a complexidade da tarefa. Primeiramente, o treinamento de um modelo de classificação exige uma grande quantidade de dados, o que representa uma dificuldade visto que esta área sofre com a carência de bases de dados em larga escala disponíveis publicamente. Além disso, a fim de evitar a ambiguidade entre as palavras, é preciso considerar o maior número de parâmetros linguísticos possíveis na execução dos gestos que formam os sinais. Na prática, acrescenta-se ainda que o conjunto tecnológico adotado seja condizente com a realidade, evitando sensores custosos, intrusivos ou com baixa mobilidade, bem como arquiteturas muito complexas de aprendizado profundo, reduzindo os requisitos computacionais. Isso é importante para possibilitar a adoção em larga escala e em ambiente real da solução criada, promovendo a acessibilidade. Baseado nisso, este trabalho tem como objetivo propor um sistema eficiente de reconhecimento de palavras em língua de sinais, adotando sensores e técnicas de baixo custo. Para isso, diversas arquiteturas de detecção de objetos foram simplificadas e treinadas especificamente para a tarefa de detecção da face e das mãos do intérprete, garantindo o foco nas regiões mais relevantes da imagem e gerando entradas com maior valor semântico para o classificador. Além disso, uma nova abordagem foi proposta para obtenção de atributos utilizados para representação do ponto de contato e do movimento das mãos, aumentando a discriminação entre os sinais. Os resultados obtidos demonstram a eficiência dos detectores, atingindo um mAP de mais de 95% com a velocidade de inferência até 77% menor em relação à versão original do modelo. Ademais, os atributos handcrafted (criados sem a ajuda de modelos) geraram um acréscimo de 7,96% de acurácia em um dos conjuntos de dados testados, adicionando menos de 700 mil parâmetros, demonstrando o potencial da técnica em aumentar a compensação entre custo computacional e acurácia.
publishDate 2023
dc.date.none.fl_str_mv 2023-04-27T11:49:56Z
2023-04-27T11:49:56Z
2023-03-02
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11449/243148
33004153073P2
url http://hdl.handle.net/11449/243148
identifier_str_mv 33004153073P2
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_ 1808128817466703872