Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UNESP |
Texto Completo: | http://hdl.handle.net/11449/243148 |
Resumo: | Diversas técnicas de aprendizado profundo e visão computacional têm sido utilizadas nos últimos anos para a criação de sistemas de reconhecimento e tradução de língua de sinais para a língua nativa a partir de vídeos, servindo como uma ferramenta de comunicação para os milhões de deficientes auditivos ao redor do mundo. Ainda assim, inúmeros fatores devem ser considerados para a criação de um sistema como esse, aumentando a complexidade da tarefa. Primeiramente, o treinamento de um modelo de classificação exige uma grande quantidade de dados, o que representa uma dificuldade visto que esta área sofre com a carência de bases de dados em larga escala disponíveis publicamente. Além disso, a fim de evitar a ambiguidade entre as palavras, é preciso considerar o maior número de parâmetros linguísticos possíveis na execução dos gestos que formam os sinais. Na prática, acrescenta-se ainda que o conjunto tecnológico adotado seja condizente com a realidade, evitando sensores custosos, intrusivos ou com baixa mobilidade, bem como arquiteturas muito complexas de aprendizado profundo, reduzindo os requisitos computacionais. Isso é importante para possibilitar a adoção em larga escala e em ambiente real da solução criada, promovendo a acessibilidade. Baseado nisso, este trabalho tem como objetivo propor um sistema eficiente de reconhecimento de palavras em língua de sinais, adotando sensores e técnicas de baixo custo. Para isso, diversas arquiteturas de detecção de objetos foram simplificadas e treinadas especificamente para a tarefa de detecção da face e das mãos do intérprete, garantindo o foco nas regiões mais relevantes da imagem e gerando entradas com maior valor semântico para o classificador. Além disso, uma nova abordagem foi proposta para obtenção de atributos utilizados para representação do ponto de contato e do movimento das mãos, aumentando a discriminação entre os sinais. Os resultados obtidos demonstram a eficiência dos detectores, atingindo um mAP de mais de 95% com a velocidade de inferência até 77% menor em relação à versão original do modelo. Ademais, os atributos handcrafted (criados sem a ajuda de modelos) geraram um acréscimo de 7,96% de acurácia em um dos conjuntos de dados testados, adicionando menos de 700 mil parâmetros, demonstrando o potencial da técnica em aumentar a compensação entre custo computacional e acurácia. |
id |
UNSP_7da03ab4a4d4b4b856947db419a101a1 |
---|---|
oai_identifier_str |
oai:repositorio.unesp.br:11449/243148 |
network_acronym_str |
UNSP |
network_name_str |
Repositório Institucional da UNESP |
repository_id_str |
2946 |
spelling |
Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custoWord-level sign language recognition based on deep learning and low-cost handcrafted descriptorsLíngua de sinaisInteligência artificialProcessamento de imagensReconhecimento de padrõesSign languageArtificial intelligenceImage processingPattern recognitionDiversas técnicas de aprendizado profundo e visão computacional têm sido utilizadas nos últimos anos para a criação de sistemas de reconhecimento e tradução de língua de sinais para a língua nativa a partir de vídeos, servindo como uma ferramenta de comunicação para os milhões de deficientes auditivos ao redor do mundo. Ainda assim, inúmeros fatores devem ser considerados para a criação de um sistema como esse, aumentando a complexidade da tarefa. Primeiramente, o treinamento de um modelo de classificação exige uma grande quantidade de dados, o que representa uma dificuldade visto que esta área sofre com a carência de bases de dados em larga escala disponíveis publicamente. Além disso, a fim de evitar a ambiguidade entre as palavras, é preciso considerar o maior número de parâmetros linguísticos possíveis na execução dos gestos que formam os sinais. Na prática, acrescenta-se ainda que o conjunto tecnológico adotado seja condizente com a realidade, evitando sensores custosos, intrusivos ou com baixa mobilidade, bem como arquiteturas muito complexas de aprendizado profundo, reduzindo os requisitos computacionais. Isso é importante para possibilitar a adoção em larga escala e em ambiente real da solução criada, promovendo a acessibilidade. Baseado nisso, este trabalho tem como objetivo propor um sistema eficiente de reconhecimento de palavras em língua de sinais, adotando sensores e técnicas de baixo custo. Para isso, diversas arquiteturas de detecção de objetos foram simplificadas e treinadas especificamente para a tarefa de detecção da face e das mãos do intérprete, garantindo o foco nas regiões mais relevantes da imagem e gerando entradas com maior valor semântico para o classificador. Além disso, uma nova abordagem foi proposta para obtenção de atributos utilizados para representação do ponto de contato e do movimento das mãos, aumentando a discriminação entre os sinais. Os resultados obtidos demonstram a eficiência dos detectores, atingindo um mAP de mais de 95% com a velocidade de inferência até 77% menor em relação à versão original do modelo. Ademais, os atributos handcrafted (criados sem a ajuda de modelos) geraram um acréscimo de 7,96% de acurácia em um dos conjuntos de dados testados, adicionando menos de 700 mil parâmetros, demonstrando o potencial da técnica em aumentar a compensação entre custo computacional e acurácia.Several deep learning and computer vision techniques have been used in recent years to create systems for recognizing and translating sign language into native language from videos, serving as a communication tool for the millions of hearing impaired people around the world. Nevertheless, a number of factors must be considered to create such a system, increasing the complexity of the task. First of all, training a classification model requires a large amount of data, which represents a difficulty, since this area suffers from the lack of large-scale publicly available datasets. Moreover, in order to avoid ambiguity between words, it is necessary to consider as many linguistic parameters as possible in the execution of the gestures that form the signs. In practice, it is also added that the technological set adopted is consistent with reality, avoiding expensive, intrusive, or low-mobility sensors, as well as very complex deep learning architectures, reducing the computational requirements. This is important to allow a large-scale and real-world adoption of the created solution, promoting accessibility. Based on this, this work aims to propose an efficient system for sign language recognition using low cost sensors and techniques. To this end, several object detection architectures were simplified and trained specifically for the task of detecting the interpreter’s face and hands, ensuring the focus on the most relevant regions of the image and generating inputs with higher semantic value for the classifier. In addition, a new approach was proposed for obtaining attributes used to represent the point of contact and hand movement, increasing the discrimination between the signs. The obtained results highlight the efficiency of the detectors, reaching an mAP of more than 95% and an inference speed up to 77% higher compared to the original version of the model. Furthermore, the handcrafted attributes (created without the help of models) increased the accuracy by 7.96% in one of the tested datasets with the addition of fewer than 700 thousand parameters, demonstrating the potential of the technique to improve the tradeoff between computational cost and accuracy.Universidade Estadual Paulista (Unesp)Salvadeo, Denis Henrique Pinheiro [UNESP]Universidade Estadual Paulista (Unesp)Carneiro, Álvaro Leandro Cavalcante2023-04-27T11:49:56Z2023-04-27T11:49:56Z2023-03-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/11449/24314833004153073P2porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2023-11-12T06:13:19Zoai:repositorio.unesp.br:11449/243148Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T17:29:13.518435Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false |
dc.title.none.fl_str_mv |
Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo Word-level sign language recognition based on deep learning and low-cost handcrafted descriptors |
title |
Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo |
spellingShingle |
Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo Carneiro, Álvaro Leandro Cavalcante Língua de sinais Inteligência artificial Processamento de imagens Reconhecimento de padrões Sign language Artificial intelligence Image processing Pattern recognition |
title_short |
Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo |
title_full |
Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo |
title_fullStr |
Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo |
title_full_unstemmed |
Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo |
title_sort |
Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo |
author |
Carneiro, Álvaro Leandro Cavalcante |
author_facet |
Carneiro, Álvaro Leandro Cavalcante |
author_role |
author |
dc.contributor.none.fl_str_mv |
Salvadeo, Denis Henrique Pinheiro [UNESP] Universidade Estadual Paulista (Unesp) |
dc.contributor.author.fl_str_mv |
Carneiro, Álvaro Leandro Cavalcante |
dc.subject.por.fl_str_mv |
Língua de sinais Inteligência artificial Processamento de imagens Reconhecimento de padrões Sign language Artificial intelligence Image processing Pattern recognition |
topic |
Língua de sinais Inteligência artificial Processamento de imagens Reconhecimento de padrões Sign language Artificial intelligence Image processing Pattern recognition |
description |
Diversas técnicas de aprendizado profundo e visão computacional têm sido utilizadas nos últimos anos para a criação de sistemas de reconhecimento e tradução de língua de sinais para a língua nativa a partir de vídeos, servindo como uma ferramenta de comunicação para os milhões de deficientes auditivos ao redor do mundo. Ainda assim, inúmeros fatores devem ser considerados para a criação de um sistema como esse, aumentando a complexidade da tarefa. Primeiramente, o treinamento de um modelo de classificação exige uma grande quantidade de dados, o que representa uma dificuldade visto que esta área sofre com a carência de bases de dados em larga escala disponíveis publicamente. Além disso, a fim de evitar a ambiguidade entre as palavras, é preciso considerar o maior número de parâmetros linguísticos possíveis na execução dos gestos que formam os sinais. Na prática, acrescenta-se ainda que o conjunto tecnológico adotado seja condizente com a realidade, evitando sensores custosos, intrusivos ou com baixa mobilidade, bem como arquiteturas muito complexas de aprendizado profundo, reduzindo os requisitos computacionais. Isso é importante para possibilitar a adoção em larga escala e em ambiente real da solução criada, promovendo a acessibilidade. Baseado nisso, este trabalho tem como objetivo propor um sistema eficiente de reconhecimento de palavras em língua de sinais, adotando sensores e técnicas de baixo custo. Para isso, diversas arquiteturas de detecção de objetos foram simplificadas e treinadas especificamente para a tarefa de detecção da face e das mãos do intérprete, garantindo o foco nas regiões mais relevantes da imagem e gerando entradas com maior valor semântico para o classificador. Além disso, uma nova abordagem foi proposta para obtenção de atributos utilizados para representação do ponto de contato e do movimento das mãos, aumentando a discriminação entre os sinais. Os resultados obtidos demonstram a eficiência dos detectores, atingindo um mAP de mais de 95% com a velocidade de inferência até 77% menor em relação à versão original do modelo. Ademais, os atributos handcrafted (criados sem a ajuda de modelos) geraram um acréscimo de 7,96% de acurácia em um dos conjuntos de dados testados, adicionando menos de 700 mil parâmetros, demonstrando o potencial da técnica em aumentar a compensação entre custo computacional e acurácia. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-04-27T11:49:56Z 2023-04-27T11:49:56Z 2023-03-02 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/11449/243148 33004153073P2 |
url |
http://hdl.handle.net/11449/243148 |
identifier_str_mv |
33004153073P2 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP |
instname_str |
Universidade Estadual Paulista (UNESP) |
instacron_str |
UNESP |
institution |
UNESP |
reponame_str |
Repositório Institucional da UNESP |
collection |
Repositório Institucional da UNESP |
repository.name.fl_str_mv |
Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP) |
repository.mail.fl_str_mv |
|
_version_ |
1808128817466703872 |