Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo

Carneiro, Álvaro Leandro Cavalcante

Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo

Detalhes bibliográficos
Autor(a) principal:	Carneiro, Álvaro Leandro Cavalcante
Data de Publicação:	2023
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UNESP
Texto Completo:	http://hdl.handle.net/11449/243148
Resumo:	Diversas técnicas de aprendizado profundo e visão computacional têm sido utilizadas nos últimos anos para a criação de sistemas de reconhecimento e tradução de língua de sinais para a língua nativa a partir de vídeos, servindo como uma ferramenta de comunicação para os milhões de deficientes auditivos ao redor do mundo. Ainda assim, inúmeros fatores devem ser considerados para a criação de um sistema como esse, aumentando a complexidade da tarefa. Primeiramente, o treinamento de um modelo de classificação exige uma grande quantidade de dados, o que representa uma dificuldade visto que esta área sofre com a carência de bases de dados em larga escala disponíveis publicamente. Além disso, a fim de evitar a ambiguidade entre as palavras, é preciso considerar o maior número de parâmetros linguísticos possíveis na execução dos gestos que formam os sinais. Na prática, acrescenta-se ainda que o conjunto tecnológico adotado seja condizente com a realidade, evitando sensores custosos, intrusivos ou com baixa mobilidade, bem como arquiteturas muito complexas de aprendizado profundo, reduzindo os requisitos computacionais. Isso é importante para possibilitar a adoção em larga escala e em ambiente real da solução criada, promovendo a acessibilidade. Baseado nisso, este trabalho tem como objetivo propor um sistema eficiente de reconhecimento de palavras em língua de sinais, adotando sensores e técnicas de baixo custo. Para isso, diversas arquiteturas de detecção de objetos foram simplificadas e treinadas especificamente para a tarefa de detecção da face e das mãos do intérprete, garantindo o foco nas regiões mais relevantes da imagem e gerando entradas com maior valor semântico para o classificador. Além disso, uma nova abordagem foi proposta para obtenção de atributos utilizados para representação do ponto de contato e do movimento das mãos, aumentando a discriminação entre os sinais. Os resultados obtidos demonstram a eficiência dos detectores, atingindo um mAP de mais de 95% com a velocidade de inferência até 77% menor em relação à versão original do modelo. Ademais, os atributos handcrafted (criados sem a ajuda de modelos) geraram um acréscimo de 7,96% de acurácia em um dos conjuntos de dados testados, adicionando menos de 700 mil parâmetros, demonstrando o potencial da técnica em aumentar a compensação entre custo computacional e acurácia.

Metadados do item

id	UNSP_7da03ab4a4d4b4b856947db419a101a1
oai_identifier_str	oai:repositorio.unesp.br:11449/243148
network_acronym_str	UNSP
network_name_str	Repositório Institucional da UNESP
repository_id_str	2946
spelling	Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custoWord-level sign language recognition based on deep learning and low-cost handcrafted descriptorsLíngua de sinaisInteligência artificialProcessamento de imagensReconhecimento de padrõesSign languageArtificial intelligenceImage processingPattern recognitionDiversas técnicas de aprendizado profundo e visão computacional têm sido utilizadas nos últimos anos para a criação de sistemas de reconhecimento e tradução de língua de sinais para a língua nativa a partir de vídeos, servindo como uma ferramenta de comunicação para os milhões de deficientes auditivos ao redor do mundo. Ainda assim, inúmeros fatores devem ser considerados para a criação de um sistema como esse, aumentando a complexidade da tarefa. Primeiramente, o treinamento de um modelo de classificação exige uma grande quantidade de dados, o que representa uma dificuldade visto que esta área sofre com a carência de bases de dados em larga escala disponíveis publicamente. Além disso, a fim de evitar a ambiguidade entre as palavras, é preciso considerar o maior número de parâmetros linguísticos possíveis na execução dos gestos que formam os sinais. Na prática, acrescenta-se ainda que o conjunto tecnológico adotado seja condizente com a realidade, evitando sensores custosos, intrusivos ou com baixa mobilidade, bem como arquiteturas muito complexas de aprendizado profundo, reduzindo os requisitos computacionais. Isso é importante para possibilitar a adoção em larga escala e em ambiente real da solução criada, promovendo a acessibilidade. Baseado nisso, este trabalho tem como objetivo propor um sistema eficiente de reconhecimento de palavras em língua de sinais, adotando sensores e técnicas de baixo custo. Para isso, diversas arquiteturas de detecção de objetos foram simplificadas e treinadas especificamente para a tarefa de detecção da face e das mãos do intérprete, garantindo o foco nas regiões mais relevantes da imagem e gerando entradas com maior valor semântico para o classificador. Além disso, uma nova abordagem foi proposta para obtenção de atributos utilizados para representação do ponto de contato e do movimento das mãos, aumentando a discriminação entre os sinais. Os resultados obtidos demonstram a eficiência dos detectores, atingindo um mAP de mais de 95% com a velocidade de inferência até 77% menor em relação à versão original do modelo. Ademais, os atributos handcrafted (criados sem a ajuda de modelos) geraram um acréscimo de 7,96% de acurácia em um dos conjuntos de dados testados, adicionando menos de 700 mil parâmetros, demonstrando o potencial da técnica em aumentar a compensação entre custo computacional e acurácia.Several deep learning and computer vision techniques have been used in recent years to create systems for recognizing and translating sign language into native language from videos, serving as a communication tool for the millions of hearing impaired people around the world. Nevertheless, a number of factors must be considered to create such a system, increasing the complexity of the task. First of all, training a classification model requires a large amount of data, which represents a difficulty, since this area suffers from the lack of large-scale publicly available datasets. Moreover, in order to avoid ambiguity between words, it is necessary to consider as many linguistic parameters as possible in the execution of the gestures that form the signs. In practice, it is also added that the technological set adopted is consistent with reality, avoiding expensive, intrusive, or low-mobility sensors, as well as very complex deep learning architectures, reducing the computational requirements. This is important to allow a large-scale and real-world adoption of the created solution, promoting accessibility. Based on this, this work aims to propose an efficient system for sign language recognition using low cost sensors and techniques. To this end, several object detection architectures were simplified and trained specifically for the task of detecting the interpreter’s face and hands, ensuring the focus on the most relevant regions of the image and generating inputs with higher semantic value for the classifier. In addition, a new approach was proposed for obtaining attributes used to represent the point of contact and hand movement, increasing the discrimination between the signs. The obtained results highlight the efficiency of the detectors, reaching an mAP of more than 95% and an inference speed up to 77% higher compared to the original version of the model. Furthermore, the handcrafted attributes (created without the help of models) increased the accuracy by 7.96% in one of the tested datasets with the addition of fewer than 700 thousand parameters, demonstrating the potential of the technique to improve the tradeoff between computational cost and accuracy.Universidade Estadual Paulista (Unesp)Salvadeo, Denis Henrique Pinheiro [UNESP]Universidade Estadual Paulista (Unesp)Carneiro, Álvaro Leandro Cavalcante2023-04-27T11:49:56Z2023-04-27T11:49:56Z2023-03-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/11449/24314833004153073P2porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2023-11-12T06:13:19Zoai:repositorio.unesp.br:11449/243148Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T17:29:13.518435Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv	Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo Word-level sign language recognition based on deep learning and low-cost handcrafted descriptors
title	Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo
spellingShingle	Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo Carneiro, Álvaro Leandro Cavalcante Língua de sinais Inteligência artificial Processamento de imagens Reconhecimento de padrões Sign language Artificial intelligence Image processing Pattern recognition
title_short	Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo
title_full	Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo
title_fullStr	Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo
title_full_unstemmed	Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo
title_sort	Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo
author	Carneiro, Álvaro Leandro Cavalcante
author_facet	Carneiro, Álvaro Leandro Cavalcante
author_role	author
dc.contributor.none.fl_str_mv	Salvadeo, Denis Henrique Pinheiro [UNESP] Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv	Carneiro, Álvaro Leandro Cavalcante
dc.subject.por.fl_str_mv	Língua de sinais Inteligência artificial Processamento de imagens Reconhecimento de padrões Sign language Artificial intelligence Image processing Pattern recognition
topic	Língua de sinais Inteligência artificial Processamento de imagens Reconhecimento de padrões Sign language Artificial intelligence Image processing Pattern recognition
description	Diversas técnicas de aprendizado profundo e visão computacional têm sido utilizadas nos últimos anos para a criação de sistemas de reconhecimento e tradução de língua de sinais para a língua nativa a partir de vídeos, servindo como uma ferramenta de comunicação para os milhões de deficientes auditivos ao redor do mundo. Ainda assim, inúmeros fatores devem ser considerados para a criação de um sistema como esse, aumentando a complexidade da tarefa. Primeiramente, o treinamento de um modelo de classificação exige uma grande quantidade de dados, o que representa uma dificuldade visto que esta área sofre com a carência de bases de dados em larga escala disponíveis publicamente. Além disso, a fim de evitar a ambiguidade entre as palavras, é preciso considerar o maior número de parâmetros linguísticos possíveis na execução dos gestos que formam os sinais. Na prática, acrescenta-se ainda que o conjunto tecnológico adotado seja condizente com a realidade, evitando sensores custosos, intrusivos ou com baixa mobilidade, bem como arquiteturas muito complexas de aprendizado profundo, reduzindo os requisitos computacionais. Isso é importante para possibilitar a adoção em larga escala e em ambiente real da solução criada, promovendo a acessibilidade. Baseado nisso, este trabalho tem como objetivo propor um sistema eficiente de reconhecimento de palavras em língua de sinais, adotando sensores e técnicas de baixo custo. Para isso, diversas arquiteturas de detecção de objetos foram simplificadas e treinadas especificamente para a tarefa de detecção da face e das mãos do intérprete, garantindo o foco nas regiões mais relevantes da imagem e gerando entradas com maior valor semântico para o classificador. Além disso, uma nova abordagem foi proposta para obtenção de atributos utilizados para representação do ponto de contato e do movimento das mãos, aumentando a discriminação entre os sinais. Os resultados obtidos demonstram a eficiência dos detectores, atingindo um mAP de mais de 95% com a velocidade de inferência até 77% menor em relação à versão original do modelo. Ademais, os atributos handcrafted (criados sem a ajuda de modelos) geraram um acréscimo de 7,96% de acurácia em um dos conjuntos de dados testados, adicionando menos de 700 mil parâmetros, demonstrando o potencial da técnica em aumentar a compensação entre custo computacional e acurácia.
publishDate	2023
dc.date.none.fl_str_mv	2023-04-27T11:49:56Z 2023-04-27T11:49:56Z 2023-03-02
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/11449/243148 33004153073P2
url	http://hdl.handle.net/11449/243148
identifier_str_mv	33004153073P2
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP
instname_str	Universidade Estadual Paulista (UNESP)
instacron_str	UNESP
institution	UNESP
reponame_str	Repositório Institucional da UNESP
collection	Repositório Institucional da UNESP
repository.name.fl_str_mv	Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_	1808128817466703872

Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo

Registros relacionados