Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais

Valerio, Daniel Costa

Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais

Detalhes bibliográficos
Autor(a) principal:	Valerio, Daniel Costa
Data de Publicação:	2017
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10198/19811
Resumo:	Há uma grande quantidade de surdos em todo o mundo. Os surdos, em sua grande maioria, não têm proficiência numa língua oral, enquanto que é comum grande parte dos ouvintes não ter conhecimento de línguas de sinais. Isto gera uma barreira comunicativa entre os dois grupos gerando, como consequência, problemas sociais como a falta inclusão. Um meio de se reconhecer os sinais realizados pelos surdos automaticamente pode ser uma maneira de amenizar esta dificuldade de comunicação. Realizamos uma sequência de processamento de imagem e a implementação de um pequeno protótipo capaz de identificar os principais atributos linguísticos dos sinais e fornecer tais atributos em forma de características, permitindo assim o desenvolvimento de diversas aplicações voltadas para o reconhecimento de sinais não necessariamente num contexto linguístico. Consideramos classificar dois parâmetros das línguas de sinais, a configuração manual e o ponto de articulação, de um video capturado por uma câmera RGB simples, visando o fácil acesso para o usuário final, dado como entrada do sistema. Criamos uma pequena base de dados para cada parâmetro considerado e uma outra de sinais em LIBRAS para validação dos objetivos do sistema. Para obtenção das características classificamos cada parâmetro linguístico individualmente, por meio de detectores localizamos a face e as mãos que são dois dos três canais de composição dos sinais. Realizamos a extração das características de cada um dos parâmetros linguísticos utilizando o processamento do resultado das detecções com auxilio de redes neurais e calculo de distâncias entre os canais de composição. A classificação da configuração manual foi realizada com a construção de uma pequena rede neural convolucional de uma dimensão e obtivemos como resultado uma taxa de precisão de aproximadamente 87.1% de uma mão detectada pelo sistemas enquanto que para a o ponto de articulação realizamos uma comparação entre três classificadores são eles: KNN, Random Forest e rede neural convolucional. Obtivemos como resultado uma taxa de precisão semelhante entre os três classificadores variando de 95.2% à 96.3%. O método utilizado possuí limitações e falhas que devem ser sanadas para viabilizar futuramente o uso do sistema num cenário real. Tais limitações incluem não haver contato entre as mãos, tendo em vista que nosso detector de mão utilizado não era capaz de funcionar corretamente nesta situação. Identificar a mão entre direita e esquerda também é um problema não solucionado totalmente em nosso sistema, sendo esta uma tarefa crucial para a obtenção correta das características manuais por meio do método utilizado para extração de tais características. Podemos concluir que, apesar dos erros, com os resultados obtidos pudemos detectar atributos da imagem para predizer dois parâmetros da língua de sinais em relação ao tempo, que servem como características para múltiplas utilidades não necessariamente linguísticas. O protótipo não é adequado para o uso em cenários reais e não considera todos os parâmetros linguísticos existentes nas línguas de sinais. Porém os métodos podem ser substituídos ou melhorados afim de tornar o protótipo mais próximo de ser utilizado em ambientes reais em que há o uso da língua de sinais.

Metadados do item

id	RCAP_17e983cb15eaa540992be635c8dc9d43
oai_identifier_str	oai:bibliotecadigital.ipb.pt:10198/19811
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neuraisReconhecimento de língua de sinaisReconhecimento gestual:Inteligência artificialComputação visualDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaHá uma grande quantidade de surdos em todo o mundo. Os surdos, em sua grande maioria, não têm proficiência numa língua oral, enquanto que é comum grande parte dos ouvintes não ter conhecimento de línguas de sinais. Isto gera uma barreira comunicativa entre os dois grupos gerando, como consequência, problemas sociais como a falta inclusão. Um meio de se reconhecer os sinais realizados pelos surdos automaticamente pode ser uma maneira de amenizar esta dificuldade de comunicação. Realizamos uma sequência de processamento de imagem e a implementação de um pequeno protótipo capaz de identificar os principais atributos linguísticos dos sinais e fornecer tais atributos em forma de características, permitindo assim o desenvolvimento de diversas aplicações voltadas para o reconhecimento de sinais não necessariamente num contexto linguístico. Consideramos classificar dois parâmetros das línguas de sinais, a configuração manual e o ponto de articulação, de um video capturado por uma câmera RGB simples, visando o fácil acesso para o usuário final, dado como entrada do sistema. Criamos uma pequena base de dados para cada parâmetro considerado e uma outra de sinais em LIBRAS para validação dos objetivos do sistema. Para obtenção das características classificamos cada parâmetro linguístico individualmente, por meio de detectores localizamos a face e as mãos que são dois dos três canais de composição dos sinais. Realizamos a extração das características de cada um dos parâmetros linguísticos utilizando o processamento do resultado das detecções com auxilio de redes neurais e calculo de distâncias entre os canais de composição. A classificação da configuração manual foi realizada com a construção de uma pequena rede neural convolucional de uma dimensão e obtivemos como resultado uma taxa de precisão de aproximadamente 87.1% de uma mão detectada pelo sistemas enquanto que para a o ponto de articulação realizamos uma comparação entre três classificadores são eles: KNN, Random Forest e rede neural convolucional. Obtivemos como resultado uma taxa de precisão semelhante entre os três classificadores variando de 95.2% à 96.3%. O método utilizado possuí limitações e falhas que devem ser sanadas para viabilizar futuramente o uso do sistema num cenário real. Tais limitações incluem não haver contato entre as mãos, tendo em vista que nosso detector de mão utilizado não era capaz de funcionar corretamente nesta situação. Identificar a mão entre direita e esquerda também é um problema não solucionado totalmente em nosso sistema, sendo esta uma tarefa crucial para a obtenção correta das características manuais por meio do método utilizado para extração de tais características. Podemos concluir que, apesar dos erros, com os resultados obtidos pudemos detectar atributos da imagem para predizer dois parâmetros da língua de sinais em relação ao tempo, que servem como características para múltiplas utilidades não necessariamente linguísticas. O protótipo não é adequado para o uso em cenários reais e não considera todos os parâmetros linguísticos existentes nas línguas de sinais. Porém os métodos podem ser substituídos ou melhorados afim de tornar o protótipo mais próximo de ser utilizado em ambientes reais em que há o uso da língua de sinais.There are many deaf people around the world. The deaf, for the most part, are not proficient in an oral language, while it is common for hearing people to have no knowledge of sign languages. This creates a communicative barrier between the two groups resulting in social problems such as lack of inclusion. One way of recognizing the signals made by deaf people automatically can be one way of easing this communication difficulty. In this work, we performed an image processing sequence and an implementation of a small prototype capable of identifying the main linguistic attributes of the signals and providing such attributes in the form of features. It allows the development of several applications aimed at the recognition of signals not necessarily in a linguistic context. We consider classifying two parameters of signal languages, handshape and the location, of a video captured by a simple RGB camera, aiming at the easy access for the end user, given as input of the system. We created a small database for each parameter considered and another one of signs in LIBRAS for validation of objectives of the system. To obtain the characteristics we classify each language parameter individually, through detectors we locate the face and hands that are two of the three channels of signal composition. We performed the extraction of characteristics for each linguistic parameters using the processing of detections results with the aid of neural networks and calculating distances between the composition channels. The classification of handshape was performed with the construction of a small one dimension convolutional neural network and we obtained as result a precision rate of approximately 87.1 % of a hand detected by the hand detector while for the location we made a comparison between three classifiers are: KNN, Random Forest and convolutional neural network. We obtained as result a similar precision rate among the three classifiers ranging from 95.2% to 96.3%. The method used has limitations and shortcomings that must be solved in order to make future use of the system in a real scenario. Such limitations include no contact between the hands, since the hand detector used was not able to function properly in this situation. Identifying the hand between right and left is also an unresolved problem in our system, being this a crucial task for the correct obtaining of the manual features through the method used for extraction of such features. We can conclude, despite the errors, with the results obtained we were able to detect image attributes to predict two parameters of sign language in relation to time, which serve as features for multiple uses not necessarily linguistic. The prototype is not suitable for use in real scenarios and does not consider all the linguistic parameters of sign languages. However, the methods can be replaced or improved in order to make the prototype closer to being used in real environments where sign language is used.Lopes, Rui PedroAlencar, Aretha BarbosaBiblioteca Digital do IPBValerio, Daniel Costa2019-11-15T10:14:30Z201920172019-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10198/19811TID:202303055porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-21T10:45:16Zoai:bibliotecadigital.ipb.pt:10198/19811Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T23:10:26.531097Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais
title	Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais
spellingShingle	Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais Valerio, Daniel Costa Reconhecimento de língua de sinais Reconhecimento gestual:Inteligência artificial Computação visual Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short	Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais
title_full	Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais
title_fullStr	Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais
title_full_unstemmed	Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais
title_sort	Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais
author	Valerio, Daniel Costa
author_facet	Valerio, Daniel Costa
author_role	author
dc.contributor.none.fl_str_mv	Lopes, Rui Pedro Alencar, Aretha Barbosa Biblioteca Digital do IPB
dc.contributor.author.fl_str_mv	Valerio, Daniel Costa
dc.subject.por.fl_str_mv	Reconhecimento de língua de sinais Reconhecimento gestual:Inteligência artificial Computação visual Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic	Reconhecimento de língua de sinais Reconhecimento gestual:Inteligência artificial Computação visual Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description	Há uma grande quantidade de surdos em todo o mundo. Os surdos, em sua grande maioria, não têm proficiência numa língua oral, enquanto que é comum grande parte dos ouvintes não ter conhecimento de línguas de sinais. Isto gera uma barreira comunicativa entre os dois grupos gerando, como consequência, problemas sociais como a falta inclusão. Um meio de se reconhecer os sinais realizados pelos surdos automaticamente pode ser uma maneira de amenizar esta dificuldade de comunicação. Realizamos uma sequência de processamento de imagem e a implementação de um pequeno protótipo capaz de identificar os principais atributos linguísticos dos sinais e fornecer tais atributos em forma de características, permitindo assim o desenvolvimento de diversas aplicações voltadas para o reconhecimento de sinais não necessariamente num contexto linguístico. Consideramos classificar dois parâmetros das línguas de sinais, a configuração manual e o ponto de articulação, de um video capturado por uma câmera RGB simples, visando o fácil acesso para o usuário final, dado como entrada do sistema. Criamos uma pequena base de dados para cada parâmetro considerado e uma outra de sinais em LIBRAS para validação dos objetivos do sistema. Para obtenção das características classificamos cada parâmetro linguístico individualmente, por meio de detectores localizamos a face e as mãos que são dois dos três canais de composição dos sinais. Realizamos a extração das características de cada um dos parâmetros linguísticos utilizando o processamento do resultado das detecções com auxilio de redes neurais e calculo de distâncias entre os canais de composição. A classificação da configuração manual foi realizada com a construção de uma pequena rede neural convolucional de uma dimensão e obtivemos como resultado uma taxa de precisão de aproximadamente 87.1% de uma mão detectada pelo sistemas enquanto que para a o ponto de articulação realizamos uma comparação entre três classificadores são eles: KNN, Random Forest e rede neural convolucional. Obtivemos como resultado uma taxa de precisão semelhante entre os três classificadores variando de 95.2% à 96.3%. O método utilizado possuí limitações e falhas que devem ser sanadas para viabilizar futuramente o uso do sistema num cenário real. Tais limitações incluem não haver contato entre as mãos, tendo em vista que nosso detector de mão utilizado não era capaz de funcionar corretamente nesta situação. Identificar a mão entre direita e esquerda também é um problema não solucionado totalmente em nosso sistema, sendo esta uma tarefa crucial para a obtenção correta das características manuais por meio do método utilizado para extração de tais características. Podemos concluir que, apesar dos erros, com os resultados obtidos pudemos detectar atributos da imagem para predizer dois parâmetros da língua de sinais em relação ao tempo, que servem como características para múltiplas utilidades não necessariamente linguísticas. O protótipo não é adequado para o uso em cenários reais e não considera todos os parâmetros linguísticos existentes nas línguas de sinais. Porém os métodos podem ser substituídos ou melhorados afim de tornar o protótipo mais próximo de ser utilizado em ambientes reais em que há o uso da língua de sinais.
publishDate	2017
dc.date.none.fl_str_mv	2017 2019-11-15T10:14:30Z 2019 2019-01-01T00:00:00Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10198/19811 TID:202303055
url	http://hdl.handle.net/10198/19811
identifier_str_mv	TID:202303055
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1817553194739302400

Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais

Registros relacionados