Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais

Detalhes bibliográficos
Autor(a) principal: Valerio, Daniel Costa
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10198/19811
Resumo: Há uma grande quantidade de surdos em todo o mundo. Os surdos, em sua grande maioria, não têm proficiência numa língua oral, enquanto que é comum grande parte dos ouvintes não ter conhecimento de línguas de sinais. Isto gera uma barreira comunicativa entre os dois grupos gerando, como consequência, problemas sociais como a falta inclusão. Um meio de se reconhecer os sinais realizados pelos surdos automaticamente pode ser uma maneira de amenizar esta dificuldade de comunicação. Realizamos uma sequência de processamento de imagem e a implementação de um pequeno protótipo capaz de identificar os principais atributos linguísticos dos sinais e fornecer tais atributos em forma de características, permitindo assim o desenvolvimento de diversas aplicações voltadas para o reconhecimento de sinais não necessariamente num contexto linguístico. Consideramos classificar dois parâmetros das línguas de sinais, a configuração manual e o ponto de articulação, de um video capturado por uma câmera RGB simples, visando o fácil acesso para o usuário final, dado como entrada do sistema. Criamos uma pequena base de dados para cada parâmetro considerado e uma outra de sinais em LIBRAS para validação dos objetivos do sistema. Para obtenção das características classificamos cada parâmetro linguístico individualmente, por meio de detectores localizamos a face e as mãos que são dois dos três canais de composição dos sinais. Realizamos a extração das características de cada um dos parâmetros linguísticos utilizando o processamento do resultado das detecções com auxilio de redes neurais e calculo de distâncias entre os canais de composição. A classificação da configuração manual foi realizada com a construção de uma pequena rede neural convolucional de uma dimensão e obtivemos como resultado uma taxa de precisão de aproximadamente 87.1% de uma mão detectada pelo sistemas enquanto que para a o ponto de articulação realizamos uma comparação entre três classificadores são eles: KNN, Random Forest e rede neural convolucional. Obtivemos como resultado uma taxa de precisão semelhante entre os três classificadores variando de 95.2% à 96.3%. O método utilizado possuí limitações e falhas que devem ser sanadas para viabilizar futuramente o uso do sistema num cenário real. Tais limitações incluem não haver contato entre as mãos, tendo em vista que nosso detector de mão utilizado não era capaz de funcionar corretamente nesta situação. Identificar a mão entre direita e esquerda também é um problema não solucionado totalmente em nosso sistema, sendo esta uma tarefa crucial para a obtenção correta das características manuais por meio do método utilizado para extração de tais características. Podemos concluir que, apesar dos erros, com os resultados obtidos pudemos detectar atributos da imagem para predizer dois parâmetros da língua de sinais em relação ao tempo, que servem como características para múltiplas utilidades não necessariamente linguísticas. O protótipo não é adequado para o uso em cenários reais e não considera todos os parâmetros linguísticos existentes nas línguas de sinais. Porém os métodos podem ser substituídos ou melhorados afim de tornar o protótipo mais próximo de ser utilizado em ambientes reais em que há o uso da língua de sinais.
id RCAP_17e983cb15eaa540992be635c8dc9d43
oai_identifier_str oai:bibliotecadigital.ipb.pt:10198/19811
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neuraisReconhecimento de língua de sinaisReconhecimento gestual:Inteligência artificialComputação visualDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaHá uma grande quantidade de surdos em todo o mundo. Os surdos, em sua grande maioria, não têm proficiência numa língua oral, enquanto que é comum grande parte dos ouvintes não ter conhecimento de línguas de sinais. Isto gera uma barreira comunicativa entre os dois grupos gerando, como consequência, problemas sociais como a falta inclusão. Um meio de se reconhecer os sinais realizados pelos surdos automaticamente pode ser uma maneira de amenizar esta dificuldade de comunicação. Realizamos uma sequência de processamento de imagem e a implementação de um pequeno protótipo capaz de identificar os principais atributos linguísticos dos sinais e fornecer tais atributos em forma de características, permitindo assim o desenvolvimento de diversas aplicações voltadas para o reconhecimento de sinais não necessariamente num contexto linguístico. Consideramos classificar dois parâmetros das línguas de sinais, a configuração manual e o ponto de articulação, de um video capturado por uma câmera RGB simples, visando o fácil acesso para o usuário final, dado como entrada do sistema. Criamos uma pequena base de dados para cada parâmetro considerado e uma outra de sinais em LIBRAS para validação dos objetivos do sistema. Para obtenção das características classificamos cada parâmetro linguístico individualmente, por meio de detectores localizamos a face e as mãos que são dois dos três canais de composição dos sinais. Realizamos a extração das características de cada um dos parâmetros linguísticos utilizando o processamento do resultado das detecções com auxilio de redes neurais e calculo de distâncias entre os canais de composição. A classificação da configuração manual foi realizada com a construção de uma pequena rede neural convolucional de uma dimensão e obtivemos como resultado uma taxa de precisão de aproximadamente 87.1% de uma mão detectada pelo sistemas enquanto que para a o ponto de articulação realizamos uma comparação entre três classificadores são eles: KNN, Random Forest e rede neural convolucional. Obtivemos como resultado uma taxa de precisão semelhante entre os três classificadores variando de 95.2% à 96.3%. O método utilizado possuí limitações e falhas que devem ser sanadas para viabilizar futuramente o uso do sistema num cenário real. Tais limitações incluem não haver contato entre as mãos, tendo em vista que nosso detector de mão utilizado não era capaz de funcionar corretamente nesta situação. Identificar a mão entre direita e esquerda também é um problema não solucionado totalmente em nosso sistema, sendo esta uma tarefa crucial para a obtenção correta das características manuais por meio do método utilizado para extração de tais características. Podemos concluir que, apesar dos erros, com os resultados obtidos pudemos detectar atributos da imagem para predizer dois parâmetros da língua de sinais em relação ao tempo, que servem como características para múltiplas utilidades não necessariamente linguísticas. O protótipo não é adequado para o uso em cenários reais e não considera todos os parâmetros linguísticos existentes nas línguas de sinais. Porém os métodos podem ser substituídos ou melhorados afim de tornar o protótipo mais próximo de ser utilizado em ambientes reais em que há o uso da língua de sinais.There are many deaf people around the world. The deaf, for the most part, are not proficient in an oral language, while it is common for hearing people to have no knowledge of sign languages. This creates a communicative barrier between the two groups resulting in social problems such as lack of inclusion. One way of recognizing the signals made by deaf people automatically can be one way of easing this communication difficulty. In this work, we performed an image processing sequence and an implementation of a small prototype capable of identifying the main linguistic attributes of the signals and providing such attributes in the form of features. It allows the development of several applications aimed at the recognition of signals not necessarily in a linguistic context. We consider classifying two parameters of signal languages, handshape and the location, of a video captured by a simple RGB camera, aiming at the easy access for the end user, given as input of the system. We created a small database for each parameter considered and another one of signs in LIBRAS for validation of objectives of the system. To obtain the characteristics we classify each language parameter individually, through detectors we locate the face and hands that are two of the three channels of signal composition. We performed the extraction of characteristics for each linguistic parameters using the processing of detections results with the aid of neural networks and calculating distances between the composition channels. The classification of handshape was performed with the construction of a small one dimension convolutional neural network and we obtained as result a precision rate of approximately 87.1 % of a hand detected by the hand detector while for the location we made a comparison between three classifiers are: KNN, Random Forest and convolutional neural network. We obtained as result a similar precision rate among the three classifiers ranging from 95.2% to 96.3%. The method used has limitations and shortcomings that must be solved in order to make future use of the system in a real scenario. Such limitations include no contact between the hands, since the hand detector used was not able to function properly in this situation. Identifying the hand between right and left is also an unresolved problem in our system, being this a crucial task for the correct obtaining of the manual features through the method used for extraction of such features. We can conclude, despite the errors, with the results obtained we were able to detect image attributes to predict two parameters of sign language in relation to time, which serve as features for multiple uses not necessarily linguistic. The prototype is not suitable for use in real scenarios and does not consider all the linguistic parameters of sign languages. However, the methods can be replaced or improved in order to make the prototype closer to being used in real environments where sign language is used.Lopes, Rui PedroAlencar, Aretha BarbosaBiblioteca Digital do IPBValerio, Daniel Costa2019-11-15T10:14:30Z201920172019-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10198/19811TID:202303055porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-21T10:45:16Zoai:bibliotecadigital.ipb.pt:10198/19811Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T23:10:26.531097Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais
title Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais
spellingShingle Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais
Valerio, Daniel Costa
Reconhecimento de língua de sinais
Reconhecimento gestual:Inteligência artificial
Computação visual
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais
title_full Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais
title_fullStr Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais
title_full_unstemmed Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais
title_sort Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais
author Valerio, Daniel Costa
author_facet Valerio, Daniel Costa
author_role author
dc.contributor.none.fl_str_mv Lopes, Rui Pedro
Alencar, Aretha Barbosa
Biblioteca Digital do IPB
dc.contributor.author.fl_str_mv Valerio, Daniel Costa
dc.subject.por.fl_str_mv Reconhecimento de língua de sinais
Reconhecimento gestual:Inteligência artificial
Computação visual
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Reconhecimento de língua de sinais
Reconhecimento gestual:Inteligência artificial
Computação visual
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Há uma grande quantidade de surdos em todo o mundo. Os surdos, em sua grande maioria, não têm proficiência numa língua oral, enquanto que é comum grande parte dos ouvintes não ter conhecimento de línguas de sinais. Isto gera uma barreira comunicativa entre os dois grupos gerando, como consequência, problemas sociais como a falta inclusão. Um meio de se reconhecer os sinais realizados pelos surdos automaticamente pode ser uma maneira de amenizar esta dificuldade de comunicação. Realizamos uma sequência de processamento de imagem e a implementação de um pequeno protótipo capaz de identificar os principais atributos linguísticos dos sinais e fornecer tais atributos em forma de características, permitindo assim o desenvolvimento de diversas aplicações voltadas para o reconhecimento de sinais não necessariamente num contexto linguístico. Consideramos classificar dois parâmetros das línguas de sinais, a configuração manual e o ponto de articulação, de um video capturado por uma câmera RGB simples, visando o fácil acesso para o usuário final, dado como entrada do sistema. Criamos uma pequena base de dados para cada parâmetro considerado e uma outra de sinais em LIBRAS para validação dos objetivos do sistema. Para obtenção das características classificamos cada parâmetro linguístico individualmente, por meio de detectores localizamos a face e as mãos que são dois dos três canais de composição dos sinais. Realizamos a extração das características de cada um dos parâmetros linguísticos utilizando o processamento do resultado das detecções com auxilio de redes neurais e calculo de distâncias entre os canais de composição. A classificação da configuração manual foi realizada com a construção de uma pequena rede neural convolucional de uma dimensão e obtivemos como resultado uma taxa de precisão de aproximadamente 87.1% de uma mão detectada pelo sistemas enquanto que para a o ponto de articulação realizamos uma comparação entre três classificadores são eles: KNN, Random Forest e rede neural convolucional. Obtivemos como resultado uma taxa de precisão semelhante entre os três classificadores variando de 95.2% à 96.3%. O método utilizado possuí limitações e falhas que devem ser sanadas para viabilizar futuramente o uso do sistema num cenário real. Tais limitações incluem não haver contato entre as mãos, tendo em vista que nosso detector de mão utilizado não era capaz de funcionar corretamente nesta situação. Identificar a mão entre direita e esquerda também é um problema não solucionado totalmente em nosso sistema, sendo esta uma tarefa crucial para a obtenção correta das características manuais por meio do método utilizado para extração de tais características. Podemos concluir que, apesar dos erros, com os resultados obtidos pudemos detectar atributos da imagem para predizer dois parâmetros da língua de sinais em relação ao tempo, que servem como características para múltiplas utilidades não necessariamente linguísticas. O protótipo não é adequado para o uso em cenários reais e não considera todos os parâmetros linguísticos existentes nas línguas de sinais. Porém os métodos podem ser substituídos ou melhorados afim de tornar o protótipo mais próximo de ser utilizado em ambientes reais em que há o uso da língua de sinais.
publishDate 2017
dc.date.none.fl_str_mv 2017
2019-11-15T10:14:30Z
2019
2019-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10198/19811
TID:202303055
url http://hdl.handle.net/10198/19811
identifier_str_mv TID:202303055
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799135370450829312