Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais
Autor(a) principal: | |
---|---|
Data de Publicação: | 2017 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10198/19811 |
Resumo: | Há uma grande quantidade de surdos em todo o mundo. Os surdos, em sua grande maioria, não têm proficiência numa língua oral, enquanto que é comum grande parte dos ouvintes não ter conhecimento de línguas de sinais. Isto gera uma barreira comunicativa entre os dois grupos gerando, como consequência, problemas sociais como a falta inclusão. Um meio de se reconhecer os sinais realizados pelos surdos automaticamente pode ser uma maneira de amenizar esta dificuldade de comunicação. Realizamos uma sequência de processamento de imagem e a implementação de um pequeno protótipo capaz de identificar os principais atributos linguísticos dos sinais e fornecer tais atributos em forma de características, permitindo assim o desenvolvimento de diversas aplicações voltadas para o reconhecimento de sinais não necessariamente num contexto linguístico. Consideramos classificar dois parâmetros das línguas de sinais, a configuração manual e o ponto de articulação, de um video capturado por uma câmera RGB simples, visando o fácil acesso para o usuário final, dado como entrada do sistema. Criamos uma pequena base de dados para cada parâmetro considerado e uma outra de sinais em LIBRAS para validação dos objetivos do sistema. Para obtenção das características classificamos cada parâmetro linguístico individualmente, por meio de detectores localizamos a face e as mãos que são dois dos três canais de composição dos sinais. Realizamos a extração das características de cada um dos parâmetros linguísticos utilizando o processamento do resultado das detecções com auxilio de redes neurais e calculo de distâncias entre os canais de composição. A classificação da configuração manual foi realizada com a construção de uma pequena rede neural convolucional de uma dimensão e obtivemos como resultado uma taxa de precisão de aproximadamente 87.1% de uma mão detectada pelo sistemas enquanto que para a o ponto de articulação realizamos uma comparação entre três classificadores são eles: KNN, Random Forest e rede neural convolucional. Obtivemos como resultado uma taxa de precisão semelhante entre os três classificadores variando de 95.2% à 96.3%. O método utilizado possuí limitações e falhas que devem ser sanadas para viabilizar futuramente o uso do sistema num cenário real. Tais limitações incluem não haver contato entre as mãos, tendo em vista que nosso detector de mão utilizado não era capaz de funcionar corretamente nesta situação. Identificar a mão entre direita e esquerda também é um problema não solucionado totalmente em nosso sistema, sendo esta uma tarefa crucial para a obtenção correta das características manuais por meio do método utilizado para extração de tais características. Podemos concluir que, apesar dos erros, com os resultados obtidos pudemos detectar atributos da imagem para predizer dois parâmetros da língua de sinais em relação ao tempo, que servem como características para múltiplas utilidades não necessariamente linguísticas. O protótipo não é adequado para o uso em cenários reais e não considera todos os parâmetros linguísticos existentes nas línguas de sinais. Porém os métodos podem ser substituídos ou melhorados afim de tornar o protótipo mais próximo de ser utilizado em ambientes reais em que há o uso da língua de sinais. |
id |
RCAP_17e983cb15eaa540992be635c8dc9d43 |
---|---|
oai_identifier_str |
oai:bibliotecadigital.ipb.pt:10198/19811 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neuraisReconhecimento de língua de sinaisReconhecimento gestual:Inteligência artificialComputação visualDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaHá uma grande quantidade de surdos em todo o mundo. Os surdos, em sua grande maioria, não têm proficiência numa língua oral, enquanto que é comum grande parte dos ouvintes não ter conhecimento de línguas de sinais. Isto gera uma barreira comunicativa entre os dois grupos gerando, como consequência, problemas sociais como a falta inclusão. Um meio de se reconhecer os sinais realizados pelos surdos automaticamente pode ser uma maneira de amenizar esta dificuldade de comunicação. Realizamos uma sequência de processamento de imagem e a implementação de um pequeno protótipo capaz de identificar os principais atributos linguísticos dos sinais e fornecer tais atributos em forma de características, permitindo assim o desenvolvimento de diversas aplicações voltadas para o reconhecimento de sinais não necessariamente num contexto linguístico. Consideramos classificar dois parâmetros das línguas de sinais, a configuração manual e o ponto de articulação, de um video capturado por uma câmera RGB simples, visando o fácil acesso para o usuário final, dado como entrada do sistema. Criamos uma pequena base de dados para cada parâmetro considerado e uma outra de sinais em LIBRAS para validação dos objetivos do sistema. Para obtenção das características classificamos cada parâmetro linguístico individualmente, por meio de detectores localizamos a face e as mãos que são dois dos três canais de composição dos sinais. Realizamos a extração das características de cada um dos parâmetros linguísticos utilizando o processamento do resultado das detecções com auxilio de redes neurais e calculo de distâncias entre os canais de composição. A classificação da configuração manual foi realizada com a construção de uma pequena rede neural convolucional de uma dimensão e obtivemos como resultado uma taxa de precisão de aproximadamente 87.1% de uma mão detectada pelo sistemas enquanto que para a o ponto de articulação realizamos uma comparação entre três classificadores são eles: KNN, Random Forest e rede neural convolucional. Obtivemos como resultado uma taxa de precisão semelhante entre os três classificadores variando de 95.2% à 96.3%. O método utilizado possuí limitações e falhas que devem ser sanadas para viabilizar futuramente o uso do sistema num cenário real. Tais limitações incluem não haver contato entre as mãos, tendo em vista que nosso detector de mão utilizado não era capaz de funcionar corretamente nesta situação. Identificar a mão entre direita e esquerda também é um problema não solucionado totalmente em nosso sistema, sendo esta uma tarefa crucial para a obtenção correta das características manuais por meio do método utilizado para extração de tais características. Podemos concluir que, apesar dos erros, com os resultados obtidos pudemos detectar atributos da imagem para predizer dois parâmetros da língua de sinais em relação ao tempo, que servem como características para múltiplas utilidades não necessariamente linguísticas. O protótipo não é adequado para o uso em cenários reais e não considera todos os parâmetros linguísticos existentes nas línguas de sinais. Porém os métodos podem ser substituídos ou melhorados afim de tornar o protótipo mais próximo de ser utilizado em ambientes reais em que há o uso da língua de sinais.There are many deaf people around the world. The deaf, for the most part, are not proficient in an oral language, while it is common for hearing people to have no knowledge of sign languages. This creates a communicative barrier between the two groups resulting in social problems such as lack of inclusion. One way of recognizing the signals made by deaf people automatically can be one way of easing this communication difficulty. In this work, we performed an image processing sequence and an implementation of a small prototype capable of identifying the main linguistic attributes of the signals and providing such attributes in the form of features. It allows the development of several applications aimed at the recognition of signals not necessarily in a linguistic context. We consider classifying two parameters of signal languages, handshape and the location, of a video captured by a simple RGB camera, aiming at the easy access for the end user, given as input of the system. We created a small database for each parameter considered and another one of signs in LIBRAS for validation of objectives of the system. To obtain the characteristics we classify each language parameter individually, through detectors we locate the face and hands that are two of the three channels of signal composition. We performed the extraction of characteristics for each linguistic parameters using the processing of detections results with the aid of neural networks and calculating distances between the composition channels. The classification of handshape was performed with the construction of a small one dimension convolutional neural network and we obtained as result a precision rate of approximately 87.1 % of a hand detected by the hand detector while for the location we made a comparison between three classifiers are: KNN, Random Forest and convolutional neural network. We obtained as result a similar precision rate among the three classifiers ranging from 95.2% to 96.3%. The method used has limitations and shortcomings that must be solved in order to make future use of the system in a real scenario. Such limitations include no contact between the hands, since the hand detector used was not able to function properly in this situation. Identifying the hand between right and left is also an unresolved problem in our system, being this a crucial task for the correct obtaining of the manual features through the method used for extraction of such features. We can conclude, despite the errors, with the results obtained we were able to detect image attributes to predict two parameters of sign language in relation to time, which serve as features for multiple uses not necessarily linguistic. The prototype is not suitable for use in real scenarios and does not consider all the linguistic parameters of sign languages. However, the methods can be replaced or improved in order to make the prototype closer to being used in real environments where sign language is used.Lopes, Rui PedroAlencar, Aretha BarbosaBiblioteca Digital do IPBValerio, Daniel Costa2019-11-15T10:14:30Z201920172019-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10198/19811TID:202303055porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-21T10:45:16Zoai:bibliotecadigital.ipb.pt:10198/19811Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T23:10:26.531097Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais |
title |
Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais |
spellingShingle |
Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais Valerio, Daniel Costa Reconhecimento de língua de sinais Reconhecimento gestual:Inteligência artificial Computação visual Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
title_short |
Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais |
title_full |
Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais |
title_fullStr |
Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais |
title_full_unstemmed |
Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais |
title_sort |
Reconhecimento automático de parâmetros de sinais num contexto linguístico utilizando redes neurais |
author |
Valerio, Daniel Costa |
author_facet |
Valerio, Daniel Costa |
author_role |
author |
dc.contributor.none.fl_str_mv |
Lopes, Rui Pedro Alencar, Aretha Barbosa Biblioteca Digital do IPB |
dc.contributor.author.fl_str_mv |
Valerio, Daniel Costa |
dc.subject.por.fl_str_mv |
Reconhecimento de língua de sinais Reconhecimento gestual:Inteligência artificial Computação visual Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
topic |
Reconhecimento de língua de sinais Reconhecimento gestual:Inteligência artificial Computação visual Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
description |
Há uma grande quantidade de surdos em todo o mundo. Os surdos, em sua grande maioria, não têm proficiência numa língua oral, enquanto que é comum grande parte dos ouvintes não ter conhecimento de línguas de sinais. Isto gera uma barreira comunicativa entre os dois grupos gerando, como consequência, problemas sociais como a falta inclusão. Um meio de se reconhecer os sinais realizados pelos surdos automaticamente pode ser uma maneira de amenizar esta dificuldade de comunicação. Realizamos uma sequência de processamento de imagem e a implementação de um pequeno protótipo capaz de identificar os principais atributos linguísticos dos sinais e fornecer tais atributos em forma de características, permitindo assim o desenvolvimento de diversas aplicações voltadas para o reconhecimento de sinais não necessariamente num contexto linguístico. Consideramos classificar dois parâmetros das línguas de sinais, a configuração manual e o ponto de articulação, de um video capturado por uma câmera RGB simples, visando o fácil acesso para o usuário final, dado como entrada do sistema. Criamos uma pequena base de dados para cada parâmetro considerado e uma outra de sinais em LIBRAS para validação dos objetivos do sistema. Para obtenção das características classificamos cada parâmetro linguístico individualmente, por meio de detectores localizamos a face e as mãos que são dois dos três canais de composição dos sinais. Realizamos a extração das características de cada um dos parâmetros linguísticos utilizando o processamento do resultado das detecções com auxilio de redes neurais e calculo de distâncias entre os canais de composição. A classificação da configuração manual foi realizada com a construção de uma pequena rede neural convolucional de uma dimensão e obtivemos como resultado uma taxa de precisão de aproximadamente 87.1% de uma mão detectada pelo sistemas enquanto que para a o ponto de articulação realizamos uma comparação entre três classificadores são eles: KNN, Random Forest e rede neural convolucional. Obtivemos como resultado uma taxa de precisão semelhante entre os três classificadores variando de 95.2% à 96.3%. O método utilizado possuí limitações e falhas que devem ser sanadas para viabilizar futuramente o uso do sistema num cenário real. Tais limitações incluem não haver contato entre as mãos, tendo em vista que nosso detector de mão utilizado não era capaz de funcionar corretamente nesta situação. Identificar a mão entre direita e esquerda também é um problema não solucionado totalmente em nosso sistema, sendo esta uma tarefa crucial para a obtenção correta das características manuais por meio do método utilizado para extração de tais características. Podemos concluir que, apesar dos erros, com os resultados obtidos pudemos detectar atributos da imagem para predizer dois parâmetros da língua de sinais em relação ao tempo, que servem como características para múltiplas utilidades não necessariamente linguísticas. O protótipo não é adequado para o uso em cenários reais e não considera todos os parâmetros linguísticos existentes nas línguas de sinais. Porém os métodos podem ser substituídos ou melhorados afim de tornar o protótipo mais próximo de ser utilizado em ambientes reais em que há o uso da língua de sinais. |
publishDate |
2017 |
dc.date.none.fl_str_mv |
2017 2019-11-15T10:14:30Z 2019 2019-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10198/19811 TID:202303055 |
url |
http://hdl.handle.net/10198/19811 |
identifier_str_mv |
TID:202303055 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799135370450829312 |