Reconhecimento de fala em tempo real para robôs móveis
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPE |
Texto Completo: | https://repositorio.ufpe.br/handle/123456789/37902 |
Resumo: | O reconhecimento de fala para robôs é um campo multidisciplinar que envolve processamento de sinais e novos modelos de aprendizagem de máquina. Entre suas aplicações, podemos citar o controle de uma cadeira de rodas por comandos de voz, para ajudar pessoas com restrições de mobilidade. O objetivo deste trabalho é propor e implementar modelos de reconhecimento de comandos de voz em tempo real, fazendo ênfase em aprendizagem on-line e a integração ao robô TIAGo, a fim de executar tarefas de navegação. Modelos independentes do locutor são implementados baseados numa nova base de dados de vocabulário limitado, o extrator de características MFCC e a implementação das redes neurais MLP e oiSGNG, que vem do inglês online incremental Supervised Growing Neural Gas, para os quais no treinamento emprega-se a adição de ruído branco e colorido para melhorar seu desempenho. Nos resultados, em termos de taxa de acertos e tempo de processamento, o melhor caso é o MLP, mas requer alterar a estrutura e ajustar os parâmetros para aprender novas categorias. Por outro lado, o classificador oiSGNG não tem esses problemas. Neste caso, apresentamos duas contribuições: (i) nodos inseridos de acordo a uma função exponencial, desse jeito, gera-se uma taxa de acertos mais alta com menos nodos, o que implica menor latência; (ii) aprendizagem on-line de comandos de voz, uma nova implementação, o modelo aprende novos comandos ao mesmo tempo em que os grava. Nos experimentos, a navegação do robô é efetuada via comandos de voz, isto é, movimento da base do robô através dos comandos de velocidade. Para evitar positivos falsos e interferência do ambiente ruidoso, emprega-se uma palavra-chave associada ao comando, no caso do MLP empregamos limiar de ativação. Além disso, os modelos são avaliados para ambientes com ruído acústico, quer dizer, teste com adição de ruído de ventilador e ruído balbuciante. Em geral, a taxa de acertos é mais alta para os comandos gravados com detecção de som em tempo real e, a latência do processamento é menor que 15 ms, portanto, podemos concluir que o reconhecimento de comandos de voz é efetuado em tempo real. |
id |
UFPE_46e9d7fdb2844d5c4e53d749bae295a5 |
---|---|
oai_identifier_str |
oai:repositorio.ufpe.br:123456789/37902 |
network_acronym_str |
UFPE |
network_name_str |
Repositório Institucional da UFPE |
repository_id_str |
2221 |
spelling |
HUAMPO, Eulogio Gutierrezhttp://lattes.cnpq.br/7715658529303535http://lattes.cnpq.br/8715023255304328ARAÚJO, Aluizio Fausto Ribeiro2020-09-10T18:50:49Z2020-09-10T18:50:49Z2020-03-27HUAMPO, Eulogio Gutierrez. Reconhecimento de fala em tempo real para robôs móveis. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2020.https://repositorio.ufpe.br/handle/123456789/37902O reconhecimento de fala para robôs é um campo multidisciplinar que envolve processamento de sinais e novos modelos de aprendizagem de máquina. Entre suas aplicações, podemos citar o controle de uma cadeira de rodas por comandos de voz, para ajudar pessoas com restrições de mobilidade. O objetivo deste trabalho é propor e implementar modelos de reconhecimento de comandos de voz em tempo real, fazendo ênfase em aprendizagem on-line e a integração ao robô TIAGo, a fim de executar tarefas de navegação. Modelos independentes do locutor são implementados baseados numa nova base de dados de vocabulário limitado, o extrator de características MFCC e a implementação das redes neurais MLP e oiSGNG, que vem do inglês online incremental Supervised Growing Neural Gas, para os quais no treinamento emprega-se a adição de ruído branco e colorido para melhorar seu desempenho. Nos resultados, em termos de taxa de acertos e tempo de processamento, o melhor caso é o MLP, mas requer alterar a estrutura e ajustar os parâmetros para aprender novas categorias. Por outro lado, o classificador oiSGNG não tem esses problemas. Neste caso, apresentamos duas contribuições: (i) nodos inseridos de acordo a uma função exponencial, desse jeito, gera-se uma taxa de acertos mais alta com menos nodos, o que implica menor latência; (ii) aprendizagem on-line de comandos de voz, uma nova implementação, o modelo aprende novos comandos ao mesmo tempo em que os grava. Nos experimentos, a navegação do robô é efetuada via comandos de voz, isto é, movimento da base do robô através dos comandos de velocidade. Para evitar positivos falsos e interferência do ambiente ruidoso, emprega-se uma palavra-chave associada ao comando, no caso do MLP empregamos limiar de ativação. Além disso, os modelos são avaliados para ambientes com ruído acústico, quer dizer, teste com adição de ruído de ventilador e ruído balbuciante. Em geral, a taxa de acertos é mais alta para os comandos gravados com detecção de som em tempo real e, a latência do processamento é menor que 15 ms, portanto, podemos concluir que o reconhecimento de comandos de voz é efetuado em tempo real.PAEC OEA/GCUBSpeech recognition in robotics is a multidisciplinary field that involves signal processing and new models of machine learning. Among its applications, we can mention the control of a wheelchair by voice commands, to help people with mobility restrictions. The objective of this work is to propose and implement voice recognition models in real time, emphasizing online learning and integration with the TIAGo robot, in order to perform navigation tasks. Speaker-independent models are implemented based on a new limited vocabulary database, the Mel-Frequency Cepstral Coefficients (MFCC) and neural networks. In this case, the Multi-Layer Perceptron (MLP) and the online incremental Supervised Growing Neural Gas (oiSGNG) are implemented, using additive white and color noise to improve their performance. In results, in terms of accuracy rate and processing time, the best case is the MLP, but it requires changing the structure and adjusting the parameters to learn new categories. On the other hand, the oiSGNG classifier does not have these problems. So, for this case, we present two contributions: (i) nodes inserted according to an exponential function, that results in a higher accuracy rate with fewer nodes, which implies less latency; (ii) online learning of voice commands, a novel implementation, the model learns new commands at the same time that it records them. In experiments, robot navigation is performed via voice commands, that is, moving the robot base through velocity commands. To avoid false positives and interference from the noisy environment, a keyword associated with the command is used, in the case of MLP we use activation threshold. In addition, the models are evaluated for environments with acoustic noise, that is to say, test with the additive fan and babble noise. In general, the accuracy rate is higher for commands recorded with real-time sound detection, and processing latency is less than 15 ms, so we can conclude that the voice command recognition is performed in real time.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência computacionalReconhecimento de falaReconhecimento de fala em tempo real para robôs móveisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPEORIGINALDISSERTAÇÃO Eulogio Gutierrez Huampo.pdfDISSERTAÇÃO Eulogio Gutierrez Huampo.pdfapplication/pdf3589386https://repositorio.ufpe.br/bitstream/123456789/37902/1/DISSERTA%c3%87%c3%83O%20Eulogio%20Gutierrez%20Huampo.pdf134d174d9deeca246244760362415ad9MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/37902/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82310https://repositorio.ufpe.br/bitstream/123456789/37902/3/license.txtbd573a5ca8288eb7272482765f819534MD53TEXTDISSERTAÇÃO Eulogio Gutierrez Huampo.pdf.txtDISSERTAÇÃO Eulogio Gutierrez Huampo.pdf.txtExtracted texttext/plain158459https://repositorio.ufpe.br/bitstream/123456789/37902/4/DISSERTA%c3%87%c3%83O%20Eulogio%20Gutierrez%20Huampo.pdf.txted97f2a6d885503479f3c1fb354431aaMD54THUMBNAILDISSERTAÇÃO Eulogio Gutierrez Huampo.pdf.jpgDISSERTAÇÃO Eulogio Gutierrez Huampo.pdf.jpgGenerated Thumbnailimage/jpeg1257https://repositorio.ufpe.br/bitstream/123456789/37902/5/DISSERTA%c3%87%c3%83O%20Eulogio%20Gutierrez%20Huampo.pdf.jpg61469fb4317e40aaefcabbfad61984f3MD55123456789/379022020-09-11 02:10:33.827oai:repositorio.ufpe.br:123456789/37902TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLCBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWlzcXVlciBvYnJpZ2HDp8O1ZXMgZXhpZ2lkYXMgcGVsbyByZXNwZWN0aXZvIGNvbnRyYXRvIG91IGFjb3Jkby4KCkEgVUZQRSBpZGVudGlmaWNhcsOhIGNsYXJhbWVudGUgbyhzKSBub21lKHMpIGRvKHMpIGF1dG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50byBlbnRyZWd1ZSBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZG8gcHJldmlzdG8gbmEgYWzDrW5lYSBjKS4KRepositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212020-09-11T05:10:33Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
dc.title.pt_BR.fl_str_mv |
Reconhecimento de fala em tempo real para robôs móveis |
title |
Reconhecimento de fala em tempo real para robôs móveis |
spellingShingle |
Reconhecimento de fala em tempo real para robôs móveis HUAMPO, Eulogio Gutierrez Inteligência computacional Reconhecimento de fala |
title_short |
Reconhecimento de fala em tempo real para robôs móveis |
title_full |
Reconhecimento de fala em tempo real para robôs móveis |
title_fullStr |
Reconhecimento de fala em tempo real para robôs móveis |
title_full_unstemmed |
Reconhecimento de fala em tempo real para robôs móveis |
title_sort |
Reconhecimento de fala em tempo real para robôs móveis |
author |
HUAMPO, Eulogio Gutierrez |
author_facet |
HUAMPO, Eulogio Gutierrez |
author_role |
author |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/7715658529303535 |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/8715023255304328 |
dc.contributor.author.fl_str_mv |
HUAMPO, Eulogio Gutierrez |
dc.contributor.advisor1.fl_str_mv |
ARAÚJO, Aluizio Fausto Ribeiro |
contributor_str_mv |
ARAÚJO, Aluizio Fausto Ribeiro |
dc.subject.por.fl_str_mv |
Inteligência computacional Reconhecimento de fala |
topic |
Inteligência computacional Reconhecimento de fala |
description |
O reconhecimento de fala para robôs é um campo multidisciplinar que envolve processamento de sinais e novos modelos de aprendizagem de máquina. Entre suas aplicações, podemos citar o controle de uma cadeira de rodas por comandos de voz, para ajudar pessoas com restrições de mobilidade. O objetivo deste trabalho é propor e implementar modelos de reconhecimento de comandos de voz em tempo real, fazendo ênfase em aprendizagem on-line e a integração ao robô TIAGo, a fim de executar tarefas de navegação. Modelos independentes do locutor são implementados baseados numa nova base de dados de vocabulário limitado, o extrator de características MFCC e a implementação das redes neurais MLP e oiSGNG, que vem do inglês online incremental Supervised Growing Neural Gas, para os quais no treinamento emprega-se a adição de ruído branco e colorido para melhorar seu desempenho. Nos resultados, em termos de taxa de acertos e tempo de processamento, o melhor caso é o MLP, mas requer alterar a estrutura e ajustar os parâmetros para aprender novas categorias. Por outro lado, o classificador oiSGNG não tem esses problemas. Neste caso, apresentamos duas contribuições: (i) nodos inseridos de acordo a uma função exponencial, desse jeito, gera-se uma taxa de acertos mais alta com menos nodos, o que implica menor latência; (ii) aprendizagem on-line de comandos de voz, uma nova implementação, o modelo aprende novos comandos ao mesmo tempo em que os grava. Nos experimentos, a navegação do robô é efetuada via comandos de voz, isto é, movimento da base do robô através dos comandos de velocidade. Para evitar positivos falsos e interferência do ambiente ruidoso, emprega-se uma palavra-chave associada ao comando, no caso do MLP empregamos limiar de ativação. Além disso, os modelos são avaliados para ambientes com ruído acústico, quer dizer, teste com adição de ruído de ventilador e ruído balbuciante. Em geral, a taxa de acertos é mais alta para os comandos gravados com detecção de som em tempo real e, a latência do processamento é menor que 15 ms, portanto, podemos concluir que o reconhecimento de comandos de voz é efetuado em tempo real. |
publishDate |
2020 |
dc.date.accessioned.fl_str_mv |
2020-09-10T18:50:49Z |
dc.date.available.fl_str_mv |
2020-09-10T18:50:49Z |
dc.date.issued.fl_str_mv |
2020-03-27 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
HUAMPO, Eulogio Gutierrez. Reconhecimento de fala em tempo real para robôs móveis. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2020. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufpe.br/handle/123456789/37902 |
identifier_str_mv |
HUAMPO, Eulogio Gutierrez. Reconhecimento de fala em tempo real para robôs móveis. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2020. |
url |
https://repositorio.ufpe.br/handle/123456789/37902 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.publisher.program.fl_str_mv |
Programa de Pos Graduacao em Ciencia da Computacao |
dc.publisher.initials.fl_str_mv |
UFPE |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
instname_str |
Universidade Federal de Pernambuco (UFPE) |
instacron_str |
UFPE |
institution |
UFPE |
reponame_str |
Repositório Institucional da UFPE |
collection |
Repositório Institucional da UFPE |
bitstream.url.fl_str_mv |
https://repositorio.ufpe.br/bitstream/123456789/37902/1/DISSERTA%c3%87%c3%83O%20Eulogio%20Gutierrez%20Huampo.pdf https://repositorio.ufpe.br/bitstream/123456789/37902/2/license_rdf https://repositorio.ufpe.br/bitstream/123456789/37902/3/license.txt https://repositorio.ufpe.br/bitstream/123456789/37902/4/DISSERTA%c3%87%c3%83O%20Eulogio%20Gutierrez%20Huampo.pdf.txt https://repositorio.ufpe.br/bitstream/123456789/37902/5/DISSERTA%c3%87%c3%83O%20Eulogio%20Gutierrez%20Huampo.pdf.jpg |
bitstream.checksum.fl_str_mv |
134d174d9deeca246244760362415ad9 e39d27027a6cc9cb039ad269a5db8e34 bd573a5ca8288eb7272482765f819534 ed97f2a6d885503479f3c1fb354431aa 61469fb4317e40aaefcabbfad61984f3 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
repository.mail.fl_str_mv |
attena@ufpe.br |
_version_ |
1793515896661082112 |