Voice recognition of users for virtual assistant in industrial environments
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10316/102176 |
Resumo: | Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia |
id |
RCAP_407873da94902a7678fa27ccb319d910 |
---|---|
oai_identifier_str |
oai:estudogeral.uc.pt:10316/102176 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Voice recognition of users for virtual assistant in industrial environmentsReconhecimento de utilizadores por voz para assistente virtual em ambientes industriaisAssistente de VozAutênticaçãoAutorizaçãoAssistente de Reconhecimento de VozAprendizagem ComputacionalVoice AssistanteAuthenticationAuthorisationSpeaker RecognitionMachine LearningDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaWith a growth in the number of devices with a greater computational capacity, the need to innovate the human-machine interaction was necessary. Furthermore, with the current technological advances in speech processing and natural language processing, the possibility of interacting with devices has been created in the most natural way human beings have to communicate, the voice. In the context of this internship, we analyse virtual assistants and techniques for recognising the sound produced to authenticate and authorise user commands. To pursue these objectives, we have explored Mycroft AI and extended its framework. Furthermore, was developed an algorithm for creating models for user recognition. In addition, to perform user recognition through Mycroft AI, a REST Server API was created to provide the necessary resources for that purpose. With this, the recognition is carried out through the communication of these two systems (Mycroft AI and API REST Server).For the creation of the speaker identification system, the main component of the API Server, the set of features used were the combination of MFCC, Chroma, Spectral (centroid, contrast and rolloff), RMS and Zero Crossing Rate. Additionally, as preprocessing, a trimming technique was used. Finally, as modelling techniques, we use Neural Network (Multilayer Perceptron) and Linear Discriminant Analysis (LDA). The public datasets used to validate this approach are TIMIT, NOIZEUS, LibrisSpeech ARS. As a result, Multilayer Perceptron (MLP) was slightly superior to Linear Discriminant Analysis (LDA), being able to recognize a set of 462 different users.Com o crescimento do número de dispositivos e aumento da sua capacidade computacional, a necessidade de inovar a interação com os diferentes dispositivos a aplicações surge. Comos atuais avanços tecnológicos no processamento da fala e no processamento natural da linguagem, tornou-se possível de interagir com os dispositivos da forma mais natural que os seres humanos têm para se comunicar: a voz. No contexto deste estágio, analisamos alguns assistentes virtuais assim como técnicas de reconhecimento dos sons produzidos para autenticar e autorizar os comandos do utilizador. Para atingir esses objetivos, explorados o Mycroft AI e estendemos a sua framework. Foi desenvolvido um algoritmo para a criação dos modelos de reconhecimento dos utilizadores. Adicionalmente, para realizar o reconhecimento dos utilizadores através do Mycroft AI, foi criado um servidor API REST que fornece os recursos necessários para esse propósito. Com isto, o reconhecimento é realizado através da comunicação desses dois sistemas (Mycroft AI e servidor REST API). Para a criação do Speaker Recognition System, a principal componente do servidor RESTAPI, o conjunto de features utilizadas foi a combinação das MFCC, Chroma, Spectral (centroid, contrast and rolloff), RMS and Zero Crossing Rate. Como preprocessamento foi utilizada uma técnica de trimming. Por fim, como técnicas de modelação, foram utilizadas as redes neuronais (Multilayer Perceptron) e Linear Discriminant Analysis (LDA). Os datasets públicos TIMIT, NOIZEUS e LibrisSpeech ARS. Como resultados finais, as redes neuronais (Multilayer Perceptron) saírem ligeiramente superior em comparação ao Linear Discriminant Analysis (LDA) e é capaz de reconhecer um conjunto de 462 diferentes de utilizadores.Outro - Instituto do Emprego e Formação Profissional2021-09-142023-09-14T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/102176http://hdl.handle.net/10316/102176TID:203062027engMagalhães, André Filipe da Silvainfo:eu-repo/semantics/embargoedAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-10-27T11:08:36Zoai:estudogeral.uc.pt:10316/102176Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:19:13.593981Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Voice recognition of users for virtual assistant in industrial environments Reconhecimento de utilizadores por voz para assistente virtual em ambientes industriais |
title |
Voice recognition of users for virtual assistant in industrial environments |
spellingShingle |
Voice recognition of users for virtual assistant in industrial environments Magalhães, André Filipe da Silva Assistente de Voz Autênticação Autorização Assistente de Reconhecimento de Voz Aprendizagem Computacional Voice Assistante Authentication Authorisation Speaker Recognition Machine Learning |
title_short |
Voice recognition of users for virtual assistant in industrial environments |
title_full |
Voice recognition of users for virtual assistant in industrial environments |
title_fullStr |
Voice recognition of users for virtual assistant in industrial environments |
title_full_unstemmed |
Voice recognition of users for virtual assistant in industrial environments |
title_sort |
Voice recognition of users for virtual assistant in industrial environments |
author |
Magalhães, André Filipe da Silva |
author_facet |
Magalhães, André Filipe da Silva |
author_role |
author |
dc.contributor.author.fl_str_mv |
Magalhães, André Filipe da Silva |
dc.subject.por.fl_str_mv |
Assistente de Voz Autênticação Autorização Assistente de Reconhecimento de Voz Aprendizagem Computacional Voice Assistante Authentication Authorisation Speaker Recognition Machine Learning |
topic |
Assistente de Voz Autênticação Autorização Assistente de Reconhecimento de Voz Aprendizagem Computacional Voice Assistante Authentication Authorisation Speaker Recognition Machine Learning |
description |
Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-09-14 2023-09-14T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10316/102176 http://hdl.handle.net/10316/102176 TID:203062027 |
url |
http://hdl.handle.net/10316/102176 |
identifier_str_mv |
TID:203062027 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/embargoedAccess |
eu_rights_str_mv |
embargoedAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799134086886850560 |