Voice recognition of users for virtual assistant in industrial environments

Detalhes bibliográficos
Autor(a) principal: Magalhães, André Filipe da Silva
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10316/102176
Resumo: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
id RCAP_407873da94902a7678fa27ccb319d910
oai_identifier_str oai:estudogeral.uc.pt:10316/102176
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Voice recognition of users for virtual assistant in industrial environmentsReconhecimento de utilizadores por voz para assistente virtual em ambientes industriaisAssistente de VozAutênticaçãoAutorizaçãoAssistente de Reconhecimento de VozAprendizagem ComputacionalVoice AssistanteAuthenticationAuthorisationSpeaker RecognitionMachine LearningDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaWith a growth in the number of devices with a greater computational capacity, the need to innovate the human-machine interaction was necessary. Furthermore, with the current technological advances in speech processing and natural language processing, the possibility of interacting with devices has been created in the most natural way human beings have to communicate, the voice. In the context of this internship, we analyse virtual assistants and techniques for recognising the sound produced to authenticate and authorise user commands. To pursue these objectives, we have explored Mycroft AI and extended its framework. Furthermore, was developed an algorithm for creating models for user recognition. In addition, to perform user recognition through Mycroft AI, a REST Server API was created to provide the necessary resources for that purpose. With this, the recognition is carried out through the communication of these two systems (Mycroft AI and API REST Server).For the creation of the speaker identification system, the main component of the API Server, the set of features used were the combination of MFCC, Chroma, Spectral (centroid, contrast and rolloff), RMS and Zero Crossing Rate. Additionally, as preprocessing, a trimming technique was used. Finally, as modelling techniques, we use Neural Network (Multilayer Perceptron) and Linear Discriminant Analysis (LDA). The public datasets used to validate this approach are TIMIT, NOIZEUS, LibrisSpeech ARS. As a result, Multilayer Perceptron (MLP) was slightly superior to Linear Discriminant Analysis (LDA), being able to recognize a set of 462 different users.Com o crescimento do número de dispositivos e aumento da sua capacidade computacional, a necessidade de inovar a interação com os diferentes dispositivos a aplicações surge. Comos atuais avanços tecnológicos no processamento da fala e no processamento natural da linguagem, tornou-se possível de interagir com os dispositivos da forma mais natural que os seres humanos têm para se comunicar: a voz. No contexto deste estágio, analisamos alguns assistentes virtuais assim como técnicas de reconhecimento dos sons produzidos para autenticar e autorizar os comandos do utilizador. Para atingir esses objetivos, explorados o Mycroft AI e estendemos a sua framework. Foi desenvolvido um algoritmo para a criação dos modelos de reconhecimento dos utilizadores. Adicionalmente, para realizar o reconhecimento dos utilizadores através do Mycroft AI, foi criado um servidor API REST que fornece os recursos necessários para esse propósito. Com isto, o reconhecimento é realizado através da comunicação desses dois sistemas (Mycroft AI e servidor REST API). Para a criação do Speaker Recognition System, a principal componente do servidor RESTAPI, o conjunto de features utilizadas foi a combinação das MFCC, Chroma, Spectral (centroid, contrast and rolloff), RMS and Zero Crossing Rate. Como preprocessamento foi utilizada uma técnica de trimming. Por fim, como técnicas de modelação, foram utilizadas as redes neuronais (Multilayer Perceptron) e Linear Discriminant Analysis (LDA). Os datasets públicos TIMIT, NOIZEUS e LibrisSpeech ARS. Como resultados finais, as redes neuronais (Multilayer Perceptron) saírem ligeiramente superior em comparação ao Linear Discriminant Analysis (LDA) e é capaz de reconhecer um conjunto de 462 diferentes de utilizadores.Outro - Instituto do Emprego e Formação Profissional2021-09-142023-09-14T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/102176http://hdl.handle.net/10316/102176TID:203062027engMagalhães, André Filipe da Silvainfo:eu-repo/semantics/embargoedAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-10-27T11:08:36Zoai:estudogeral.uc.pt:10316/102176Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:19:13.593981Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Voice recognition of users for virtual assistant in industrial environments
Reconhecimento de utilizadores por voz para assistente virtual em ambientes industriais
title Voice recognition of users for virtual assistant in industrial environments
spellingShingle Voice recognition of users for virtual assistant in industrial environments
Magalhães, André Filipe da Silva
Assistente de Voz
Autênticação
Autorização
Assistente de Reconhecimento de Voz
Aprendizagem Computacional
Voice Assistante
Authentication
Authorisation
Speaker Recognition
Machine Learning
title_short Voice recognition of users for virtual assistant in industrial environments
title_full Voice recognition of users for virtual assistant in industrial environments
title_fullStr Voice recognition of users for virtual assistant in industrial environments
title_full_unstemmed Voice recognition of users for virtual assistant in industrial environments
title_sort Voice recognition of users for virtual assistant in industrial environments
author Magalhães, André Filipe da Silva
author_facet Magalhães, André Filipe da Silva
author_role author
dc.contributor.author.fl_str_mv Magalhães, André Filipe da Silva
dc.subject.por.fl_str_mv Assistente de Voz
Autênticação
Autorização
Assistente de Reconhecimento de Voz
Aprendizagem Computacional
Voice Assistante
Authentication
Authorisation
Speaker Recognition
Machine Learning
topic Assistente de Voz
Autênticação
Autorização
Assistente de Reconhecimento de Voz
Aprendizagem Computacional
Voice Assistante
Authentication
Authorisation
Speaker Recognition
Machine Learning
description Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
publishDate 2021
dc.date.none.fl_str_mv 2021-09-14
2023-09-14T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/102176
http://hdl.handle.net/10316/102176
TID:203062027
url http://hdl.handle.net/10316/102176
identifier_str_mv TID:203062027
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/embargoedAccess
eu_rights_str_mv embargoedAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134086886850560