Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.

Detalhes bibliográficos
Autor(a) principal: Santos, Eric Tavares Pereira
Data de Publicação: 2003
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-22102024-155935/
Resumo: Nas cirurgias minimamente invasivas geralmente utiliza-se um endoscópio para a visualização das estruturas internas do corpo do paciente. Nestes casos, a utilização de um robô para controle de posicionamento da óptica requer o uso de uma interface de comando intuitiva e simples, que permita que o próprio cirurgião tenha controle sobre o equipamento. Um sistema de comandos por voz para controle de posicionamento de endoscópio deve reconhecer os comandos pronunciados em tempo real, além de identificá-los corretamente em praticamente 100% das ocorrências. Neste trabalho foram desenvolvidos e avaliados três algoritmos de reconhecimento de comandos isolados de voz para controle do posicionamento de endoscópio. Dois dos algoritmos têm como base a modelagem autoregressiva pelo método da codificação preditiva linear (LPC), com diferenças na forma de alinhamento temporal dos sinais de voz e utilizando como métrica de distorção espectral a distância euclidiana (LPC-LE) e a distância de Itakura (LPC-DI). O terceiro algoritmo baseia-se na biblioteca de programação comercial IBM SMAPI. Foi também desenvolvido um protocolo de comunicação serial para a integração entre o algoritmo de reconhecimento e o sistema de acionamento do robô. Os algoritmos foram testados utilizando-se 22 comandos de voz gravados, pronunciados por 42 locutores de ambos os sexos. O desempenho dos algoritmos em função dos seus parâmetros foi avaliado utilizando-se treinamento específico para cada locutor (modo dependente de locutor) e sem treinamento para um locutor específico (modo independente de locutor) e utilizando-se vocabulários com e sem ambigüidades fonéticas. O desempenho dos algoritmos LPC foi estudado variando-se a freqüência de amostragem dos sinais de voz e a ordem do modelo LPC. Ambos mostraram-se apropriados para uso no modo dependente de locutor, com identificação correta de comandos em aproximadame 94% das vezes.LPC-LE foi obtido para freqüências entre 3,7 e 7,4 kHz com menor tempo de processamento de aproximadamente 0,18 s. O melhor desempenho do algoritmo LPC-DI foi obtido entre 3,7 e 22,1 kHz, utilizando-se modelo de ordem 10, 16 e 20, com menor tempo de processamento de aproximadamente 1 s. O algoritmo baseado na SMAPI foi avaliado em função do limiar de rejeição, da velocidade de reconhecimento e da relação sinal-ruído dos sinais de voz. Este algoritmo identificou corretamente aproximadamente 93% dos comandos no modo independente de locutor e 98,5% no modo dependente de locutor. O desempenho do algoritmo não é prejudicado por sinais com relação sinal-ruído de até 45 dB, sendo o melhor desempenho obtido para limiar de rejeição zero. O tempo de processamento médio foi de 0,53 s, independentemente da velocidade de reconhecimento utilizada. A presença de ambigüidades fonéticas e espectrais no vocabulário prejudica o desempenho de todos os algoritmos desenvolvidos.
id USP_423885be39258a2fb0476d5fac20c117
oai_identifier_str oai:teses.usp.br:tde-22102024-155935
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.Untitled in englishBioengenhariaBioengineeringReconhecimento de vozRobótica (Aplicações)Robotics (Applications)Speech recognitionNas cirurgias minimamente invasivas geralmente utiliza-se um endoscópio para a visualização das estruturas internas do corpo do paciente. Nestes casos, a utilização de um robô para controle de posicionamento da óptica requer o uso de uma interface de comando intuitiva e simples, que permita que o próprio cirurgião tenha controle sobre o equipamento. Um sistema de comandos por voz para controle de posicionamento de endoscópio deve reconhecer os comandos pronunciados em tempo real, além de identificá-los corretamente em praticamente 100% das ocorrências. Neste trabalho foram desenvolvidos e avaliados três algoritmos de reconhecimento de comandos isolados de voz para controle do posicionamento de endoscópio. Dois dos algoritmos têm como base a modelagem autoregressiva pelo método da codificação preditiva linear (LPC), com diferenças na forma de alinhamento temporal dos sinais de voz e utilizando como métrica de distorção espectral a distância euclidiana (LPC-LE) e a distância de Itakura (LPC-DI). O terceiro algoritmo baseia-se na biblioteca de programação comercial IBM SMAPI. Foi também desenvolvido um protocolo de comunicação serial para a integração entre o algoritmo de reconhecimento e o sistema de acionamento do robô. Os algoritmos foram testados utilizando-se 22 comandos de voz gravados, pronunciados por 42 locutores de ambos os sexos. O desempenho dos algoritmos em função dos seus parâmetros foi avaliado utilizando-se treinamento específico para cada locutor (modo dependente de locutor) e sem treinamento para um locutor específico (modo independente de locutor) e utilizando-se vocabulários com e sem ambigüidades fonéticas. O desempenho dos algoritmos LPC foi estudado variando-se a freqüência de amostragem dos sinais de voz e a ordem do modelo LPC. Ambos mostraram-se apropriados para uso no modo dependente de locutor, com identificação correta de comandos em aproximadame 94% das vezes.LPC-LE foi obtido para freqüências entre 3,7 e 7,4 kHz com menor tempo de processamento de aproximadamente 0,18 s. O melhor desempenho do algoritmo LPC-DI foi obtido entre 3,7 e 22,1 kHz, utilizando-se modelo de ordem 10, 16 e 20, com menor tempo de processamento de aproximadamente 1 s. O algoritmo baseado na SMAPI foi avaliado em função do limiar de rejeição, da velocidade de reconhecimento e da relação sinal-ruído dos sinais de voz. Este algoritmo identificou corretamente aproximadamente 93% dos comandos no modo independente de locutor e 98,5% no modo dependente de locutor. O desempenho do algoritmo não é prejudicado por sinais com relação sinal-ruído de até 45 dB, sendo o melhor desempenho obtido para limiar de rejeição zero. O tempo de processamento médio foi de 0,53 s, independentemente da velocidade de reconhecimento utilizada. A presença de ambigüidades fonéticas e espectrais no vocabulário prejudica o desempenho de todos os algoritmos desenvolvidos.Minimally invasive surgeries are normally performed with the assistance of an endoscope, that allows the visualization of the patient\'s internal anatomy. The use of a robotic system for automated endoscope positioning requires a simple and intuitive command interface which allows the surgeon himself to determine the camera movements. A speech recognition system for endoscope positioning must recognize spoken commands in real-time and classify them correctly. In this work, three isolated-word speech recognition algorithms were developed. Two of them are based on linear predictive coding autoregressive modelling (LPC), using different time alignment and euclidean distance (LPC-LE) and Itakura distance (LPC-DI) as spectral distortion measures. The third algorithm is based on the commercial IBM SMAPI programming library. A serial communication protocol was developed for integration of the speech recognition command interface and a low-level control system. The algorithms were tested using 22 voice commands recorded from 42 male and female volunteers. The performance of the algorithms as a function of their input parameters was measured by training them for each individual speaker (speaker-dependent mode) and without training for individual speakers (speaker-independent mode) and using vocabularies with and without phonetic and spectral ambiguities. The algorithms LPC-LE and LPC-DI were evaluated varying signal sampling frequency and model order. Both algorithms showed recognition rates near 94% for speaker-dependent mode. The best performance of the LPC-LE algorithm was obtained for frequencies between 3.7 and 7.4 kHz, with lowest processing time of 0.18 s. The best performance of the LPC-DI algorithm was obtained between 3.7 and 22.1 kHz, using model of order 10, 16 and 20, with lowest processing time of 1 s. The SMAPI-based algorithm was evaluated against its rejection threshold, its recognition speed and the signal-to-noise ratio of the voice signals.This algorithm identified about 93% of the commands correctly in the speaker-independent mode and about 98.5% in the speaker-dependent mode. The mean processing time was about 0.53 s for the recognition speed configurations studied and its performance was not affected by signal-to-noise ratios up to 45 dB. The presence of phonetically-similar words in the vocabulary increased error rates for the three algorithms developed.Biblioteca Digitais de Teses e Dissertações da USPCestari, Idágene AparecidaSantos, Eric Tavares Pereira2003-08-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-22102024-155935/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-10-22T18:03:02Zoai:teses.usp.br:tde-22102024-155935Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-10-22T18:03:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.
Untitled in english
title Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.
spellingShingle Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.
Santos, Eric Tavares Pereira
Bioengenharia
Bioengineering
Reconhecimento de voz
Robótica (Aplicações)
Robotics (Applications)
Speech recognition
title_short Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.
title_full Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.
title_fullStr Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.
title_full_unstemmed Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.
title_sort Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.
author Santos, Eric Tavares Pereira
author_facet Santos, Eric Tavares Pereira
author_role author
dc.contributor.none.fl_str_mv Cestari, Idágene Aparecida
dc.contributor.author.fl_str_mv Santos, Eric Tavares Pereira
dc.subject.por.fl_str_mv Bioengenharia
Bioengineering
Reconhecimento de voz
Robótica (Aplicações)
Robotics (Applications)
Speech recognition
topic Bioengenharia
Bioengineering
Reconhecimento de voz
Robótica (Aplicações)
Robotics (Applications)
Speech recognition
description Nas cirurgias minimamente invasivas geralmente utiliza-se um endoscópio para a visualização das estruturas internas do corpo do paciente. Nestes casos, a utilização de um robô para controle de posicionamento da óptica requer o uso de uma interface de comando intuitiva e simples, que permita que o próprio cirurgião tenha controle sobre o equipamento. Um sistema de comandos por voz para controle de posicionamento de endoscópio deve reconhecer os comandos pronunciados em tempo real, além de identificá-los corretamente em praticamente 100% das ocorrências. Neste trabalho foram desenvolvidos e avaliados três algoritmos de reconhecimento de comandos isolados de voz para controle do posicionamento de endoscópio. Dois dos algoritmos têm como base a modelagem autoregressiva pelo método da codificação preditiva linear (LPC), com diferenças na forma de alinhamento temporal dos sinais de voz e utilizando como métrica de distorção espectral a distância euclidiana (LPC-LE) e a distância de Itakura (LPC-DI). O terceiro algoritmo baseia-se na biblioteca de programação comercial IBM SMAPI. Foi também desenvolvido um protocolo de comunicação serial para a integração entre o algoritmo de reconhecimento e o sistema de acionamento do robô. Os algoritmos foram testados utilizando-se 22 comandos de voz gravados, pronunciados por 42 locutores de ambos os sexos. O desempenho dos algoritmos em função dos seus parâmetros foi avaliado utilizando-se treinamento específico para cada locutor (modo dependente de locutor) e sem treinamento para um locutor específico (modo independente de locutor) e utilizando-se vocabulários com e sem ambigüidades fonéticas. O desempenho dos algoritmos LPC foi estudado variando-se a freqüência de amostragem dos sinais de voz e a ordem do modelo LPC. Ambos mostraram-se apropriados para uso no modo dependente de locutor, com identificação correta de comandos em aproximadame 94% das vezes.LPC-LE foi obtido para freqüências entre 3,7 e 7,4 kHz com menor tempo de processamento de aproximadamente 0,18 s. O melhor desempenho do algoritmo LPC-DI foi obtido entre 3,7 e 22,1 kHz, utilizando-se modelo de ordem 10, 16 e 20, com menor tempo de processamento de aproximadamente 1 s. O algoritmo baseado na SMAPI foi avaliado em função do limiar de rejeição, da velocidade de reconhecimento e da relação sinal-ruído dos sinais de voz. Este algoritmo identificou corretamente aproximadamente 93% dos comandos no modo independente de locutor e 98,5% no modo dependente de locutor. O desempenho do algoritmo não é prejudicado por sinais com relação sinal-ruído de até 45 dB, sendo o melhor desempenho obtido para limiar de rejeição zero. O tempo de processamento médio foi de 0,53 s, independentemente da velocidade de reconhecimento utilizada. A presença de ambigüidades fonéticas e espectrais no vocabulário prejudica o desempenho de todos os algoritmos desenvolvidos.
publishDate 2003
dc.date.none.fl_str_mv 2003-08-25
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/3/3142/tde-22102024-155935/
url https://www.teses.usp.br/teses/disponiveis/3/3142/tde-22102024-155935/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815256530462703616