Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.
Autor(a) principal: | |
---|---|
Data de Publicação: | 2003 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/3/3142/tde-22102024-155935/ |
Resumo: | Nas cirurgias minimamente invasivas geralmente utiliza-se um endoscópio para a visualização das estruturas internas do corpo do paciente. Nestes casos, a utilização de um robô para controle de posicionamento da óptica requer o uso de uma interface de comando intuitiva e simples, que permita que o próprio cirurgião tenha controle sobre o equipamento. Um sistema de comandos por voz para controle de posicionamento de endoscópio deve reconhecer os comandos pronunciados em tempo real, além de identificá-los corretamente em praticamente 100% das ocorrências. Neste trabalho foram desenvolvidos e avaliados três algoritmos de reconhecimento de comandos isolados de voz para controle do posicionamento de endoscópio. Dois dos algoritmos têm como base a modelagem autoregressiva pelo método da codificação preditiva linear (LPC), com diferenças na forma de alinhamento temporal dos sinais de voz e utilizando como métrica de distorção espectral a distância euclidiana (LPC-LE) e a distância de Itakura (LPC-DI). O terceiro algoritmo baseia-se na biblioteca de programação comercial IBM SMAPI. Foi também desenvolvido um protocolo de comunicação serial para a integração entre o algoritmo de reconhecimento e o sistema de acionamento do robô. Os algoritmos foram testados utilizando-se 22 comandos de voz gravados, pronunciados por 42 locutores de ambos os sexos. O desempenho dos algoritmos em função dos seus parâmetros foi avaliado utilizando-se treinamento específico para cada locutor (modo dependente de locutor) e sem treinamento para um locutor específico (modo independente de locutor) e utilizando-se vocabulários com e sem ambigüidades fonéticas. O desempenho dos algoritmos LPC foi estudado variando-se a freqüência de amostragem dos sinais de voz e a ordem do modelo LPC. Ambos mostraram-se apropriados para uso no modo dependente de locutor, com identificação correta de comandos em aproximadame 94% das vezes.LPC-LE foi obtido para freqüências entre 3,7 e 7,4 kHz com menor tempo de processamento de aproximadamente 0,18 s. O melhor desempenho do algoritmo LPC-DI foi obtido entre 3,7 e 22,1 kHz, utilizando-se modelo de ordem 10, 16 e 20, com menor tempo de processamento de aproximadamente 1 s. O algoritmo baseado na SMAPI foi avaliado em função do limiar de rejeição, da velocidade de reconhecimento e da relação sinal-ruído dos sinais de voz. Este algoritmo identificou corretamente aproximadamente 93% dos comandos no modo independente de locutor e 98,5% no modo dependente de locutor. O desempenho do algoritmo não é prejudicado por sinais com relação sinal-ruído de até 45 dB, sendo o melhor desempenho obtido para limiar de rejeição zero. O tempo de processamento médio foi de 0,53 s, independentemente da velocidade de reconhecimento utilizada. A presença de ambigüidades fonéticas e espectrais no vocabulário prejudica o desempenho de todos os algoritmos desenvolvidos. |
id |
USP_423885be39258a2fb0476d5fac20c117 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-22102024-155935 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.Untitled in englishBioengenhariaBioengineeringReconhecimento de vozRobótica (Aplicações)Robotics (Applications)Speech recognitionNas cirurgias minimamente invasivas geralmente utiliza-se um endoscópio para a visualização das estruturas internas do corpo do paciente. Nestes casos, a utilização de um robô para controle de posicionamento da óptica requer o uso de uma interface de comando intuitiva e simples, que permita que o próprio cirurgião tenha controle sobre o equipamento. Um sistema de comandos por voz para controle de posicionamento de endoscópio deve reconhecer os comandos pronunciados em tempo real, além de identificá-los corretamente em praticamente 100% das ocorrências. Neste trabalho foram desenvolvidos e avaliados três algoritmos de reconhecimento de comandos isolados de voz para controle do posicionamento de endoscópio. Dois dos algoritmos têm como base a modelagem autoregressiva pelo método da codificação preditiva linear (LPC), com diferenças na forma de alinhamento temporal dos sinais de voz e utilizando como métrica de distorção espectral a distância euclidiana (LPC-LE) e a distância de Itakura (LPC-DI). O terceiro algoritmo baseia-se na biblioteca de programação comercial IBM SMAPI. Foi também desenvolvido um protocolo de comunicação serial para a integração entre o algoritmo de reconhecimento e o sistema de acionamento do robô. Os algoritmos foram testados utilizando-se 22 comandos de voz gravados, pronunciados por 42 locutores de ambos os sexos. O desempenho dos algoritmos em função dos seus parâmetros foi avaliado utilizando-se treinamento específico para cada locutor (modo dependente de locutor) e sem treinamento para um locutor específico (modo independente de locutor) e utilizando-se vocabulários com e sem ambigüidades fonéticas. O desempenho dos algoritmos LPC foi estudado variando-se a freqüência de amostragem dos sinais de voz e a ordem do modelo LPC. Ambos mostraram-se apropriados para uso no modo dependente de locutor, com identificação correta de comandos em aproximadame 94% das vezes.LPC-LE foi obtido para freqüências entre 3,7 e 7,4 kHz com menor tempo de processamento de aproximadamente 0,18 s. O melhor desempenho do algoritmo LPC-DI foi obtido entre 3,7 e 22,1 kHz, utilizando-se modelo de ordem 10, 16 e 20, com menor tempo de processamento de aproximadamente 1 s. O algoritmo baseado na SMAPI foi avaliado em função do limiar de rejeição, da velocidade de reconhecimento e da relação sinal-ruído dos sinais de voz. Este algoritmo identificou corretamente aproximadamente 93% dos comandos no modo independente de locutor e 98,5% no modo dependente de locutor. O desempenho do algoritmo não é prejudicado por sinais com relação sinal-ruído de até 45 dB, sendo o melhor desempenho obtido para limiar de rejeição zero. O tempo de processamento médio foi de 0,53 s, independentemente da velocidade de reconhecimento utilizada. A presença de ambigüidades fonéticas e espectrais no vocabulário prejudica o desempenho de todos os algoritmos desenvolvidos.Minimally invasive surgeries are normally performed with the assistance of an endoscope, that allows the visualization of the patient\'s internal anatomy. The use of a robotic system for automated endoscope positioning requires a simple and intuitive command interface which allows the surgeon himself to determine the camera movements. A speech recognition system for endoscope positioning must recognize spoken commands in real-time and classify them correctly. In this work, three isolated-word speech recognition algorithms were developed. Two of them are based on linear predictive coding autoregressive modelling (LPC), using different time alignment and euclidean distance (LPC-LE) and Itakura distance (LPC-DI) as spectral distortion measures. The third algorithm is based on the commercial IBM SMAPI programming library. A serial communication protocol was developed for integration of the speech recognition command interface and a low-level control system. The algorithms were tested using 22 voice commands recorded from 42 male and female volunteers. The performance of the algorithms as a function of their input parameters was measured by training them for each individual speaker (speaker-dependent mode) and without training for individual speakers (speaker-independent mode) and using vocabularies with and without phonetic and spectral ambiguities. The algorithms LPC-LE and LPC-DI were evaluated varying signal sampling frequency and model order. Both algorithms showed recognition rates near 94% for speaker-dependent mode. The best performance of the LPC-LE algorithm was obtained for frequencies between 3.7 and 7.4 kHz, with lowest processing time of 0.18 s. The best performance of the LPC-DI algorithm was obtained between 3.7 and 22.1 kHz, using model of order 10, 16 and 20, with lowest processing time of 1 s. The SMAPI-based algorithm was evaluated against its rejection threshold, its recognition speed and the signal-to-noise ratio of the voice signals.This algorithm identified about 93% of the commands correctly in the speaker-independent mode and about 98.5% in the speaker-dependent mode. The mean processing time was about 0.53 s for the recognition speed configurations studied and its performance was not affected by signal-to-noise ratios up to 45 dB. The presence of phonetically-similar words in the vocabulary increased error rates for the three algorithms developed.Biblioteca Digitais de Teses e Dissertações da USPCestari, Idágene AparecidaSantos, Eric Tavares Pereira2003-08-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-22102024-155935/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-10-22T18:03:02Zoai:teses.usp.br:tde-22102024-155935Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-10-22T18:03:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica. Untitled in english |
title |
Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica. |
spellingShingle |
Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica. Santos, Eric Tavares Pereira Bioengenharia Bioengineering Reconhecimento de voz Robótica (Aplicações) Robotics (Applications) Speech recognition |
title_short |
Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica. |
title_full |
Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica. |
title_fullStr |
Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica. |
title_full_unstemmed |
Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica. |
title_sort |
Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica. |
author |
Santos, Eric Tavares Pereira |
author_facet |
Santos, Eric Tavares Pereira |
author_role |
author |
dc.contributor.none.fl_str_mv |
Cestari, Idágene Aparecida |
dc.contributor.author.fl_str_mv |
Santos, Eric Tavares Pereira |
dc.subject.por.fl_str_mv |
Bioengenharia Bioengineering Reconhecimento de voz Robótica (Aplicações) Robotics (Applications) Speech recognition |
topic |
Bioengenharia Bioengineering Reconhecimento de voz Robótica (Aplicações) Robotics (Applications) Speech recognition |
description |
Nas cirurgias minimamente invasivas geralmente utiliza-se um endoscópio para a visualização das estruturas internas do corpo do paciente. Nestes casos, a utilização de um robô para controle de posicionamento da óptica requer o uso de uma interface de comando intuitiva e simples, que permita que o próprio cirurgião tenha controle sobre o equipamento. Um sistema de comandos por voz para controle de posicionamento de endoscópio deve reconhecer os comandos pronunciados em tempo real, além de identificá-los corretamente em praticamente 100% das ocorrências. Neste trabalho foram desenvolvidos e avaliados três algoritmos de reconhecimento de comandos isolados de voz para controle do posicionamento de endoscópio. Dois dos algoritmos têm como base a modelagem autoregressiva pelo método da codificação preditiva linear (LPC), com diferenças na forma de alinhamento temporal dos sinais de voz e utilizando como métrica de distorção espectral a distância euclidiana (LPC-LE) e a distância de Itakura (LPC-DI). O terceiro algoritmo baseia-se na biblioteca de programação comercial IBM SMAPI. Foi também desenvolvido um protocolo de comunicação serial para a integração entre o algoritmo de reconhecimento e o sistema de acionamento do robô. Os algoritmos foram testados utilizando-se 22 comandos de voz gravados, pronunciados por 42 locutores de ambos os sexos. O desempenho dos algoritmos em função dos seus parâmetros foi avaliado utilizando-se treinamento específico para cada locutor (modo dependente de locutor) e sem treinamento para um locutor específico (modo independente de locutor) e utilizando-se vocabulários com e sem ambigüidades fonéticas. O desempenho dos algoritmos LPC foi estudado variando-se a freqüência de amostragem dos sinais de voz e a ordem do modelo LPC. Ambos mostraram-se apropriados para uso no modo dependente de locutor, com identificação correta de comandos em aproximadame 94% das vezes.LPC-LE foi obtido para freqüências entre 3,7 e 7,4 kHz com menor tempo de processamento de aproximadamente 0,18 s. O melhor desempenho do algoritmo LPC-DI foi obtido entre 3,7 e 22,1 kHz, utilizando-se modelo de ordem 10, 16 e 20, com menor tempo de processamento de aproximadamente 1 s. O algoritmo baseado na SMAPI foi avaliado em função do limiar de rejeição, da velocidade de reconhecimento e da relação sinal-ruído dos sinais de voz. Este algoritmo identificou corretamente aproximadamente 93% dos comandos no modo independente de locutor e 98,5% no modo dependente de locutor. O desempenho do algoritmo não é prejudicado por sinais com relação sinal-ruído de até 45 dB, sendo o melhor desempenho obtido para limiar de rejeição zero. O tempo de processamento médio foi de 0,53 s, independentemente da velocidade de reconhecimento utilizada. A presença de ambigüidades fonéticas e espectrais no vocabulário prejudica o desempenho de todos os algoritmos desenvolvidos. |
publishDate |
2003 |
dc.date.none.fl_str_mv |
2003-08-25 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-22102024-155935/ |
url |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-22102024-155935/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256530462703616 |