Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.

Santos, Eric Tavares Pereira

Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.

Detalhes bibliográficos
Autor(a) principal:	Santos, Eric Tavares Pereira
Data de Publicação:	2003
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da USP
Texto Completo:	https://www.teses.usp.br/teses/disponiveis/3/3142/tde-22102024-155935/
Resumo:	Nas cirurgias minimamente invasivas geralmente utiliza-se um endoscópio para a visualização das estruturas internas do corpo do paciente. Nestes casos, a utilização de um robô para controle de posicionamento da óptica requer o uso de uma interface de comando intuitiva e simples, que permita que o próprio cirurgião tenha controle sobre o equipamento. Um sistema de comandos por voz para controle de posicionamento de endoscópio deve reconhecer os comandos pronunciados em tempo real, além de identificá-los corretamente em praticamente 100% das ocorrências. Neste trabalho foram desenvolvidos e avaliados três algoritmos de reconhecimento de comandos isolados de voz para controle do posicionamento de endoscópio. Dois dos algoritmos têm como base a modelagem autoregressiva pelo método da codificação preditiva linear (LPC), com diferenças na forma de alinhamento temporal dos sinais de voz e utilizando como métrica de distorção espectral a distância euclidiana (LPC-LE) e a distância de Itakura (LPC-DI). O terceiro algoritmo baseia-se na biblioteca de programação comercial IBM SMAPI. Foi também desenvolvido um protocolo de comunicação serial para a integração entre o algoritmo de reconhecimento e o sistema de acionamento do robô. Os algoritmos foram testados utilizando-se 22 comandos de voz gravados, pronunciados por 42 locutores de ambos os sexos. O desempenho dos algoritmos em função dos seus parâmetros foi avaliado utilizando-se treinamento específico para cada locutor (modo dependente de locutor) e sem treinamento para um locutor específico (modo independente de locutor) e utilizando-se vocabulários com e sem ambigüidades fonéticas. O desempenho dos algoritmos LPC foi estudado variando-se a freqüência de amostragem dos sinais de voz e a ordem do modelo LPC. Ambos mostraram-se apropriados para uso no modo dependente de locutor, com identificação correta de comandos em aproximadame 94% das vezes.LPC-LE foi obtido para freqüências entre 3,7 e 7,4 kHz com menor tempo de processamento de aproximadamente 0,18 s. O melhor desempenho do algoritmo LPC-DI foi obtido entre 3,7 e 22,1 kHz, utilizando-se modelo de ordem 10, 16 e 20, com menor tempo de processamento de aproximadamente 1 s. O algoritmo baseado na SMAPI foi avaliado em função do limiar de rejeição, da velocidade de reconhecimento e da relação sinal-ruído dos sinais de voz. Este algoritmo identificou corretamente aproximadamente 93% dos comandos no modo independente de locutor e 98,5% no modo dependente de locutor. O desempenho do algoritmo não é prejudicado por sinais com relação sinal-ruído de até 45 dB, sendo o melhor desempenho obtido para limiar de rejeição zero. O tempo de processamento médio foi de 0,53 s, independentemente da velocidade de reconhecimento utilizada. A presença de ambigüidades fonéticas e espectrais no vocabulário prejudica o desempenho de todos os algoritmos desenvolvidos.

Metadados do item

id	USP_423885be39258a2fb0476d5fac20c117
oai_identifier_str	oai:teses.usp.br:tde-22102024-155935
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str	2721
spelling	Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.Untitled in englishBioengenhariaBioengineeringReconhecimento de vozRobótica (Aplicações)Robotics (Applications)Speech recognitionNas cirurgias minimamente invasivas geralmente utiliza-se um endoscópio para a visualização das estruturas internas do corpo do paciente. Nestes casos, a utilização de um robô para controle de posicionamento da óptica requer o uso de uma interface de comando intuitiva e simples, que permita que o próprio cirurgião tenha controle sobre o equipamento. Um sistema de comandos por voz para controle de posicionamento de endoscópio deve reconhecer os comandos pronunciados em tempo real, além de identificá-los corretamente em praticamente 100% das ocorrências. Neste trabalho foram desenvolvidos e avaliados três algoritmos de reconhecimento de comandos isolados de voz para controle do posicionamento de endoscópio. Dois dos algoritmos têm como base a modelagem autoregressiva pelo método da codificação preditiva linear (LPC), com diferenças na forma de alinhamento temporal dos sinais de voz e utilizando como métrica de distorção espectral a distância euclidiana (LPC-LE) e a distância de Itakura (LPC-DI). O terceiro algoritmo baseia-se na biblioteca de programação comercial IBM SMAPI. Foi também desenvolvido um protocolo de comunicação serial para a integração entre o algoritmo de reconhecimento e o sistema de acionamento do robô. Os algoritmos foram testados utilizando-se 22 comandos de voz gravados, pronunciados por 42 locutores de ambos os sexos. O desempenho dos algoritmos em função dos seus parâmetros foi avaliado utilizando-se treinamento específico para cada locutor (modo dependente de locutor) e sem treinamento para um locutor específico (modo independente de locutor) e utilizando-se vocabulários com e sem ambigüidades fonéticas. O desempenho dos algoritmos LPC foi estudado variando-se a freqüência de amostragem dos sinais de voz e a ordem do modelo LPC. Ambos mostraram-se apropriados para uso no modo dependente de locutor, com identificação correta de comandos em aproximadame 94% das vezes.LPC-LE foi obtido para freqüências entre 3,7 e 7,4 kHz com menor tempo de processamento de aproximadamente 0,18 s. O melhor desempenho do algoritmo LPC-DI foi obtido entre 3,7 e 22,1 kHz, utilizando-se modelo de ordem 10, 16 e 20, com menor tempo de processamento de aproximadamente 1 s. O algoritmo baseado na SMAPI foi avaliado em função do limiar de rejeição, da velocidade de reconhecimento e da relação sinal-ruído dos sinais de voz. Este algoritmo identificou corretamente aproximadamente 93% dos comandos no modo independente de locutor e 98,5% no modo dependente de locutor. O desempenho do algoritmo não é prejudicado por sinais com relação sinal-ruído de até 45 dB, sendo o melhor desempenho obtido para limiar de rejeição zero. O tempo de processamento médio foi de 0,53 s, independentemente da velocidade de reconhecimento utilizada. A presença de ambigüidades fonéticas e espectrais no vocabulário prejudica o desempenho de todos os algoritmos desenvolvidos.Minimally invasive surgeries are normally performed with the assistance of an endoscope, that allows the visualization of the patient\'s internal anatomy. The use of a robotic system for automated endoscope positioning requires a simple and intuitive command interface which allows the surgeon himself to determine the camera movements. A speech recognition system for endoscope positioning must recognize spoken commands in real-time and classify them correctly. In this work, three isolated-word speech recognition algorithms were developed. Two of them are based on linear predictive coding autoregressive modelling (LPC), using different time alignment and euclidean distance (LPC-LE) and Itakura distance (LPC-DI) as spectral distortion measures. The third algorithm is based on the commercial IBM SMAPI programming library. A serial communication protocol was developed for integration of the speech recognition command interface and a low-level control system. The algorithms were tested using 22 voice commands recorded from 42 male and female volunteers. The performance of the algorithms as a function of their input parameters was measured by training them for each individual speaker (speaker-dependent mode) and without training for individual speakers (speaker-independent mode) and using vocabularies with and without phonetic and spectral ambiguities. The algorithms LPC-LE and LPC-DI were evaluated varying signal sampling frequency and model order. Both algorithms showed recognition rates near 94% for speaker-dependent mode. The best performance of the LPC-LE algorithm was obtained for frequencies between 3.7 and 7.4 kHz, with lowest processing time of 0.18 s. The best performance of the LPC-DI algorithm was obtained between 3.7 and 22.1 kHz, using model of order 10, 16 and 20, with lowest processing time of 1 s. The SMAPI-based algorithm was evaluated against its rejection threshold, its recognition speed and the signal-to-noise ratio of the voice signals.This algorithm identified about 93% of the commands correctly in the speaker-independent mode and about 98.5% in the speaker-dependent mode. The mean processing time was about 0.53 s for the recognition speed configurations studied and its performance was not affected by signal-to-noise ratios up to 45 dB. The presence of phonetically-similar words in the vocabulary increased error rates for the three algorithms developed.Biblioteca Digitais de Teses e Dissertações da USPCestari, Idágene AparecidaSantos, Eric Tavares Pereira2003-08-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-22102024-155935/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-10-22T18:03:02Zoai:teses.usp.br:tde-22102024-155935Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212024-10-22T18:03:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica. Untitled in english
title	Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.
spellingShingle	Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica. Santos, Eric Tavares Pereira Bioengenharia Bioengineering Reconhecimento de voz Robótica (Aplicações) Robotics (Applications) Speech recognition
title_short	Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.
title_full	Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.
title_fullStr	Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.
title_full_unstemmed	Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.
title_sort	Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.
author	Santos, Eric Tavares Pereira
author_facet	Santos, Eric Tavares Pereira
author_role	author
dc.contributor.none.fl_str_mv	Cestari, Idágene Aparecida
dc.contributor.author.fl_str_mv	Santos, Eric Tavares Pereira
dc.subject.por.fl_str_mv	Bioengenharia Bioengineering Reconhecimento de voz Robótica (Aplicações) Robotics (Applications) Speech recognition
topic	Bioengenharia Bioengineering Reconhecimento de voz Robótica (Aplicações) Robotics (Applications) Speech recognition
description	Nas cirurgias minimamente invasivas geralmente utiliza-se um endoscópio para a visualização das estruturas internas do corpo do paciente. Nestes casos, a utilização de um robô para controle de posicionamento da óptica requer o uso de uma interface de comando intuitiva e simples, que permita que o próprio cirurgião tenha controle sobre o equipamento. Um sistema de comandos por voz para controle de posicionamento de endoscópio deve reconhecer os comandos pronunciados em tempo real, além de identificá-los corretamente em praticamente 100% das ocorrências. Neste trabalho foram desenvolvidos e avaliados três algoritmos de reconhecimento de comandos isolados de voz para controle do posicionamento de endoscópio. Dois dos algoritmos têm como base a modelagem autoregressiva pelo método da codificação preditiva linear (LPC), com diferenças na forma de alinhamento temporal dos sinais de voz e utilizando como métrica de distorção espectral a distância euclidiana (LPC-LE) e a distância de Itakura (LPC-DI). O terceiro algoritmo baseia-se na biblioteca de programação comercial IBM SMAPI. Foi também desenvolvido um protocolo de comunicação serial para a integração entre o algoritmo de reconhecimento e o sistema de acionamento do robô. Os algoritmos foram testados utilizando-se 22 comandos de voz gravados, pronunciados por 42 locutores de ambos os sexos. O desempenho dos algoritmos em função dos seus parâmetros foi avaliado utilizando-se treinamento específico para cada locutor (modo dependente de locutor) e sem treinamento para um locutor específico (modo independente de locutor) e utilizando-se vocabulários com e sem ambigüidades fonéticas. O desempenho dos algoritmos LPC foi estudado variando-se a freqüência de amostragem dos sinais de voz e a ordem do modelo LPC. Ambos mostraram-se apropriados para uso no modo dependente de locutor, com identificação correta de comandos em aproximadame 94% das vezes.LPC-LE foi obtido para freqüências entre 3,7 e 7,4 kHz com menor tempo de processamento de aproximadamente 0,18 s. O melhor desempenho do algoritmo LPC-DI foi obtido entre 3,7 e 22,1 kHz, utilizando-se modelo de ordem 10, 16 e 20, com menor tempo de processamento de aproximadamente 1 s. O algoritmo baseado na SMAPI foi avaliado em função do limiar de rejeição, da velocidade de reconhecimento e da relação sinal-ruído dos sinais de voz. Este algoritmo identificou corretamente aproximadamente 93% dos comandos no modo independente de locutor e 98,5% no modo dependente de locutor. O desempenho do algoritmo não é prejudicado por sinais com relação sinal-ruído de até 45 dB, sendo o melhor desempenho obtido para limiar de rejeição zero. O tempo de processamento médio foi de 0,53 s, independentemente da velocidade de reconhecimento utilizada. A presença de ambigüidades fonéticas e espectrais no vocabulário prejudica o desempenho de todos os algoritmos desenvolvidos.
publishDate	2003
dc.date.none.fl_str_mv	2003-08-25
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/3/3142/tde-22102024-155935/
url	https://www.teses.usp.br/teses/disponiveis/3/3142/tde-22102024-155935/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1815256530462703616

Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.

Registros relacionados