Aprendizado de máquina aplicado em dados de biossensores para diagnóstico de câncer e COVID-19

Detalhes bibliográficos
Autor(a) principal: Braz, Daniel Cesar
Data de Publicação: 2022
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/76/76135/tde-16112022-161304/
Resumo: Esta tese explora o conceito de sistemas computacionais semi-automatizados de diagnóstico baseados em Aprendizado de Máquina (AM), em que diferentes tipos de dados de biossensores e de outras fontes são empregados. A partir de um pipeline base de AM, foram desenvolvidas quatro aplicações e diversos métodos foram implementados para cada uma das etapas/tarefas do pipeline. Como foram selecionados problemas desafiadores, um alto desempenho na acurácia do diagnóstico em geral só foi alcançado com algoritmos de AM supervisionado. Três aplicações foram em diagnóstico de câncer, sendo a primeira a partir de imagens de microscopia eletrônica de genossensores que detectam o biomarcador de PCA3 para câncer de próstata. Essas imagens foram usadas como entrada para algoritmos de AM supervisionado. Com os atributos de textura Local Complex Features and Neural Network (LCFNN) e o algoritmo Linear Discriminant Analysis (LDA) obteve-se uma taxa de acerto de 99,9% para classificação binária (sim/não para PCA3) e 88,3% para a classificação multiclasse em que se determina a concentração do biomarcador de PCA3. As outras duas aplicações envolveram a detecção de biomarcadores de câncer a partir de medidas elétrica/eletroquímica. A concentração da proteína p53, importante marcador de diferentes tipos de câncer, em amostras de urina e saliva sintéticas, foi determinada a partir de medidas eletroquímicas com imunossensores, em que voltamogramas foram analisados com os algoritmos Logistic Regression (LR), LDA, Support Vector Machine-kernel linear (SVM- L), Gaussian Naive Bayes (GNB), K-Nearest Neighbors (KNN) e Decision Tree (DT). O imunossensor otimizado exibiu acurácia de 100% com todos os algoritmos na maioria dos conjuntos de atributos construídos a partir dos dados brutos. No diagnóstico de câncer de boca, a partir de medidas de impedância elétrica com uma língua eletrônica em amostras de saliva de pacientes e voluntários, a maior acurácia de 86.7% foi obtida com o algoritmo SVM-kernel radial. Nesta aplicação, a acurácia da classificação multiclasse aumentou quando foram adicionadas informações clínicas dos pacientes, indicando a importância de combinação de diferentes tipos de dados nos sistemas computacionais. A quarta aplicação foi o diagnóstico de COVID-19 com a detecção da proteína S do SARS-CoV-2 a partir de mapas hiperespectrais de Espectroscopia Raman com Amplificação de Superfície (SERS) obtidos de imunossensores. Usando algoritmo LDA obteve-se uma acurácia de 100% na distinção dos mapas para resultado positivo e negativo para SARS-CoV-2. Os resultados dessas quatro aplicações demonstram a possibilidade de se desenvolverem sistemas automatizados de diagnóstico, pois as várias etapas/tarefas dos pipelines de AM podem ser implementadas sem necessidade de intervenção humana, mesmo quando se combinam imagens, dados clínicos e de testes clínicos.
id USP_d0de06215ed3736af50933b2ecc69717
oai_identifier_str oai:teses.usp.br:tde-16112022-161304
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Aprendizado de máquina aplicado em dados de biossensores para diagnóstico de câncer e COVID-19Machine learning applied to data of biosensors for diagnosis of cancer and COVID-19.Aprendizado de máquinaBiosensorsBiossensoresCancerCâncerCOVID-19COVID-19Machine learningEsta tese explora o conceito de sistemas computacionais semi-automatizados de diagnóstico baseados em Aprendizado de Máquina (AM), em que diferentes tipos de dados de biossensores e de outras fontes são empregados. A partir de um pipeline base de AM, foram desenvolvidas quatro aplicações e diversos métodos foram implementados para cada uma das etapas/tarefas do pipeline. Como foram selecionados problemas desafiadores, um alto desempenho na acurácia do diagnóstico em geral só foi alcançado com algoritmos de AM supervisionado. Três aplicações foram em diagnóstico de câncer, sendo a primeira a partir de imagens de microscopia eletrônica de genossensores que detectam o biomarcador de PCA3 para câncer de próstata. Essas imagens foram usadas como entrada para algoritmos de AM supervisionado. Com os atributos de textura Local Complex Features and Neural Network (LCFNN) e o algoritmo Linear Discriminant Analysis (LDA) obteve-se uma taxa de acerto de 99,9% para classificação binária (sim/não para PCA3) e 88,3% para a classificação multiclasse em que se determina a concentração do biomarcador de PCA3. As outras duas aplicações envolveram a detecção de biomarcadores de câncer a partir de medidas elétrica/eletroquímica. A concentração da proteína p53, importante marcador de diferentes tipos de câncer, em amostras de urina e saliva sintéticas, foi determinada a partir de medidas eletroquímicas com imunossensores, em que voltamogramas foram analisados com os algoritmos Logistic Regression (LR), LDA, Support Vector Machine-kernel linear (SVM- L), Gaussian Naive Bayes (GNB), K-Nearest Neighbors (KNN) e Decision Tree (DT). O imunossensor otimizado exibiu acurácia de 100% com todos os algoritmos na maioria dos conjuntos de atributos construídos a partir dos dados brutos. No diagnóstico de câncer de boca, a partir de medidas de impedância elétrica com uma língua eletrônica em amostras de saliva de pacientes e voluntários, a maior acurácia de 86.7% foi obtida com o algoritmo SVM-kernel radial. Nesta aplicação, a acurácia da classificação multiclasse aumentou quando foram adicionadas informações clínicas dos pacientes, indicando a importância de combinação de diferentes tipos de dados nos sistemas computacionais. A quarta aplicação foi o diagnóstico de COVID-19 com a detecção da proteína S do SARS-CoV-2 a partir de mapas hiperespectrais de Espectroscopia Raman com Amplificação de Superfície (SERS) obtidos de imunossensores. Usando algoritmo LDA obteve-se uma acurácia de 100% na distinção dos mapas para resultado positivo e negativo para SARS-CoV-2. Os resultados dessas quatro aplicações demonstram a possibilidade de se desenvolverem sistemas automatizados de diagnóstico, pois as várias etapas/tarefas dos pipelines de AM podem ser implementadas sem necessidade de intervenção humana, mesmo quando se combinam imagens, dados clínicos e de testes clínicos.This thesis explores the concept of computer-assisted diagnosis based on machine learning (ML), in which different types of data from biosensors and other sources are employed. Using a ML pipeline, we developed four applications using different methods in the steps of the pipeline. Because the diagnostic problems addressed were all challenging, a high performance in accuracy was only achieved with supervised ML algorithms. Three applications involved cancer diagnosis, the first being from electron microscopy images of genosensors that detect the PCA3 biomarker for prostate cancer. These images were used as input for the ML algorithms, with texture features from Local Complex Features and Neural Network (LCFNN) and the algorithm Linear Discriminant Analysis (LDA) leading to a 99.9% accuracy for binary classification (yes/no for PCA3) and 88.3% accuracy for the multiclass classification where the PCA3 biomarker concentration is determined. The other two applications were related to detection of cancer biomarkers using electrical or electrochemical measurements. The concentration of p53 protein, an important marker of different types of cancer, in synthetic urine and saliva samples was determined from electrochemical measurements with immunosensors, and the voltammograms were analyzed with the Logistic Regression (LR), LDA, Support Vector Machine-kernel linear (SVM-L), Gaussian Naive Bayes (GNB), K-Nearest Neighbors (KNN) and Decision Tree (DT) algorithms. The optimized immunosensor had 100% accuracy with all ML algorithms for most of the datasets with the raw voltammetric data. In the diagnosis of oral cancer using impedance measurements with an electronic tongue in saliva samples from volunteers and patients, the highest accuracy was 86.7% with SVM-kernel radial algorithm. In this application, the accuracy increased when patients clinical information was added, indicating the importance of combining different types of data in computer-assisted diagnosis systems. The fourth application was the diagnosis of COVID-19 with detection of the SARS-CoV-2 S protein using Surface-Enhanced Raman Spectroscopy (SERS). Using the algorithm LDA an accuracy of 100% was achieved in distinguishing spectra for positive and negative result for SARS-CoV-2. The results of these four applications demonstrate the possibility of developing automated diagnostic systems, as the various stages/tasks in the ML pipeline can be implemented without the need for human intervention, even when combining images, clinical information and data from biosensors.Biblioteca Digitais de Teses e Dissertações da USPOliveira Junior, Osvaldo Novais deBraz, Daniel Cesar2022-09-14info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/76/76135/tde-16112022-161304/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-08-23T11:27:03Zoai:teses.usp.br:tde-16112022-161304Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-08-23T11:27:03Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Aprendizado de máquina aplicado em dados de biossensores para diagnóstico de câncer e COVID-19
Machine learning applied to data of biosensors for diagnosis of cancer and COVID-19.
title Aprendizado de máquina aplicado em dados de biossensores para diagnóstico de câncer e COVID-19
spellingShingle Aprendizado de máquina aplicado em dados de biossensores para diagnóstico de câncer e COVID-19
Braz, Daniel Cesar
Aprendizado de máquina
Biosensors
Biossensores
Cancer
Câncer
COVID-19
COVID-19
Machine learning
title_short Aprendizado de máquina aplicado em dados de biossensores para diagnóstico de câncer e COVID-19
title_full Aprendizado de máquina aplicado em dados de biossensores para diagnóstico de câncer e COVID-19
title_fullStr Aprendizado de máquina aplicado em dados de biossensores para diagnóstico de câncer e COVID-19
title_full_unstemmed Aprendizado de máquina aplicado em dados de biossensores para diagnóstico de câncer e COVID-19
title_sort Aprendizado de máquina aplicado em dados de biossensores para diagnóstico de câncer e COVID-19
author Braz, Daniel Cesar
author_facet Braz, Daniel Cesar
author_role author
dc.contributor.none.fl_str_mv Oliveira Junior, Osvaldo Novais de
dc.contributor.author.fl_str_mv Braz, Daniel Cesar
dc.subject.por.fl_str_mv Aprendizado de máquina
Biosensors
Biossensores
Cancer
Câncer
COVID-19
COVID-19
Machine learning
topic Aprendizado de máquina
Biosensors
Biossensores
Cancer
Câncer
COVID-19
COVID-19
Machine learning
description Esta tese explora o conceito de sistemas computacionais semi-automatizados de diagnóstico baseados em Aprendizado de Máquina (AM), em que diferentes tipos de dados de biossensores e de outras fontes são empregados. A partir de um pipeline base de AM, foram desenvolvidas quatro aplicações e diversos métodos foram implementados para cada uma das etapas/tarefas do pipeline. Como foram selecionados problemas desafiadores, um alto desempenho na acurácia do diagnóstico em geral só foi alcançado com algoritmos de AM supervisionado. Três aplicações foram em diagnóstico de câncer, sendo a primeira a partir de imagens de microscopia eletrônica de genossensores que detectam o biomarcador de PCA3 para câncer de próstata. Essas imagens foram usadas como entrada para algoritmos de AM supervisionado. Com os atributos de textura Local Complex Features and Neural Network (LCFNN) e o algoritmo Linear Discriminant Analysis (LDA) obteve-se uma taxa de acerto de 99,9% para classificação binária (sim/não para PCA3) e 88,3% para a classificação multiclasse em que se determina a concentração do biomarcador de PCA3. As outras duas aplicações envolveram a detecção de biomarcadores de câncer a partir de medidas elétrica/eletroquímica. A concentração da proteína p53, importante marcador de diferentes tipos de câncer, em amostras de urina e saliva sintéticas, foi determinada a partir de medidas eletroquímicas com imunossensores, em que voltamogramas foram analisados com os algoritmos Logistic Regression (LR), LDA, Support Vector Machine-kernel linear (SVM- L), Gaussian Naive Bayes (GNB), K-Nearest Neighbors (KNN) e Decision Tree (DT). O imunossensor otimizado exibiu acurácia de 100% com todos os algoritmos na maioria dos conjuntos de atributos construídos a partir dos dados brutos. No diagnóstico de câncer de boca, a partir de medidas de impedância elétrica com uma língua eletrônica em amostras de saliva de pacientes e voluntários, a maior acurácia de 86.7% foi obtida com o algoritmo SVM-kernel radial. Nesta aplicação, a acurácia da classificação multiclasse aumentou quando foram adicionadas informações clínicas dos pacientes, indicando a importância de combinação de diferentes tipos de dados nos sistemas computacionais. A quarta aplicação foi o diagnóstico de COVID-19 com a detecção da proteína S do SARS-CoV-2 a partir de mapas hiperespectrais de Espectroscopia Raman com Amplificação de Superfície (SERS) obtidos de imunossensores. Usando algoritmo LDA obteve-se uma acurácia de 100% na distinção dos mapas para resultado positivo e negativo para SARS-CoV-2. Os resultados dessas quatro aplicações demonstram a possibilidade de se desenvolverem sistemas automatizados de diagnóstico, pois as várias etapas/tarefas dos pipelines de AM podem ser implementadas sem necessidade de intervenção humana, mesmo quando se combinam imagens, dados clínicos e de testes clínicos.
publishDate 2022
dc.date.none.fl_str_mv 2022-09-14
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/76/76135/tde-16112022-161304/
url https://www.teses.usp.br/teses/disponiveis/76/76135/tde-16112022-161304/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809090784163528704