Machine learning e regressão multivariada aplicados à predição da sobrevida do câncer de mama

Detalhes bibliográficos
Autor(a) principal: Pinheiro, Talita Santos
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFABC
Texto Completo: http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124453
Resumo: Orientador(a): Prof(a). Dr(a). Priscyla Waleska Targino de Azevedo Simoes
id UFBC_3e9dde20a9ffba5de5337a30a63f71d6
oai_identifier_str oai:BDTD:124453
network_acronym_str UFBC
network_name_str Repositório Institucional da UFABC
repository_id_str
spelling Machine learning e regressão multivariada aplicados à predição da sobrevida do câncer de mamaINFORMÁTICA BIOMÉDICAANÁLISE DE SOBREVIDAAPRENDIZADO DE MÁQUINACÂNCER DE MAMABIOMEDICAL INFORMATICSSURVIVAL ANALYSISMACHINE LEARNINGBREAST CANCERPROGRAMA DE PÓS GRADUAÇÃO EM ENGENHARIA BIOMÉDICAOrientador(a): Prof(a). Dr(a). Priscyla Waleska Targino de Azevedo SimoesCoorientadora: Prof. Dra. Ana Paula RomaniCoorientador: Prof. Dr. Tiago Ribeiro de OliveiraDissertação (mestrado) - Universidade Federal do ABC, Programa de Pós Graduação em Engenharia Biomédica. São Bernardo do Campo, 2022Introdução: O Câncer de Mama é câncer de maior incidência no mundo, com altas taxas de óbito na população feminina, apresentando-se como um problema de Saúde Pública. Nos estudos de sobrevida do Câncer de Mama, as técnicas estatísticas clássicas, como análise de regressão, podem apresentar certa imprecisão na progressão da doença devido aos dados censurados, desta forma, buscam-se soluções que possam conviver com menor nível de consistência temporal nos dados como as provenientes do Machine Learning. Objetivo: O presente estudo iniciado durante a pandemia global do COVID-19 buscou apresentar evidências de modelos baseados em Machine Learning e regressão multivariada na predição da sobrevida do Câncer de Mama. Métodos: O estudo considerou uma amostra de 4024 pacientes do sexo feminino diagnosticadas no período de 2006 a 2010 com câncer de mama (carcinoma ductal invasivo e carcinoma lobular). Foi realizada a comparação de modelos desenvolvidos a partir dos algoritmos Random Survival Forest e de regressão multivariada de Cox, voltados à predição da sobrevida do câncer de mama. Os modelos foram desenvolvidos no software R para Windows 3.5.2 (R Studio 1.2.5033), e bibliotecas ‘randomForestSRC’, ‘survival’ e ‘SurvMetrics’. A análise comparativa dos modelos considerou um cenário de experimentação constituído a partir dos atributos selecionados do pré-processamento (idade, tamanho do tumor, estadiamento, estrogênio, progesterona, tempo de sobrevida e desfecho) e estratégia de validação cruzada k-folds (k = 10). Resultados: Mediante ajuste do modelo de COX observouse risco associado a idade superior ou igual a 54 anos [HR=1,1876 (IC95%:1,0010- 1,4088); p=0,049]; tumores maiores que 2,4cm [HR=1,2961 (IC95%:1,0738- 1,5645); p=0,007]; status negativo para estrogênio [HR=0,4247 (IC95%:0,3247- 0,5555); p<0,001]; status negativo para progesterona [HR=0,5630 (IC95%:0,4519- 0,7014); p<0,001]; e em estágio III [IC95%: HR=2,4057 (IC95%:1,9956-2,9001); p<0,001]. No modelo desenvolvido a partir do algoritmo Random Survival Forest, foi realizado o crescimento de 3000 árvores, podendo-se observar que houve estabilização na taxa de erro de previsão dos dados Out of Bag em 33,99%. O estadiamento apresentou-se como o atributo de maior contribuição ao modelo (0,1660). Mediante dados obtidos via cenário de experimentação, não tivemos evidências de diferença nas medidas de avaliação resultantes dos modelos Random Survival Forest e Cox para o C-Index (p=0,7550), Integrated Absolute Error (p=0,159), Integrated Squard Error (p=0,232), e Brier Score (0,492). Temos evidências de que o Mean Absolute Error (p=0,024) e o Integrated Brier Score (p=0,018) foram significativamente menores no modelo Random Survival Forest e Cox, respectivamente. Conclusão: O modelo de Cox revelou a idade, tamanho do tumor e estadiamento como fatores de risco, que também foram considerados relevantes entre os atributos com maior ganho de informação pelo modelo apresentado pelo algoritmo Random Survival Forest. Temos evidências de que o modelo apresentado pelo algoritmo Random Survival Forest considerado na predição da sobrevida do câncer de mama apresentou-se, no geral, em concordância com o modelo desenvolvido a partir da regressão multivariada de Cox e que os resultados são promissores para a prática clínica.Introduction: Breast cancer is the cancer that has the highest incidence in the world, with high mortality rates in the female population, presenting itself as a public health problem. In breast cancer survival studies, classic statistical techniques, such as regression analysis, may show some inaccuracy in disease progression due to censored data. Thus, solutions that can coexist with a lower level of temporal consistency in data, such as the origins of Machine Learning, are sought. Objective: The present study, initiated during the global COVID-19 pandemic, sought to present evidence of Machine Learning and multivariate regression models in predicting breast cancer survival. Methods: The study considered a sample of 4024 female patients diagnosed between 2006 and 2010 with breast cancer (invasive ductal carcinoma and lobular carcinoma). A comparison was conducted between models developed using the Random Survival Forest and multivariate Cox regression algorithms aimed to predict the survival of breast cancer. The models were developed in R software for Windows 3.5.2 (R Studio 1.2.5033), and 'randomForestSRC', 'survival' and 'SurvMetrics' libraries. The comparative of the models considered an experimental scenario consisting of selected pre-processing attributes (age, tumor size, staging, estrogen, progesterone, survival time, life status (outcome), and k-folds (k = 10) cross-validation strategy. Results: After adjusting the COX model, there was a risk associated with age greater than or equal to 54 years [HR=1.1876 (95%CI:1.0010-1.4088); p=0.049]; tumors larger than 2.4cm [HR=1.2961 (95%CI: 1.0738-1.5645); p=0.007]; negative estrogen [HR=0.4247 (95% CI: 0.3247-0.5555); p<0.001]; negative progesterone [HR=0.5630 (95% CI: 0.4519-0.7014); p<0.001]; and stage III [95%CI: HR=2.4057 (95%CI:1.9956- 2.9001); p<0.001]. In the model developed by the Random Survival Forest algorithm, the growth of 3000 trees was carried out, and it can be observed that there was stabilization the error rate predicted and Out of Bag data at 33.99%. Staging was the attribute with the most significant contribution to the model (0.1660). Based on data obtained via the experimental scenario, we had no evidence of a difference in the evaluation measures resulting from the Random Survival Forest and Cox models for the C-Index (p=0.7550), Integrated Absolute Error (p=0.159), Integrated Squared Error (p=0.232), and Brier Score (0.492). We have evidence that the Mean Absolute Error (p=0.024) and the Integrated Brier Score (p=0.018) were significantly lower in the Random Survival Forest and Cox model, respectively. Conclusion: The Cox model revealed age, tumor size, and staging as risk factors, which were also considered relevant among the attributes with the highest information gain by the model presented by the Random Survival Forest algorithm. The Random Survival Forest algorithm considered in the breast cancer survival prediction was, overall, in agreement with the model developed from Cox multivariate regression, and the results are promising for clinical practice.Simões, Priscyla Waleska Targino de AzevedoRomani, Ana PaulaOliveira, Tiago Ribeiro deBarra, Cláudia Maria Cabral MoroMiziara, Isabela MarquesUniversidade Federal do ABCPinheiro, Talita Santos2022info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf73 f : il.http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124453http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124453&midiaext=80902Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=124453porreponame:Repositório Institucional da UFABCinstname:Universidade Federal do ABC (UFABC)instacron:UFABCinfo:eu-repo/semantics/openAccess2024-03-07T14:22:22Zoai:BDTD:124453Repositório InstitucionalPUBhttp://www.biblioteca.ufabc.edu.br/oai/oai.phpopendoar:2024-03-07T14:22:22Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC)false
dc.title.none.fl_str_mv Machine learning e regressão multivariada aplicados à predição da sobrevida do câncer de mama
title Machine learning e regressão multivariada aplicados à predição da sobrevida do câncer de mama
spellingShingle Machine learning e regressão multivariada aplicados à predição da sobrevida do câncer de mama
Pinheiro, Talita Santos
INFORMÁTICA BIOMÉDICA
ANÁLISE DE SOBREVIDA
APRENDIZADO DE MÁQUINA
CÂNCER DE MAMA
BIOMEDICAL INFORMATICS
SURVIVAL ANALYSIS
MACHINE LEARNING
BREAST CANCER
PROGRAMA DE PÓS GRADUAÇÃO EM ENGENHARIA BIOMÉDICA
title_short Machine learning e regressão multivariada aplicados à predição da sobrevida do câncer de mama
title_full Machine learning e regressão multivariada aplicados à predição da sobrevida do câncer de mama
title_fullStr Machine learning e regressão multivariada aplicados à predição da sobrevida do câncer de mama
title_full_unstemmed Machine learning e regressão multivariada aplicados à predição da sobrevida do câncer de mama
title_sort Machine learning e regressão multivariada aplicados à predição da sobrevida do câncer de mama
author Pinheiro, Talita Santos
author_facet Pinheiro, Talita Santos
author_role author
dc.contributor.none.fl_str_mv Simões, Priscyla Waleska Targino de Azevedo
Romani, Ana Paula
Oliveira, Tiago Ribeiro de
Barra, Cláudia Maria Cabral Moro
Miziara, Isabela Marques
Universidade Federal do ABC
dc.contributor.author.fl_str_mv Pinheiro, Talita Santos
dc.subject.por.fl_str_mv INFORMÁTICA BIOMÉDICA
ANÁLISE DE SOBREVIDA
APRENDIZADO DE MÁQUINA
CÂNCER DE MAMA
BIOMEDICAL INFORMATICS
SURVIVAL ANALYSIS
MACHINE LEARNING
BREAST CANCER
PROGRAMA DE PÓS GRADUAÇÃO EM ENGENHARIA BIOMÉDICA
topic INFORMÁTICA BIOMÉDICA
ANÁLISE DE SOBREVIDA
APRENDIZADO DE MÁQUINA
CÂNCER DE MAMA
BIOMEDICAL INFORMATICS
SURVIVAL ANALYSIS
MACHINE LEARNING
BREAST CANCER
PROGRAMA DE PÓS GRADUAÇÃO EM ENGENHARIA BIOMÉDICA
description Orientador(a): Prof(a). Dr(a). Priscyla Waleska Targino de Azevedo Simoes
publishDate 2022
dc.date.none.fl_str_mv 2022
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124453
url http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124453
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124453&midiaext=80902
Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=124453
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
73 f : il.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFABC
instname:Universidade Federal do ABC (UFABC)
instacron:UFABC
instname_str Universidade Federal do ABC (UFABC)
instacron_str UFABC
institution UFABC
reponame_str Repositório Institucional da UFABC
collection Repositório Institucional da UFABC
repository.name.fl_str_mv Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC)
repository.mail.fl_str_mv
_version_ 1801502111118131200