Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis

Detalhes bibliográficos
Autor(a) principal: Holsbach, Nicole
Data de Publicação: 2014
Outros Autores: Fogliatto, Flavio Sanson, Anzanello, Michel José
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/101980
Resumo: Na maioria dos países, o câncer de mama entre as mulheres é predominante. Se diagnosticado precocemente, apresenta alta probabilidade de cura. Diversas abordagens baseadas em Estatística foram desenvolvidas para auxiliar na sua detecção precoce. Este artigo apresenta um método para a seleção de variáveis para classificação dos casos em duas classes de resultado, benigno ou maligno, baseado na análise citopatológica de amostras de célula da mama de pacientes. As variáveis são ordenadas de acordo com um novo índice de importância de variáveis que combina os pesos de importância da Análise de Componentes Principais e a variância explicada a partir de cada componente retido. Observações da amostra de treino são categorizadas em duas classes através das ferramentas k-vizinhos mais próximos e Análise Discriminante, seguida pela eliminação da variável com o menor índice de importância. Usa-se o subconjunto com a máxima acurácia para classificar as observações na amostra de teste. Aplicando ao Wisconsin Breast Cancer Database, o método proposto apresentou uma média de 97,77% de acurácia de classificação, retendo uma média de 5,8 variáveis.
id UFRGS-2_6dca8238259b7fc3de8c27e35fadda70
oai_identifier_str oai:www.lume.ufrgs.br:10183/101980
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Holsbach, NicoleFogliatto, Flavio SansonAnzanello, Michel José2014-08-27T02:11:58Z20141413-8123http://hdl.handle.net/10183/101980000929319Na maioria dos países, o câncer de mama entre as mulheres é predominante. Se diagnosticado precocemente, apresenta alta probabilidade de cura. Diversas abordagens baseadas em Estatística foram desenvolvidas para auxiliar na sua detecção precoce. Este artigo apresenta um método para a seleção de variáveis para classificação dos casos em duas classes de resultado, benigno ou maligno, baseado na análise citopatológica de amostras de célula da mama de pacientes. As variáveis são ordenadas de acordo com um novo índice de importância de variáveis que combina os pesos de importância da Análise de Componentes Principais e a variância explicada a partir de cada componente retido. Observações da amostra de treino são categorizadas em duas classes através das ferramentas k-vizinhos mais próximos e Análise Discriminante, seguida pela eliminação da variável com o menor índice de importância. Usa-se o subconjunto com a máxima acurácia para classificar as observações na amostra de teste. Aplicando ao Wisconsin Breast Cancer Database, o método proposto apresentou uma média de 97,77% de acurácia de classificação, retendo uma média de 5,8 variáveis.In the majority of countries, breast cancer among women is highly prevalent. If diagnosed in the early stages, there is a high probability of a cure. Several statistical-based approaches have been developed to assist in early breast cancer detection. This paper presents a method for selection of variables for the classification of cases into two classes, benign or malignant, based on cytopathological analysis of breast cell samples of patients. The variables are ranked according to a new index of importance of variables that combines the weighting importance of Principal Component Analysis and the explained variance based on each retained component. Observations from the test sample are categorized into two classes using the k-Nearest Neighbor algorithm and Discriminant Analysis, followed by elimination of the variable with the index of lowest importance. The subset with the highest accuracy is used to classify observations in the test sample. When applied to the Wisconsin Breast Cancer Database, the proposed method led to average of 97.77% in classification accuracy while retaining an average of 5.8 variables.application/pdfporCiência & saúde coletiva. Rio de Janeiro. Vol. 19, n. 4 (abr. 2014), p. 1295-1304.Análise multivariadaAnálise discriminanteNeoplasias da mamaSelection of variablesBreast cancer identificationK-nearest neighbor algorithm (KNN)Discriminant analysisMétodo de mineração de dados para identificação de câncer de mama baseado na seleção de variáveisA data mining method for breast cancer identification based on a selection of variables info:eu-repo/semantics/articleinfo:eu-repo/semantics/otherinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000929319.pdf000929319.pdfTexto completoapplication/pdf95377http://www.lume.ufrgs.br/bitstream/10183/101980/1/000929319.pdfa689c61fd42a4abc421f82da04f418daMD51TEXT000929319.pdf.txt000929319.pdf.txtExtracted Texttext/plain40938http://www.lume.ufrgs.br/bitstream/10183/101980/2/000929319.pdf.txt98a82e8d2a87a58724c81d4553ab1faeMD52THUMBNAIL000929319.pdf.jpg000929319.pdf.jpgGenerated Thumbnailimage/jpeg1489http://www.lume.ufrgs.br/bitstream/10183/101980/3/000929319.pdf.jpgdaae83aaf24f40951f1a21d81610668dMD5310183/1019802022-08-19 04:45:10.847093oai:www.lume.ufrgs.br:10183/101980Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2022-08-19T07:45:10Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis
dc.title.alternative.en.fl_str_mv A data mining method for breast cancer identification based on a selection of variables
title Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis
spellingShingle Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis
Holsbach, Nicole
Análise multivariada
Análise discriminante
Neoplasias da mama
Selection of variables
Breast cancer identification
K-nearest neighbor algorithm (KNN)
Discriminant analysis
title_short Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis
title_full Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis
title_fullStr Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis
title_full_unstemmed Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis
title_sort Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis
author Holsbach, Nicole
author_facet Holsbach, Nicole
Fogliatto, Flavio Sanson
Anzanello, Michel José
author_role author
author2 Fogliatto, Flavio Sanson
Anzanello, Michel José
author2_role author
author
dc.contributor.author.fl_str_mv Holsbach, Nicole
Fogliatto, Flavio Sanson
Anzanello, Michel José
dc.subject.por.fl_str_mv Análise multivariada
Análise discriminante
Neoplasias da mama
topic Análise multivariada
Análise discriminante
Neoplasias da mama
Selection of variables
Breast cancer identification
K-nearest neighbor algorithm (KNN)
Discriminant analysis
dc.subject.eng.fl_str_mv Selection of variables
Breast cancer identification
K-nearest neighbor algorithm (KNN)
Discriminant analysis
description Na maioria dos países, o câncer de mama entre as mulheres é predominante. Se diagnosticado precocemente, apresenta alta probabilidade de cura. Diversas abordagens baseadas em Estatística foram desenvolvidas para auxiliar na sua detecção precoce. Este artigo apresenta um método para a seleção de variáveis para classificação dos casos em duas classes de resultado, benigno ou maligno, baseado na análise citopatológica de amostras de célula da mama de pacientes. As variáveis são ordenadas de acordo com um novo índice de importância de variáveis que combina os pesos de importância da Análise de Componentes Principais e a variância explicada a partir de cada componente retido. Observações da amostra de treino são categorizadas em duas classes através das ferramentas k-vizinhos mais próximos e Análise Discriminante, seguida pela eliminação da variável com o menor índice de importância. Usa-se o subconjunto com a máxima acurácia para classificar as observações na amostra de teste. Aplicando ao Wisconsin Breast Cancer Database, o método proposto apresentou uma média de 97,77% de acurácia de classificação, retendo uma média de 5,8 variáveis.
publishDate 2014
dc.date.accessioned.fl_str_mv 2014-08-27T02:11:58Z
dc.date.issued.fl_str_mv 2014
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/other
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/101980
dc.identifier.issn.pt_BR.fl_str_mv 1413-8123
dc.identifier.nrb.pt_BR.fl_str_mv 000929319
identifier_str_mv 1413-8123
000929319
url http://hdl.handle.net/10183/101980
dc.language.iso.fl_str_mv por
language por
dc.relation.ispartof.pt_BR.fl_str_mv Ciência & saúde coletiva. Rio de Janeiro. Vol. 19, n. 4 (abr. 2014), p. 1295-1304.
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/101980/1/000929319.pdf
http://www.lume.ufrgs.br/bitstream/10183/101980/2/000929319.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/101980/3/000929319.pdf.jpg
bitstream.checksum.fl_str_mv a689c61fd42a4abc421f82da04f418da
98a82e8d2a87a58724c81d4553ab1fae
daae83aaf24f40951f1a21d81610668d
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224847394603008