Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis

Holsbach, Nicole; Fogliatto, Flavio Sanson; Anzanello, Michel José

Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis

Detalhes bibliográficos
Autor(a) principal:	Holsbach, Nicole
Data de Publicação:	2014
Outros Autores:	Fogliatto, Flavio Sanson, Anzanello, Michel José
Tipo de documento:	Artigo
Idioma:	por
Título da fonte:	Repositório Institucional da UFRGS
Texto Completo:	http://hdl.handle.net/10183/101980
Resumo:	Na maioria dos países, o câncer de mama entre as mulheres é predominante. Se diagnosticado precocemente, apresenta alta probabilidade de cura. Diversas abordagens baseadas em Estatística foram desenvolvidas para auxiliar na sua detecção precoce. Este artigo apresenta um método para a seleção de variáveis para classificação dos casos em duas classes de resultado, benigno ou maligno, baseado na análise citopatológica de amostras de célula da mama de pacientes. As variáveis são ordenadas de acordo com um novo índice de importância de variáveis que combina os pesos de importância da Análise de Componentes Principais e a variância explicada a partir de cada componente retido. Observações da amostra de treino são categorizadas em duas classes através das ferramentas k-vizinhos mais próximos e Análise Discriminante, seguida pela eliminação da variável com o menor índice de importância. Usa-se o subconjunto com a máxima acurácia para classificar as observações na amostra de teste. Aplicando ao Wisconsin Breast Cancer Database, o método proposto apresentou uma média de 97,77% de acurácia de classificação, retendo uma média de 5,8 variáveis.

Metadados do item

id	UFRGS-2_6dca8238259b7fc3de8c27e35fadda70
oai_identifier_str	oai:www.lume.ufrgs.br:10183/101980
network_acronym_str	UFRGS-2
network_name_str	Repositório Institucional da UFRGS
repository_id_str
spelling	Holsbach, NicoleFogliatto, Flavio SansonAnzanello, Michel José2014-08-27T02:11:58Z20141413-8123http://hdl.handle.net/10183/101980000929319Na maioria dos países, o câncer de mama entre as mulheres é predominante. Se diagnosticado precocemente, apresenta alta probabilidade de cura. Diversas abordagens baseadas em Estatística foram desenvolvidas para auxiliar na sua detecção precoce. Este artigo apresenta um método para a seleção de variáveis para classificação dos casos em duas classes de resultado, benigno ou maligno, baseado na análise citopatológica de amostras de célula da mama de pacientes. As variáveis são ordenadas de acordo com um novo índice de importância de variáveis que combina os pesos de importância da Análise de Componentes Principais e a variância explicada a partir de cada componente retido. Observações da amostra de treino são categorizadas em duas classes através das ferramentas k-vizinhos mais próximos e Análise Discriminante, seguida pela eliminação da variável com o menor índice de importância. Usa-se o subconjunto com a máxima acurácia para classificar as observações na amostra de teste. Aplicando ao Wisconsin Breast Cancer Database, o método proposto apresentou uma média de 97,77% de acurácia de classificação, retendo uma média de 5,8 variáveis.In the majority of countries, breast cancer among women is highly prevalent. If diagnosed in the early stages, there is a high probability of a cure. Several statistical-based approaches have been developed to assist in early breast cancer detection. This paper presents a method for selection of variables for the classification of cases into two classes, benign or malignant, based on cytopathological analysis of breast cell samples of patients. The variables are ranked according to a new index of importance of variables that combines the weighting importance of Principal Component Analysis and the explained variance based on each retained component. Observations from the test sample are categorized into two classes using the k-Nearest Neighbor algorithm and Discriminant Analysis, followed by elimination of the variable with the index of lowest importance. The subset with the highest accuracy is used to classify observations in the test sample. When applied to the Wisconsin Breast Cancer Database, the proposed method led to average of 97.77% in classification accuracy while retaining an average of 5.8 variables.application/pdfporCiência & saúde coletiva. Rio de Janeiro. Vol. 19, n. 4 (abr. 2014), p. 1295-1304.Análise multivariadaAnálise discriminanteNeoplasias da mamaSelection of variablesBreast cancer identificationK-nearest neighbor algorithm (KNN)Discriminant analysisMétodo de mineração de dados para identificação de câncer de mama baseado na seleção de variáveisA data mining method for breast cancer identification based on a selection of variables info:eu-repo/semantics/articleinfo:eu-repo/semantics/otherinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000929319.pdf000929319.pdfTexto completoapplication/pdf95377http://www.lume.ufrgs.br/bitstream/10183/101980/1/000929319.pdfa689c61fd42a4abc421f82da04f418daMD51TEXT000929319.pdf.txt000929319.pdf.txtExtracted Texttext/plain40938http://www.lume.ufrgs.br/bitstream/10183/101980/2/000929319.pdf.txt98a82e8d2a87a58724c81d4553ab1faeMD52THUMBNAIL000929319.pdf.jpg000929319.pdf.jpgGenerated Thumbnailimage/jpeg1489http://www.lume.ufrgs.br/bitstream/10183/101980/3/000929319.pdf.jpgdaae83aaf24f40951f1a21d81610668dMD5310183/1019802022-08-19 04:45:10.847093oai:www.lume.ufrgs.br:10183/101980Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2022-08-19T07:45:10Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis
dc.title.alternative.en.fl_str_mv	A data mining method for breast cancer identification based on a selection of variables
title	Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis
spellingShingle	Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis Holsbach, Nicole Análise multivariada Análise discriminante Neoplasias da mama Selection of variables Breast cancer identification K-nearest neighbor algorithm (KNN) Discriminant analysis
title_short	Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis
title_full	Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis
title_fullStr	Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis
title_full_unstemmed	Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis
title_sort	Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis
author	Holsbach, Nicole
author_facet	Holsbach, Nicole Fogliatto, Flavio Sanson Anzanello, Michel José
author_role	author
author2	Fogliatto, Flavio Sanson Anzanello, Michel José
author2_role	author author
dc.contributor.author.fl_str_mv	Holsbach, Nicole Fogliatto, Flavio Sanson Anzanello, Michel José
dc.subject.por.fl_str_mv	Análise multivariada Análise discriminante Neoplasias da mama
topic	Análise multivariada Análise discriminante Neoplasias da mama Selection of variables Breast cancer identification K-nearest neighbor algorithm (KNN) Discriminant analysis
dc.subject.eng.fl_str_mv	Selection of variables Breast cancer identification K-nearest neighbor algorithm (KNN) Discriminant analysis
description	Na maioria dos países, o câncer de mama entre as mulheres é predominante. Se diagnosticado precocemente, apresenta alta probabilidade de cura. Diversas abordagens baseadas em Estatística foram desenvolvidas para auxiliar na sua detecção precoce. Este artigo apresenta um método para a seleção de variáveis para classificação dos casos em duas classes de resultado, benigno ou maligno, baseado na análise citopatológica de amostras de célula da mama de pacientes. As variáveis são ordenadas de acordo com um novo índice de importância de variáveis que combina os pesos de importância da Análise de Componentes Principais e a variância explicada a partir de cada componente retido. Observações da amostra de treino são categorizadas em duas classes através das ferramentas k-vizinhos mais próximos e Análise Discriminante, seguida pela eliminação da variável com o menor índice de importância. Usa-se o subconjunto com a máxima acurácia para classificar as observações na amostra de teste. Aplicando ao Wisconsin Breast Cancer Database, o método proposto apresentou uma média de 97,77% de acurácia de classificação, retendo uma média de 5,8 variáveis.
publishDate	2014
dc.date.accessioned.fl_str_mv	2014-08-27T02:11:58Z
dc.date.issued.fl_str_mv	2014
dc.type.driver.fl_str_mv	info:eu-repo/semantics/article info:eu-repo/semantics/other
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
format	article
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/101980
dc.identifier.issn.pt_BR.fl_str_mv	1413-8123
dc.identifier.nrb.pt_BR.fl_str_mv	000929319
identifier_str_mv	1413-8123 000929319
url	http://hdl.handle.net/10183/101980
dc.language.iso.fl_str_mv	por
language	por
dc.relation.ispartof.pt_BR.fl_str_mv	Ciência & saúde coletiva. Rio de Janeiro. Vol. 19, n. 4 (abr. 2014), p. 1295-1304.
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Repositório Institucional da UFRGS
collection	Repositório Institucional da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/101980/1/000929319.pdf http://www.lume.ufrgs.br/bitstream/10183/101980/2/000929319.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/101980/3/000929319.pdf.jpg
bitstream.checksum.fl_str_mv	a689c61fd42a4abc421f82da04f418da 98a82e8d2a87a58724c81d4553ab1fae daae83aaf24f40951f1a21d81610668d
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_	1801224847394603008

Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis

Registros relacionados