Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Outros Autores: | , |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/101980 |
Resumo: | Na maioria dos países, o câncer de mama entre as mulheres é predominante. Se diagnosticado precocemente, apresenta alta probabilidade de cura. Diversas abordagens baseadas em Estatística foram desenvolvidas para auxiliar na sua detecção precoce. Este artigo apresenta um método para a seleção de variáveis para classificação dos casos em duas classes de resultado, benigno ou maligno, baseado na análise citopatológica de amostras de célula da mama de pacientes. As variáveis são ordenadas de acordo com um novo índice de importância de variáveis que combina os pesos de importância da Análise de Componentes Principais e a variância explicada a partir de cada componente retido. Observações da amostra de treino são categorizadas em duas classes através das ferramentas k-vizinhos mais próximos e Análise Discriminante, seguida pela eliminação da variável com o menor índice de importância. Usa-se o subconjunto com a máxima acurácia para classificar as observações na amostra de teste. Aplicando ao Wisconsin Breast Cancer Database, o método proposto apresentou uma média de 97,77% de acurácia de classificação, retendo uma média de 5,8 variáveis. |
id |
UFRGS-2_6dca8238259b7fc3de8c27e35fadda70 |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/101980 |
network_acronym_str |
UFRGS-2 |
network_name_str |
Repositório Institucional da UFRGS |
repository_id_str |
|
spelling |
Holsbach, NicoleFogliatto, Flavio SansonAnzanello, Michel José2014-08-27T02:11:58Z20141413-8123http://hdl.handle.net/10183/101980000929319Na maioria dos países, o câncer de mama entre as mulheres é predominante. Se diagnosticado precocemente, apresenta alta probabilidade de cura. Diversas abordagens baseadas em Estatística foram desenvolvidas para auxiliar na sua detecção precoce. Este artigo apresenta um método para a seleção de variáveis para classificação dos casos em duas classes de resultado, benigno ou maligno, baseado na análise citopatológica de amostras de célula da mama de pacientes. As variáveis são ordenadas de acordo com um novo índice de importância de variáveis que combina os pesos de importância da Análise de Componentes Principais e a variância explicada a partir de cada componente retido. Observações da amostra de treino são categorizadas em duas classes através das ferramentas k-vizinhos mais próximos e Análise Discriminante, seguida pela eliminação da variável com o menor índice de importância. Usa-se o subconjunto com a máxima acurácia para classificar as observações na amostra de teste. Aplicando ao Wisconsin Breast Cancer Database, o método proposto apresentou uma média de 97,77% de acurácia de classificação, retendo uma média de 5,8 variáveis.In the majority of countries, breast cancer among women is highly prevalent. If diagnosed in the early stages, there is a high probability of a cure. Several statistical-based approaches have been developed to assist in early breast cancer detection. This paper presents a method for selection of variables for the classification of cases into two classes, benign or malignant, based on cytopathological analysis of breast cell samples of patients. The variables are ranked according to a new index of importance of variables that combines the weighting importance of Principal Component Analysis and the explained variance based on each retained component. Observations from the test sample are categorized into two classes using the k-Nearest Neighbor algorithm and Discriminant Analysis, followed by elimination of the variable with the index of lowest importance. The subset with the highest accuracy is used to classify observations in the test sample. When applied to the Wisconsin Breast Cancer Database, the proposed method led to average of 97.77% in classification accuracy while retaining an average of 5.8 variables.application/pdfporCiência & saúde coletiva. Rio de Janeiro. Vol. 19, n. 4 (abr. 2014), p. 1295-1304.Análise multivariadaAnálise discriminanteNeoplasias da mamaSelection of variablesBreast cancer identificationK-nearest neighbor algorithm (KNN)Discriminant analysisMétodo de mineração de dados para identificação de câncer de mama baseado na seleção de variáveisA data mining method for breast cancer identification based on a selection of variables info:eu-repo/semantics/articleinfo:eu-repo/semantics/otherinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000929319.pdf000929319.pdfTexto completoapplication/pdf95377http://www.lume.ufrgs.br/bitstream/10183/101980/1/000929319.pdfa689c61fd42a4abc421f82da04f418daMD51TEXT000929319.pdf.txt000929319.pdf.txtExtracted Texttext/plain40938http://www.lume.ufrgs.br/bitstream/10183/101980/2/000929319.pdf.txt98a82e8d2a87a58724c81d4553ab1faeMD52THUMBNAIL000929319.pdf.jpg000929319.pdf.jpgGenerated Thumbnailimage/jpeg1489http://www.lume.ufrgs.br/bitstream/10183/101980/3/000929319.pdf.jpgdaae83aaf24f40951f1a21d81610668dMD5310183/1019802022-08-19 04:45:10.847093oai:www.lume.ufrgs.br:10183/101980Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2022-08-19T07:45:10Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis |
dc.title.alternative.en.fl_str_mv |
A data mining method for breast cancer identification based on a selection of variables |
title |
Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis |
spellingShingle |
Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis Holsbach, Nicole Análise multivariada Análise discriminante Neoplasias da mama Selection of variables Breast cancer identification K-nearest neighbor algorithm (KNN) Discriminant analysis |
title_short |
Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis |
title_full |
Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis |
title_fullStr |
Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis |
title_full_unstemmed |
Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis |
title_sort |
Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis |
author |
Holsbach, Nicole |
author_facet |
Holsbach, Nicole Fogliatto, Flavio Sanson Anzanello, Michel José |
author_role |
author |
author2 |
Fogliatto, Flavio Sanson Anzanello, Michel José |
author2_role |
author author |
dc.contributor.author.fl_str_mv |
Holsbach, Nicole Fogliatto, Flavio Sanson Anzanello, Michel José |
dc.subject.por.fl_str_mv |
Análise multivariada Análise discriminante Neoplasias da mama |
topic |
Análise multivariada Análise discriminante Neoplasias da mama Selection of variables Breast cancer identification K-nearest neighbor algorithm (KNN) Discriminant analysis |
dc.subject.eng.fl_str_mv |
Selection of variables Breast cancer identification K-nearest neighbor algorithm (KNN) Discriminant analysis |
description |
Na maioria dos países, o câncer de mama entre as mulheres é predominante. Se diagnosticado precocemente, apresenta alta probabilidade de cura. Diversas abordagens baseadas em Estatística foram desenvolvidas para auxiliar na sua detecção precoce. Este artigo apresenta um método para a seleção de variáveis para classificação dos casos em duas classes de resultado, benigno ou maligno, baseado na análise citopatológica de amostras de célula da mama de pacientes. As variáveis são ordenadas de acordo com um novo índice de importância de variáveis que combina os pesos de importância da Análise de Componentes Principais e a variância explicada a partir de cada componente retido. Observações da amostra de treino são categorizadas em duas classes através das ferramentas k-vizinhos mais próximos e Análise Discriminante, seguida pela eliminação da variável com o menor índice de importância. Usa-se o subconjunto com a máxima acurácia para classificar as observações na amostra de teste. Aplicando ao Wisconsin Breast Cancer Database, o método proposto apresentou uma média de 97,77% de acurácia de classificação, retendo uma média de 5,8 variáveis. |
publishDate |
2014 |
dc.date.accessioned.fl_str_mv |
2014-08-27T02:11:58Z |
dc.date.issued.fl_str_mv |
2014 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/other |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/101980 |
dc.identifier.issn.pt_BR.fl_str_mv |
1413-8123 |
dc.identifier.nrb.pt_BR.fl_str_mv |
000929319 |
identifier_str_mv |
1413-8123 000929319 |
url |
http://hdl.handle.net/10183/101980 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.ispartof.pt_BR.fl_str_mv |
Ciência & saúde coletiva. Rio de Janeiro. Vol. 19, n. 4 (abr. 2014), p. 1295-1304. |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Repositório Institucional da UFRGS |
collection |
Repositório Institucional da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/101980/1/000929319.pdf http://www.lume.ufrgs.br/bitstream/10183/101980/2/000929319.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/101980/3/000929319.pdf.jpg |
bitstream.checksum.fl_str_mv |
a689c61fd42a4abc421f82da04f418da 98a82e8d2a87a58724c81d4553ab1fae daae83aaf24f40951f1a21d81610668d |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
|
_version_ |
1801224847394603008 |