Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Outros Autores: | , |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Ciência & Saúde Coletiva (Online) |
Texto Completo: | http://old.scielo.br/scielo.php?script=sci_arttext&pid=S1413-81232014000401295 |
Resumo: | Na maioria dos países, o câncer de mama entre as mulheres é predominante. Se diagnosticado precocemente, apresenta alta probabilidade de cura. Diversas abordagens baseadas em Estatística foram desenvolvidas para auxiliar na sua detecção precoce. Este artigo apresenta um método para a seleção de variáveis para classificação dos casos em duas classes de resultado, benigno ou maligno, baseado na análise citopatológica de amostras de célula da mama de pacientes. As variáveis são ordenadas de acordo com um novo índice de importância de variáveis que combina os pesos de importância da Análise de Componentes Principais e a variância explicada a partir de cada componente retido. Observações da amostra de treino são categorizadas em duas classes através das ferramentas k-vizinhos mais próximos e Análise Discriminante, seguida pela eliminação da variável com o menor índice de importância. Usa-se o subconjunto com a máxima acurácia para classificar as observações na amostra de teste. Aplicando ao Wisconsin Breast Cancer Database, o método proposto apresentou uma média de 97,77% de acurácia de classificação, retendo uma média de 5,8 variáveis. |
id |
ABRASCO-2_8a19ef5fb86e4595c6f5e6ed6fd6d60b |
---|---|
oai_identifier_str |
oai:scielo:S1413-81232014000401295 |
network_acronym_str |
ABRASCO-2 |
network_name_str |
Ciência & Saúde Coletiva (Online) |
repository_id_str |
|
spelling |
Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveisSeleção de variáveisIdentificação de câncer de mamak-vizinhos mais próximosAnálise DiscriminanteNa maioria dos países, o câncer de mama entre as mulheres é predominante. Se diagnosticado precocemente, apresenta alta probabilidade de cura. Diversas abordagens baseadas em Estatística foram desenvolvidas para auxiliar na sua detecção precoce. Este artigo apresenta um método para a seleção de variáveis para classificação dos casos em duas classes de resultado, benigno ou maligno, baseado na análise citopatológica de amostras de célula da mama de pacientes. As variáveis são ordenadas de acordo com um novo índice de importância de variáveis que combina os pesos de importância da Análise de Componentes Principais e a variância explicada a partir de cada componente retido. Observações da amostra de treino são categorizadas em duas classes através das ferramentas k-vizinhos mais próximos e Análise Discriminante, seguida pela eliminação da variável com o menor índice de importância. Usa-se o subconjunto com a máxima acurácia para classificar as observações na amostra de teste. Aplicando ao Wisconsin Breast Cancer Database, o método proposto apresentou uma média de 97,77% de acurácia de classificação, retendo uma média de 5,8 variáveis.ABRASCO - Associação Brasileira de Saúde Coletiva2014-04-01info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersiontext/htmlhttp://old.scielo.br/scielo.php?script=sci_arttext&pid=S1413-81232014000401295Ciência & Saúde Coletiva v.19 n.4 2014reponame:Ciência & Saúde Coletiva (Online)instname:Associação Brasileira de Saúde Coletiva (ABRASCO)instacron:ABRASCO10.1590/1413-81232014194.01722013info:eu-repo/semantics/openAccessHolsbach,NicoleFogliatto,Flávio SansonAnzanello,Michel Josepor2015-11-24T00:00:00Zoai:scielo:S1413-81232014000401295Revistahttp://www.cienciaesaudecoletiva.com.brhttps://old.scielo.br/oai/scielo-oai.php||cienciasaudecoletiva@fiocruz.br1678-45611413-8123opendoar:2015-11-24T00:00Ciência & Saúde Coletiva (Online) - Associação Brasileira de Saúde Coletiva (ABRASCO)false |
dc.title.none.fl_str_mv |
Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis |
title |
Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis |
spellingShingle |
Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis Holsbach,Nicole Seleção de variáveis Identificação de câncer de mama k-vizinhos mais próximos Análise Discriminante |
title_short |
Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis |
title_full |
Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis |
title_fullStr |
Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis |
title_full_unstemmed |
Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis |
title_sort |
Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis |
author |
Holsbach,Nicole |
author_facet |
Holsbach,Nicole Fogliatto,Flávio Sanson Anzanello,Michel Jose |
author_role |
author |
author2 |
Fogliatto,Flávio Sanson Anzanello,Michel Jose |
author2_role |
author author |
dc.contributor.author.fl_str_mv |
Holsbach,Nicole Fogliatto,Flávio Sanson Anzanello,Michel Jose |
dc.subject.por.fl_str_mv |
Seleção de variáveis Identificação de câncer de mama k-vizinhos mais próximos Análise Discriminante |
topic |
Seleção de variáveis Identificação de câncer de mama k-vizinhos mais próximos Análise Discriminante |
description |
Na maioria dos países, o câncer de mama entre as mulheres é predominante. Se diagnosticado precocemente, apresenta alta probabilidade de cura. Diversas abordagens baseadas em Estatística foram desenvolvidas para auxiliar na sua detecção precoce. Este artigo apresenta um método para a seleção de variáveis para classificação dos casos em duas classes de resultado, benigno ou maligno, baseado na análise citopatológica de amostras de célula da mama de pacientes. As variáveis são ordenadas de acordo com um novo índice de importância de variáveis que combina os pesos de importância da Análise de Componentes Principais e a variância explicada a partir de cada componente retido. Observações da amostra de treino são categorizadas em duas classes através das ferramentas k-vizinhos mais próximos e Análise Discriminante, seguida pela eliminação da variável com o menor índice de importância. Usa-se o subconjunto com a máxima acurácia para classificar as observações na amostra de teste. Aplicando ao Wisconsin Breast Cancer Database, o método proposto apresentou uma média de 97,77% de acurácia de classificação, retendo uma média de 5,8 variáveis. |
publishDate |
2014 |
dc.date.none.fl_str_mv |
2014-04-01 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://old.scielo.br/scielo.php?script=sci_arttext&pid=S1413-81232014000401295 |
url |
http://old.scielo.br/scielo.php?script=sci_arttext&pid=S1413-81232014000401295 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
10.1590/1413-81232014194.01722013 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
text/html |
dc.publisher.none.fl_str_mv |
ABRASCO - Associação Brasileira de Saúde Coletiva |
publisher.none.fl_str_mv |
ABRASCO - Associação Brasileira de Saúde Coletiva |
dc.source.none.fl_str_mv |
Ciência & Saúde Coletiva v.19 n.4 2014 reponame:Ciência & Saúde Coletiva (Online) instname:Associação Brasileira de Saúde Coletiva (ABRASCO) instacron:ABRASCO |
instname_str |
Associação Brasileira de Saúde Coletiva (ABRASCO) |
instacron_str |
ABRASCO |
institution |
ABRASCO |
reponame_str |
Ciência & Saúde Coletiva (Online) |
collection |
Ciência & Saúde Coletiva (Online) |
repository.name.fl_str_mv |
Ciência & Saúde Coletiva (Online) - Associação Brasileira de Saúde Coletiva (ABRASCO) |
repository.mail.fl_str_mv |
||cienciasaudecoletiva@fiocruz.br |
_version_ |
1754213035507974144 |