Modelo de data mining para detecção de tumores em exames de rastreio

Detalhes bibliográficos
Autor(a) principal: Santos, Vitor Nuno Patrocínio dos
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.21/3243
Resumo: Dissertação para obtenção do grau de Mestre em Engenharia Informática
id RCAP_474888c4e588e35521c705ed775aafe2
oai_identifier_str oai:repositorio.ipl.pt:10400.21/3243
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Modelo de data mining para detecção de tumores em exames de rastreioData miningCancro da mamaBreast cancerSelecção de atributosFeature selectionBalanceamento de dadosPrincipal componente analysisClassificaçaoDissertação para obtenção do grau de Mestre em Engenharia InformáticaO cancro da mama é uma das formas de cancro mais comum nas mulheres em todo o mundo. É actualmente o cancro, com excepção do cancro da pele, de maior incidência nas mulheres. A taxa de mortalidade que lhe está associada pode ser reduzida se a detecção ocorrer num estágio precoce da doença, normalmente, através de exames de rastreio designados por mamografias. Existem algumas ferramentas que digitalizam esses exames e extraem algumas características que depois de tratadas, permitem ajudar os especialistas a classificar os pacientes como doentes de cancro ou não. O objectivo deste trabalho é partir dessas características, construir e descrever um modelo de Data Mining para detecção do cancro da mama. É expectável que o modelo seja capaz de classificar correctamente todos os pacientes com cancro e, tenha um número reduzido de falsos positivos para evitar a realização de exames de diagnóstico invasivos em pacientes saudáveis. Os dados provenientes de exames médicos contêm diversos desafios, dada a dimensão e características dos dados, pelo que se torna necessário adoptar diversas técnicas de redução do conjunto e posteriormente avaliar o seu impacto nos resultados. São usadas diversas técnicas de selecção de atributos e balanceamento dos dados. São ainda comparados diversos algoritmos de aprendizagem, provenientes de diferentes famílias. É analisado e avaliado, o seu desempenho, face às diversas técnicas usadas na redução da dimensão dos dados. São usados meta-algoritmos como o ensemble, criado a partir da combinação de vários algoritmos base, tendo como objectivo a optimização da classificação. Os resultados obtidos por combinação destas técnicas são então comparados e avaliados. Verifica-se que alguns algoritmos cumprem os objectivos propostos Também se mostra que o uso de PCA incrementa substancialmente a prestação do Naive Bayes ao contrário do Random Forest onde o desempenho é significativamente penalizado. O balanceamento também tem impacto na classificação embora menos significativo. Um estudo de parametrização dos algoritmos analisados será um trabalho a desenvolver no futuro.Abstract: Breast cancer is one of the most common cancer in women worldwide. Nowadays, breast cancer is a type of cancer with higher incidence in women, excluding skin cancer. The mortality rate can be reduced if detection occurs at an earlier stage of disease, generally by means of screening tests known as mammograms. There are some tools in the market that digitize these exams, extract the features of the images and make that available to experts after treatment, helping them to classify the patients as cancer patients or not. The aim of this work is to construct and describe a data mining model for the detection of breast cancer, based on these features. It is expected that the model will be able to correctly classify all patients with cancer and reduce the number of false positives, avoiding invasive diagnostic tests in healthy patients. Data from medical exams contain many challenges, given the size and characteristics of the data, which makes it necessary to adopt several techniques to reduce the data set and then evaluate their impact on the results. Several techniques are used for feature selection and balancing the data. There is also a comparison of different learning algorithms from different families. Is analyzed and evaluated its performance considering the various techniques used to reduce the size of data. Ensembles are used to combine several basic algorithms, with the aim to optimize the classification process. The results obtained by combining these techniques are then compared and evaluated. It turns out that some algorithms meet their objectives. It is also shown that the use of PCA increases substantially the performance of Naive Bayes, unlike Random Forest where the performance is greatly penalized. The balancing also has impact on the classification, although that impact is less significant A study of parametrization of the studied algorithms shall be made in a future work.Instituto Superior de Engenharia de LisboaRCIPLSantos, Vitor Nuno Patrocínio dos2014-02-25T16:01:41Z2013-092013-09-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.21/3243TID:201226049porSANTOS, Vitor Nuno Patrocínio dos Santos - Modelo da data mining para detecção de tumores em exames de rastreio. Lisboa: Instituto Superior de Engenharia de Lisboa, 2013. Dissertação de mestrado.info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-08-03T09:43:37Zoai:repositorio.ipl.pt:10400.21/3243Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:12:52.831382Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Modelo de data mining para detecção de tumores em exames de rastreio
title Modelo de data mining para detecção de tumores em exames de rastreio
spellingShingle Modelo de data mining para detecção de tumores em exames de rastreio
Santos, Vitor Nuno Patrocínio dos
Data mining
Cancro da mama
Breast cancer
Selecção de atributos
Feature selection
Balanceamento de dados
Principal componente analysis
Classificaçao
title_short Modelo de data mining para detecção de tumores em exames de rastreio
title_full Modelo de data mining para detecção de tumores em exames de rastreio
title_fullStr Modelo de data mining para detecção de tumores em exames de rastreio
title_full_unstemmed Modelo de data mining para detecção de tumores em exames de rastreio
title_sort Modelo de data mining para detecção de tumores em exames de rastreio
author Santos, Vitor Nuno Patrocínio dos
author_facet Santos, Vitor Nuno Patrocínio dos
author_role author
dc.contributor.none.fl_str_mv RCIPL
dc.contributor.author.fl_str_mv Santos, Vitor Nuno Patrocínio dos
dc.subject.por.fl_str_mv Data mining
Cancro da mama
Breast cancer
Selecção de atributos
Feature selection
Balanceamento de dados
Principal componente analysis
Classificaçao
topic Data mining
Cancro da mama
Breast cancer
Selecção de atributos
Feature selection
Balanceamento de dados
Principal componente analysis
Classificaçao
description Dissertação para obtenção do grau de Mestre em Engenharia Informática
publishDate 2013
dc.date.none.fl_str_mv 2013-09
2013-09-01T00:00:00Z
2014-02-25T16:01:41Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.21/3243
TID:201226049
url http://hdl.handle.net/10400.21/3243
identifier_str_mv TID:201226049
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv SANTOS, Vitor Nuno Patrocínio dos Santos - Modelo da data mining para detecção de tumores em exames de rastreio. Lisboa: Instituto Superior de Engenharia de Lisboa, 2013. Dissertação de mestrado.
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Instituto Superior de Engenharia de Lisboa
publisher.none.fl_str_mv Instituto Superior de Engenharia de Lisboa
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133384549597184