Classificação da doença de Alzheimer usando algoritmos baseados em distância

Detalhes bibliográficos
Autor(a) principal: Rodrigues, Yuri Elias
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/156421
Resumo: A doen¸ca de Alzheimer ´e a mais comum das patologias neurodegenerativas afetando principalmente pessoas idosas e causando consider´avel impacto econˆomico em todos os pa´ıses. Atualmente n˜ao h´a cura para cessar seus efeitos na mem´oria fazendo do diagn´ostico precoce fundamental para eventuais interven¸c˜oes terapˆeuticas. Para tal, t´ecnicas de reconhecimento de padr˜oes podem ser utilizadas para diferenciar indiv´ıduos com o mal Alzheimer de indiv´ıduos saud´aveis. No entanto, aumentando o n´umero de diagn´osticos (classes) que definem est´agios intermedi ´arios da doen¸ca a capacidade de diferenciar classes de tais t´ecnicas ´e comprometida. Isto ocorre devido ao fato de que as medidas biol´ogicas, ou os biomarcadores, n˜ao s˜ao discriminantes o suficiente para lidar com classes al´em do caso extremo, de forma bin´aria, Alzheimer versus controle normal. Outro fator que dificulta o diagn´ostico ´e a distribui¸c˜ao de probabilidade das classes intermedi´arias serem altamente sobrepostas e com probabilidade a priori representando 60% dos dados. Neste trabalho vamos demonstrar a capacidade de melhorar a precis ˜ao do diagn´ostico utilizando classificadores e t´ecnicas de amostragem baseados em fun¸c˜oes de distˆancia. Abordagens bin´arias ou abordagens bin´arias adaptadas a problemas multiclasse s˜ao a regra na literatura de diferencia¸c˜ao das classes da doen¸ca de Alzheimer No presente momento existe apenas um ´unico artigo demonstrando a possibilidade de melhora nas medidas de classifica¸c˜ao com um tratamento de reamostragem das probabilidades a priori das classes de Alzheimer. Diferentemente do artigo citado que trabalha com classifica¸c˜ao bin´aria, aqui vamos usar uma abordagem de classifica¸c˜ao todos-contra-todos na avalia¸c˜ao de um problema multiclasse da doen¸ca de Alzheimer. Demonstramos que a taxa de classifica¸c˜ao do nosso classificador utilizando classes balanceadas e uma fun¸c˜ao de distˆancia apropriada ´e superior a classificadores populares. Este trabalho apresenta tamb´em duas novas estrat´egias de ajuste do desequil´ıbrio tendo como medida de similaridade a distˆancia entre os padr˜oes. A de subamostragem, denominada Nearmiss 4, que obteve maior redu¸c˜ao de sobreposi¸c˜ao entre as classes nas compara¸c˜oes entre algoritmos de amostragem, e outra de sobreamostragem, denominada SMOTE-borderline 3, uma vers˜ao multiclasse para a fam´ılia de algoritmos SMOTE que se destaca por ser naturalmente multiclasse ao contr´ario das abordagens bin´arias adaptadas para multiclasse tratadas neste texto. Finalmente, s˜ao comparadas t´ecnicas de sele¸c˜ao de caracter´ısticas para avaliar o poder discriminativo entre biomarcadores do mal de Alzheimer visando encontrar o subconjunto de biomarcadores que fornece a melhor taxa de classifica¸c˜ao. Usando tal abordagem foi poss´ıvel encontrar o biomarcador com maior capacidade discriminativa em um dado conjunto de biomarcadores.
id URGS_a9753a9fa39719b356a03e376ca506f2
oai_identifier_str oai:www.lume.ufrgs.br:10183/156421
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Rodrigues, Yuri EliasManica, Carolina CardosoManica, Evandro2017-03-29T02:25:25Z2016http://hdl.handle.net/10183/156421001015852A doen¸ca de Alzheimer ´e a mais comum das patologias neurodegenerativas afetando principalmente pessoas idosas e causando consider´avel impacto econˆomico em todos os pa´ıses. Atualmente n˜ao h´a cura para cessar seus efeitos na mem´oria fazendo do diagn´ostico precoce fundamental para eventuais interven¸c˜oes terapˆeuticas. Para tal, t´ecnicas de reconhecimento de padr˜oes podem ser utilizadas para diferenciar indiv´ıduos com o mal Alzheimer de indiv´ıduos saud´aveis. No entanto, aumentando o n´umero de diagn´osticos (classes) que definem est´agios intermedi ´arios da doen¸ca a capacidade de diferenciar classes de tais t´ecnicas ´e comprometida. Isto ocorre devido ao fato de que as medidas biol´ogicas, ou os biomarcadores, n˜ao s˜ao discriminantes o suficiente para lidar com classes al´em do caso extremo, de forma bin´aria, Alzheimer versus controle normal. Outro fator que dificulta o diagn´ostico ´e a distribui¸c˜ao de probabilidade das classes intermedi´arias serem altamente sobrepostas e com probabilidade a priori representando 60% dos dados. Neste trabalho vamos demonstrar a capacidade de melhorar a precis ˜ao do diagn´ostico utilizando classificadores e t´ecnicas de amostragem baseados em fun¸c˜oes de distˆancia. Abordagens bin´arias ou abordagens bin´arias adaptadas a problemas multiclasse s˜ao a regra na literatura de diferencia¸c˜ao das classes da doen¸ca de Alzheimer No presente momento existe apenas um ´unico artigo demonstrando a possibilidade de melhora nas medidas de classifica¸c˜ao com um tratamento de reamostragem das probabilidades a priori das classes de Alzheimer. Diferentemente do artigo citado que trabalha com classifica¸c˜ao bin´aria, aqui vamos usar uma abordagem de classifica¸c˜ao todos-contra-todos na avalia¸c˜ao de um problema multiclasse da doen¸ca de Alzheimer. Demonstramos que a taxa de classifica¸c˜ao do nosso classificador utilizando classes balanceadas e uma fun¸c˜ao de distˆancia apropriada ´e superior a classificadores populares. Este trabalho apresenta tamb´em duas novas estrat´egias de ajuste do desequil´ıbrio tendo como medida de similaridade a distˆancia entre os padr˜oes. A de subamostragem, denominada Nearmiss 4, que obteve maior redu¸c˜ao de sobreposi¸c˜ao entre as classes nas compara¸c˜oes entre algoritmos de amostragem, e outra de sobreamostragem, denominada SMOTE-borderline 3, uma vers˜ao multiclasse para a fam´ılia de algoritmos SMOTE que se destaca por ser naturalmente multiclasse ao contr´ario das abordagens bin´arias adaptadas para multiclasse tratadas neste texto. Finalmente, s˜ao comparadas t´ecnicas de sele¸c˜ao de caracter´ısticas para avaliar o poder discriminativo entre biomarcadores do mal de Alzheimer visando encontrar o subconjunto de biomarcadores que fornece a melhor taxa de classifica¸c˜ao. Usando tal abordagem foi poss´ıvel encontrar o biomarcador com maior capacidade discriminativa em um dado conjunto de biomarcadores.Alzheimer’s disease is the most common neurodegenerative disorder affecting mainly elderly people and causing considerable economic impact in all countries. Currently, there is no cure to cease its effects in memory making early diagnosis fundamental for any therapeutic interventions. To this end, pattern recognition techniques can be used to differentiate individuals with Alzheimer’s from healthy individuals. However, increasing the number of diagnoses (classes) which define disease’s intermediate stages (e.g. mild cognitive impairment) the classes differentiation for such techniques is compromised. This is due to the fact that biological measures, or biomarkers, are not discriminant enough to deal with classes beyond the binary extreme case, Alzheimer’s versus normal control. Another factor that makes diagnosis difficult is the probability distribution of the intermediate classes being highly overlapping and with a priori probability representing 60 % of the data. In this work, we will demonstrate the ability to improve diagnostic accuracy using classifiers and sampling techniques based on distance functions. Binary approaches or binary approaches adapted to multiclass problems are ubiquitous in the literature of differentiating the classes of Alzheimer’s disease At present, there is only one article demonstrating the possibility of improvement in the classification measures using a sampling treatment to change a priori probabilities of the Alzheimer’s classes. Differently from the cited article working with binary classification, here we will use an all-versus-all classification approach to evaluating an Alzheimer’s disease multiclass problem. Also, is shown that classification rate of our classifier using balanced classes and an appropriate distance function is able to overcome popular classifiers choices. This work also presents two new strategies of imbalance adjustment, taking as a measure of similarity the distance between the patterns. The undersampling, called Nearmiss 4, obtained the greatest reduction in class overlapping comparing the sampling algorithms discussed, and another contribution is an oversampling, called SMOTE-borderline 3, a multiclass version for the family of SMOTE algorithms that stands out for being naturally multiclass unlike the binary approaches adapted for multiclass treated in this text. Finally, feature selection techniques are compared to evaluate the discriminative power between Alzheimer’s disease biomarkers in order to find the subset of biomarkers which provides the best classification rate. Using this approach it was possible to find the biomarker with the highest discriminative capacity in a given set of biomarkers.application/pdfengAlgoritmosDoença de AlzheimerReconhecimento de padrõesEstatísticaClassificação da doença de Alzheimer usando algoritmos baseados em distânciaAlzheimer's disease classification using distancebased algorithms info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de Matemática e EstatísticaPrograma de Pós-Graduação em Matemática AplicadaPorto Alegre, BR-RS2016mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL001015852.pdf001015852.pdfTexto completo (inglês)application/pdf12805170http://www.lume.ufrgs.br/bitstream/10183/156421/1/001015852.pdfd4be87b5b50cc25351f3ca7d4ecffc8dMD51TEXT001015852.pdf.txt001015852.pdf.txtExtracted Texttext/plain197119http://www.lume.ufrgs.br/bitstream/10183/156421/2/001015852.pdf.txtcea702dd70a6bd3de97129c781f1f89aMD52THUMBNAIL001015852.pdf.jpg001015852.pdf.jpgGenerated Thumbnailimage/jpeg1091http://www.lume.ufrgs.br/bitstream/10183/156421/3/001015852.pdf.jpg2eb71ec7b9e2bb083caf5f08a221deffMD5310183/1564212018-10-25 09:11:09.38oai:www.lume.ufrgs.br:10183/156421Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532018-10-25T12:11:09Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Classificação da doença de Alzheimer usando algoritmos baseados em distância
dc.title.alternative.en.fl_str_mv Alzheimer's disease classification using distancebased algorithms
title Classificação da doença de Alzheimer usando algoritmos baseados em distância
spellingShingle Classificação da doença de Alzheimer usando algoritmos baseados em distância
Rodrigues, Yuri Elias
Algoritmos
Doença de Alzheimer
Reconhecimento de padrões
Estatística
title_short Classificação da doença de Alzheimer usando algoritmos baseados em distância
title_full Classificação da doença de Alzheimer usando algoritmos baseados em distância
title_fullStr Classificação da doença de Alzheimer usando algoritmos baseados em distância
title_full_unstemmed Classificação da doença de Alzheimer usando algoritmos baseados em distância
title_sort Classificação da doença de Alzheimer usando algoritmos baseados em distância
author Rodrigues, Yuri Elias
author_facet Rodrigues, Yuri Elias
author_role author
dc.contributor.author.fl_str_mv Rodrigues, Yuri Elias
dc.contributor.advisor1.fl_str_mv Manica, Carolina Cardoso
dc.contributor.advisor-co1.fl_str_mv Manica, Evandro
contributor_str_mv Manica, Carolina Cardoso
Manica, Evandro
dc.subject.por.fl_str_mv Algoritmos
Doença de Alzheimer
Reconhecimento de padrões
Estatística
topic Algoritmos
Doença de Alzheimer
Reconhecimento de padrões
Estatística
description A doen¸ca de Alzheimer ´e a mais comum das patologias neurodegenerativas afetando principalmente pessoas idosas e causando consider´avel impacto econˆomico em todos os pa´ıses. Atualmente n˜ao h´a cura para cessar seus efeitos na mem´oria fazendo do diagn´ostico precoce fundamental para eventuais interven¸c˜oes terapˆeuticas. Para tal, t´ecnicas de reconhecimento de padr˜oes podem ser utilizadas para diferenciar indiv´ıduos com o mal Alzheimer de indiv´ıduos saud´aveis. No entanto, aumentando o n´umero de diagn´osticos (classes) que definem est´agios intermedi ´arios da doen¸ca a capacidade de diferenciar classes de tais t´ecnicas ´e comprometida. Isto ocorre devido ao fato de que as medidas biol´ogicas, ou os biomarcadores, n˜ao s˜ao discriminantes o suficiente para lidar com classes al´em do caso extremo, de forma bin´aria, Alzheimer versus controle normal. Outro fator que dificulta o diagn´ostico ´e a distribui¸c˜ao de probabilidade das classes intermedi´arias serem altamente sobrepostas e com probabilidade a priori representando 60% dos dados. Neste trabalho vamos demonstrar a capacidade de melhorar a precis ˜ao do diagn´ostico utilizando classificadores e t´ecnicas de amostragem baseados em fun¸c˜oes de distˆancia. Abordagens bin´arias ou abordagens bin´arias adaptadas a problemas multiclasse s˜ao a regra na literatura de diferencia¸c˜ao das classes da doen¸ca de Alzheimer No presente momento existe apenas um ´unico artigo demonstrando a possibilidade de melhora nas medidas de classifica¸c˜ao com um tratamento de reamostragem das probabilidades a priori das classes de Alzheimer. Diferentemente do artigo citado que trabalha com classifica¸c˜ao bin´aria, aqui vamos usar uma abordagem de classifica¸c˜ao todos-contra-todos na avalia¸c˜ao de um problema multiclasse da doen¸ca de Alzheimer. Demonstramos que a taxa de classifica¸c˜ao do nosso classificador utilizando classes balanceadas e uma fun¸c˜ao de distˆancia apropriada ´e superior a classificadores populares. Este trabalho apresenta tamb´em duas novas estrat´egias de ajuste do desequil´ıbrio tendo como medida de similaridade a distˆancia entre os padr˜oes. A de subamostragem, denominada Nearmiss 4, que obteve maior redu¸c˜ao de sobreposi¸c˜ao entre as classes nas compara¸c˜oes entre algoritmos de amostragem, e outra de sobreamostragem, denominada SMOTE-borderline 3, uma vers˜ao multiclasse para a fam´ılia de algoritmos SMOTE que se destaca por ser naturalmente multiclasse ao contr´ario das abordagens bin´arias adaptadas para multiclasse tratadas neste texto. Finalmente, s˜ao comparadas t´ecnicas de sele¸c˜ao de caracter´ısticas para avaliar o poder discriminativo entre biomarcadores do mal de Alzheimer visando encontrar o subconjunto de biomarcadores que fornece a melhor taxa de classifica¸c˜ao. Usando tal abordagem foi poss´ıvel encontrar o biomarcador com maior capacidade discriminativa em um dado conjunto de biomarcadores.
publishDate 2016
dc.date.issued.fl_str_mv 2016
dc.date.accessioned.fl_str_mv 2017-03-29T02:25:25Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/156421
dc.identifier.nrb.pt_BR.fl_str_mv 001015852
url http://hdl.handle.net/10183/156421
identifier_str_mv 001015852
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/156421/1/001015852.pdf
http://www.lume.ufrgs.br/bitstream/10183/156421/2/001015852.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/156421/3/001015852.pdf.jpg
bitstream.checksum.fl_str_mv d4be87b5b50cc25351f3ca7d4ecffc8d
cea702dd70a6bd3de97129c781f1f89a
2eb71ec7b9e2bb083caf5f08a221deff
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085397339832320