Classification of microcytic anaemias using machine learning methods

Detalhes bibliográficos
Autor(a) principal: Leitão, Beatriz
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.18/7961
Resumo: Dissertação de mestrado em Biotecnologia apresentada ao Instituto Superior Técnico, Universidade de Lisboa, 2021
id RCAP_27423d5998b43d702270314f1fdf728a
oai_identifier_str oai:repositorio.insa.pt:10400.18/7961
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Classification of microcytic anaemias using machine learning methodsAnemiaAnemia MicrocíticaTalassémiaAnemia FerropénicaAlgoritmosÍndicesHemogramaAprendizagem AutomáticaDoenças GenéticasMachine LearningMicrocytic AneamiaIron Deficiency AnaemiaThalassemiaDissertação de mestrado em Biotecnologia apresentada ao Instituto Superior Técnico, Universidade de Lisboa, 2021Orientadores: Paula Faustino (INSA); Susana Vinga (IST)Dissertação defendida a 10-11-2021The work presented in this thesis was performed at INESC-ID, “Instituto de Engenharia de Sistemas e Computadores: Investigação e Desenvolvimento em Lisboa”, of Instituto superior Técnico (Lisbon, ´ Portugal) and at ”Grupo de I&D em Hemoglobinopatias, Metabolismo do Ferro e Patologias Associadas” of Human Genetics Department of National Institute of Health Doctor Ricardo Jorge (INSA) (Lisbon, Portugal), during the period February-October 2021.The prevalence of anaemia in the world population is 24.8%. Proper discrimination between microcytic anaemias is essential to provide the right treatment and genetic counselling.A s the most reliable methods to diagnose thalassemias and IDA (iron deficiency anaemia), some of the most common microcytic anaemias are expensive and time-consuming, many indexes have been developed through the years. These indexes, however, have not been revealed to be 100% accurate. In this thesis, haematological data from a sample of the Portuguese population constituted by 390 individuals and their diagnosis was used to train and test different machine learning algorithms. The objective was to develop a binary classifier, specifically adapted to the Portuguese population, to dis criminate β-thalassemia carriers from IDA patients. Beyond that, a multi-class classifier capable of dis tinguishing between β-thalassemia carriers, α-thalassemia carriers, IDA patients, and healthy subjects was also developed. In order not to compromise the main objective, to obtain a quick and accessible diagnosis, the classifiers developed were only based on information obtained through a complete blood count test, one of the most common laboratory tests in medicine. Although it was not possible to surpass the performance with the binary classifiers created of the most reliable index for the Portuguese population, RDWI (red cell distribution width index), which presented a median accuracy of 95.4%, it was possible to match it with the random forest algorithm. This algorithm showed an excellent performance in the binary and in the multi-class classification, where it achieved promising results, revelling a median accuracy of 93.0%.A prevalência de anemia na população ao mundial e de 24.8%. A discriminação adequada entre anemias microcíticas e fundamental para fornecer o tratamento adequado e providenciar aconselhamento genético. Uma vez que os métodos mais fidedignos para diagnosticar talassemias e anemia ferropénica (AF), ´ algumas das anemias microcíticas mais comuns, são caros e demorados, vários índices foram desenvolvidos ao longo dos anos. Contudo, esses índices revelaram não ser 100% fiáveis. Nesta tese foram utilizados dados hematológicos de uma amostra da população portuguesa constituída por 390 indivíduos e respetivo diagnostico para treinar e testar diferentes algoritmos de aprendizagem automática. O propósito foi desenvolver um classificador bin ´ ario, especificamente adaptado ´ a população portuguesa, a fim de discriminar entre portadores de β-talassemia e doentes com AF. Para alem disso, foi desenvolvido um classificador multi-classe capaz de distinguir entre portadores de β-talassemia, portadores de α-talassemia, doentes com AF e indivíduos saudáveis. De forma a não comprometer o objetivo principal, a obtenção dum diagnóstico rápido e acessível, os classificadores desenvolvidos foram baseados apenas em informações obtidas através de um hemograma, um dos exames laboratoriais mais comuns em medicina. Embora não tenha sido possível ultrapassar o desempenho com os classificadores binários criados do índice mais fiável para a população portuguesa, RDWI ( índice de distribuição de largura dos glóbulos vermelhos), que apresentou uma exatidão mediana de 95.4%, foi possível igualar esta exatidão com o algoritmo florestas aleatórias. Este algoritmo apresentou um ´ ótimo desempenho tanto na classificação binaria, como na classificação multi-classe, onde obteve resultados promissores revelando uma exatidão mediana de 93.0%.Vinga, SusanaFaustino, PaulaRepositório Científico do Instituto Nacional de SaúdeLeitão, Beatriz2022-02-22T16:20:56Z2021-11-102021-11-10T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.18/7961enginfo:eu-repo/semantics/embargoedAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-20T15:42:18Zoai:repositorio.insa.pt:10400.18/7961Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T18:42:35.184868Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Classification of microcytic anaemias using machine learning methods
title Classification of microcytic anaemias using machine learning methods
spellingShingle Classification of microcytic anaemias using machine learning methods
Leitão, Beatriz
Anemia
Anemia Microcítica
Talassémia
Anemia Ferropénica
Algoritmos
Índices
Hemograma
Aprendizagem Automática
Doenças Genéticas
Machine Learning
Microcytic Aneamia
Iron Deficiency Anaemia
Thalassemia
title_short Classification of microcytic anaemias using machine learning methods
title_full Classification of microcytic anaemias using machine learning methods
title_fullStr Classification of microcytic anaemias using machine learning methods
title_full_unstemmed Classification of microcytic anaemias using machine learning methods
title_sort Classification of microcytic anaemias using machine learning methods
author Leitão, Beatriz
author_facet Leitão, Beatriz
author_role author
dc.contributor.none.fl_str_mv Vinga, Susana
Faustino, Paula
Repositório Científico do Instituto Nacional de Saúde
dc.contributor.author.fl_str_mv Leitão, Beatriz
dc.subject.por.fl_str_mv Anemia
Anemia Microcítica
Talassémia
Anemia Ferropénica
Algoritmos
Índices
Hemograma
Aprendizagem Automática
Doenças Genéticas
Machine Learning
Microcytic Aneamia
Iron Deficiency Anaemia
Thalassemia
topic Anemia
Anemia Microcítica
Talassémia
Anemia Ferropénica
Algoritmos
Índices
Hemograma
Aprendizagem Automática
Doenças Genéticas
Machine Learning
Microcytic Aneamia
Iron Deficiency Anaemia
Thalassemia
description Dissertação de mestrado em Biotecnologia apresentada ao Instituto Superior Técnico, Universidade de Lisboa, 2021
publishDate 2021
dc.date.none.fl_str_mv 2021-11-10
2021-11-10T00:00:00Z
2022-02-22T16:20:56Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.18/7961
url http://hdl.handle.net/10400.18/7961
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/embargoedAccess
eu_rights_str_mv embargoedAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132172321292288