Classification of microcytic anaemias using machine learning methods
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10400.18/7961 |
Resumo: | Dissertação de mestrado em Biotecnologia apresentada ao Instituto Superior Técnico, Universidade de Lisboa, 2021 |
id |
RCAP_27423d5998b43d702270314f1fdf728a |
---|---|
oai_identifier_str |
oai:repositorio.insa.pt:10400.18/7961 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Classification of microcytic anaemias using machine learning methodsAnemiaAnemia MicrocíticaTalassémiaAnemia FerropénicaAlgoritmosÍndicesHemogramaAprendizagem AutomáticaDoenças GenéticasMachine LearningMicrocytic AneamiaIron Deficiency AnaemiaThalassemiaDissertação de mestrado em Biotecnologia apresentada ao Instituto Superior Técnico, Universidade de Lisboa, 2021Orientadores: Paula Faustino (INSA); Susana Vinga (IST)Dissertação defendida a 10-11-2021The work presented in this thesis was performed at INESC-ID, “Instituto de Engenharia de Sistemas e Computadores: Investigação e Desenvolvimento em Lisboa”, of Instituto superior Técnico (Lisbon, ´ Portugal) and at ”Grupo de I&D em Hemoglobinopatias, Metabolismo do Ferro e Patologias Associadas” of Human Genetics Department of National Institute of Health Doctor Ricardo Jorge (INSA) (Lisbon, Portugal), during the period February-October 2021.The prevalence of anaemia in the world population is 24.8%. Proper discrimination between microcytic anaemias is essential to provide the right treatment and genetic counselling.A s the most reliable methods to diagnose thalassemias and IDA (iron deficiency anaemia), some of the most common microcytic anaemias are expensive and time-consuming, many indexes have been developed through the years. These indexes, however, have not been revealed to be 100% accurate. In this thesis, haematological data from a sample of the Portuguese population constituted by 390 individuals and their diagnosis was used to train and test different machine learning algorithms. The objective was to develop a binary classifier, specifically adapted to the Portuguese population, to dis criminate β-thalassemia carriers from IDA patients. Beyond that, a multi-class classifier capable of dis tinguishing between β-thalassemia carriers, α-thalassemia carriers, IDA patients, and healthy subjects was also developed. In order not to compromise the main objective, to obtain a quick and accessible diagnosis, the classifiers developed were only based on information obtained through a complete blood count test, one of the most common laboratory tests in medicine. Although it was not possible to surpass the performance with the binary classifiers created of the most reliable index for the Portuguese population, RDWI (red cell distribution width index), which presented a median accuracy of 95.4%, it was possible to match it with the random forest algorithm. This algorithm showed an excellent performance in the binary and in the multi-class classification, where it achieved promising results, revelling a median accuracy of 93.0%.A prevalência de anemia na população ao mundial e de 24.8%. A discriminação adequada entre anemias microcíticas e fundamental para fornecer o tratamento adequado e providenciar aconselhamento genético. Uma vez que os métodos mais fidedignos para diagnosticar talassemias e anemia ferropénica (AF), ´ algumas das anemias microcíticas mais comuns, são caros e demorados, vários índices foram desenvolvidos ao longo dos anos. Contudo, esses índices revelaram não ser 100% fiáveis. Nesta tese foram utilizados dados hematológicos de uma amostra da população portuguesa constituída por 390 indivíduos e respetivo diagnostico para treinar e testar diferentes algoritmos de aprendizagem automática. O propósito foi desenvolver um classificador bin ´ ario, especificamente adaptado ´ a população portuguesa, a fim de discriminar entre portadores de β-talassemia e doentes com AF. Para alem disso, foi desenvolvido um classificador multi-classe capaz de distinguir entre portadores de β-talassemia, portadores de α-talassemia, doentes com AF e indivíduos saudáveis. De forma a não comprometer o objetivo principal, a obtenção dum diagnóstico rápido e acessível, os classificadores desenvolvidos foram baseados apenas em informações obtidas através de um hemograma, um dos exames laboratoriais mais comuns em medicina. Embora não tenha sido possível ultrapassar o desempenho com os classificadores binários criados do índice mais fiável para a população portuguesa, RDWI ( índice de distribuição de largura dos glóbulos vermelhos), que apresentou uma exatidão mediana de 95.4%, foi possível igualar esta exatidão com o algoritmo florestas aleatórias. Este algoritmo apresentou um ´ ótimo desempenho tanto na classificação binaria, como na classificação multi-classe, onde obteve resultados promissores revelando uma exatidão mediana de 93.0%.Vinga, SusanaFaustino, PaulaRepositório Científico do Instituto Nacional de SaúdeLeitão, Beatriz2022-02-22T16:20:56Z2021-11-102021-11-10T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.18/7961enginfo:eu-repo/semantics/embargoedAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-20T15:42:18Zoai:repositorio.insa.pt:10400.18/7961Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T18:42:35.184868Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Classification of microcytic anaemias using machine learning methods |
title |
Classification of microcytic anaemias using machine learning methods |
spellingShingle |
Classification of microcytic anaemias using machine learning methods Leitão, Beatriz Anemia Anemia Microcítica Talassémia Anemia Ferropénica Algoritmos Índices Hemograma Aprendizagem Automática Doenças Genéticas Machine Learning Microcytic Aneamia Iron Deficiency Anaemia Thalassemia |
title_short |
Classification of microcytic anaemias using machine learning methods |
title_full |
Classification of microcytic anaemias using machine learning methods |
title_fullStr |
Classification of microcytic anaemias using machine learning methods |
title_full_unstemmed |
Classification of microcytic anaemias using machine learning methods |
title_sort |
Classification of microcytic anaemias using machine learning methods |
author |
Leitão, Beatriz |
author_facet |
Leitão, Beatriz |
author_role |
author |
dc.contributor.none.fl_str_mv |
Vinga, Susana Faustino, Paula Repositório Científico do Instituto Nacional de Saúde |
dc.contributor.author.fl_str_mv |
Leitão, Beatriz |
dc.subject.por.fl_str_mv |
Anemia Anemia Microcítica Talassémia Anemia Ferropénica Algoritmos Índices Hemograma Aprendizagem Automática Doenças Genéticas Machine Learning Microcytic Aneamia Iron Deficiency Anaemia Thalassemia |
topic |
Anemia Anemia Microcítica Talassémia Anemia Ferropénica Algoritmos Índices Hemograma Aprendizagem Automática Doenças Genéticas Machine Learning Microcytic Aneamia Iron Deficiency Anaemia Thalassemia |
description |
Dissertação de mestrado em Biotecnologia apresentada ao Instituto Superior Técnico, Universidade de Lisboa, 2021 |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-11-10 2021-11-10T00:00:00Z 2022-02-22T16:20:56Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.18/7961 |
url |
http://hdl.handle.net/10400.18/7961 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/embargoedAccess |
eu_rights_str_mv |
embargoedAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799132172321292288 |