Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares

Detalhes bibliográficos
Autor(a) principal: Santos, Bruno Bruno Silva dos
Data de Publicação: 2022
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRN
Texto Completo: https://repositorio.ufrn.br/handle/123456789/46134
Resumo: O objetivo deste trabalho é mostrar um estudo embasado na ciência de dados para a elaboração de uma análise a respeito de doenças cardiovasculares (DCV). Além disso, identificar os fatores que podem vir a influenciar um indivíduo a contrair esse tipo de enfermidade. A partir dos dados de pacientes e da análise preditiva, identificar a probabilidade de resultados futuros de pessoas com DCV, afim de ajudar ao sistema de saúde a obter um melhor prognóstico em relação aos seus pacientes. Utilizando para isso, dados anteriores para efetuar um estudo, através de uma inteligência artificial, para determinar se existe a DCV no paciente. Em particular, o trabalho fornece uma análise exploratória de dados (AED) buscando encontrar correlações entre os dados estudados e a DCV, assim como o uso da inteligência artificial (IA) com cinco algoritmos de classificação de casos de doenças cardiovasculares. Os algoritmos preveem o risco de obter uma doença cardiovascular com base nas informações anteriores de uma base de dados coletados de pacientes. O conjunto de dados usado foi obtido do repositório Kaggle, encontrado a partir da plataforma IEEEDataPort, no qual, com base no estudo, verificou-se que a pressão arterial, o colesterol, idade e o IMC têm uma maior correlação entre o risco de se obter uma doença cardiovascular. Os resultados no conjunto de dados usando a técnica de aprendizado de máquina obteve-se um melhor resultado para o método Floresta Aleatória com uma acurácia de 80%, F1-score de 82% e 78% para a possibilidade de não ter ou ter uma doença cardiovascular, respectivamente, usando cross-validation com k-fold igual a 5.
id UFRN_e41a4421df8bc6b489cc48806f544304
oai_identifier_str oai:https://repositorio.ufrn.br:123456789/46134
network_acronym_str UFRN
network_name_str Repositório Institucional da UFRN
repository_id_str
spelling Santos, Bruno Bruno Silva doshttp://lattes.cnpq.br/6151311030175220https://orcid.org/0000-0003-2690-1563http://lattes.cnpq.br/7987212907837941Santos, Mailson Ribeirohttp://lattes.cnpq.br/7242148883405512Nunes, Yuri Thomas Pinheirohttps://orcid.org/0000-0003-0280-0346http://lattes.cnpq.br/4965053749389598Oliveira, Luiz Affonso Henderson Guedes De2022-02-21T18:00:01Z2022-02-21T18:00:01Z2022-01-11SANTOS, Bruno Silva dos. Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares. 2022. 55 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2022.https://repositorio.ufrn.br/handle/123456789/46134O objetivo deste trabalho é mostrar um estudo embasado na ciência de dados para a elaboração de uma análise a respeito de doenças cardiovasculares (DCV). Além disso, identificar os fatores que podem vir a influenciar um indivíduo a contrair esse tipo de enfermidade. A partir dos dados de pacientes e da análise preditiva, identificar a probabilidade de resultados futuros de pessoas com DCV, afim de ajudar ao sistema de saúde a obter um melhor prognóstico em relação aos seus pacientes. Utilizando para isso, dados anteriores para efetuar um estudo, através de uma inteligência artificial, para determinar se existe a DCV no paciente. Em particular, o trabalho fornece uma análise exploratória de dados (AED) buscando encontrar correlações entre os dados estudados e a DCV, assim como o uso da inteligência artificial (IA) com cinco algoritmos de classificação de casos de doenças cardiovasculares. Os algoritmos preveem o risco de obter uma doença cardiovascular com base nas informações anteriores de uma base de dados coletados de pacientes. O conjunto de dados usado foi obtido do repositório Kaggle, encontrado a partir da plataforma IEEEDataPort, no qual, com base no estudo, verificou-se que a pressão arterial, o colesterol, idade e o IMC têm uma maior correlação entre o risco de se obter uma doença cardiovascular. Os resultados no conjunto de dados usando a técnica de aprendizado de máquina obteve-se um melhor resultado para o método Floresta Aleatória com uma acurácia de 80%, F1-score de 82% e 78% para a possibilidade de não ter ou ter uma doença cardiovascular, respectivamente, usando cross-validation com k-fold igual a 5.The purpose of this project is to show a study based on data science for the elaboration of an analysis regarding cardiovascular diseases (CVD). In addition, to identify causes that may influence an individual to acquire this type of disease. Based on patient data and predictive analysis, to identify the probability of future results of people with CVD, in order to help the health system to obtain a better prognosis regarding their patients. Using for that, previous data to perform a study, through artificial intelligence, to determine whether there is CVD in the patient. In particular, the work provides an exploratory data analysis (EDA) seeking to find correlations between the data studied and CVD, as well as the use of artificial intelligence (AI) with five classification algorithms for predicting cases of cardiovascular disease. The algorithms predict the risk of acquiring a cardiovascular disease based on previous information from a database collected from patients. The dataset used was obtained from the Kaggle repository, found from the IEEEDataPort platform, in which, based on the study, blood pressure, cholesterol, age and BMI were found to have a higher correlation between the risk of obtaining a cardiovascular disease. The results on the dataset using the machine learning technique obtained a better result for the Random Florest method with an accuracy of 80%, F1-score of 82% and 78% for the possibility of not having or having a cardiovascular disease, respectively, using cross-validation with kfold equal to $5$.Universidade Federal do Rio Grande do NorteEngenharia de ComputaçãoUFRNBrasilEngenharia de Computação e AutomaçãoDoença cardiovascularCiência de dadosAnálise de dadosInteligência artificialFloresta aleatóriaCardiovascular diseaseData scienceData analysisArtificial intelligenceRandom forestUma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovascularesAn exploratory data analysis and the use of machine learning for cardiovascular disease classificationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNinfo:eu-repo/semantics/openAccessLICENSElicense.txtlicense.txttext/plain; charset=utf-81484https://repositorio.ufrn.br/bitstream/123456789/46134/3/license.txte9597aa2854d128fd968be5edc8a28d9MD53ORIGINALUmaAnaliseExploratoria_Bruno_2022.pdfUmaAnaliseExploratoria_Bruno_2022.pdfapplication/pdf1810605https://repositorio.ufrn.br/bitstream/123456789/46134/2/UmaAnaliseExploratoria_Bruno_2022.pdf1a76d2a61910e6bf329cca0818c46cbcMD52123456789/461342022-02-21 15:00:02.024oai:https://repositorio.ufrn.br:123456789/46134Tk9OLUVYQ0xVU0lWRSBESVNUUklCVVRJT04gTElDRU5TRQoKCkJ5IHNpZ25pbmcgYW5kIGRlbGl2ZXJpbmcgdGhpcyBsaWNlbnNlLCBNci4gKGF1dGhvciBvciBjb3B5cmlnaHQgaG9sZGVyKToKCgphKSBHcmFudHMgdGhlIFVuaXZlcnNpZGFkZSBGZWRlcmFsIFJpbyBHcmFuZGUgZG8gTm9ydGUgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgb2YKcmVwcm9kdWNlLCBjb252ZXJ0IChhcyBkZWZpbmVkIGJlbG93KSwgY29tbXVuaWNhdGUgYW5kIC8gb3IKZGlzdHJpYnV0ZSB0aGUgZGVsaXZlcmVkIGRvY3VtZW50IChpbmNsdWRpbmcgYWJzdHJhY3QgLyBhYnN0cmFjdCkgaW4KZGlnaXRhbCBvciBwcmludGVkIGZvcm1hdCBhbmQgaW4gYW55IG1lZGl1bS4KCmIpIERlY2xhcmVzIHRoYXQgdGhlIGRvY3VtZW50IHN1Ym1pdHRlZCBpcyBpdHMgb3JpZ2luYWwgd29yaywgYW5kIHRoYXQKeW91IGhhdmUgdGhlIHJpZ2h0IHRvIGdyYW50IHRoZSByaWdodHMgY29udGFpbmVkIGluIHRoaXMgbGljZW5zZS4gRGVjbGFyZXMKdGhhdCB0aGUgZGVsaXZlcnkgb2YgdGhlIGRvY3VtZW50IGRvZXMgbm90IGluZnJpbmdlLCBhcyBmYXIgYXMgaXQgaXMKdGhlIHJpZ2h0cyBvZiBhbnkgb3RoZXIgcGVyc29uIG9yIGVudGl0eS4KCmMpIElmIHRoZSBkb2N1bWVudCBkZWxpdmVyZWQgY29udGFpbnMgbWF0ZXJpYWwgd2hpY2ggZG9lcyBub3QKcmlnaHRzLCBkZWNsYXJlcyB0aGF0IGl0IGhhcyBvYnRhaW5lZCBhdXRob3JpemF0aW9uIGZyb20gdGhlIGhvbGRlciBvZiB0aGUKY29weXJpZ2h0IHRvIGdyYW50IHRoZSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gR3JhbmRlIGRvIE5vcnRlIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdCB0aGlzIG1hdGVyaWFsIHdob3NlIHJpZ2h0cyBhcmUgb2YKdGhpcmQgcGFydGllcyBpcyBjbGVhcmx5IGlkZW50aWZpZWQgYW5kIHJlY29nbml6ZWQgaW4gdGhlIHRleHQgb3IKY29udGVudCBvZiB0aGUgZG9jdW1lbnQgZGVsaXZlcmVkLgoKSWYgdGhlIGRvY3VtZW50IHN1Ym1pdHRlZCBpcyBiYXNlZCBvbiBmdW5kZWQgb3Igc3VwcG9ydGVkIHdvcmsKYnkgYW5vdGhlciBpbnN0aXR1dGlvbiBvdGhlciB0aGFuIHRoZSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gR3JhbmRlIGRvIE5vcnRlLCBkZWNsYXJlcyB0aGF0IGl0IGhhcyBmdWxmaWxsZWQgYW55IG9ibGlnYXRpb25zIHJlcXVpcmVkIGJ5IHRoZSByZXNwZWN0aXZlIGFncmVlbWVudCBvciBhZ3JlZW1lbnQuCgpUaGUgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZG8gUmlvIEdyYW5kZSBkbyBOb3J0ZSB3aWxsIGNsZWFybHkgaWRlbnRpZnkgaXRzIG5hbWUgKHMpIGFzIHRoZSBhdXRob3IgKHMpIG9yIGhvbGRlciAocykgb2YgdGhlIGRvY3VtZW50J3MgcmlnaHRzCmRlbGl2ZXJlZCwgYW5kIHdpbGwgbm90IG1ha2UgYW55IGNoYW5nZXMsIG90aGVyIHRoYW4gdGhvc2UgcGVybWl0dGVkIGJ5CnRoaXMgbGljZW5zZQo=Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2022-02-21T18:00:02Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.pt_BR.fl_str_mv Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares
dc.title.alternative.pt_BR.fl_str_mv An exploratory data analysis and the use of machine learning for cardiovascular disease classification
title Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares
spellingShingle Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares
Santos, Bruno Bruno Silva dos
Doença cardiovascular
Ciência de dados
Análise de dados
Inteligência artificial
Floresta aleatória
Cardiovascular disease
Data science
Data analysis
Artificial intelligence
Random forest
title_short Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares
title_full Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares
title_fullStr Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares
title_full_unstemmed Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares
title_sort Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares
author Santos, Bruno Bruno Silva dos
author_facet Santos, Bruno Bruno Silva dos
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/6151311030175220
dc.contributor.advisorID.pt_BR.fl_str_mv https://orcid.org/0000-0003-2690-1563
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/7987212907837941
dc.contributor.referees1.none.fl_str_mv Santos, Mailson Ribeiro
dc.contributor.referees1Lattes.pt_BR.fl_str_mv http://lattes.cnpq.br/7242148883405512
dc.contributor.referees2.none.fl_str_mv Nunes, Yuri Thomas Pinheiro
dc.contributor.referees2ID.pt_BR.fl_str_mv https://orcid.org/0000-0003-0280-0346
dc.contributor.referees2Lattes.pt_BR.fl_str_mv http://lattes.cnpq.br/4965053749389598
dc.contributor.author.fl_str_mv Santos, Bruno Bruno Silva dos
dc.contributor.advisor1.fl_str_mv Oliveira, Luiz Affonso Henderson Guedes De
contributor_str_mv Oliveira, Luiz Affonso Henderson Guedes De
dc.subject.por.fl_str_mv Doença cardiovascular
Ciência de dados
Análise de dados
Inteligência artificial
Floresta aleatória
Cardiovascular disease
Data science
Data analysis
Artificial intelligence
Random forest
topic Doença cardiovascular
Ciência de dados
Análise de dados
Inteligência artificial
Floresta aleatória
Cardiovascular disease
Data science
Data analysis
Artificial intelligence
Random forest
description O objetivo deste trabalho é mostrar um estudo embasado na ciência de dados para a elaboração de uma análise a respeito de doenças cardiovasculares (DCV). Além disso, identificar os fatores que podem vir a influenciar um indivíduo a contrair esse tipo de enfermidade. A partir dos dados de pacientes e da análise preditiva, identificar a probabilidade de resultados futuros de pessoas com DCV, afim de ajudar ao sistema de saúde a obter um melhor prognóstico em relação aos seus pacientes. Utilizando para isso, dados anteriores para efetuar um estudo, através de uma inteligência artificial, para determinar se existe a DCV no paciente. Em particular, o trabalho fornece uma análise exploratória de dados (AED) buscando encontrar correlações entre os dados estudados e a DCV, assim como o uso da inteligência artificial (IA) com cinco algoritmos de classificação de casos de doenças cardiovasculares. Os algoritmos preveem o risco de obter uma doença cardiovascular com base nas informações anteriores de uma base de dados coletados de pacientes. O conjunto de dados usado foi obtido do repositório Kaggle, encontrado a partir da plataforma IEEEDataPort, no qual, com base no estudo, verificou-se que a pressão arterial, o colesterol, idade e o IMC têm uma maior correlação entre o risco de se obter uma doença cardiovascular. Os resultados no conjunto de dados usando a técnica de aprendizado de máquina obteve-se um melhor resultado para o método Floresta Aleatória com uma acurácia de 80%, F1-score de 82% e 78% para a possibilidade de não ter ou ter uma doença cardiovascular, respectivamente, usando cross-validation com k-fold igual a 5.
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-02-21T18:00:01Z
dc.date.available.fl_str_mv 2022-02-21T18:00:01Z
dc.date.issued.fl_str_mv 2022-01-11
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SANTOS, Bruno Silva dos. Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares. 2022. 55 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2022.
dc.identifier.uri.fl_str_mv https://repositorio.ufrn.br/handle/123456789/46134
identifier_str_mv SANTOS, Bruno Silva dos. Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares. 2022. 55 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2022.
url https://repositorio.ufrn.br/handle/123456789/46134
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.publisher.program.fl_str_mv Engenharia de Computação
dc.publisher.initials.fl_str_mv UFRN
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Engenharia de Computação e Automação
publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRN
instname:Universidade Federal do Rio Grande do Norte (UFRN)
instacron:UFRN
instname_str Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str UFRN
institution UFRN
reponame_str Repositório Institucional da UFRN
collection Repositório Institucional da UFRN
bitstream.url.fl_str_mv https://repositorio.ufrn.br/bitstream/123456789/46134/3/license.txt
https://repositorio.ufrn.br/bitstream/123456789/46134/2/UmaAnaliseExploratoria_Bruno_2022.pdf
bitstream.checksum.fl_str_mv e9597aa2854d128fd968be5edc8a28d9
1a76d2a61910e6bf329cca0818c46cbc
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv
_version_ 1802117737023012864