Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRN |
Texto Completo: | https://repositorio.ufrn.br/handle/123456789/46134 |
Resumo: | O objetivo deste trabalho é mostrar um estudo embasado na ciência de dados para a elaboração de uma análise a respeito de doenças cardiovasculares (DCV). Além disso, identificar os fatores que podem vir a influenciar um indivíduo a contrair esse tipo de enfermidade. A partir dos dados de pacientes e da análise preditiva, identificar a probabilidade de resultados futuros de pessoas com DCV, afim de ajudar ao sistema de saúde a obter um melhor prognóstico em relação aos seus pacientes. Utilizando para isso, dados anteriores para efetuar um estudo, através de uma inteligência artificial, para determinar se existe a DCV no paciente. Em particular, o trabalho fornece uma análise exploratória de dados (AED) buscando encontrar correlações entre os dados estudados e a DCV, assim como o uso da inteligência artificial (IA) com cinco algoritmos de classificação de casos de doenças cardiovasculares. Os algoritmos preveem o risco de obter uma doença cardiovascular com base nas informações anteriores de uma base de dados coletados de pacientes. O conjunto de dados usado foi obtido do repositório Kaggle, encontrado a partir da plataforma IEEEDataPort, no qual, com base no estudo, verificou-se que a pressão arterial, o colesterol, idade e o IMC têm uma maior correlação entre o risco de se obter uma doença cardiovascular. Os resultados no conjunto de dados usando a técnica de aprendizado de máquina obteve-se um melhor resultado para o método Floresta Aleatória com uma acurácia de 80%, F1-score de 82% e 78% para a possibilidade de não ter ou ter uma doença cardiovascular, respectivamente, usando cross-validation com k-fold igual a 5. |
id |
UFRN_e41a4421df8bc6b489cc48806f544304 |
---|---|
oai_identifier_str |
oai:https://repositorio.ufrn.br:123456789/46134 |
network_acronym_str |
UFRN |
network_name_str |
Repositório Institucional da UFRN |
repository_id_str |
|
spelling |
Santos, Bruno Bruno Silva doshttp://lattes.cnpq.br/6151311030175220https://orcid.org/0000-0003-2690-1563http://lattes.cnpq.br/7987212907837941Santos, Mailson Ribeirohttp://lattes.cnpq.br/7242148883405512Nunes, Yuri Thomas Pinheirohttps://orcid.org/0000-0003-0280-0346http://lattes.cnpq.br/4965053749389598Oliveira, Luiz Affonso Henderson Guedes De2022-02-21T18:00:01Z2022-02-21T18:00:01Z2022-01-11SANTOS, Bruno Silva dos. Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares. 2022. 55 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2022.https://repositorio.ufrn.br/handle/123456789/46134O objetivo deste trabalho é mostrar um estudo embasado na ciência de dados para a elaboração de uma análise a respeito de doenças cardiovasculares (DCV). Além disso, identificar os fatores que podem vir a influenciar um indivíduo a contrair esse tipo de enfermidade. A partir dos dados de pacientes e da análise preditiva, identificar a probabilidade de resultados futuros de pessoas com DCV, afim de ajudar ao sistema de saúde a obter um melhor prognóstico em relação aos seus pacientes. Utilizando para isso, dados anteriores para efetuar um estudo, através de uma inteligência artificial, para determinar se existe a DCV no paciente. Em particular, o trabalho fornece uma análise exploratória de dados (AED) buscando encontrar correlações entre os dados estudados e a DCV, assim como o uso da inteligência artificial (IA) com cinco algoritmos de classificação de casos de doenças cardiovasculares. Os algoritmos preveem o risco de obter uma doença cardiovascular com base nas informações anteriores de uma base de dados coletados de pacientes. O conjunto de dados usado foi obtido do repositório Kaggle, encontrado a partir da plataforma IEEEDataPort, no qual, com base no estudo, verificou-se que a pressão arterial, o colesterol, idade e o IMC têm uma maior correlação entre o risco de se obter uma doença cardiovascular. Os resultados no conjunto de dados usando a técnica de aprendizado de máquina obteve-se um melhor resultado para o método Floresta Aleatória com uma acurácia de 80%, F1-score de 82% e 78% para a possibilidade de não ter ou ter uma doença cardiovascular, respectivamente, usando cross-validation com k-fold igual a 5.The purpose of this project is to show a study based on data science for the elaboration of an analysis regarding cardiovascular diseases (CVD). In addition, to identify causes that may influence an individual to acquire this type of disease. Based on patient data and predictive analysis, to identify the probability of future results of people with CVD, in order to help the health system to obtain a better prognosis regarding their patients. Using for that, previous data to perform a study, through artificial intelligence, to determine whether there is CVD in the patient. In particular, the work provides an exploratory data analysis (EDA) seeking to find correlations between the data studied and CVD, as well as the use of artificial intelligence (AI) with five classification algorithms for predicting cases of cardiovascular disease. The algorithms predict the risk of acquiring a cardiovascular disease based on previous information from a database collected from patients. The dataset used was obtained from the Kaggle repository, found from the IEEEDataPort platform, in which, based on the study, blood pressure, cholesterol, age and BMI were found to have a higher correlation between the risk of obtaining a cardiovascular disease. The results on the dataset using the machine learning technique obtained a better result for the Random Florest method with an accuracy of 80%, F1-score of 82% and 78% for the possibility of not having or having a cardiovascular disease, respectively, using cross-validation with kfold equal to $5$.Universidade Federal do Rio Grande do NorteEngenharia de ComputaçãoUFRNBrasilEngenharia de Computação e AutomaçãoDoença cardiovascularCiência de dadosAnálise de dadosInteligência artificialFloresta aleatóriaCardiovascular diseaseData scienceData analysisArtificial intelligenceRandom forestUma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovascularesAn exploratory data analysis and the use of machine learning for cardiovascular disease classificationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNinfo:eu-repo/semantics/openAccessLICENSElicense.txtlicense.txttext/plain; charset=utf-81484https://repositorio.ufrn.br/bitstream/123456789/46134/3/license.txte9597aa2854d128fd968be5edc8a28d9MD53ORIGINALUmaAnaliseExploratoria_Bruno_2022.pdfUmaAnaliseExploratoria_Bruno_2022.pdfapplication/pdf1810605https://repositorio.ufrn.br/bitstream/123456789/46134/2/UmaAnaliseExploratoria_Bruno_2022.pdf1a76d2a61910e6bf329cca0818c46cbcMD52123456789/461342022-02-21 15:00:02.024oai:https://repositorio.ufrn.br:123456789/46134Tk9OLUVYQ0xVU0lWRSBESVNUUklCVVRJT04gTElDRU5TRQoKCkJ5IHNpZ25pbmcgYW5kIGRlbGl2ZXJpbmcgdGhpcyBsaWNlbnNlLCBNci4gKGF1dGhvciBvciBjb3B5cmlnaHQgaG9sZGVyKToKCgphKSBHcmFudHMgdGhlIFVuaXZlcnNpZGFkZSBGZWRlcmFsIFJpbyBHcmFuZGUgZG8gTm9ydGUgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgb2YKcmVwcm9kdWNlLCBjb252ZXJ0IChhcyBkZWZpbmVkIGJlbG93KSwgY29tbXVuaWNhdGUgYW5kIC8gb3IKZGlzdHJpYnV0ZSB0aGUgZGVsaXZlcmVkIGRvY3VtZW50IChpbmNsdWRpbmcgYWJzdHJhY3QgLyBhYnN0cmFjdCkgaW4KZGlnaXRhbCBvciBwcmludGVkIGZvcm1hdCBhbmQgaW4gYW55IG1lZGl1bS4KCmIpIERlY2xhcmVzIHRoYXQgdGhlIGRvY3VtZW50IHN1Ym1pdHRlZCBpcyBpdHMgb3JpZ2luYWwgd29yaywgYW5kIHRoYXQKeW91IGhhdmUgdGhlIHJpZ2h0IHRvIGdyYW50IHRoZSByaWdodHMgY29udGFpbmVkIGluIHRoaXMgbGljZW5zZS4gRGVjbGFyZXMKdGhhdCB0aGUgZGVsaXZlcnkgb2YgdGhlIGRvY3VtZW50IGRvZXMgbm90IGluZnJpbmdlLCBhcyBmYXIgYXMgaXQgaXMKdGhlIHJpZ2h0cyBvZiBhbnkgb3RoZXIgcGVyc29uIG9yIGVudGl0eS4KCmMpIElmIHRoZSBkb2N1bWVudCBkZWxpdmVyZWQgY29udGFpbnMgbWF0ZXJpYWwgd2hpY2ggZG9lcyBub3QKcmlnaHRzLCBkZWNsYXJlcyB0aGF0IGl0IGhhcyBvYnRhaW5lZCBhdXRob3JpemF0aW9uIGZyb20gdGhlIGhvbGRlciBvZiB0aGUKY29weXJpZ2h0IHRvIGdyYW50IHRoZSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gR3JhbmRlIGRvIE5vcnRlIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdCB0aGlzIG1hdGVyaWFsIHdob3NlIHJpZ2h0cyBhcmUgb2YKdGhpcmQgcGFydGllcyBpcyBjbGVhcmx5IGlkZW50aWZpZWQgYW5kIHJlY29nbml6ZWQgaW4gdGhlIHRleHQgb3IKY29udGVudCBvZiB0aGUgZG9jdW1lbnQgZGVsaXZlcmVkLgoKSWYgdGhlIGRvY3VtZW50IHN1Ym1pdHRlZCBpcyBiYXNlZCBvbiBmdW5kZWQgb3Igc3VwcG9ydGVkIHdvcmsKYnkgYW5vdGhlciBpbnN0aXR1dGlvbiBvdGhlciB0aGFuIHRoZSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gR3JhbmRlIGRvIE5vcnRlLCBkZWNsYXJlcyB0aGF0IGl0IGhhcyBmdWxmaWxsZWQgYW55IG9ibGlnYXRpb25zIHJlcXVpcmVkIGJ5IHRoZSByZXNwZWN0aXZlIGFncmVlbWVudCBvciBhZ3JlZW1lbnQuCgpUaGUgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZG8gUmlvIEdyYW5kZSBkbyBOb3J0ZSB3aWxsIGNsZWFybHkgaWRlbnRpZnkgaXRzIG5hbWUgKHMpIGFzIHRoZSBhdXRob3IgKHMpIG9yIGhvbGRlciAocykgb2YgdGhlIGRvY3VtZW50J3MgcmlnaHRzCmRlbGl2ZXJlZCwgYW5kIHdpbGwgbm90IG1ha2UgYW55IGNoYW5nZXMsIG90aGVyIHRoYW4gdGhvc2UgcGVybWl0dGVkIGJ5CnRoaXMgbGljZW5zZQo=Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2022-02-21T18:00:02Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false |
dc.title.pt_BR.fl_str_mv |
Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares |
dc.title.alternative.pt_BR.fl_str_mv |
An exploratory data analysis and the use of machine learning for cardiovascular disease classification |
title |
Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares |
spellingShingle |
Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares Santos, Bruno Bruno Silva dos Doença cardiovascular Ciência de dados Análise de dados Inteligência artificial Floresta aleatória Cardiovascular disease Data science Data analysis Artificial intelligence Random forest |
title_short |
Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares |
title_full |
Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares |
title_fullStr |
Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares |
title_full_unstemmed |
Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares |
title_sort |
Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares |
author |
Santos, Bruno Bruno Silva dos |
author_facet |
Santos, Bruno Bruno Silva dos |
author_role |
author |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/6151311030175220 |
dc.contributor.advisorID.pt_BR.fl_str_mv |
https://orcid.org/0000-0003-2690-1563 |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/7987212907837941 |
dc.contributor.referees1.none.fl_str_mv |
Santos, Mailson Ribeiro |
dc.contributor.referees1Lattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/7242148883405512 |
dc.contributor.referees2.none.fl_str_mv |
Nunes, Yuri Thomas Pinheiro |
dc.contributor.referees2ID.pt_BR.fl_str_mv |
https://orcid.org/0000-0003-0280-0346 |
dc.contributor.referees2Lattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/4965053749389598 |
dc.contributor.author.fl_str_mv |
Santos, Bruno Bruno Silva dos |
dc.contributor.advisor1.fl_str_mv |
Oliveira, Luiz Affonso Henderson Guedes De |
contributor_str_mv |
Oliveira, Luiz Affonso Henderson Guedes De |
dc.subject.por.fl_str_mv |
Doença cardiovascular Ciência de dados Análise de dados Inteligência artificial Floresta aleatória Cardiovascular disease Data science Data analysis Artificial intelligence Random forest |
topic |
Doença cardiovascular Ciência de dados Análise de dados Inteligência artificial Floresta aleatória Cardiovascular disease Data science Data analysis Artificial intelligence Random forest |
description |
O objetivo deste trabalho é mostrar um estudo embasado na ciência de dados para a elaboração de uma análise a respeito de doenças cardiovasculares (DCV). Além disso, identificar os fatores que podem vir a influenciar um indivíduo a contrair esse tipo de enfermidade. A partir dos dados de pacientes e da análise preditiva, identificar a probabilidade de resultados futuros de pessoas com DCV, afim de ajudar ao sistema de saúde a obter um melhor prognóstico em relação aos seus pacientes. Utilizando para isso, dados anteriores para efetuar um estudo, através de uma inteligência artificial, para determinar se existe a DCV no paciente. Em particular, o trabalho fornece uma análise exploratória de dados (AED) buscando encontrar correlações entre os dados estudados e a DCV, assim como o uso da inteligência artificial (IA) com cinco algoritmos de classificação de casos de doenças cardiovasculares. Os algoritmos preveem o risco de obter uma doença cardiovascular com base nas informações anteriores de uma base de dados coletados de pacientes. O conjunto de dados usado foi obtido do repositório Kaggle, encontrado a partir da plataforma IEEEDataPort, no qual, com base no estudo, verificou-se que a pressão arterial, o colesterol, idade e o IMC têm uma maior correlação entre o risco de se obter uma doença cardiovascular. Os resultados no conjunto de dados usando a técnica de aprendizado de máquina obteve-se um melhor resultado para o método Floresta Aleatória com uma acurácia de 80%, F1-score de 82% e 78% para a possibilidade de não ter ou ter uma doença cardiovascular, respectivamente, usando cross-validation com k-fold igual a 5. |
publishDate |
2022 |
dc.date.accessioned.fl_str_mv |
2022-02-21T18:00:01Z |
dc.date.available.fl_str_mv |
2022-02-21T18:00:01Z |
dc.date.issued.fl_str_mv |
2022-01-11 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
SANTOS, Bruno Silva dos. Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares. 2022. 55 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2022. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufrn.br/handle/123456789/46134 |
identifier_str_mv |
SANTOS, Bruno Silva dos. Uma análise exploratória de dados e o uso de aprendizado de máquina para classificação de doenças cardiovasculares. 2022. 55 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2022. |
url |
https://repositorio.ufrn.br/handle/123456789/46134 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte |
dc.publisher.program.fl_str_mv |
Engenharia de Computação |
dc.publisher.initials.fl_str_mv |
UFRN |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Engenharia de Computação e Automação |
publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRN instname:Universidade Federal do Rio Grande do Norte (UFRN) instacron:UFRN |
instname_str |
Universidade Federal do Rio Grande do Norte (UFRN) |
instacron_str |
UFRN |
institution |
UFRN |
reponame_str |
Repositório Institucional da UFRN |
collection |
Repositório Institucional da UFRN |
bitstream.url.fl_str_mv |
https://repositorio.ufrn.br/bitstream/123456789/46134/3/license.txt https://repositorio.ufrn.br/bitstream/123456789/46134/2/UmaAnaliseExploratoria_Bruno_2022.pdf |
bitstream.checksum.fl_str_mv |
e9597aa2854d128fd968be5edc8a28d9 1a76d2a61910e6bf329cca0818c46cbc |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN) |
repository.mail.fl_str_mv |
|
_version_ |
1802117737023012864 |