Redução da dimensionalidade em dados da saúde por meio de combinação de algoritmos de seleção de atributos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UNESP |
Texto Completo: | http://hdl.handle.net/11449/216220 |
Resumo: | Technological advances in the last years allowed the creation of tools capable of collecting a significant amount of data in the different sectors of society, among those sectors is the health industry. This abundance of data has a vast potential of generating knowledge after it has been processed; however, the volume of this data makes it unfeasible to manually explore all this capacity. In this scenario it is necessary the application of well-defined automation techniques that are able to extract knowledge from the data. One of these techniques is the process of Data Mining as a way to predict diagnosis using element classification on a dataset, methodology that has been reaching uplifting results given that it makes for a more accurate and faster diagnostic process when compared to those that do not rely on computer assisted decision making. Nevertheless, the characteristics of health data, such as, elevated volume and high dimensionality create challenges on the process of knowledge discovery making it less efficient and with a higher computational cost, as a way to solve this problem it is possible to apply feature selection algorithms that reduce the number of present attributes and allow us to have a better understanding of how much a single attribute can affect the final result. Therefore, the objective of this work is to create a scientific contribution based on the application of several feature selection methods associated to a couple of classification algorithms on multiple datasets that explore both breast cancer and cardiac diseases. The results show that feature selection techniques can significantly increase the accuracy of the classification of health data with very little or no losses on execution time, given that in most cases it’s actually doable do reduce the execution time, leading to faster and more accurate predictions a very important aspect when taking the medical field in consideration. |
id |
UNSP_83346d55865676e2dbf3d3f4ae9afb16 |
---|---|
oai_identifier_str |
oai:repositorio.unesp.br:11449/216220 |
network_acronym_str |
UNSP |
network_name_str |
Repositório Institucional da UNESP |
repository_id_str |
2946 |
spelling |
Redução da dimensionalidade em dados da saúde por meio de combinação de algoritmos de seleção de atributosHealth data dimentionality reduction using a combination of feature selection algorithmsData miningKnowledge discoveryHealth dataData predictionBig DataFeature selectionClassification algorithmsMachine learningBanco de DadosMineração de dadosExtração de conhecimentoSaúdePredição de dadosSeleção de atributosAlgoritmos de classificaçãoKNNJ48Technological advances in the last years allowed the creation of tools capable of collecting a significant amount of data in the different sectors of society, among those sectors is the health industry. This abundance of data has a vast potential of generating knowledge after it has been processed; however, the volume of this data makes it unfeasible to manually explore all this capacity. In this scenario it is necessary the application of well-defined automation techniques that are able to extract knowledge from the data. One of these techniques is the process of Data Mining as a way to predict diagnosis using element classification on a dataset, methodology that has been reaching uplifting results given that it makes for a more accurate and faster diagnostic process when compared to those that do not rely on computer assisted decision making. Nevertheless, the characteristics of health data, such as, elevated volume and high dimensionality create challenges on the process of knowledge discovery making it less efficient and with a higher computational cost, as a way to solve this problem it is possible to apply feature selection algorithms that reduce the number of present attributes and allow us to have a better understanding of how much a single attribute can affect the final result. Therefore, the objective of this work is to create a scientific contribution based on the application of several feature selection methods associated to a couple of classification algorithms on multiple datasets that explore both breast cancer and cardiac diseases. The results show that feature selection techniques can significantly increase the accuracy of the classification of health data with very little or no losses on execution time, given that in most cases it’s actually doable do reduce the execution time, leading to faster and more accurate predictions a very important aspect when taking the medical field in consideration.Os avanços tecnológicos ocorridos nos últimos anos criaram ferramentas que tornaram possível um grande aumento na geração de dados em diferentes áreas da sociedade, entre elas, a área da saúde. Essa abundância de dados possui um grande potencial de conhecimento a ser extraído, porém, seu grande volume inviabiliza a exploração manual de toda essa capacidade. Neste contexto, é necessário recorrer à aplicação de técnicas automatizadas e bem definidas para extração do conhecimento. Uma dessas técnicas é o processo de Data Mining, que pode ser aplicado como uma das etapas da extração de conhecimento para o auxílio do diagnóstico preditivo de doenças a partir da classificação de elementos de um conjunto de dados, metodologia que se mostra promissora na busca em melhorar a qualidade de vida dos pacientes a partir de diagnósticos mais precisos e rápidos em comparação com aqueles sem assistência computacional. Contudo, as características de elevado volume e alta dimensionalidade desses dados geram uma dificuldade a mais em seu processo de exploração pois tornam os métodos mais custosos e menos eficientes, tornando-se assim necessário a aplicação de técnicas de seleção de atributos, que diminuem a quantidade de atributos presentes e permitem uma melhor predição e entendimento da influência de um determinado atributo sobre o resultado final. Sendo assim, este trabalho apresenta uma análise deste cenário a partir da aplicação de diversas técnicas de seleção de características associadas à mais de um algoritmo de classificação com múltiplos conjuntos de dados da área da saúde, sendo eles repositórios que abordam câncer de mama e doenças cardíacas. Os resultados mostram que técnicas de seleção de atributos podem aumentar significativamente a acurácia da classificação desse tipo de informação sem total ou nenhum comprometimento do tempo de execução, havendo casos em que até mesmo diminui-se o custo envolvido, levando a predições mais rápidas e eficazes, o que muitas vezes é crucial dentro do escopo médico.Não recebi financiamentoUniversidade Estadual Paulista (Unesp)Valêncio, Carlos Roberto [UNESP]Universidade Estadual Paulista (Unesp)Villar, Gustavo Henrique de Oliveira2022-01-31T19:25:44Z2022-01-31T19:25:44Z2022-01-18info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfhttp://hdl.handle.net/11449/216220porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2023-12-28T06:21:53Zoai:repositorio.unesp.br:11449/216220Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T21:32:57.198502Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false |
dc.title.none.fl_str_mv |
Redução da dimensionalidade em dados da saúde por meio de combinação de algoritmos de seleção de atributos Health data dimentionality reduction using a combination of feature selection algorithms |
title |
Redução da dimensionalidade em dados da saúde por meio de combinação de algoritmos de seleção de atributos |
spellingShingle |
Redução da dimensionalidade em dados da saúde por meio de combinação de algoritmos de seleção de atributos Villar, Gustavo Henrique de Oliveira Data mining Knowledge discovery Health data Data prediction Big Data Feature selection Classification algorithms Machine learning Banco de Dados Mineração de dados Extração de conhecimento Saúde Predição de dados Seleção de atributos Algoritmos de classificação KNN J48 |
title_short |
Redução da dimensionalidade em dados da saúde por meio de combinação de algoritmos de seleção de atributos |
title_full |
Redução da dimensionalidade em dados da saúde por meio de combinação de algoritmos de seleção de atributos |
title_fullStr |
Redução da dimensionalidade em dados da saúde por meio de combinação de algoritmos de seleção de atributos |
title_full_unstemmed |
Redução da dimensionalidade em dados da saúde por meio de combinação de algoritmos de seleção de atributos |
title_sort |
Redução da dimensionalidade em dados da saúde por meio de combinação de algoritmos de seleção de atributos |
author |
Villar, Gustavo Henrique de Oliveira |
author_facet |
Villar, Gustavo Henrique de Oliveira |
author_role |
author |
dc.contributor.none.fl_str_mv |
Valêncio, Carlos Roberto [UNESP] Universidade Estadual Paulista (Unesp) |
dc.contributor.author.fl_str_mv |
Villar, Gustavo Henrique de Oliveira |
dc.subject.por.fl_str_mv |
Data mining Knowledge discovery Health data Data prediction Big Data Feature selection Classification algorithms Machine learning Banco de Dados Mineração de dados Extração de conhecimento Saúde Predição de dados Seleção de atributos Algoritmos de classificação KNN J48 |
topic |
Data mining Knowledge discovery Health data Data prediction Big Data Feature selection Classification algorithms Machine learning Banco de Dados Mineração de dados Extração de conhecimento Saúde Predição de dados Seleção de atributos Algoritmos de classificação KNN J48 |
description |
Technological advances in the last years allowed the creation of tools capable of collecting a significant amount of data in the different sectors of society, among those sectors is the health industry. This abundance of data has a vast potential of generating knowledge after it has been processed; however, the volume of this data makes it unfeasible to manually explore all this capacity. In this scenario it is necessary the application of well-defined automation techniques that are able to extract knowledge from the data. One of these techniques is the process of Data Mining as a way to predict diagnosis using element classification on a dataset, methodology that has been reaching uplifting results given that it makes for a more accurate and faster diagnostic process when compared to those that do not rely on computer assisted decision making. Nevertheless, the characteristics of health data, such as, elevated volume and high dimensionality create challenges on the process of knowledge discovery making it less efficient and with a higher computational cost, as a way to solve this problem it is possible to apply feature selection algorithms that reduce the number of present attributes and allow us to have a better understanding of how much a single attribute can affect the final result. Therefore, the objective of this work is to create a scientific contribution based on the application of several feature selection methods associated to a couple of classification algorithms on multiple datasets that explore both breast cancer and cardiac diseases. The results show that feature selection techniques can significantly increase the accuracy of the classification of health data with very little or no losses on execution time, given that in most cases it’s actually doable do reduce the execution time, leading to faster and more accurate predictions a very important aspect when taking the medical field in consideration. |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-01-31T19:25:44Z 2022-01-31T19:25:44Z 2022-01-18 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/11449/216220 |
url |
http://hdl.handle.net/11449/216220 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP |
instname_str |
Universidade Estadual Paulista (UNESP) |
instacron_str |
UNESP |
institution |
UNESP |
reponame_str |
Repositório Institucional da UNESP |
collection |
Repositório Institucional da UNESP |
repository.name.fl_str_mv |
Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP) |
repository.mail.fl_str_mv |
|
_version_ |
1808129333394407424 |