Um modelo híbrido de mineração de dados para suspeita diagnóstica relacionada a síndromes demenciais

Detalhes bibliográficos
Autor(a) principal: Moreira, Leonard Barreto
Data de Publicação: 2016
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UERJ
Texto Completo: http://www.bdtd.uerj.br/handle/1/13702
Resumo: The creation of intelligent computational systems has been one of the most ambitious and controversial technological challenges of our era. We can highlight the support clinical decision systems, which aim at helping experts in medical research process, thus enabling more accurate diagnoses. The medical diagnosis process is not an easy task, given the diversity of diseases, symptoms, tests, as well as the complexity of human physiology. Specifically in relation to the diagnosis of dementia, such difficulty is even greater given the lack of a specific test to determine the type of dementia, thus requiring extensive clinical research through a series of appointment, assessments and exams. In the present work is developed a hybrid model of mining involving the integrated text mining structured data mining. This model aims to assist the experts in the process of diagnosis of patients with clinical suspicion of dementia. The data used in the research come from information contained in the medical records of 3281 patients attended in the Center for Alzheimer's and Parkinson (CDAP) in Campos dos Goytacazes/RJ, Brazil, collected from the developed application. After data preprocessing, 605 records with 18 different attributes were selected for the mining stage. This step was based on the domain-driven data- mining (D3M) methodology, and text mining techniques were applied in order to structure the free text format information contained in the Patient's Past History (HPP) field, for subsequent integration into the previously mentioned set of the attributes. Later we used a set of classification algorithms based on naïve Bayes, Bayesian networks and decision trees techniques in order to obtain predictive models. Ensemble methods (Bagging, Boosting and Random Forests) were employed to improve the accuracy of the models. Further, a methodology (holdout with stratified sampling) was applied to generate equally distributed classes. All implementations of those techniques are available in the Weka (Waikato for Knowledge Environent analysis) tool. Comparisons were made between the metrics related to the accuracy of the proposed hybrid model with the model involving only structured data mining. These results showed the effectiveness of the hybrid model proposed to represent the diagnostic criteria for the pathologies of interest in this work.
id UERJ_24ed96c302099dfab3ec706df9f256de
oai_identifier_str oai:www.bdtd.uerj.br:1/13702
network_acronym_str UERJ
network_name_str Biblioteca Digital de Teses e Dissertações da UERJ
repository_id_str 2903
spelling Namen, Anderson Amendoeirahttp://lattes.cnpq.br/2182469523085517Fabbri, Ricardohttp://lattes.cnpq.br/5759364958802333Monat, André Soareshttp://lattes.cnpq.br/2193192561400733Tamariz, Annabell Del Realhttp://lattes.cnpq.br/7484786835288826Victer, Silvia Mara da Costa Camposhttp://lattes.cnpq.br/2142669271116040Vianna, Dalessandro Soareshttp://lattes.cnpq.br/4873901371931398http://lattes.cnpq.br/1253432326873186Moreira, Leonard Barreto2021-01-07T14:38:30Z2017-03-092016-11-28MOREIRA, Leonard Barreto. Um modelo híbrido de mineração de dados para suspeita diagnóstica relacionada a síndromes demenciais. 2016. 295 f. Tese (Doutorado em Modelagem Computacional) - Universidade do Estado do Rio de Janeiro, Nova Friburgo, 2016.http://www.bdtd.uerj.br/handle/1/13702The creation of intelligent computational systems has been one of the most ambitious and controversial technological challenges of our era. We can highlight the support clinical decision systems, which aim at helping experts in medical research process, thus enabling more accurate diagnoses. The medical diagnosis process is not an easy task, given the diversity of diseases, symptoms, tests, as well as the complexity of human physiology. Specifically in relation to the diagnosis of dementia, such difficulty is even greater given the lack of a specific test to determine the type of dementia, thus requiring extensive clinical research through a series of appointment, assessments and exams. In the present work is developed a hybrid model of mining involving the integrated text mining structured data mining. This model aims to assist the experts in the process of diagnosis of patients with clinical suspicion of dementia. The data used in the research come from information contained in the medical records of 3281 patients attended in the Center for Alzheimer's and Parkinson (CDAP) in Campos dos Goytacazes/RJ, Brazil, collected from the developed application. After data preprocessing, 605 records with 18 different attributes were selected for the mining stage. This step was based on the domain-driven data- mining (D3M) methodology, and text mining techniques were applied in order to structure the free text format information contained in the Patient's Past History (HPP) field, for subsequent integration into the previously mentioned set of the attributes. Later we used a set of classification algorithms based on naïve Bayes, Bayesian networks and decision trees techniques in order to obtain predictive models. Ensemble methods (Bagging, Boosting and Random Forests) were employed to improve the accuracy of the models. Further, a methodology (holdout with stratified sampling) was applied to generate equally distributed classes. All implementations of those techniques are available in the Weka (Waikato for Knowledge Environent analysis) tool. Comparisons were made between the metrics related to the accuracy of the proposed hybrid model with the model involving only structured data mining. These results showed the effectiveness of the hybrid model proposed to represent the diagnostic criteria for the pathologies of interest in this work.A criação de sistemas computacionais inteligentes tem sido um dos desafios tecnológicos mais ambiciosos e controversos de nossa era. Podem ser destacados os sistemas de suporte à decisão clínica, cujo objetivo principal é auxiliar os especialistas no processo de investigação médica, possibilitando assim diagnósticos mais precisos. O processo de diagnóstico médico não é uma tarefa fácil, dada a diversidade de doenças, sintomas, exames, além da complexidade da fisiologia humana. Especificamente em relação ao diagnóstico de síndromes demenciais, tal dificuldade é ainda maior devido à inexistência de um exame específico para determinar o tipo de demência, demandando assim uma extensa investigação clínica através de uma série de consultas, avaliações e exames. No presente trabalho é desenvolvido um modelo híbrido de mineração, envolvendo a mineração de textos integrada à mineração de dados estruturados. Esse modelo visa auxiliar os especialistas no processo de diagnóstico de pacientes com suspeita clínica de demência. Os dados utilizados na pesquisa são provenientes de informações contidas nos prontuários de 3281 pacientes atendidos pelo Centro de Alzheimer e Parkinson (CDAP) em Campos dos Goytacazes/RJ, coletadas a partir da aplicação desenvolvida. Após aplicação de técnicas relacionadas à etapa de pré-processamento dos dados, foram selecionadas 605 instâncias com 18 diferentes atributos para a etapa de mineração. Esta etapa baseou-se em metodologia proposta orientada ao domínio do problema (D3M), por intermédio de utilização de técnicas de mineração de textos de maneira a estruturar informações em formato livre contidas no campo Histórico Pregresso do Paciente (HPP), para subsequente integração ao conjunto de atributos previamente mencionado. Posteriormente, foi aplicado um conjunto de algoritmos de classificação baseado nas técnicas de naïve bayes, redes bayesianas e árvores de decisão para obtenção de modelos preditivos. De modo a melhorar a precisão dos modelos gerados, foram utilizados métodos de grupos (Bagging, Boosting e Florestas Aleatórias) e uma metodologia para tornar as classes uniformemente distribuídas (holdout com amostragem estratificada), cujas implementações estão disponíveis na ferramenta Weka (Waikato Environent for Knowledge Analysis). Foram feitas comparações entre as métricas relacionadas à precisão do modelo híbrido proposto com o modelo envolvendo apenas a mineração de dados estruturados. Os resultados evidenciaram as características mais pertinentes para o processo de diagnóstico, bem como a maior eficácia do modelo híbrido desenvolvido em representar os critérios diagnósticos para as patologias de interesse do presente trabalho.Submitted by Boris Flegr (boris@uerj.br) on 2021-01-07T14:38:30Z No. of bitstreams: 1 Tese_LeonardBarretoMoreira.pdf: 8479063 bytes, checksum: 3b0ab679f1d1b431a1a32e94440c89a3 (MD5)Made available in DSpace on 2021-01-07T14:38:30Z (GMT). No. of bitstreams: 1 Tese_LeonardBarretoMoreira.pdf: 8479063 bytes, checksum: 3b0ab679f1d1b431a1a32e94440c89a3 (MD5) Previous issue date: 2016-11-28application/pdfporUniversidade do Estado do Rio de JaneiroPrograma de Pós-Graduação em Modelagem ComputacionalUERJBRCentro de Tecnologia e Ciências::Instituto PolitécnicoData miningText miningMedical diagnosisMachine LearningD3MMineração de dadosMineração de textosDiagnóstico MédicoAprendizagem de máquinaD3MDemência - DiagnósticoCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOUm modelo híbrido de mineração de dados para suspeita diagnóstica relacionada a síndromes demenciaisAn hybrid data mining model for dementia diagnosisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UERJinstname:Universidade do Estado do Rio de Janeiro (UERJ)instacron:UERJORIGINALTese_LeonardBarretoMoreira.pdfapplication/pdf8479063http://www.bdtd.uerj.br/bitstream/1/13702/1/Tese_LeonardBarretoMoreira.pdf3b0ab679f1d1b431a1a32e94440c89a3MD511/137022024-02-27 15:26:40.845oai:www.bdtd.uerj.br:1/13702Biblioteca Digital de Teses e Dissertaçõeshttp://www.bdtd.uerj.br/PUBhttps://www.bdtd.uerj.br:8443/oai/requestbdtd.suporte@uerj.bropendoar:29032024-02-27T18:26:40Biblioteca Digital de Teses e Dissertações da UERJ - Universidade do Estado do Rio de Janeiro (UERJ)false
dc.title.por.fl_str_mv Um modelo híbrido de mineração de dados para suspeita diagnóstica relacionada a síndromes demenciais
dc.title.alternative.eng.fl_str_mv An hybrid data mining model for dementia diagnosis
title Um modelo híbrido de mineração de dados para suspeita diagnóstica relacionada a síndromes demenciais
spellingShingle Um modelo híbrido de mineração de dados para suspeita diagnóstica relacionada a síndromes demenciais
Moreira, Leonard Barreto
Data mining
Text mining
Medical diagnosis
Machine Learning
D3M
Mineração de dados
Mineração de textos
Diagnóstico Médico
Aprendizagem de máquina
D3M
Demência - Diagnóstico
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
title_short Um modelo híbrido de mineração de dados para suspeita diagnóstica relacionada a síndromes demenciais
title_full Um modelo híbrido de mineração de dados para suspeita diagnóstica relacionada a síndromes demenciais
title_fullStr Um modelo híbrido de mineração de dados para suspeita diagnóstica relacionada a síndromes demenciais
title_full_unstemmed Um modelo híbrido de mineração de dados para suspeita diagnóstica relacionada a síndromes demenciais
title_sort Um modelo híbrido de mineração de dados para suspeita diagnóstica relacionada a síndromes demenciais
author Moreira, Leonard Barreto
author_facet Moreira, Leonard Barreto
author_role author
dc.contributor.advisor1.fl_str_mv Namen, Anderson Amendoeira
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/2182469523085517
dc.contributor.advisor-co1.fl_str_mv Fabbri, Ricardo
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/5759364958802333
dc.contributor.referee1.fl_str_mv Monat, André Soares
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/2193192561400733
dc.contributor.referee2.fl_str_mv Tamariz, Annabell Del Real
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/7484786835288826
dc.contributor.referee3.fl_str_mv Victer, Silvia Mara da Costa Campos
dc.contributor.referee3Lattes.fl_str_mv http://lattes.cnpq.br/2142669271116040
dc.contributor.referee4.fl_str_mv Vianna, Dalessandro Soares
dc.contributor.referee4Lattes.fl_str_mv http://lattes.cnpq.br/4873901371931398
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/1253432326873186
dc.contributor.author.fl_str_mv Moreira, Leonard Barreto
contributor_str_mv Namen, Anderson Amendoeira
Fabbri, Ricardo
Monat, André Soares
Tamariz, Annabell Del Real
Victer, Silvia Mara da Costa Campos
Vianna, Dalessandro Soares
dc.subject.eng.fl_str_mv Data mining
Text mining
Medical diagnosis
Machine Learning
D3M
topic Data mining
Text mining
Medical diagnosis
Machine Learning
D3M
Mineração de dados
Mineração de textos
Diagnóstico Médico
Aprendizagem de máquina
D3M
Demência - Diagnóstico
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.por.fl_str_mv Mineração de dados
Mineração de textos
Diagnóstico Médico
Aprendizagem de máquina
D3M
Demência - Diagnóstico
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
description The creation of intelligent computational systems has been one of the most ambitious and controversial technological challenges of our era. We can highlight the support clinical decision systems, which aim at helping experts in medical research process, thus enabling more accurate diagnoses. The medical diagnosis process is not an easy task, given the diversity of diseases, symptoms, tests, as well as the complexity of human physiology. Specifically in relation to the diagnosis of dementia, such difficulty is even greater given the lack of a specific test to determine the type of dementia, thus requiring extensive clinical research through a series of appointment, assessments and exams. In the present work is developed a hybrid model of mining involving the integrated text mining structured data mining. This model aims to assist the experts in the process of diagnosis of patients with clinical suspicion of dementia. The data used in the research come from information contained in the medical records of 3281 patients attended in the Center for Alzheimer's and Parkinson (CDAP) in Campos dos Goytacazes/RJ, Brazil, collected from the developed application. After data preprocessing, 605 records with 18 different attributes were selected for the mining stage. This step was based on the domain-driven data- mining (D3M) methodology, and text mining techniques were applied in order to structure the free text format information contained in the Patient's Past History (HPP) field, for subsequent integration into the previously mentioned set of the attributes. Later we used a set of classification algorithms based on naïve Bayes, Bayesian networks and decision trees techniques in order to obtain predictive models. Ensemble methods (Bagging, Boosting and Random Forests) were employed to improve the accuracy of the models. Further, a methodology (holdout with stratified sampling) was applied to generate equally distributed classes. All implementations of those techniques are available in the Weka (Waikato for Knowledge Environent analysis) tool. Comparisons were made between the metrics related to the accuracy of the proposed hybrid model with the model involving only structured data mining. These results showed the effectiveness of the hybrid model proposed to represent the diagnostic criteria for the pathologies of interest in this work.
publishDate 2016
dc.date.issued.fl_str_mv 2016-11-28
dc.date.available.fl_str_mv 2017-03-09
dc.date.accessioned.fl_str_mv 2021-01-07T14:38:30Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv MOREIRA, Leonard Barreto. Um modelo híbrido de mineração de dados para suspeita diagnóstica relacionada a síndromes demenciais. 2016. 295 f. Tese (Doutorado em Modelagem Computacional) - Universidade do Estado do Rio de Janeiro, Nova Friburgo, 2016.
dc.identifier.uri.fl_str_mv http://www.bdtd.uerj.br/handle/1/13702
identifier_str_mv MOREIRA, Leonard Barreto. Um modelo híbrido de mineração de dados para suspeita diagnóstica relacionada a síndromes demenciais. 2016. 295 f. Tese (Doutorado em Modelagem Computacional) - Universidade do Estado do Rio de Janeiro, Nova Friburgo, 2016.
url http://www.bdtd.uerj.br/handle/1/13702
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Estado do Rio de Janeiro
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Modelagem Computacional
dc.publisher.initials.fl_str_mv UERJ
dc.publisher.country.fl_str_mv BR
dc.publisher.department.fl_str_mv Centro de Tecnologia e Ciências::Instituto Politécnico
publisher.none.fl_str_mv Universidade do Estado do Rio de Janeiro
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UERJ
instname:Universidade do Estado do Rio de Janeiro (UERJ)
instacron:UERJ
instname_str Universidade do Estado do Rio de Janeiro (UERJ)
instacron_str UERJ
institution UERJ
reponame_str Biblioteca Digital de Teses e Dissertações da UERJ
collection Biblioteca Digital de Teses e Dissertações da UERJ
bitstream.url.fl_str_mv http://www.bdtd.uerj.br/bitstream/1/13702/1/Tese_LeonardBarretoMoreira.pdf
bitstream.checksum.fl_str_mv 3b0ab679f1d1b431a1a32e94440c89a3
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UERJ - Universidade do Estado do Rio de Janeiro (UERJ)
repository.mail.fl_str_mv bdtd.suporte@uerj.br
_version_ 1792352323422388224