Detecção de anomalia através da comparação de modelos representativos

Detalhes bibliográficos
Autor(a) principal: Gelatti, Giovana Jaskulski
Data de Publicação: 2021
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-24052021-171751/
Resumo: Lacuna: Regulamentos de privacidade e acesso a dados e leis de proteção de dados tornam a comparação de departamentos e identificação de padrões, em geral, tarefas difíceis. A exploração dos dados coletados, juntamente com um modelo descritivo induzido a partir desses dados, podem ajudar a identificar modelos destoantes e promover a comparação das instituições. Objetivo: O estudo propõe a criação de modelos de redes Bayesianas capazes de extrair conhecimentos novos e significativos a partir dos dados nas variáveis utilizadas no estudo de caso. Propomos a criação de modelos de seções obstétricas por meio de variáveis utilizadas para classificação de Robson (CR), utilizada para classificar gestantes em 10 grupos, estudo de possível integração de novas variáveis à CR, a recriação de dados pelos modelos e a detecção de departamentos obstétricos com comportamentos gerais muito diferentes (anômalos) pela comparação dos modelos. Métodos: Foi desenvolvido um modelo de rede Bayesiana com as variáveis utilizadas para CR por cada hospital envolvido no estudo. Propusemos e investigamos experimentalmente novas variáveis que podem melhor caracterizar e distribuir as gestantes nos grupos de Robson. As funções do pacote R \"bnlearn\" foram usadas para manipular e recriar dados no modelo. O desempenho deste modelo foi validado quanto à capacidade de recriar dados, comparando com medidas estatísticas de dados reais, e verificando se as distribuições nos grupos CR permanecem as mesmas. No intuito de construir uma matriz de distância para identificação de dados destoantes, a distância de Hamming foi utilizada para calcular as dissimilaridades entre os modelos. As anomalias detectadas foram validadas por especialista de acordo com a escala Likert. Resultados: Os dados foram descritos e recriados através de redes Bayesianas com imputação de dados, com referência significativa aos dados reais. A comparação dos modelos sobre as seções de obstetrícia identificou padrões e anomalias. A comparação permitiu diferenciar os setores com diferentes taxas de cesárea e distribuição nos grupos de Robson, de acordo com as variáveis selecionadas, preservando o acesso aos dados reais das instituições.
id USP_1bd0deef42bbc879a8eaf0901d78ec07
oai_identifier_str oai:teses.usp.br:tde-24052021-171751
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Detecção de anomalia através da comparação de modelos representativosAnomaly detection through representative model comparisonAnomaly detectionAprendizado não supervisionadoBayesian networksDetecção de anomaliaModelos representativosRedes BayesianasRepresentative modelsUnsupervised learningLacuna: Regulamentos de privacidade e acesso a dados e leis de proteção de dados tornam a comparação de departamentos e identificação de padrões, em geral, tarefas difíceis. A exploração dos dados coletados, juntamente com um modelo descritivo induzido a partir desses dados, podem ajudar a identificar modelos destoantes e promover a comparação das instituições. Objetivo: O estudo propõe a criação de modelos de redes Bayesianas capazes de extrair conhecimentos novos e significativos a partir dos dados nas variáveis utilizadas no estudo de caso. Propomos a criação de modelos de seções obstétricas por meio de variáveis utilizadas para classificação de Robson (CR), utilizada para classificar gestantes em 10 grupos, estudo de possível integração de novas variáveis à CR, a recriação de dados pelos modelos e a detecção de departamentos obstétricos com comportamentos gerais muito diferentes (anômalos) pela comparação dos modelos. Métodos: Foi desenvolvido um modelo de rede Bayesiana com as variáveis utilizadas para CR por cada hospital envolvido no estudo. Propusemos e investigamos experimentalmente novas variáveis que podem melhor caracterizar e distribuir as gestantes nos grupos de Robson. As funções do pacote R \"bnlearn\" foram usadas para manipular e recriar dados no modelo. O desempenho deste modelo foi validado quanto à capacidade de recriar dados, comparando com medidas estatísticas de dados reais, e verificando se as distribuições nos grupos CR permanecem as mesmas. No intuito de construir uma matriz de distância para identificação de dados destoantes, a distância de Hamming foi utilizada para calcular as dissimilaridades entre os modelos. As anomalias detectadas foram validadas por especialista de acordo com a escala Likert. Resultados: Os dados foram descritos e recriados através de redes Bayesianas com imputação de dados, com referência significativa aos dados reais. A comparação dos modelos sobre as seções de obstetrícia identificou padrões e anomalias. A comparação permitiu diferenciar os setores com diferentes taxas de cesárea e distribuição nos grupos de Robson, de acordo com as variáveis selecionadas, preservando o acesso aos dados reais das instituições.Background: Data access and privacy regulations and data protection laws make comparing departments in general and pattern detection difficult tasks. The collected data exploration together with a descriptive model induced from these data might help to identify dissonant models and promote the comparision among institutions. Aim: This study proposes the creation of Bayesian network models which able to elicit new and meaningful knowledge from the data in the variables used in the case study. We propose to create models of obstetric departments through the variables adopted in Robson classification (RC), used to classify pregnant women in 10 groups, the study of possible integration of new variables to RC, the recreation of data by the models and the detection of obstetric departments with very different general behaviors (anomalous) by comparing the models. Methods: A Bayesian network model was developed with the variables used for RC by each hospital involved in the study. We proposed and experimentally investigated new variables that can better characterize and distribute pregnant women in Robsons groups. The \"bnlearn\" R package functions were used to manipulate and recreating data across the model. The performance of this model was validated regarding its capacity of recreate data, comparing with real data statistic measures, and verifying whether the distributions on RC groups remain the same. To set up a distance matrix to identify dissonant data, Hamming distances were calculated model by model. The anomalies detected were validated by a specialist according to the Likert scale. Results: The data were described and recreated through Bayesian networks with data imputation, with a meaningful reference to real data. By comparing obstetric departments it was possible to identify patterns and anomalies. The comparison allowed to differentiate the departments with different cesarean rates and RC groups distributions, according to selected variables, thus preserving access to the real data of the institutions.Biblioteca Digitais de Teses e Dissertações da USPCarvalho, André Carlos Ponce de Leon Ferreira deGelatti, Giovana Jaskulski2021-03-23info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-24052021-171751/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2021-05-24T23:21:02Zoai:teses.usp.br:tde-24052021-171751Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212021-05-24T23:21:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Detecção de anomalia através da comparação de modelos representativos
Anomaly detection through representative model comparison
title Detecção de anomalia através da comparação de modelos representativos
spellingShingle Detecção de anomalia através da comparação de modelos representativos
Gelatti, Giovana Jaskulski
Anomaly detection
Aprendizado não supervisionado
Bayesian networks
Detecção de anomalia
Modelos representativos
Redes Bayesianas
Representative models
Unsupervised learning
title_short Detecção de anomalia através da comparação de modelos representativos
title_full Detecção de anomalia através da comparação de modelos representativos
title_fullStr Detecção de anomalia através da comparação de modelos representativos
title_full_unstemmed Detecção de anomalia através da comparação de modelos representativos
title_sort Detecção de anomalia através da comparação de modelos representativos
author Gelatti, Giovana Jaskulski
author_facet Gelatti, Giovana Jaskulski
author_role author
dc.contributor.none.fl_str_mv Carvalho, André Carlos Ponce de Leon Ferreira de
dc.contributor.author.fl_str_mv Gelatti, Giovana Jaskulski
dc.subject.por.fl_str_mv Anomaly detection
Aprendizado não supervisionado
Bayesian networks
Detecção de anomalia
Modelos representativos
Redes Bayesianas
Representative models
Unsupervised learning
topic Anomaly detection
Aprendizado não supervisionado
Bayesian networks
Detecção de anomalia
Modelos representativos
Redes Bayesianas
Representative models
Unsupervised learning
description Lacuna: Regulamentos de privacidade e acesso a dados e leis de proteção de dados tornam a comparação de departamentos e identificação de padrões, em geral, tarefas difíceis. A exploração dos dados coletados, juntamente com um modelo descritivo induzido a partir desses dados, podem ajudar a identificar modelos destoantes e promover a comparação das instituições. Objetivo: O estudo propõe a criação de modelos de redes Bayesianas capazes de extrair conhecimentos novos e significativos a partir dos dados nas variáveis utilizadas no estudo de caso. Propomos a criação de modelos de seções obstétricas por meio de variáveis utilizadas para classificação de Robson (CR), utilizada para classificar gestantes em 10 grupos, estudo de possível integração de novas variáveis à CR, a recriação de dados pelos modelos e a detecção de departamentos obstétricos com comportamentos gerais muito diferentes (anômalos) pela comparação dos modelos. Métodos: Foi desenvolvido um modelo de rede Bayesiana com as variáveis utilizadas para CR por cada hospital envolvido no estudo. Propusemos e investigamos experimentalmente novas variáveis que podem melhor caracterizar e distribuir as gestantes nos grupos de Robson. As funções do pacote R \"bnlearn\" foram usadas para manipular e recriar dados no modelo. O desempenho deste modelo foi validado quanto à capacidade de recriar dados, comparando com medidas estatísticas de dados reais, e verificando se as distribuições nos grupos CR permanecem as mesmas. No intuito de construir uma matriz de distância para identificação de dados destoantes, a distância de Hamming foi utilizada para calcular as dissimilaridades entre os modelos. As anomalias detectadas foram validadas por especialista de acordo com a escala Likert. Resultados: Os dados foram descritos e recriados através de redes Bayesianas com imputação de dados, com referência significativa aos dados reais. A comparação dos modelos sobre as seções de obstetrícia identificou padrões e anomalias. A comparação permitiu diferenciar os setores com diferentes taxas de cesárea e distribuição nos grupos de Robson, de acordo com as variáveis selecionadas, preservando o acesso aos dados reais das instituições.
publishDate 2021
dc.date.none.fl_str_mv 2021-03-23
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-24052021-171751/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-24052021-171751/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257305119195136