Detecção de anomalia através da comparação de modelos representativos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-24052021-171751/ |
Resumo: | Lacuna: Regulamentos de privacidade e acesso a dados e leis de proteção de dados tornam a comparação de departamentos e identificação de padrões, em geral, tarefas difíceis. A exploração dos dados coletados, juntamente com um modelo descritivo induzido a partir desses dados, podem ajudar a identificar modelos destoantes e promover a comparação das instituições. Objetivo: O estudo propõe a criação de modelos de redes Bayesianas capazes de extrair conhecimentos novos e significativos a partir dos dados nas variáveis utilizadas no estudo de caso. Propomos a criação de modelos de seções obstétricas por meio de variáveis utilizadas para classificação de Robson (CR), utilizada para classificar gestantes em 10 grupos, estudo de possível integração de novas variáveis à CR, a recriação de dados pelos modelos e a detecção de departamentos obstétricos com comportamentos gerais muito diferentes (anômalos) pela comparação dos modelos. Métodos: Foi desenvolvido um modelo de rede Bayesiana com as variáveis utilizadas para CR por cada hospital envolvido no estudo. Propusemos e investigamos experimentalmente novas variáveis que podem melhor caracterizar e distribuir as gestantes nos grupos de Robson. As funções do pacote R \"bnlearn\" foram usadas para manipular e recriar dados no modelo. O desempenho deste modelo foi validado quanto à capacidade de recriar dados, comparando com medidas estatísticas de dados reais, e verificando se as distribuições nos grupos CR permanecem as mesmas. No intuito de construir uma matriz de distância para identificação de dados destoantes, a distância de Hamming foi utilizada para calcular as dissimilaridades entre os modelos. As anomalias detectadas foram validadas por especialista de acordo com a escala Likert. Resultados: Os dados foram descritos e recriados através de redes Bayesianas com imputação de dados, com referência significativa aos dados reais. A comparação dos modelos sobre as seções de obstetrícia identificou padrões e anomalias. A comparação permitiu diferenciar os setores com diferentes taxas de cesárea e distribuição nos grupos de Robson, de acordo com as variáveis selecionadas, preservando o acesso aos dados reais das instituições. |
id |
USP_1bd0deef42bbc879a8eaf0901d78ec07 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-24052021-171751 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Detecção de anomalia através da comparação de modelos representativosAnomaly detection through representative model comparisonAnomaly detectionAprendizado não supervisionadoBayesian networksDetecção de anomaliaModelos representativosRedes BayesianasRepresentative modelsUnsupervised learningLacuna: Regulamentos de privacidade e acesso a dados e leis de proteção de dados tornam a comparação de departamentos e identificação de padrões, em geral, tarefas difíceis. A exploração dos dados coletados, juntamente com um modelo descritivo induzido a partir desses dados, podem ajudar a identificar modelos destoantes e promover a comparação das instituições. Objetivo: O estudo propõe a criação de modelos de redes Bayesianas capazes de extrair conhecimentos novos e significativos a partir dos dados nas variáveis utilizadas no estudo de caso. Propomos a criação de modelos de seções obstétricas por meio de variáveis utilizadas para classificação de Robson (CR), utilizada para classificar gestantes em 10 grupos, estudo de possível integração de novas variáveis à CR, a recriação de dados pelos modelos e a detecção de departamentos obstétricos com comportamentos gerais muito diferentes (anômalos) pela comparação dos modelos. Métodos: Foi desenvolvido um modelo de rede Bayesiana com as variáveis utilizadas para CR por cada hospital envolvido no estudo. Propusemos e investigamos experimentalmente novas variáveis que podem melhor caracterizar e distribuir as gestantes nos grupos de Robson. As funções do pacote R \"bnlearn\" foram usadas para manipular e recriar dados no modelo. O desempenho deste modelo foi validado quanto à capacidade de recriar dados, comparando com medidas estatísticas de dados reais, e verificando se as distribuições nos grupos CR permanecem as mesmas. No intuito de construir uma matriz de distância para identificação de dados destoantes, a distância de Hamming foi utilizada para calcular as dissimilaridades entre os modelos. As anomalias detectadas foram validadas por especialista de acordo com a escala Likert. Resultados: Os dados foram descritos e recriados através de redes Bayesianas com imputação de dados, com referência significativa aos dados reais. A comparação dos modelos sobre as seções de obstetrícia identificou padrões e anomalias. A comparação permitiu diferenciar os setores com diferentes taxas de cesárea e distribuição nos grupos de Robson, de acordo com as variáveis selecionadas, preservando o acesso aos dados reais das instituições.Background: Data access and privacy regulations and data protection laws make comparing departments in general and pattern detection difficult tasks. The collected data exploration together with a descriptive model induced from these data might help to identify dissonant models and promote the comparision among institutions. Aim: This study proposes the creation of Bayesian network models which able to elicit new and meaningful knowledge from the data in the variables used in the case study. We propose to create models of obstetric departments through the variables adopted in Robson classification (RC), used to classify pregnant women in 10 groups, the study of possible integration of new variables to RC, the recreation of data by the models and the detection of obstetric departments with very different general behaviors (anomalous) by comparing the models. Methods: A Bayesian network model was developed with the variables used for RC by each hospital involved in the study. We proposed and experimentally investigated new variables that can better characterize and distribute pregnant women in Robsons groups. The \"bnlearn\" R package functions were used to manipulate and recreating data across the model. The performance of this model was validated regarding its capacity of recreate data, comparing with real data statistic measures, and verifying whether the distributions on RC groups remain the same. To set up a distance matrix to identify dissonant data, Hamming distances were calculated model by model. The anomalies detected were validated by a specialist according to the Likert scale. Results: The data were described and recreated through Bayesian networks with data imputation, with a meaningful reference to real data. By comparing obstetric departments it was possible to identify patterns and anomalies. The comparison allowed to differentiate the departments with different cesarean rates and RC groups distributions, according to selected variables, thus preserving access to the real data of the institutions.Biblioteca Digitais de Teses e Dissertações da USPCarvalho, André Carlos Ponce de Leon Ferreira deGelatti, Giovana Jaskulski2021-03-23info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-24052021-171751/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2021-05-24T23:21:02Zoai:teses.usp.br:tde-24052021-171751Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212021-05-24T23:21:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Detecção de anomalia através da comparação de modelos representativos Anomaly detection through representative model comparison |
title |
Detecção de anomalia através da comparação de modelos representativos |
spellingShingle |
Detecção de anomalia através da comparação de modelos representativos Gelatti, Giovana Jaskulski Anomaly detection Aprendizado não supervisionado Bayesian networks Detecção de anomalia Modelos representativos Redes Bayesianas Representative models Unsupervised learning |
title_short |
Detecção de anomalia através da comparação de modelos representativos |
title_full |
Detecção de anomalia através da comparação de modelos representativos |
title_fullStr |
Detecção de anomalia através da comparação de modelos representativos |
title_full_unstemmed |
Detecção de anomalia através da comparação de modelos representativos |
title_sort |
Detecção de anomalia através da comparação de modelos representativos |
author |
Gelatti, Giovana Jaskulski |
author_facet |
Gelatti, Giovana Jaskulski |
author_role |
author |
dc.contributor.none.fl_str_mv |
Carvalho, André Carlos Ponce de Leon Ferreira de |
dc.contributor.author.fl_str_mv |
Gelatti, Giovana Jaskulski |
dc.subject.por.fl_str_mv |
Anomaly detection Aprendizado não supervisionado Bayesian networks Detecção de anomalia Modelos representativos Redes Bayesianas Representative models Unsupervised learning |
topic |
Anomaly detection Aprendizado não supervisionado Bayesian networks Detecção de anomalia Modelos representativos Redes Bayesianas Representative models Unsupervised learning |
description |
Lacuna: Regulamentos de privacidade e acesso a dados e leis de proteção de dados tornam a comparação de departamentos e identificação de padrões, em geral, tarefas difíceis. A exploração dos dados coletados, juntamente com um modelo descritivo induzido a partir desses dados, podem ajudar a identificar modelos destoantes e promover a comparação das instituições. Objetivo: O estudo propõe a criação de modelos de redes Bayesianas capazes de extrair conhecimentos novos e significativos a partir dos dados nas variáveis utilizadas no estudo de caso. Propomos a criação de modelos de seções obstétricas por meio de variáveis utilizadas para classificação de Robson (CR), utilizada para classificar gestantes em 10 grupos, estudo de possível integração de novas variáveis à CR, a recriação de dados pelos modelos e a detecção de departamentos obstétricos com comportamentos gerais muito diferentes (anômalos) pela comparação dos modelos. Métodos: Foi desenvolvido um modelo de rede Bayesiana com as variáveis utilizadas para CR por cada hospital envolvido no estudo. Propusemos e investigamos experimentalmente novas variáveis que podem melhor caracterizar e distribuir as gestantes nos grupos de Robson. As funções do pacote R \"bnlearn\" foram usadas para manipular e recriar dados no modelo. O desempenho deste modelo foi validado quanto à capacidade de recriar dados, comparando com medidas estatísticas de dados reais, e verificando se as distribuições nos grupos CR permanecem as mesmas. No intuito de construir uma matriz de distância para identificação de dados destoantes, a distância de Hamming foi utilizada para calcular as dissimilaridades entre os modelos. As anomalias detectadas foram validadas por especialista de acordo com a escala Likert. Resultados: Os dados foram descritos e recriados através de redes Bayesianas com imputação de dados, com referência significativa aos dados reais. A comparação dos modelos sobre as seções de obstetrícia identificou padrões e anomalias. A comparação permitiu diferenciar os setores com diferentes taxas de cesárea e distribuição nos grupos de Robson, de acordo com as variáveis selecionadas, preservando o acesso aos dados reais das instituições. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-03-23 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-24052021-171751/ |
url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-24052021-171751/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815257305119195136 |