Auditoria em questionário de estudo epidemiológico utilizando os algoritmos K-Means e FindCBLOF

Detalhes bibliográficos
Autor(a) principal: Castro, Vinícius Fraga de
Data de Publicação: 2019
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/213330
Resumo: Em estudos epidemiológicos, a qualidade dos questionários e dos dados coletados são fatores determinantes para a validade das conclusões. Nesse contexto, o Estudo Longitudinal de Saúde do Adulto (ELSA-Brasil) – o maior estudo epidemiológico em desenvolvimento na América Latina – adota variadas estratégias de controle de qualidade, conforme o tipo de questionário aplicado. Um dos questionários aplicados no ELSA-Brasil é o Formulário de Revisão Cardiovascular (FRC), cujo preenchimento é feito por um médico especialista, a partir da análise de diversos exames e registros de procedimentos realizados pelo participante do estudo, relacionados a eventos cardiovasculares. Como a entrada dos dados é manual, e muitos dos registros são em papel, esta atividade é propensa a erros. O FRC passa por um processo de auditoria, onde é realizada uma amostragem dos questionários, cujas respostas são conferidas manualmente na Plataforma Otus – plataforma tecnológica oferecida pela empresa Otus Solutions, para construção de questionários e gerenciamento de entrevistas – a fim de identificar possíveis erros de preenchimento. Dessa forma, uma técnica capaz de auxiliar no processo de auditoria, processando o conjunto de dados do questionário e indicando quais potencialmente possuem erros de preenchimento, torna-se desejável. Uma limitação existente para a escolha da técnica a ser utilizada é a não disponibilidade dos registros de erros encontrados e corrigidos em auditorias anteriores. Assim, uma abordagem de aprendizado de máquina não supervisionado mostra-se adequada. O objetivo deste trabalho é aplicar o algoritmo de agrupamento Kmeans juntamente com o algoritmo de detecção de anomalias FindCBLOF ao conjunto de dados do questionário FRC, e analisar sua capacidade de identificar possíveis erros de preenchimento, através da introdução artificial de erros no conjunto de dados. A partir da aplicação dos algoritmos citados ao conjunto de dados do questionário FRC, extraídos da Plataforma Otus, observa-se que quase metade dos erros introduzidos são detectados, para um tipo de questão. Para outros tipos, a capacidade de detecção é inferior. Conclui-se que mais estudos são necessários para identificar técnicas com possam auxiliar de maneira mais efetiva a auditoria dos questionários do ELSA-Brasil.
id UFRGS-2_859dd664df0f08a5d5c72bad9d4dee1c
oai_identifier_str oai:www.lume.ufrgs.br:10183/213330
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Castro, Vinícius Fraga deRecamonde-Mendoza, Mariana2020-09-04T03:40:43Z2019http://hdl.handle.net/10183/213330001117331Em estudos epidemiológicos, a qualidade dos questionários e dos dados coletados são fatores determinantes para a validade das conclusões. Nesse contexto, o Estudo Longitudinal de Saúde do Adulto (ELSA-Brasil) – o maior estudo epidemiológico em desenvolvimento na América Latina – adota variadas estratégias de controle de qualidade, conforme o tipo de questionário aplicado. Um dos questionários aplicados no ELSA-Brasil é o Formulário de Revisão Cardiovascular (FRC), cujo preenchimento é feito por um médico especialista, a partir da análise de diversos exames e registros de procedimentos realizados pelo participante do estudo, relacionados a eventos cardiovasculares. Como a entrada dos dados é manual, e muitos dos registros são em papel, esta atividade é propensa a erros. O FRC passa por um processo de auditoria, onde é realizada uma amostragem dos questionários, cujas respostas são conferidas manualmente na Plataforma Otus – plataforma tecnológica oferecida pela empresa Otus Solutions, para construção de questionários e gerenciamento de entrevistas – a fim de identificar possíveis erros de preenchimento. Dessa forma, uma técnica capaz de auxiliar no processo de auditoria, processando o conjunto de dados do questionário e indicando quais potencialmente possuem erros de preenchimento, torna-se desejável. Uma limitação existente para a escolha da técnica a ser utilizada é a não disponibilidade dos registros de erros encontrados e corrigidos em auditorias anteriores. Assim, uma abordagem de aprendizado de máquina não supervisionado mostra-se adequada. O objetivo deste trabalho é aplicar o algoritmo de agrupamento Kmeans juntamente com o algoritmo de detecção de anomalias FindCBLOF ao conjunto de dados do questionário FRC, e analisar sua capacidade de identificar possíveis erros de preenchimento, através da introdução artificial de erros no conjunto de dados. A partir da aplicação dos algoritmos citados ao conjunto de dados do questionário FRC, extraídos da Plataforma Otus, observa-se que quase metade dos erros introduzidos são detectados, para um tipo de questão. Para outros tipos, a capacidade de detecção é inferior. Conclui-se que mais estudos são necessários para identificar técnicas com possam auxiliar de maneira mais efetiva a auditoria dos questionários do ELSA-Brasil.In epidemiological studies, the quality of questionnaires and collected data are determining factors for the legitimacy of conclusions. In this context the ELSA-Brasil (Estudo Longitudinal de Saúde do Adulto – Brazilian Longitudinal Study for Adult Health), the biggest epidemiological study in development in Latin America – adopts a variety of strategies for quality control, depending on the type of questionnaire that’s applied. One of these questionnaries is the FRC (Formulário de Revisão Cardiovascular – Cardiovascular Review Form) which is filled by a specialized doctor, according to their analysis of different exams and procedure records done by the study’s participant, related to cardiovascular incidents. Since data entry is manual and many of the records are done in paper, this activity is prone to mistakes. FRC passes through an auditorship process where a sample of the questionnaires is performed and its answers are manually checked in the Otus Platform – a technological platform offered by Otus Solutions to build questionnaires and manage interviews – aiming to identify possible filing errors. Thus, it becomes desirable to have a technique capable of assisting in the auditorship procedure, processing the questionnaire’s dataset and indicating which ones can potentially contain filing errors. An existing limitation to the choice of technique is the unavailability of error records found and corrected in previous auditorships. Thus, an unsupervised machine learning approach is suitable. This work aims to apply the clustering algorithm Kmeans and the outlier detection algorithm FindCBLOF to the FRC questionnaire dataset, to analyze its capability of identifying possible filing errors through introducting artificial errors to the dataset. When applying the previously mentioned algorithms to the FRC dataset, extracted from the Otus Patform, it is possible to observe that almost half of the introducted errors are detected, for one type of question. For other types, the detection ability is inferior. In is concluded that more studies are needed to identify techniques able to assist in a more effective way the auditorship of ELSA-Brazil questionnaires.application/pdfporInformáticaMachine learningOutlier detectionK-MeansFindCBLOFAuditoria em questionário de estudo epidemiológico utilizando os algoritmos K-Means e FindCBLOFAuditorship of epidemiological study questionnaire using the K-Means and FindCBLOF algorithms info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RSCiência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001117331.pdf.txt001117331.pdf.txtExtracted Texttext/plain77039http://www.lume.ufrgs.br/bitstream/10183/213330/2/001117331.pdf.txt911ad58fd668746e216479977681154aMD52ORIGINAL001117331.pdfTexto completoapplication/pdf667504http://www.lume.ufrgs.br/bitstream/10183/213330/1/001117331.pdf777e114f54a7e9e883334e7a6921aaabMD5110183/2133302020-09-05 03:49:08.402098oai:www.lume.ufrgs.br:10183/213330Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2020-09-05T06:49:08Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Auditoria em questionário de estudo epidemiológico utilizando os algoritmos K-Means e FindCBLOF
dc.title.alternative.en.fl_str_mv Auditorship of epidemiological study questionnaire using the K-Means and FindCBLOF algorithms
title Auditoria em questionário de estudo epidemiológico utilizando os algoritmos K-Means e FindCBLOF
spellingShingle Auditoria em questionário de estudo epidemiológico utilizando os algoritmos K-Means e FindCBLOF
Castro, Vinícius Fraga de
Informática
Machine learning
Outlier detection
K-Means
FindCBLOF
title_short Auditoria em questionário de estudo epidemiológico utilizando os algoritmos K-Means e FindCBLOF
title_full Auditoria em questionário de estudo epidemiológico utilizando os algoritmos K-Means e FindCBLOF
title_fullStr Auditoria em questionário de estudo epidemiológico utilizando os algoritmos K-Means e FindCBLOF
title_full_unstemmed Auditoria em questionário de estudo epidemiológico utilizando os algoritmos K-Means e FindCBLOF
title_sort Auditoria em questionário de estudo epidemiológico utilizando os algoritmos K-Means e FindCBLOF
author Castro, Vinícius Fraga de
author_facet Castro, Vinícius Fraga de
author_role author
dc.contributor.author.fl_str_mv Castro, Vinícius Fraga de
dc.contributor.advisor1.fl_str_mv Recamonde-Mendoza, Mariana
contributor_str_mv Recamonde-Mendoza, Mariana
dc.subject.por.fl_str_mv Informática
topic Informática
Machine learning
Outlier detection
K-Means
FindCBLOF
dc.subject.eng.fl_str_mv Machine learning
Outlier detection
K-Means
FindCBLOF
description Em estudos epidemiológicos, a qualidade dos questionários e dos dados coletados são fatores determinantes para a validade das conclusões. Nesse contexto, o Estudo Longitudinal de Saúde do Adulto (ELSA-Brasil) – o maior estudo epidemiológico em desenvolvimento na América Latina – adota variadas estratégias de controle de qualidade, conforme o tipo de questionário aplicado. Um dos questionários aplicados no ELSA-Brasil é o Formulário de Revisão Cardiovascular (FRC), cujo preenchimento é feito por um médico especialista, a partir da análise de diversos exames e registros de procedimentos realizados pelo participante do estudo, relacionados a eventos cardiovasculares. Como a entrada dos dados é manual, e muitos dos registros são em papel, esta atividade é propensa a erros. O FRC passa por um processo de auditoria, onde é realizada uma amostragem dos questionários, cujas respostas são conferidas manualmente na Plataforma Otus – plataforma tecnológica oferecida pela empresa Otus Solutions, para construção de questionários e gerenciamento de entrevistas – a fim de identificar possíveis erros de preenchimento. Dessa forma, uma técnica capaz de auxiliar no processo de auditoria, processando o conjunto de dados do questionário e indicando quais potencialmente possuem erros de preenchimento, torna-se desejável. Uma limitação existente para a escolha da técnica a ser utilizada é a não disponibilidade dos registros de erros encontrados e corrigidos em auditorias anteriores. Assim, uma abordagem de aprendizado de máquina não supervisionado mostra-se adequada. O objetivo deste trabalho é aplicar o algoritmo de agrupamento Kmeans juntamente com o algoritmo de detecção de anomalias FindCBLOF ao conjunto de dados do questionário FRC, e analisar sua capacidade de identificar possíveis erros de preenchimento, através da introdução artificial de erros no conjunto de dados. A partir da aplicação dos algoritmos citados ao conjunto de dados do questionário FRC, extraídos da Plataforma Otus, observa-se que quase metade dos erros introduzidos são detectados, para um tipo de questão. Para outros tipos, a capacidade de detecção é inferior. Conclui-se que mais estudos são necessários para identificar técnicas com possam auxiliar de maneira mais efetiva a auditoria dos questionários do ELSA-Brasil.
publishDate 2019
dc.date.issued.fl_str_mv 2019
dc.date.accessioned.fl_str_mv 2020-09-04T03:40:43Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/213330
dc.identifier.nrb.pt_BR.fl_str_mv 001117331
url http://hdl.handle.net/10183/213330
identifier_str_mv 001117331
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/213330/2/001117331.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/213330/1/001117331.pdf
bitstream.checksum.fl_str_mv 911ad58fd668746e216479977681154a
777e114f54a7e9e883334e7a6921aaab
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224597867069440