Auditoria em questionário de estudo epidemiológico utilizando os algoritmos K-Means e FindCBLOF
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/213330 |
Resumo: | Em estudos epidemiológicos, a qualidade dos questionários e dos dados coletados são fatores determinantes para a validade das conclusões. Nesse contexto, o Estudo Longitudinal de Saúde do Adulto (ELSA-Brasil) – o maior estudo epidemiológico em desenvolvimento na América Latina – adota variadas estratégias de controle de qualidade, conforme o tipo de questionário aplicado. Um dos questionários aplicados no ELSA-Brasil é o Formulário de Revisão Cardiovascular (FRC), cujo preenchimento é feito por um médico especialista, a partir da análise de diversos exames e registros de procedimentos realizados pelo participante do estudo, relacionados a eventos cardiovasculares. Como a entrada dos dados é manual, e muitos dos registros são em papel, esta atividade é propensa a erros. O FRC passa por um processo de auditoria, onde é realizada uma amostragem dos questionários, cujas respostas são conferidas manualmente na Plataforma Otus – plataforma tecnológica oferecida pela empresa Otus Solutions, para construção de questionários e gerenciamento de entrevistas – a fim de identificar possíveis erros de preenchimento. Dessa forma, uma técnica capaz de auxiliar no processo de auditoria, processando o conjunto de dados do questionário e indicando quais potencialmente possuem erros de preenchimento, torna-se desejável. Uma limitação existente para a escolha da técnica a ser utilizada é a não disponibilidade dos registros de erros encontrados e corrigidos em auditorias anteriores. Assim, uma abordagem de aprendizado de máquina não supervisionado mostra-se adequada. O objetivo deste trabalho é aplicar o algoritmo de agrupamento Kmeans juntamente com o algoritmo de detecção de anomalias FindCBLOF ao conjunto de dados do questionário FRC, e analisar sua capacidade de identificar possíveis erros de preenchimento, através da introdução artificial de erros no conjunto de dados. A partir da aplicação dos algoritmos citados ao conjunto de dados do questionário FRC, extraídos da Plataforma Otus, observa-se que quase metade dos erros introduzidos são detectados, para um tipo de questão. Para outros tipos, a capacidade de detecção é inferior. Conclui-se que mais estudos são necessários para identificar técnicas com possam auxiliar de maneira mais efetiva a auditoria dos questionários do ELSA-Brasil. |
id |
UFRGS-2_859dd664df0f08a5d5c72bad9d4dee1c |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/213330 |
network_acronym_str |
UFRGS-2 |
network_name_str |
Repositório Institucional da UFRGS |
repository_id_str |
|
spelling |
Castro, Vinícius Fraga deRecamonde-Mendoza, Mariana2020-09-04T03:40:43Z2019http://hdl.handle.net/10183/213330001117331Em estudos epidemiológicos, a qualidade dos questionários e dos dados coletados são fatores determinantes para a validade das conclusões. Nesse contexto, o Estudo Longitudinal de Saúde do Adulto (ELSA-Brasil) – o maior estudo epidemiológico em desenvolvimento na América Latina – adota variadas estratégias de controle de qualidade, conforme o tipo de questionário aplicado. Um dos questionários aplicados no ELSA-Brasil é o Formulário de Revisão Cardiovascular (FRC), cujo preenchimento é feito por um médico especialista, a partir da análise de diversos exames e registros de procedimentos realizados pelo participante do estudo, relacionados a eventos cardiovasculares. Como a entrada dos dados é manual, e muitos dos registros são em papel, esta atividade é propensa a erros. O FRC passa por um processo de auditoria, onde é realizada uma amostragem dos questionários, cujas respostas são conferidas manualmente na Plataforma Otus – plataforma tecnológica oferecida pela empresa Otus Solutions, para construção de questionários e gerenciamento de entrevistas – a fim de identificar possíveis erros de preenchimento. Dessa forma, uma técnica capaz de auxiliar no processo de auditoria, processando o conjunto de dados do questionário e indicando quais potencialmente possuem erros de preenchimento, torna-se desejável. Uma limitação existente para a escolha da técnica a ser utilizada é a não disponibilidade dos registros de erros encontrados e corrigidos em auditorias anteriores. Assim, uma abordagem de aprendizado de máquina não supervisionado mostra-se adequada. O objetivo deste trabalho é aplicar o algoritmo de agrupamento Kmeans juntamente com o algoritmo de detecção de anomalias FindCBLOF ao conjunto de dados do questionário FRC, e analisar sua capacidade de identificar possíveis erros de preenchimento, através da introdução artificial de erros no conjunto de dados. A partir da aplicação dos algoritmos citados ao conjunto de dados do questionário FRC, extraídos da Plataforma Otus, observa-se que quase metade dos erros introduzidos são detectados, para um tipo de questão. Para outros tipos, a capacidade de detecção é inferior. Conclui-se que mais estudos são necessários para identificar técnicas com possam auxiliar de maneira mais efetiva a auditoria dos questionários do ELSA-Brasil.In epidemiological studies, the quality of questionnaires and collected data are determining factors for the legitimacy of conclusions. In this context the ELSA-Brasil (Estudo Longitudinal de Saúde do Adulto – Brazilian Longitudinal Study for Adult Health), the biggest epidemiological study in development in Latin America – adopts a variety of strategies for quality control, depending on the type of questionnaire that’s applied. One of these questionnaries is the FRC (Formulário de Revisão Cardiovascular – Cardiovascular Review Form) which is filled by a specialized doctor, according to their analysis of different exams and procedure records done by the study’s participant, related to cardiovascular incidents. Since data entry is manual and many of the records are done in paper, this activity is prone to mistakes. FRC passes through an auditorship process where a sample of the questionnaires is performed and its answers are manually checked in the Otus Platform – a technological platform offered by Otus Solutions to build questionnaires and manage interviews – aiming to identify possible filing errors. Thus, it becomes desirable to have a technique capable of assisting in the auditorship procedure, processing the questionnaire’s dataset and indicating which ones can potentially contain filing errors. An existing limitation to the choice of technique is the unavailability of error records found and corrected in previous auditorships. Thus, an unsupervised machine learning approach is suitable. This work aims to apply the clustering algorithm Kmeans and the outlier detection algorithm FindCBLOF to the FRC questionnaire dataset, to analyze its capability of identifying possible filing errors through introducting artificial errors to the dataset. When applying the previously mentioned algorithms to the FRC dataset, extracted from the Otus Patform, it is possible to observe that almost half of the introducted errors are detected, for one type of question. For other types, the detection ability is inferior. In is concluded that more studies are needed to identify techniques able to assist in a more effective way the auditorship of ELSA-Brazil questionnaires.application/pdfporInformáticaMachine learningOutlier detectionK-MeansFindCBLOFAuditoria em questionário de estudo epidemiológico utilizando os algoritmos K-Means e FindCBLOFAuditorship of epidemiological study questionnaire using the K-Means and FindCBLOF algorithms info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RSCiência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001117331.pdf.txt001117331.pdf.txtExtracted Texttext/plain77039http://www.lume.ufrgs.br/bitstream/10183/213330/2/001117331.pdf.txt911ad58fd668746e216479977681154aMD52ORIGINAL001117331.pdfTexto completoapplication/pdf667504http://www.lume.ufrgs.br/bitstream/10183/213330/1/001117331.pdf777e114f54a7e9e883334e7a6921aaabMD5110183/2133302020-09-05 03:49:08.402098oai:www.lume.ufrgs.br:10183/213330Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2020-09-05T06:49:08Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Auditoria em questionário de estudo epidemiológico utilizando os algoritmos K-Means e FindCBLOF |
dc.title.alternative.en.fl_str_mv |
Auditorship of epidemiological study questionnaire using the K-Means and FindCBLOF algorithms |
title |
Auditoria em questionário de estudo epidemiológico utilizando os algoritmos K-Means e FindCBLOF |
spellingShingle |
Auditoria em questionário de estudo epidemiológico utilizando os algoritmos K-Means e FindCBLOF Castro, Vinícius Fraga de Informática Machine learning Outlier detection K-Means FindCBLOF |
title_short |
Auditoria em questionário de estudo epidemiológico utilizando os algoritmos K-Means e FindCBLOF |
title_full |
Auditoria em questionário de estudo epidemiológico utilizando os algoritmos K-Means e FindCBLOF |
title_fullStr |
Auditoria em questionário de estudo epidemiológico utilizando os algoritmos K-Means e FindCBLOF |
title_full_unstemmed |
Auditoria em questionário de estudo epidemiológico utilizando os algoritmos K-Means e FindCBLOF |
title_sort |
Auditoria em questionário de estudo epidemiológico utilizando os algoritmos K-Means e FindCBLOF |
author |
Castro, Vinícius Fraga de |
author_facet |
Castro, Vinícius Fraga de |
author_role |
author |
dc.contributor.author.fl_str_mv |
Castro, Vinícius Fraga de |
dc.contributor.advisor1.fl_str_mv |
Recamonde-Mendoza, Mariana |
contributor_str_mv |
Recamonde-Mendoza, Mariana |
dc.subject.por.fl_str_mv |
Informática |
topic |
Informática Machine learning Outlier detection K-Means FindCBLOF |
dc.subject.eng.fl_str_mv |
Machine learning Outlier detection K-Means FindCBLOF |
description |
Em estudos epidemiológicos, a qualidade dos questionários e dos dados coletados são fatores determinantes para a validade das conclusões. Nesse contexto, o Estudo Longitudinal de Saúde do Adulto (ELSA-Brasil) – o maior estudo epidemiológico em desenvolvimento na América Latina – adota variadas estratégias de controle de qualidade, conforme o tipo de questionário aplicado. Um dos questionários aplicados no ELSA-Brasil é o Formulário de Revisão Cardiovascular (FRC), cujo preenchimento é feito por um médico especialista, a partir da análise de diversos exames e registros de procedimentos realizados pelo participante do estudo, relacionados a eventos cardiovasculares. Como a entrada dos dados é manual, e muitos dos registros são em papel, esta atividade é propensa a erros. O FRC passa por um processo de auditoria, onde é realizada uma amostragem dos questionários, cujas respostas são conferidas manualmente na Plataforma Otus – plataforma tecnológica oferecida pela empresa Otus Solutions, para construção de questionários e gerenciamento de entrevistas – a fim de identificar possíveis erros de preenchimento. Dessa forma, uma técnica capaz de auxiliar no processo de auditoria, processando o conjunto de dados do questionário e indicando quais potencialmente possuem erros de preenchimento, torna-se desejável. Uma limitação existente para a escolha da técnica a ser utilizada é a não disponibilidade dos registros de erros encontrados e corrigidos em auditorias anteriores. Assim, uma abordagem de aprendizado de máquina não supervisionado mostra-se adequada. O objetivo deste trabalho é aplicar o algoritmo de agrupamento Kmeans juntamente com o algoritmo de detecção de anomalias FindCBLOF ao conjunto de dados do questionário FRC, e analisar sua capacidade de identificar possíveis erros de preenchimento, através da introdução artificial de erros no conjunto de dados. A partir da aplicação dos algoritmos citados ao conjunto de dados do questionário FRC, extraídos da Plataforma Otus, observa-se que quase metade dos erros introduzidos são detectados, para um tipo de questão. Para outros tipos, a capacidade de detecção é inferior. Conclui-se que mais estudos são necessários para identificar técnicas com possam auxiliar de maneira mais efetiva a auditoria dos questionários do ELSA-Brasil. |
publishDate |
2019 |
dc.date.issued.fl_str_mv |
2019 |
dc.date.accessioned.fl_str_mv |
2020-09-04T03:40:43Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/213330 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001117331 |
url |
http://hdl.handle.net/10183/213330 |
identifier_str_mv |
001117331 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Repositório Institucional da UFRGS |
collection |
Repositório Institucional da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/213330/2/001117331.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/213330/1/001117331.pdf |
bitstream.checksum.fl_str_mv |
911ad58fd668746e216479977681154a 777e114f54a7e9e883334e7a6921aaab |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
|
_version_ |
1801224597867069440 |