Análise da incompletude na inferência estatística : uma aplicação em dados clínicos

Detalhes bibliográficos
Autor(a) principal: Carvalho, Melissa Mello de
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPR
Texto Completo: https://hdl.handle.net/1884/69481
Resumo: Orientador : Prof. Dr. Geraldo Picheth
id UFPR_fca685e357493793664bcf470877ee48
oai_identifier_str oai:acervodigital.ufpr.br:1884/69481
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str 308
spelling Costa, Paulo Afonso Bracarense, 1957-Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em BioinformáticaPicheth, Geraldo, 1955-Carvalho, Melissa Mello de2023-02-07T23:43:34Z2023-02-07T23:43:34Z2017https://hdl.handle.net/1884/69481Orientador : Prof. Dr. Geraldo PichethCoorientador : Prof. Dr. Paulo Afonso Bracarense da CostaDissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa: Curitiba, 10/03/2017Inclui referências : p. 59-65Resumo: Lacunas são comuns a pesquisa empírica, em especial na área da saúde, onde a falta de dados é muitas vezes um fator inevitável devido à logística da captação de informações. Essa incompletude é danosa à análise de dados, tal como em um modelo de decisão ou de triagem clínica, pois a inferência estatística é afetada por incertezas da falta de conhecimento. As lacunas são empecilhos às análises paramétricas e a alguns softwares estatísticos. Assim, grande parte dos pesquisadores aplicam métodos de seleção, exclusão e imputação de informações faltantes. Entretanto, a prática de imputação pode não ser trivial, especialmente na presença atributos multivariados: a dificuldade de estimar valores adequados pode adicionar vieses e incertezas não desejáveis à análise de características e à decisão. Os dados analisados são provenientes do banco de dados do biorrepositório do laboratório de Bioquímica Clínica I e II da Universidade Federal do Paraná, sem incompletudes e em observação transversal em um modelo de decisão diagnóstico e de acompanhamento do Diabetes mellitus do tipo 2 (DM2). Todas as variáveis disponíveis à decisão têm apresentação multivariada. Para a discussão sobre os impactos e consequências da falta de dados são criadas, a partir da população, amostras com porcentagens de lacunas obtidas de maneira totalmente randômica (MCAR). A incompletude e suas incertezas são exploradas sem a imputação dos valores faltantes e os resultados comparados aos dados completos. A discussão de incertezas, vieses e distorções ocasionados pela incompletude e pelo método de análise caso completo são embasadas na aplicação da correlação ? de Kendall no software R, e análises classificatórias e preditivas com algoritmos de redes neuronais artificiais e algoritmos fuzzy rough do software WEKA. O ? de Kendall demonstrou ser um método de correlação robusto à análise de informações com incompletudes. As amostras com incompletudes não imputadas apresentaram poder de correlação com baixa variabilidade em relação à população do estudo e eficiente discernibilidade de características. Na classificação, o algoritmo fuzzy rough Discernibility Classifier demonstrou que a discernibilidade aliada ao método fuzzy rough é útil na classificação do modelo de decisão estudado, a alta cobertura de dados classificados demonstra sua capacidade em relação à incompletude de dados e à incerteza. Palavras-chave: Dados faltantes, Correlação ? de Kendall, Conjuntos rugosos fuzzy, Classificadores, Redes neuronais artificiais, Diabetes.Abstract: Gaps are common to empirical research, especially in the area of health, where lack of data is often an unavoidable factor due to the information gathering logistics. This incompleteness is damaging to data analysis, such as in a decision model or clinical screening, as statistical inference is affected by lack of knowledge uncertainties. The gaps are a hindrance to parametric analysis and some statistical software. Thus, most researchers apply selection, exclusion and imputation of missing information methods. However, the imputation practice may not be trivial, especially in the presence of multivariate attributes: the difficulty of estimating adequate values may add biases and undesirable uncertainties to the analysis of characteristics and decision. The analyzed data hails from the biorepository database of the Clinical Biochemistry I and II laboratory of the Federal University of Paraná, without incompleteness and cross-sectional observation in a model for the diagnosis and follow-up of Diabetes mellitus type 2 (DM2). All variables available to the decision have a multivariate presentation. For the discussion of the impacts and consequences of the lack of data, samples with percentages of gaps obtained in a totally random manner (MCAR) are created from the population. The incompleteness and its uncertainties are explored without imputation of the missing values and the results compared to the complete data. The discussion of uncertainties, biases and distortions caused by incompleteness and by the complete case analysis method is based on the application of ?-Kendall correlation in the R software, and classificatory and predictive analysis with algorithms of artificial neural networks and fuzzy rough algorithms of the WEKA software. Kendall's ? has been shown to be a robust method of correlation to incomplete information analysis. Samples with uncorrected incompleteness showed low variability correlation power in relation to the population of study and efficient characteristics discernibility. In the classification, the Fuzzy Rough Discernibility Classifier algorithm demonstrated that the discernibility allied to the fuzzy rough method is useful in the classification of the decision model studied. The high coverage of classified data demonstrates its capacity in relation to data incompleteness and uncertainty. Key-words: Missing data, Correlation ? de Kendall, Fuzzy rough sets, Classifiers, Artificial neural networks, Diabetes.149 f. : il., tabs.application/pdfDisponível em formato digitalBioinformáticaExames laboratoriaisDiabetesRedes neurais (Computação)Análise da incompletude na inferência estatística : uma aplicação em dados clínicosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - MELISSA MELLO DE CARVALHO.pdfapplication/pdf2198221https://acervodigital.ufpr.br/bitstream/1884/69481/1/R%20-%20D%20-%20MELISSA%20MELLO%20DE%20CARVALHO.pdfa06eb08348a3b55a18bdbe99b374b04dMD51open access1884/694812023-02-07 20:43:34.461open accessoai:acervodigital.ufpr.br:1884/69481Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082023-02-07T23:43:34Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Análise da incompletude na inferência estatística : uma aplicação em dados clínicos
title Análise da incompletude na inferência estatística : uma aplicação em dados clínicos
spellingShingle Análise da incompletude na inferência estatística : uma aplicação em dados clínicos
Carvalho, Melissa Mello de
Bioinformática
Exames laboratoriais
Diabetes
Redes neurais (Computação)
title_short Análise da incompletude na inferência estatística : uma aplicação em dados clínicos
title_full Análise da incompletude na inferência estatística : uma aplicação em dados clínicos
title_fullStr Análise da incompletude na inferência estatística : uma aplicação em dados clínicos
title_full_unstemmed Análise da incompletude na inferência estatística : uma aplicação em dados clínicos
title_sort Análise da incompletude na inferência estatística : uma aplicação em dados clínicos
author Carvalho, Melissa Mello de
author_facet Carvalho, Melissa Mello de
author_role author
dc.contributor.other.pt_BR.fl_str_mv Costa, Paulo Afonso Bracarense, 1957-
Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática
dc.contributor.advisor1.fl_str_mv Picheth, Geraldo, 1955-
dc.contributor.author.fl_str_mv Carvalho, Melissa Mello de
contributor_str_mv Picheth, Geraldo, 1955-
dc.subject.por.fl_str_mv Bioinformática
Exames laboratoriais
Diabetes
Redes neurais (Computação)
topic Bioinformática
Exames laboratoriais
Diabetes
Redes neurais (Computação)
description Orientador : Prof. Dr. Geraldo Picheth
publishDate 2017
dc.date.issued.fl_str_mv 2017
dc.date.accessioned.fl_str_mv 2023-02-07T23:43:34Z
dc.date.available.fl_str_mv 2023-02-07T23:43:34Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/69481
url https://hdl.handle.net/1884/69481
dc.language.iso.fl_str_mv por
language por
dc.relation.pt_BR.fl_str_mv Disponível em formato digital
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 149 f. : il., tabs.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/69481/1/R%20-%20D%20-%20MELISSA%20MELLO%20DE%20CARVALHO.pdf
bitstream.checksum.fl_str_mv a06eb08348a3b55a18bdbe99b374b04d
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_ 1801860489657974784