Comparação de métodos de imputação para dados de pecuária de precisão

Brancaglioni, Vivian Aparecida

Comparação de métodos de imputação para dados de pecuária de precisão

Detalhes bibliográficos
Autor(a) principal:	Brancaglioni, Vivian Aparecida
Data de Publicação:	2023
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da USP
Texto Completo:	https://www.teses.usp.br/teses/disponiveis/11/11134/tde-05062023-144256/
Resumo:	Durante a condução de um experimento ou pesquisa é comum existir perda de informação, seja por preenchimento incorreto do banco de dados ou por falta de informação para algumas observações de determinada variável. Isso ocorre por motivos que muitas vezes não se sabe definir, d essa forma, o valor que deveria ter sido coletado se configura como valor ausente, tornando o conjunto de dados obtido incompleto. Estudos com a presença de observações ausentes são muito comuns em grande parte das áreas do conhecimento, e com dados obtidos a partir da pecuária da precisão não seria diferente. Dados de pecuária de precisão auxiliam o setor agropecuário a acompanhar, mapear e identificar problemas e buscar soluções. O conjunto de dados utilizado neste trabalho provém da pecuária de precisão, no qual pode-se acompanhar a oscilação de peso de 38 animais, das raças Nelore e Cruzado Britânico, divididos entre macho inteiro e macho castrado. Esses dados foram coletados a partir de um sistema de plataforma de pesagem automática. No entanto, durante as pesagens algumas informações de peso foram perdidas e o objetivo deste trabalho foi comparar o desempenho de quatro métodos de imputação de dados da classe MICE, implementados no software R por meio do pacote mice: método de média preditiva (PMM), método baseado na regressão linear bayesiana (BLR), árvore de classificação e regressão (CART) e floresta aleatória (RF). Esses métodos foram comparados por meio de quatro critérios, raiz do erro quadrático médio (RMSE), pelo coeficiente d e correlação d e Pearson, índice de acurácia de Willmott e índice de desempenho. A análise foi conduzida da seguinte forma: primeiro foram removidas as observações com valor de peso faltante do conjunto de dados original, obtendo-se um conjunto completo; e a partir dele foram criados novos bancos com diferentes porcentagens de dados faltantes, 5%, 10% e 15%, removidos aleatoriamente. A partir desses novos cenários obtidos, cada um dos métodos foram aplicados, sendo consideradas 5 e 10 iterações. Pôde-se observar que não houve diferença para as imputações em todos os métodos e cenários com relação a quantidade de iterações. Fixando-se os métodos e comparando as diferentes proporções de dados faltantes, observou-se uma diminuição da variabilidade das medidas que envolvem os critérios de comparação para os diferentes métodos, exceto para o método de floresta aleatória, para maior quantidade de ausências. Quando comparados os métodos, fixando-se os cenários, foi possível observar que o método de árvore de classificação e r egressão teve melhor desempenho e o método de floresta aleatória se destacou de forma negativa. Ao aplicar os métodos no conjunto de dados originais, foi observado resultado semelhante, sendo o método CART o mais adequado para substituir os valores faltantes.

Metadados do item

id	USP_046dcd892fcbf2902e1b4d6343a8f842
oai_identifier_str	oai:teses.usp.br:tde-05062023-144256
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str	2721
spelling	Comparação de métodos de imputação para dados de pecuária de precisãoComparison of imputation methods for precision livestock dataDados longitudinaisImputação múltiplaImputation methodsLongitudinal dataMétodos de imputaçãoMICEMICEMultiple imputationDurante a condução de um experimento ou pesquisa é comum existir perda de informação, seja por preenchimento incorreto do banco de dados ou por falta de informação para algumas observações de determinada variável. Isso ocorre por motivos que muitas vezes não se sabe definir, d essa forma, o valor que deveria ter sido coletado se configura como valor ausente, tornando o conjunto de dados obtido incompleto. Estudos com a presença de observações ausentes são muito comuns em grande parte das áreas do conhecimento, e com dados obtidos a partir da pecuária da precisão não seria diferente. Dados de pecuária de precisão auxiliam o setor agropecuário a acompanhar, mapear e identificar problemas e buscar soluções. O conjunto de dados utilizado neste trabalho provém da pecuária de precisão, no qual pode-se acompanhar a oscilação de peso de 38 animais, das raças Nelore e Cruzado Britânico, divididos entre macho inteiro e macho castrado. Esses dados foram coletados a partir de um sistema de plataforma de pesagem automática. No entanto, durante as pesagens algumas informações de peso foram perdidas e o objetivo deste trabalho foi comparar o desempenho de quatro métodos de imputação de dados da classe MICE, implementados no software R por meio do pacote mice: método de média preditiva (PMM), método baseado na regressão linear bayesiana (BLR), árvore de classificação e regressão (CART) e floresta aleatória (RF). Esses métodos foram comparados por meio de quatro critérios, raiz do erro quadrático médio (RMSE), pelo coeficiente d e correlação d e Pearson, índice de acurácia de Willmott e índice de desempenho. A análise foi conduzida da seguinte forma: primeiro foram removidas as observações com valor de peso faltante do conjunto de dados original, obtendo-se um conjunto completo; e a partir dele foram criados novos bancos com diferentes porcentagens de dados faltantes, 5%, 10% e 15%, removidos aleatoriamente. A partir desses novos cenários obtidos, cada um dos métodos foram aplicados, sendo consideradas 5 e 10 iterações. Pôde-se observar que não houve diferença para as imputações em todos os métodos e cenários com relação a quantidade de iterações. Fixando-se os métodos e comparando as diferentes proporções de dados faltantes, observou-se uma diminuição da variabilidade das medidas que envolvem os critérios de comparação para os diferentes métodos, exceto para o método de floresta aleatória, para maior quantidade de ausências. Quando comparados os métodos, fixando-se os cenários, foi possível observar que o método de árvore de classificação e r egressão teve melhor desempenho e o método de floresta aleatória se destacou de forma negativa. Ao aplicar os métodos no conjunto de dados originais, foi observado resultado semelhante, sendo o método CART o mais adequado para substituir os valores faltantes.During experiments or research it is common for information to be lost, either by incorrectly filling out the database or by lack of information for some observations of a particular variable. This occurs for reasons that often cannot be defined so that the value that should have been collected is configured as a missing value, making the data set obtained incomplete. Studies with missing observations are very common in most areas of knowledge, and with data obtained from precision farming, it would be no different. Precision livestock data helps the agricultural sector to track, map, and identify problems and seek solutions. The data set used in this work comes from precision cattle breeding, where it is possible to follow the oscillation of weight of 38 animals, of the Nelore and “Cruzado Britânico” breeds, divided into full male and castrated males. These data were collected from an automatic weighing platform system. However, during the weightings, some weight information was lost and the objective of this work was to compare the performance of four MICE class data imputation methods, implemented in software R by means of the mice package: predictive mean method (PMM), Bayesian linear regression (BLR) based method, classification and regression tree (CART) and random forest (RF). These methods were compared using four criteria, root mean square error (RMSE), Pearson’s correlation coefficient, Willmott’s accuracy index, and performance index. The analysis was conducted as follows: first, observations with a missing weight value were removed from the original data set, obtaining a complete set; and from it, new databases were created with different percentages of missing data, 5%, 10%, and 15%. From these new obtained scenarios each of the methods was applied, with 5 and 10 iterations being considered. It could be observed that there was no difference in the imputations in all methods and scenarios regarding the number of iterations. By fixing the methods and comparing the different proportions of missing data, a decrease in the variability of the measures involving the comparison criteria was observed for the different methods, except for the random forest method, for a larger amount of missing data. When comparing the methods, and setting the scenarios, it was possible to observe that the classification and regression tree method performed better, and the random forest method stood out in a negative way. When applying the methods to the original data set, a similar result was observed, with the CART method being the most suitable to replace the missing values.Biblioteca Digitais de Teses e Dissertações da USPDias, Carlos Tadeu dos SantosBrancaglioni, Vivian Aparecida2023-04-05info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/11/11134/tde-05062023-144256/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-06-06T13:23:39Zoai:teses.usp.br:tde-05062023-144256Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212023-06-06T13:23:39Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Comparação de métodos de imputação para dados de pecuária de precisão Comparison of imputation methods for precision livestock data
title	Comparação de métodos de imputação para dados de pecuária de precisão
spellingShingle	Comparação de métodos de imputação para dados de pecuária de precisão Brancaglioni, Vivian Aparecida Dados longitudinais Imputação múltipla Imputation methods Longitudinal data Métodos de imputação MICE MICE Multiple imputation
title_short	Comparação de métodos de imputação para dados de pecuária de precisão
title_full	Comparação de métodos de imputação para dados de pecuária de precisão
title_fullStr	Comparação de métodos de imputação para dados de pecuária de precisão
title_full_unstemmed	Comparação de métodos de imputação para dados de pecuária de precisão
title_sort	Comparação de métodos de imputação para dados de pecuária de precisão
author	Brancaglioni, Vivian Aparecida
author_facet	Brancaglioni, Vivian Aparecida
author_role	author
dc.contributor.none.fl_str_mv	Dias, Carlos Tadeu dos Santos
dc.contributor.author.fl_str_mv	Brancaglioni, Vivian Aparecida
dc.subject.por.fl_str_mv	Dados longitudinais Imputação múltipla Imputation methods Longitudinal data Métodos de imputação MICE MICE Multiple imputation
topic	Dados longitudinais Imputação múltipla Imputation methods Longitudinal data Métodos de imputação MICE MICE Multiple imputation
description	Durante a condução de um experimento ou pesquisa é comum existir perda de informação, seja por preenchimento incorreto do banco de dados ou por falta de informação para algumas observações de determinada variável. Isso ocorre por motivos que muitas vezes não se sabe definir, d essa forma, o valor que deveria ter sido coletado se configura como valor ausente, tornando o conjunto de dados obtido incompleto. Estudos com a presença de observações ausentes são muito comuns em grande parte das áreas do conhecimento, e com dados obtidos a partir da pecuária da precisão não seria diferente. Dados de pecuária de precisão auxiliam o setor agropecuário a acompanhar, mapear e identificar problemas e buscar soluções. O conjunto de dados utilizado neste trabalho provém da pecuária de precisão, no qual pode-se acompanhar a oscilação de peso de 38 animais, das raças Nelore e Cruzado Britânico, divididos entre macho inteiro e macho castrado. Esses dados foram coletados a partir de um sistema de plataforma de pesagem automática. No entanto, durante as pesagens algumas informações de peso foram perdidas e o objetivo deste trabalho foi comparar o desempenho de quatro métodos de imputação de dados da classe MICE, implementados no software R por meio do pacote mice: método de média preditiva (PMM), método baseado na regressão linear bayesiana (BLR), árvore de classificação e regressão (CART) e floresta aleatória (RF). Esses métodos foram comparados por meio de quatro critérios, raiz do erro quadrático médio (RMSE), pelo coeficiente d e correlação d e Pearson, índice de acurácia de Willmott e índice de desempenho. A análise foi conduzida da seguinte forma: primeiro foram removidas as observações com valor de peso faltante do conjunto de dados original, obtendo-se um conjunto completo; e a partir dele foram criados novos bancos com diferentes porcentagens de dados faltantes, 5%, 10% e 15%, removidos aleatoriamente. A partir desses novos cenários obtidos, cada um dos métodos foram aplicados, sendo consideradas 5 e 10 iterações. Pôde-se observar que não houve diferença para as imputações em todos os métodos e cenários com relação a quantidade de iterações. Fixando-se os métodos e comparando as diferentes proporções de dados faltantes, observou-se uma diminuição da variabilidade das medidas que envolvem os critérios de comparação para os diferentes métodos, exceto para o método de floresta aleatória, para maior quantidade de ausências. Quando comparados os métodos, fixando-se os cenários, foi possível observar que o método de árvore de classificação e r egressão teve melhor desempenho e o método de floresta aleatória se destacou de forma negativa. Ao aplicar os métodos no conjunto de dados originais, foi observado resultado semelhante, sendo o método CART o mais adequado para substituir os valores faltantes.
publishDate	2023
dc.date.none.fl_str_mv	2023-04-05
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/11/11134/tde-05062023-144256/
url	https://www.teses.usp.br/teses/disponiveis/11/11134/tde-05062023-144256/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1815256696284512256

Comparação de métodos de imputação para dados de pecuária de precisão

Registros relacionados