Comparação de métodos de imputação para dados de pecuária de precisão
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/11/11134/tde-05062023-144256/ |
Resumo: | Durante a condução de um experimento ou pesquisa é comum existir perda de informação, seja por preenchimento incorreto do banco de dados ou por falta de informação para algumas observações de determinada variável. Isso ocorre por motivos que muitas vezes não se sabe definir, d essa forma, o valor que deveria ter sido coletado se configura como valor ausente, tornando o conjunto de dados obtido incompleto. Estudos com a presença de observações ausentes são muito comuns em grande parte das áreas do conhecimento, e com dados obtidos a partir da pecuária da precisão não seria diferente. Dados de pecuária de precisão auxiliam o setor agropecuário a acompanhar, mapear e identificar problemas e buscar soluções. O conjunto de dados utilizado neste trabalho provém da pecuária de precisão, no qual pode-se acompanhar a oscilação de peso de 38 animais, das raças Nelore e Cruzado Britânico, divididos entre macho inteiro e macho castrado. Esses dados foram coletados a partir de um sistema de plataforma de pesagem automática. No entanto, durante as pesagens algumas informações de peso foram perdidas e o objetivo deste trabalho foi comparar o desempenho de quatro métodos de imputação de dados da classe MICE, implementados no software R por meio do pacote mice: método de média preditiva (PMM), método baseado na regressão linear bayesiana (BLR), árvore de classificação e regressão (CART) e floresta aleatória (RF). Esses métodos foram comparados por meio de quatro critérios, raiz do erro quadrático médio (RMSE), pelo coeficiente d e correlação d e Pearson, índice de acurácia de Willmott e índice de desempenho. A análise foi conduzida da seguinte forma: primeiro foram removidas as observações com valor de peso faltante do conjunto de dados original, obtendo-se um conjunto completo; e a partir dele foram criados novos bancos com diferentes porcentagens de dados faltantes, 5%, 10% e 15%, removidos aleatoriamente. A partir desses novos cenários obtidos, cada um dos métodos foram aplicados, sendo consideradas 5 e 10 iterações. Pôde-se observar que não houve diferença para as imputações em todos os métodos e cenários com relação a quantidade de iterações. Fixando-se os métodos e comparando as diferentes proporções de dados faltantes, observou-se uma diminuição da variabilidade das medidas que envolvem os critérios de comparação para os diferentes métodos, exceto para o método de floresta aleatória, para maior quantidade de ausências. Quando comparados os métodos, fixando-se os cenários, foi possível observar que o método de árvore de classificação e r egressão teve melhor desempenho e o método de floresta aleatória se destacou de forma negativa. Ao aplicar os métodos no conjunto de dados originais, foi observado resultado semelhante, sendo o método CART o mais adequado para substituir os valores faltantes. |
id |
USP_046dcd892fcbf2902e1b4d6343a8f842 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-05062023-144256 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Comparação de métodos de imputação para dados de pecuária de precisãoComparison of imputation methods for precision livestock dataDados longitudinaisImputação múltiplaImputation methodsLongitudinal dataMétodos de imputaçãoMICEMICEMultiple imputationDurante a condução de um experimento ou pesquisa é comum existir perda de informação, seja por preenchimento incorreto do banco de dados ou por falta de informação para algumas observações de determinada variável. Isso ocorre por motivos que muitas vezes não se sabe definir, d essa forma, o valor que deveria ter sido coletado se configura como valor ausente, tornando o conjunto de dados obtido incompleto. Estudos com a presença de observações ausentes são muito comuns em grande parte das áreas do conhecimento, e com dados obtidos a partir da pecuária da precisão não seria diferente. Dados de pecuária de precisão auxiliam o setor agropecuário a acompanhar, mapear e identificar problemas e buscar soluções. O conjunto de dados utilizado neste trabalho provém da pecuária de precisão, no qual pode-se acompanhar a oscilação de peso de 38 animais, das raças Nelore e Cruzado Britânico, divididos entre macho inteiro e macho castrado. Esses dados foram coletados a partir de um sistema de plataforma de pesagem automática. No entanto, durante as pesagens algumas informações de peso foram perdidas e o objetivo deste trabalho foi comparar o desempenho de quatro métodos de imputação de dados da classe MICE, implementados no software R por meio do pacote mice: método de média preditiva (PMM), método baseado na regressão linear bayesiana (BLR), árvore de classificação e regressão (CART) e floresta aleatória (RF). Esses métodos foram comparados por meio de quatro critérios, raiz do erro quadrático médio (RMSE), pelo coeficiente d e correlação d e Pearson, índice de acurácia de Willmott e índice de desempenho. A análise foi conduzida da seguinte forma: primeiro foram removidas as observações com valor de peso faltante do conjunto de dados original, obtendo-se um conjunto completo; e a partir dele foram criados novos bancos com diferentes porcentagens de dados faltantes, 5%, 10% e 15%, removidos aleatoriamente. A partir desses novos cenários obtidos, cada um dos métodos foram aplicados, sendo consideradas 5 e 10 iterações. Pôde-se observar que não houve diferença para as imputações em todos os métodos e cenários com relação a quantidade de iterações. Fixando-se os métodos e comparando as diferentes proporções de dados faltantes, observou-se uma diminuição da variabilidade das medidas que envolvem os critérios de comparação para os diferentes métodos, exceto para o método de floresta aleatória, para maior quantidade de ausências. Quando comparados os métodos, fixando-se os cenários, foi possível observar que o método de árvore de classificação e r egressão teve melhor desempenho e o método de floresta aleatória se destacou de forma negativa. Ao aplicar os métodos no conjunto de dados originais, foi observado resultado semelhante, sendo o método CART o mais adequado para substituir os valores faltantes.During experiments or research it is common for information to be lost, either by incorrectly filling out the database or by lack of information for some observations of a particular variable. This occurs for reasons that often cannot be defined so that the value that should have been collected is configured as a missing value, making the data set obtained incomplete. Studies with missing observations are very common in most areas of knowledge, and with data obtained from precision farming, it would be no different. Precision livestock data helps the agricultural sector to track, map, and identify problems and seek solutions. The data set used in this work comes from precision cattle breeding, where it is possible to follow the oscillation of weight of 38 animals, of the Nelore and “Cruzado Britânico” breeds, divided into full male and castrated males. These data were collected from an automatic weighing platform system. However, during the weightings, some weight information was lost and the objective of this work was to compare the performance of four MICE class data imputation methods, implemented in software R by means of the mice package: predictive mean method (PMM), Bayesian linear regression (BLR) based method, classification and regression tree (CART) and random forest (RF). These methods were compared using four criteria, root mean square error (RMSE), Pearson’s correlation coefficient, Willmott’s accuracy index, and performance index. The analysis was conducted as follows: first, observations with a missing weight value were removed from the original data set, obtaining a complete set; and from it, new databases were created with different percentages of missing data, 5%, 10%, and 15%. From these new obtained scenarios each of the methods was applied, with 5 and 10 iterations being considered. It could be observed that there was no difference in the imputations in all methods and scenarios regarding the number of iterations. By fixing the methods and comparing the different proportions of missing data, a decrease in the variability of the measures involving the comparison criteria was observed for the different methods, except for the random forest method, for a larger amount of missing data. When comparing the methods, and setting the scenarios, it was possible to observe that the classification and regression tree method performed better, and the random forest method stood out in a negative way. When applying the methods to the original data set, a similar result was observed, with the CART method being the most suitable to replace the missing values.Biblioteca Digitais de Teses e Dissertações da USPDias, Carlos Tadeu dos SantosBrancaglioni, Vivian Aparecida2023-04-05info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/11/11134/tde-05062023-144256/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-06-06T13:23:39Zoai:teses.usp.br:tde-05062023-144256Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-06-06T13:23:39Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Comparação de métodos de imputação para dados de pecuária de precisão Comparison of imputation methods for precision livestock data |
title |
Comparação de métodos de imputação para dados de pecuária de precisão |
spellingShingle |
Comparação de métodos de imputação para dados de pecuária de precisão Brancaglioni, Vivian Aparecida Dados longitudinais Imputação múltipla Imputation methods Longitudinal data Métodos de imputação MICE MICE Multiple imputation |
title_short |
Comparação de métodos de imputação para dados de pecuária de precisão |
title_full |
Comparação de métodos de imputação para dados de pecuária de precisão |
title_fullStr |
Comparação de métodos de imputação para dados de pecuária de precisão |
title_full_unstemmed |
Comparação de métodos de imputação para dados de pecuária de precisão |
title_sort |
Comparação de métodos de imputação para dados de pecuária de precisão |
author |
Brancaglioni, Vivian Aparecida |
author_facet |
Brancaglioni, Vivian Aparecida |
author_role |
author |
dc.contributor.none.fl_str_mv |
Dias, Carlos Tadeu dos Santos |
dc.contributor.author.fl_str_mv |
Brancaglioni, Vivian Aparecida |
dc.subject.por.fl_str_mv |
Dados longitudinais Imputação múltipla Imputation methods Longitudinal data Métodos de imputação MICE MICE Multiple imputation |
topic |
Dados longitudinais Imputação múltipla Imputation methods Longitudinal data Métodos de imputação MICE MICE Multiple imputation |
description |
Durante a condução de um experimento ou pesquisa é comum existir perda de informação, seja por preenchimento incorreto do banco de dados ou por falta de informação para algumas observações de determinada variável. Isso ocorre por motivos que muitas vezes não se sabe definir, d essa forma, o valor que deveria ter sido coletado se configura como valor ausente, tornando o conjunto de dados obtido incompleto. Estudos com a presença de observações ausentes são muito comuns em grande parte das áreas do conhecimento, e com dados obtidos a partir da pecuária da precisão não seria diferente. Dados de pecuária de precisão auxiliam o setor agropecuário a acompanhar, mapear e identificar problemas e buscar soluções. O conjunto de dados utilizado neste trabalho provém da pecuária de precisão, no qual pode-se acompanhar a oscilação de peso de 38 animais, das raças Nelore e Cruzado Britânico, divididos entre macho inteiro e macho castrado. Esses dados foram coletados a partir de um sistema de plataforma de pesagem automática. No entanto, durante as pesagens algumas informações de peso foram perdidas e o objetivo deste trabalho foi comparar o desempenho de quatro métodos de imputação de dados da classe MICE, implementados no software R por meio do pacote mice: método de média preditiva (PMM), método baseado na regressão linear bayesiana (BLR), árvore de classificação e regressão (CART) e floresta aleatória (RF). Esses métodos foram comparados por meio de quatro critérios, raiz do erro quadrático médio (RMSE), pelo coeficiente d e correlação d e Pearson, índice de acurácia de Willmott e índice de desempenho. A análise foi conduzida da seguinte forma: primeiro foram removidas as observações com valor de peso faltante do conjunto de dados original, obtendo-se um conjunto completo; e a partir dele foram criados novos bancos com diferentes porcentagens de dados faltantes, 5%, 10% e 15%, removidos aleatoriamente. A partir desses novos cenários obtidos, cada um dos métodos foram aplicados, sendo consideradas 5 e 10 iterações. Pôde-se observar que não houve diferença para as imputações em todos os métodos e cenários com relação a quantidade de iterações. Fixando-se os métodos e comparando as diferentes proporções de dados faltantes, observou-se uma diminuição da variabilidade das medidas que envolvem os critérios de comparação para os diferentes métodos, exceto para o método de floresta aleatória, para maior quantidade de ausências. Quando comparados os métodos, fixando-se os cenários, foi possível observar que o método de árvore de classificação e r egressão teve melhor desempenho e o método de floresta aleatória se destacou de forma negativa. Ao aplicar os métodos no conjunto de dados originais, foi observado resultado semelhante, sendo o método CART o mais adequado para substituir os valores faltantes. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-04-05 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/11/11134/tde-05062023-144256/ |
url |
https://www.teses.usp.br/teses/disponiveis/11/11134/tde-05062023-144256/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256696284512256 |