Application of artificial neural networks to genome-enabled prediction in Nellore cattle

Detalhes bibliográficos
Autor(a) principal: Ribeiro, André Mauric Frossard
Data de Publicação: 2019
Tipo de documento: Tese
Idioma: eng
Título da fonte: Repositório Institucional da UNESP
Texto Completo: http://hdl.handle.net/11449/190702
Resumo: Nos últimos anos, o rápido desenvolvimento de tecnologias de sequenciamento de alto rendimento permitiu a genotipagem em larga escala de milhares de marcadores genéticos. Diversos modelos estatísticos foram desenvolvidos para predizer os valores genéticos para traços complexos usando as informações de marcadores moleculares em alta densidade, pedigrees ou ambos. Esses modelos incluem, entre outros, as redes neurais artificiais (RNA) que têm sido amplamente utilizadas em problemas de previsão em outros campos de aplicação e, mais recentemente, para predição genômica. O objetivo deste trabalho foi avaliar o desempenho de redes neurais artificiais na predição genômica de bovinos Nelore. Para isso foram testadas diferentes arquiteturas de rede (1 a 4 neurônios em camada oculta), 5 estratégias para seleção de animais com base na acurácia do EBV a serem declaradas para a rede de treinamento como entrada e avaliação de matrizes de relacionamento (NN_G (G como entrada); NN_GD (combinados G com D); e N_Guar (Guar como entrada)) a serem utilizados como entrada para predição genômica em características de peso corporal de bovinos Nelore em relação a modelos de regressão lineares bayesianos hierárquicos (BayesB). . Para isso, utilizou-se o dEBV de 8652 animais genotipados para peso corporal aos 120 dias, 240 dias, 365 dias e 455 dias. Esses animais foram divididos pela acurácia do EBV em população de treinamento e na validação. Todas as estratégias foram repetidas 5 vezes e a correlação entre dEBV e dEBV previsto foi usada como a medida de precisão dos modelos testados. Não havia evidências de que redes mais complexas (com mais neurônios) produzissem melhores previsões quando usamos NN_G ou NN_GD. Possivelmente, isso ocorreu porque o dEBV para o peso corporal foi estimado sob um modelo aditivo de herança em que o mérito genético aditivo tem uma relação linear com os efeitos do SNP. Tanto para NN_G quanto para NN_GD, quanto maior o número de animais na maior população de treinamento, maior foi a capacidade de previsão das características do peso corporal. No entanto, ao avaliar o cenário com o mesmo tamanho da população treinada, podemos observar que os modelos de treinamento com animais com maior acurácia do EBV apresentaram maior capacidade preditiva. Assim, as redes neurais artificiais não são apenas impactadas pelo número de animais no grupo de treinamento, mas também pela precisão do EBV desses animais. Além disso, todos os modelos de redes apresentaram melhores previsões quando comparados com BayesB, para cenários com poucos animais na população treinada, e podem ser uma ferramenta importante para programas ou características que possuem poucos animais genotipados. Também empregamos o agrupamento K-means para relações genômicas aditivas entre todos os animais genotipados para dividir os animais em grupos de treinamento e validação, com o objetivo de aumentar as relações dentro do grupo e diminuir entre grupos para a validação cruzada. O método de agrupamento K-means foi aplicado a uma matriz de dissimilaridade contendo elementos de um menos a relação genômica aditiva entre pares de animais para dividir o animal genotipado em quatro grupos. Os resultados mostram uma variação considerável na precisão entre os grupos. Em geral, as características de peso corporal com maiores valores de herdabilidade (p365 e p455) apresentaram maior precisão de predição. O grupo utilizado como população de referência com menor relação genômica com as populações-teste mostrou que as redes neurais apresentaram pior capacidade de predição quando comparadas às populações de treinamento com maior grau de parentesco com os grupos teste. Assim, podemos concluir que a capacidade de predição genômica de RNA ao usar a matriz G como entrada é dependente do grau de relação genômica entre a população de treinamento e a população de referência.
id UNSP_c90967e0aa1ee3f2a1cca0940959ed61
oai_identifier_str oai:repositorio.unesp.br:11449/190702
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str 2946
spelling Application of artificial neural networks to genome-enabled prediction in Nellore cattleAplicação de redes neurais artificiais na predição genômica ampla em bovinos NeloreSeleção genômicaAprenzado de máquinaZebuGenomic selectionMachine learningNos últimos anos, o rápido desenvolvimento de tecnologias de sequenciamento de alto rendimento permitiu a genotipagem em larga escala de milhares de marcadores genéticos. Diversos modelos estatísticos foram desenvolvidos para predizer os valores genéticos para traços complexos usando as informações de marcadores moleculares em alta densidade, pedigrees ou ambos. Esses modelos incluem, entre outros, as redes neurais artificiais (RNA) que têm sido amplamente utilizadas em problemas de previsão em outros campos de aplicação e, mais recentemente, para predição genômica. O objetivo deste trabalho foi avaliar o desempenho de redes neurais artificiais na predição genômica de bovinos Nelore. Para isso foram testadas diferentes arquiteturas de rede (1 a 4 neurônios em camada oculta), 5 estratégias para seleção de animais com base na acurácia do EBV a serem declaradas para a rede de treinamento como entrada e avaliação de matrizes de relacionamento (NN_G (G como entrada); NN_GD (combinados G com D); e N_Guar (Guar como entrada)) a serem utilizados como entrada para predição genômica em características de peso corporal de bovinos Nelore em relação a modelos de regressão lineares bayesianos hierárquicos (BayesB). . Para isso, utilizou-se o dEBV de 8652 animais genotipados para peso corporal aos 120 dias, 240 dias, 365 dias e 455 dias. Esses animais foram divididos pela acurácia do EBV em população de treinamento e na validação. Todas as estratégias foram repetidas 5 vezes e a correlação entre dEBV e dEBV previsto foi usada como a medida de precisão dos modelos testados. Não havia evidências de que redes mais complexas (com mais neurônios) produzissem melhores previsões quando usamos NN_G ou NN_GD. Possivelmente, isso ocorreu porque o dEBV para o peso corporal foi estimado sob um modelo aditivo de herança em que o mérito genético aditivo tem uma relação linear com os efeitos do SNP. Tanto para NN_G quanto para NN_GD, quanto maior o número de animais na maior população de treinamento, maior foi a capacidade de previsão das características do peso corporal. No entanto, ao avaliar o cenário com o mesmo tamanho da população treinada, podemos observar que os modelos de treinamento com animais com maior acurácia do EBV apresentaram maior capacidade preditiva. Assim, as redes neurais artificiais não são apenas impactadas pelo número de animais no grupo de treinamento, mas também pela precisão do EBV desses animais. Além disso, todos os modelos de redes apresentaram melhores previsões quando comparados com BayesB, para cenários com poucos animais na população treinada, e podem ser uma ferramenta importante para programas ou características que possuem poucos animais genotipados. Também empregamos o agrupamento K-means para relações genômicas aditivas entre todos os animais genotipados para dividir os animais em grupos de treinamento e validação, com o objetivo de aumentar as relações dentro do grupo e diminuir entre grupos para a validação cruzada. O método de agrupamento K-means foi aplicado a uma matriz de dissimilaridade contendo elementos de um menos a relação genômica aditiva entre pares de animais para dividir o animal genotipado em quatro grupos. Os resultados mostram uma variação considerável na precisão entre os grupos. Em geral, as características de peso corporal com maiores valores de herdabilidade (p365 e p455) apresentaram maior precisão de predição. O grupo utilizado como população de referência com menor relação genômica com as populações-teste mostrou que as redes neurais apresentaram pior capacidade de predição quando comparadas às populações de treinamento com maior grau de parentesco com os grupos teste. Assim, podemos concluir que a capacidade de predição genômica de RNA ao usar a matriz G como entrada é dependente do grau de relação genômica entre a população de treinamento e a população de referência.In recent years, the fast development of high-throughput sequencing technologies has enabled large-scale genotyping of thousands of genetic markers. Several statistical models have been developed for predicting breeding genetic values for complex traits using the information on dense molecular markers, pedigrees, or both. These models include, among others, the artificial neural networks (ANN) that have been widely used in prediction problems in other fields of application and, more recently, for genome-enabled prediction. The objective of this work was to evaluate the performance of artificial neural networks in the genomic prediction of complex trait in Nellore cattle. For this, we has been tested different network architectures (1 to 4 neurons on hidden layer), 5 strategies to select animals based on their EBV accuracy to be declared for the training network as input and evaluation of relationship matrices [ NN_G (G as input); NN_GD(combined G with D), and N_Guar (Guar as input)] to be used as input for genomic prediction in body weight traits in Nellore cattle relative to hierarchical linear Bayesian regression models (BayesB) . The dEBV of 8652 animals genotyped for body weight at 120 days, 240 days, 365 days, and 455 days was used. Animals were divided into training population and validation by the predicted EBV accuracy. All strategies were repeated five times, and the correlation between dEBV and predicted dEBV was used as the accuracy measure of the models tested. There was no evidence that more complex networks (with more neurons) produced better predictions when we used NN_G or NN_GD. Possibly, this was because dEBV for body weight trait was estimated under an additive model of inheritance in which additive genetic merit has a linear relationship with SNP effects. For both NN_G and NN_GD, the higher the number of animals in the larger training population was the prediction ability for body weight characteristics. However, when evaluating the scenario with the same size of the training population, we observed the training models with animals with higher accuracy of EBV presented greater predictive ability. Thus, artificial neural networks are not only impacted by the number of animals in the training group but also by the accuracy of the EBV of these animals. Also, all network models presented better predictions when compared with BayesB, for scenarios with few animals in the training population, and maybe an important tool for programs or traits that have few animals genotyped. We also employed K-means clustering to additive genomic relationships among all genotyped animals to partition animals into training and validation groups, to increase within-group and decrease between-group relationships for cross-validation. The K-means clustering method was applied to a dissimilarity matrix containing elements of one minus the additive genomic relationship between pairs of animals to partition the genotyped animal into four groups. The results show considerable variation in accuracy between groups. In general, body weight traits with higher heritability values (p365 and p455) presented higher prediction accuracy. The group used as the reference population with the lowest genomic relationship with the test populations showed the neural networks showed worse prediction ability when compared to training populations with higher kinship degree with the test groups. Thus we can conclude that the ability of genomic prediction of ANN when using the matrix G as input is dependent on the degree of genomic relationship between the training population and the reference population.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)001Universidade Estadual Paulista (Unesp)Oliveira, Henrique Nunes de [UNESP]Universidade Estadual Paulista (Unesp)Ribeiro, André Mauric Frossard2019-10-10T19:16:01Z2019-10-10T19:16:01Z2019-07-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://hdl.handle.net/11449/19070200092587933004102030P4enginfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-06-05T18:32:21Zoai:repositorio.unesp.br:11449/190702Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T16:02:37.512032Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Application of artificial neural networks to genome-enabled prediction in Nellore cattle
Aplicação de redes neurais artificiais na predição genômica ampla em bovinos Nelore
title Application of artificial neural networks to genome-enabled prediction in Nellore cattle
spellingShingle Application of artificial neural networks to genome-enabled prediction in Nellore cattle
Ribeiro, André Mauric Frossard
Seleção genômica
Aprenzado de máquina
Zebu
Genomic selection
Machine learning
title_short Application of artificial neural networks to genome-enabled prediction in Nellore cattle
title_full Application of artificial neural networks to genome-enabled prediction in Nellore cattle
title_fullStr Application of artificial neural networks to genome-enabled prediction in Nellore cattle
title_full_unstemmed Application of artificial neural networks to genome-enabled prediction in Nellore cattle
title_sort Application of artificial neural networks to genome-enabled prediction in Nellore cattle
author Ribeiro, André Mauric Frossard
author_facet Ribeiro, André Mauric Frossard
author_role author
dc.contributor.none.fl_str_mv Oliveira, Henrique Nunes de [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Ribeiro, André Mauric Frossard
dc.subject.por.fl_str_mv Seleção genômica
Aprenzado de máquina
Zebu
Genomic selection
Machine learning
topic Seleção genômica
Aprenzado de máquina
Zebu
Genomic selection
Machine learning
description Nos últimos anos, o rápido desenvolvimento de tecnologias de sequenciamento de alto rendimento permitiu a genotipagem em larga escala de milhares de marcadores genéticos. Diversos modelos estatísticos foram desenvolvidos para predizer os valores genéticos para traços complexos usando as informações de marcadores moleculares em alta densidade, pedigrees ou ambos. Esses modelos incluem, entre outros, as redes neurais artificiais (RNA) que têm sido amplamente utilizadas em problemas de previsão em outros campos de aplicação e, mais recentemente, para predição genômica. O objetivo deste trabalho foi avaliar o desempenho de redes neurais artificiais na predição genômica de bovinos Nelore. Para isso foram testadas diferentes arquiteturas de rede (1 a 4 neurônios em camada oculta), 5 estratégias para seleção de animais com base na acurácia do EBV a serem declaradas para a rede de treinamento como entrada e avaliação de matrizes de relacionamento (NN_G (G como entrada); NN_GD (combinados G com D); e N_Guar (Guar como entrada)) a serem utilizados como entrada para predição genômica em características de peso corporal de bovinos Nelore em relação a modelos de regressão lineares bayesianos hierárquicos (BayesB). . Para isso, utilizou-se o dEBV de 8652 animais genotipados para peso corporal aos 120 dias, 240 dias, 365 dias e 455 dias. Esses animais foram divididos pela acurácia do EBV em população de treinamento e na validação. Todas as estratégias foram repetidas 5 vezes e a correlação entre dEBV e dEBV previsto foi usada como a medida de precisão dos modelos testados. Não havia evidências de que redes mais complexas (com mais neurônios) produzissem melhores previsões quando usamos NN_G ou NN_GD. Possivelmente, isso ocorreu porque o dEBV para o peso corporal foi estimado sob um modelo aditivo de herança em que o mérito genético aditivo tem uma relação linear com os efeitos do SNP. Tanto para NN_G quanto para NN_GD, quanto maior o número de animais na maior população de treinamento, maior foi a capacidade de previsão das características do peso corporal. No entanto, ao avaliar o cenário com o mesmo tamanho da população treinada, podemos observar que os modelos de treinamento com animais com maior acurácia do EBV apresentaram maior capacidade preditiva. Assim, as redes neurais artificiais não são apenas impactadas pelo número de animais no grupo de treinamento, mas também pela precisão do EBV desses animais. Além disso, todos os modelos de redes apresentaram melhores previsões quando comparados com BayesB, para cenários com poucos animais na população treinada, e podem ser uma ferramenta importante para programas ou características que possuem poucos animais genotipados. Também empregamos o agrupamento K-means para relações genômicas aditivas entre todos os animais genotipados para dividir os animais em grupos de treinamento e validação, com o objetivo de aumentar as relações dentro do grupo e diminuir entre grupos para a validação cruzada. O método de agrupamento K-means foi aplicado a uma matriz de dissimilaridade contendo elementos de um menos a relação genômica aditiva entre pares de animais para dividir o animal genotipado em quatro grupos. Os resultados mostram uma variação considerável na precisão entre os grupos. Em geral, as características de peso corporal com maiores valores de herdabilidade (p365 e p455) apresentaram maior precisão de predição. O grupo utilizado como população de referência com menor relação genômica com as populações-teste mostrou que as redes neurais apresentaram pior capacidade de predição quando comparadas às populações de treinamento com maior grau de parentesco com os grupos teste. Assim, podemos concluir que a capacidade de predição genômica de RNA ao usar a matriz G como entrada é dependente do grau de relação genômica entre a população de treinamento e a população de referência.
publishDate 2019
dc.date.none.fl_str_mv 2019-10-10T19:16:01Z
2019-10-10T19:16:01Z
2019-07-29
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11449/190702
000925879
33004102030P4
url http://hdl.handle.net/11449/190702
identifier_str_mv 000925879
33004102030P4
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_ 1808128222544527360