Application of artificial neural networks to genome-enabled prediction in Nellore cattle

Ribeiro, André Mauric Frossard

Application of artificial neural networks to genome-enabled prediction in Nellore cattle

Detalhes bibliográficos
Autor(a) principal:	Ribeiro, André Mauric Frossard
Data de Publicação:	2019
Tipo de documento:	Tese
Idioma:	eng
Título da fonte:	Repositório Institucional da UNESP
Texto Completo:	http://hdl.handle.net/11449/190702
Resumo:	Nos últimos anos, o rápido desenvolvimento de tecnologias de sequenciamento de alto rendimento permitiu a genotipagem em larga escala de milhares de marcadores genéticos. Diversos modelos estatísticos foram desenvolvidos para predizer os valores genéticos para traços complexos usando as informações de marcadores moleculares em alta densidade, pedigrees ou ambos. Esses modelos incluem, entre outros, as redes neurais artificiais (RNA) que têm sido amplamente utilizadas em problemas de previsão em outros campos de aplicação e, mais recentemente, para predição genômica. O objetivo deste trabalho foi avaliar o desempenho de redes neurais artificiais na predição genômica de bovinos Nelore. Para isso foram testadas diferentes arquiteturas de rede (1 a 4 neurônios em camada oculta), 5 estratégias para seleção de animais com base na acurácia do EBV a serem declaradas para a rede de treinamento como entrada e avaliação de matrizes de relacionamento (NN_G (G como entrada); NN_GD (combinados G com D); e N_Guar (Guar como entrada)) a serem utilizados como entrada para predição genômica em características de peso corporal de bovinos Nelore em relação a modelos de regressão lineares bayesianos hierárquicos (BayesB). . Para isso, utilizou-se o dEBV de 8652 animais genotipados para peso corporal aos 120 dias, 240 dias, 365 dias e 455 dias. Esses animais foram divididos pela acurácia do EBV em população de treinamento e na validação. Todas as estratégias foram repetidas 5 vezes e a correlação entre dEBV e dEBV previsto foi usada como a medida de precisão dos modelos testados. Não havia evidências de que redes mais complexas (com mais neurônios) produzissem melhores previsões quando usamos NN_G ou NN_GD. Possivelmente, isso ocorreu porque o dEBV para o peso corporal foi estimado sob um modelo aditivo de herança em que o mérito genético aditivo tem uma relação linear com os efeitos do SNP. Tanto para NN_G quanto para NN_GD, quanto maior o número de animais na maior população de treinamento, maior foi a capacidade de previsão das características do peso corporal. No entanto, ao avaliar o cenário com o mesmo tamanho da população treinada, podemos observar que os modelos de treinamento com animais com maior acurácia do EBV apresentaram maior capacidade preditiva. Assim, as redes neurais artificiais não são apenas impactadas pelo número de animais no grupo de treinamento, mas também pela precisão do EBV desses animais. Além disso, todos os modelos de redes apresentaram melhores previsões quando comparados com BayesB, para cenários com poucos animais na população treinada, e podem ser uma ferramenta importante para programas ou características que possuem poucos animais genotipados. Também empregamos o agrupamento K-means para relações genômicas aditivas entre todos os animais genotipados para dividir os animais em grupos de treinamento e validação, com o objetivo de aumentar as relações dentro do grupo e diminuir entre grupos para a validação cruzada. O método de agrupamento K-means foi aplicado a uma matriz de dissimilaridade contendo elementos de um menos a relação genômica aditiva entre pares de animais para dividir o animal genotipado em quatro grupos. Os resultados mostram uma variação considerável na precisão entre os grupos. Em geral, as características de peso corporal com maiores valores de herdabilidade (p365 e p455) apresentaram maior precisão de predição. O grupo utilizado como população de referência com menor relação genômica com as populações-teste mostrou que as redes neurais apresentaram pior capacidade de predição quando comparadas às populações de treinamento com maior grau de parentesco com os grupos teste. Assim, podemos concluir que a capacidade de predição genômica de RNA ao usar a matriz G como entrada é dependente do grau de relação genômica entre a população de treinamento e a população de referência.

Metadados do item

id	UNSP_c90967e0aa1ee3f2a1cca0940959ed61
oai_identifier_str	oai:repositorio.unesp.br:11449/190702
network_acronym_str	UNSP
network_name_str	Repositório Institucional da UNESP
repository_id_str	2946
spelling	Application of artificial neural networks to genome-enabled prediction in Nellore cattleAplicação de redes neurais artificiais na predição genômica ampla em bovinos NeloreSeleção genômicaAprenzado de máquinaZebuGenomic selectionMachine learningNos últimos anos, o rápido desenvolvimento de tecnologias de sequenciamento de alto rendimento permitiu a genotipagem em larga escala de milhares de marcadores genéticos. Diversos modelos estatísticos foram desenvolvidos para predizer os valores genéticos para traços complexos usando as informações de marcadores moleculares em alta densidade, pedigrees ou ambos. Esses modelos incluem, entre outros, as redes neurais artificiais (RNA) que têm sido amplamente utilizadas em problemas de previsão em outros campos de aplicação e, mais recentemente, para predição genômica. O objetivo deste trabalho foi avaliar o desempenho de redes neurais artificiais na predição genômica de bovinos Nelore. Para isso foram testadas diferentes arquiteturas de rede (1 a 4 neurônios em camada oculta), 5 estratégias para seleção de animais com base na acurácia do EBV a serem declaradas para a rede de treinamento como entrada e avaliação de matrizes de relacionamento (NN_G (G como entrada); NN_GD (combinados G com D); e N_Guar (Guar como entrada)) a serem utilizados como entrada para predição genômica em características de peso corporal de bovinos Nelore em relação a modelos de regressão lineares bayesianos hierárquicos (BayesB). . Para isso, utilizou-se o dEBV de 8652 animais genotipados para peso corporal aos 120 dias, 240 dias, 365 dias e 455 dias. Esses animais foram divididos pela acurácia do EBV em população de treinamento e na validação. Todas as estratégias foram repetidas 5 vezes e a correlação entre dEBV e dEBV previsto foi usada como a medida de precisão dos modelos testados. Não havia evidências de que redes mais complexas (com mais neurônios) produzissem melhores previsões quando usamos NN_G ou NN_GD. Possivelmente, isso ocorreu porque o dEBV para o peso corporal foi estimado sob um modelo aditivo de herança em que o mérito genético aditivo tem uma relação linear com os efeitos do SNP. Tanto para NN_G quanto para NN_GD, quanto maior o número de animais na maior população de treinamento, maior foi a capacidade de previsão das características do peso corporal. No entanto, ao avaliar o cenário com o mesmo tamanho da população treinada, podemos observar que os modelos de treinamento com animais com maior acurácia do EBV apresentaram maior capacidade preditiva. Assim, as redes neurais artificiais não são apenas impactadas pelo número de animais no grupo de treinamento, mas também pela precisão do EBV desses animais. Além disso, todos os modelos de redes apresentaram melhores previsões quando comparados com BayesB, para cenários com poucos animais na população treinada, e podem ser uma ferramenta importante para programas ou características que possuem poucos animais genotipados. Também empregamos o agrupamento K-means para relações genômicas aditivas entre todos os animais genotipados para dividir os animais em grupos de treinamento e validação, com o objetivo de aumentar as relações dentro do grupo e diminuir entre grupos para a validação cruzada. O método de agrupamento K-means foi aplicado a uma matriz de dissimilaridade contendo elementos de um menos a relação genômica aditiva entre pares de animais para dividir o animal genotipado em quatro grupos. Os resultados mostram uma variação considerável na precisão entre os grupos. Em geral, as características de peso corporal com maiores valores de herdabilidade (p365 e p455) apresentaram maior precisão de predição. O grupo utilizado como população de referência com menor relação genômica com as populações-teste mostrou que as redes neurais apresentaram pior capacidade de predição quando comparadas às populações de treinamento com maior grau de parentesco com os grupos teste. Assim, podemos concluir que a capacidade de predição genômica de RNA ao usar a matriz G como entrada é dependente do grau de relação genômica entre a população de treinamento e a população de referência.In recent years, the fast development of high-throughput sequencing technologies has enabled large-scale genotyping of thousands of genetic markers. Several statistical models have been developed for predicting breeding genetic values for complex traits using the information on dense molecular markers, pedigrees, or both. These models include, among others, the artificial neural networks (ANN) that have been widely used in prediction problems in other fields of application and, more recently, for genome-enabled prediction. The objective of this work was to evaluate the performance of artificial neural networks in the genomic prediction of complex trait in Nellore cattle. For this, we has been tested different network architectures (1 to 4 neurons on hidden layer), 5 strategies to select animals based on their EBV accuracy to be declared for the training network as input and evaluation of relationship matrices [ NN_G (G as input); NN_GD(combined G with D), and N_Guar (Guar as input)] to be used as input for genomic prediction in body weight traits in Nellore cattle relative to hierarchical linear Bayesian regression models (BayesB) . The dEBV of 8652 animals genotyped for body weight at 120 days, 240 days, 365 days, and 455 days was used. Animals were divided into training population and validation by the predicted EBV accuracy. All strategies were repeated five times, and the correlation between dEBV and predicted dEBV was used as the accuracy measure of the models tested. There was no evidence that more complex networks (with more neurons) produced better predictions when we used NN_G or NN_GD. Possibly, this was because dEBV for body weight trait was estimated under an additive model of inheritance in which additive genetic merit has a linear relationship with SNP effects. For both NN_G and NN_GD, the higher the number of animals in the larger training population was the prediction ability for body weight characteristics. However, when evaluating the scenario with the same size of the training population, we observed the training models with animals with higher accuracy of EBV presented greater predictive ability. Thus, artificial neural networks are not only impacted by the number of animals in the training group but also by the accuracy of the EBV of these animals. Also, all network models presented better predictions when compared with BayesB, for scenarios with few animals in the training population, and maybe an important tool for programs or traits that have few animals genotyped. We also employed K-means clustering to additive genomic relationships among all genotyped animals to partition animals into training and validation groups, to increase within-group and decrease between-group relationships for cross-validation. The K-means clustering method was applied to a dissimilarity matrix containing elements of one minus the additive genomic relationship between pairs of animals to partition the genotyped animal into four groups. The results show considerable variation in accuracy between groups. In general, body weight traits with higher heritability values (p365 and p455) presented higher prediction accuracy. The group used as the reference population with the lowest genomic relationship with the test populations showed the neural networks showed worse prediction ability when compared to training populations with higher kinship degree with the test groups. Thus we can conclude that the ability of genomic prediction of ANN when using the matrix G as input is dependent on the degree of genomic relationship between the training population and the reference population.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)001Universidade Estadual Paulista (Unesp)Oliveira, Henrique Nunes de [UNESP]Universidade Estadual Paulista (Unesp)Ribeiro, André Mauric Frossard2019-10-10T19:16:01Z2019-10-10T19:16:01Z2019-07-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://hdl.handle.net/11449/19070200092587933004102030P4enginfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-06-05T18:32:21Zoai:repositorio.unesp.br:11449/190702Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T16:02:37.512032Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv	Application of artificial neural networks to genome-enabled prediction in Nellore cattle Aplicação de redes neurais artificiais na predição genômica ampla em bovinos Nelore
title	Application of artificial neural networks to genome-enabled prediction in Nellore cattle
spellingShingle	Application of artificial neural networks to genome-enabled prediction in Nellore cattle Ribeiro, André Mauric Frossard Seleção genômica Aprenzado de máquina Zebu Genomic selection Machine learning
title_short	Application of artificial neural networks to genome-enabled prediction in Nellore cattle
title_full	Application of artificial neural networks to genome-enabled prediction in Nellore cattle
title_fullStr	Application of artificial neural networks to genome-enabled prediction in Nellore cattle
title_full_unstemmed	Application of artificial neural networks to genome-enabled prediction in Nellore cattle
title_sort	Application of artificial neural networks to genome-enabled prediction in Nellore cattle
author	Ribeiro, André Mauric Frossard
author_facet	Ribeiro, André Mauric Frossard
author_role	author
dc.contributor.none.fl_str_mv	Oliveira, Henrique Nunes de [UNESP] Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv	Ribeiro, André Mauric Frossard
dc.subject.por.fl_str_mv	Seleção genômica Aprenzado de máquina Zebu Genomic selection Machine learning
topic	Seleção genômica Aprenzado de máquina Zebu Genomic selection Machine learning
description	Nos últimos anos, o rápido desenvolvimento de tecnologias de sequenciamento de alto rendimento permitiu a genotipagem em larga escala de milhares de marcadores genéticos. Diversos modelos estatísticos foram desenvolvidos para predizer os valores genéticos para traços complexos usando as informações de marcadores moleculares em alta densidade, pedigrees ou ambos. Esses modelos incluem, entre outros, as redes neurais artificiais (RNA) que têm sido amplamente utilizadas em problemas de previsão em outros campos de aplicação e, mais recentemente, para predição genômica. O objetivo deste trabalho foi avaliar o desempenho de redes neurais artificiais na predição genômica de bovinos Nelore. Para isso foram testadas diferentes arquiteturas de rede (1 a 4 neurônios em camada oculta), 5 estratégias para seleção de animais com base na acurácia do EBV a serem declaradas para a rede de treinamento como entrada e avaliação de matrizes de relacionamento (NN_G (G como entrada); NN_GD (combinados G com D); e N_Guar (Guar como entrada)) a serem utilizados como entrada para predição genômica em características de peso corporal de bovinos Nelore em relação a modelos de regressão lineares bayesianos hierárquicos (BayesB). . Para isso, utilizou-se o dEBV de 8652 animais genotipados para peso corporal aos 120 dias, 240 dias, 365 dias e 455 dias. Esses animais foram divididos pela acurácia do EBV em população de treinamento e na validação. Todas as estratégias foram repetidas 5 vezes e a correlação entre dEBV e dEBV previsto foi usada como a medida de precisão dos modelos testados. Não havia evidências de que redes mais complexas (com mais neurônios) produzissem melhores previsões quando usamos NN_G ou NN_GD. Possivelmente, isso ocorreu porque o dEBV para o peso corporal foi estimado sob um modelo aditivo de herança em que o mérito genético aditivo tem uma relação linear com os efeitos do SNP. Tanto para NN_G quanto para NN_GD, quanto maior o número de animais na maior população de treinamento, maior foi a capacidade de previsão das características do peso corporal. No entanto, ao avaliar o cenário com o mesmo tamanho da população treinada, podemos observar que os modelos de treinamento com animais com maior acurácia do EBV apresentaram maior capacidade preditiva. Assim, as redes neurais artificiais não são apenas impactadas pelo número de animais no grupo de treinamento, mas também pela precisão do EBV desses animais. Além disso, todos os modelos de redes apresentaram melhores previsões quando comparados com BayesB, para cenários com poucos animais na população treinada, e podem ser uma ferramenta importante para programas ou características que possuem poucos animais genotipados. Também empregamos o agrupamento K-means para relações genômicas aditivas entre todos os animais genotipados para dividir os animais em grupos de treinamento e validação, com o objetivo de aumentar as relações dentro do grupo e diminuir entre grupos para a validação cruzada. O método de agrupamento K-means foi aplicado a uma matriz de dissimilaridade contendo elementos de um menos a relação genômica aditiva entre pares de animais para dividir o animal genotipado em quatro grupos. Os resultados mostram uma variação considerável na precisão entre os grupos. Em geral, as características de peso corporal com maiores valores de herdabilidade (p365 e p455) apresentaram maior precisão de predição. O grupo utilizado como população de referência com menor relação genômica com as populações-teste mostrou que as redes neurais apresentaram pior capacidade de predição quando comparadas às populações de treinamento com maior grau de parentesco com os grupos teste. Assim, podemos concluir que a capacidade de predição genômica de RNA ao usar a matriz G como entrada é dependente do grau de relação genômica entre a população de treinamento e a população de referência.
publishDate	2019
dc.date.none.fl_str_mv	2019-10-10T19:16:01Z 2019-10-10T19:16:01Z 2019-07-29
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/11449/190702 000925879 33004102030P4
url	http://hdl.handle.net/11449/190702
identifier_str_mv	000925879 33004102030P4
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP
instname_str	Universidade Estadual Paulista (UNESP)
instacron_str	UNESP
institution	UNESP
reponame_str	Repositório Institucional da UNESP
collection	Repositório Institucional da UNESP
repository.name.fl_str_mv	Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_	1808128222544527360

Application of artificial neural networks to genome-enabled prediction in Nellore cattle

Registros relacionados