Applying machine learning methods for genomic analysis of reproductive traits in Nellore cattle

Detalhes bibliográficos
Autor(a) principal: Alves, Anderson Antonio Carvalho [UNESP]
Data de Publicação: 2019
Tipo de documento: Tese
Idioma: eng
Título da fonte: Repositório Institucional da UNESP
Texto Completo: http://hdl.handle.net/11449/191316
Resumo: A seleção de animais geneticamente superiores com base na informação genômica tem sido uma tendência crescente e promissora em programas de melhoramento. No entanto, os principais métodos de predição genômica envolvem modelos paramétricos, que em sua maioria, assumem somente variância aditiva para o efeito dos marcadores, ignorando-se possíveis relações não-lineares. A consideração de tais efeitos pode ser importante para melhorar a habilidade de predição em características com arquitetura genética complexa. Recentemente, tem crescido o interesse em métodos de predição semi e não paramétricos. Dentro desse contexto, os métodos de aprendizagem de máquina tais como Redes Neurais Artificiais (ANN), “Random Forest” (RF) e “Support Vector Machines” (SVM) são alternativas interessantes. Os objetivos do presente estudo foram: i) Comparar o desempenho preditivo do modelo “Genomic Best Linear Unbiased Predictor” (GBLUP) e de métodos de aprendizagem de máquina em populações simuladas de bovinos de corte, apresentando diferentes níveis para efeitos de dominância; ii) Investigar a habilidade de predição de diferentes métodos de aprendizagem de máquina para predição genômica de características reprodutivas em bovinos da raça Nelore; iii) Desenvolver um estudo de associação genômica ampla (GWAS) utilizando a metodologia “Random Forest”, a fim de buscar genes candidatos para idade ao primeiro parto em novilhas da raça Nelore. No primeiro estudo, o genoma simulado compreendeu um painel de SNPs (“Single Nucleotide Polymorphisms”) com densidade de 50k e 300 QTLs (“Quantitative Trait Loci”), espalhados aleatoriamente ao longo de 29 cromossomos. Foram simuladas ao todo seis características, considerando-se diferentes valores de herdabilidade no sentido restrito e amplo. No cenário puramente aditivo e com baixa herdabilidade (h2 = 0,10), a habilidade de predição utilizando o método GBLUP foi levemente superior em relação aos outros métodos (aproximadamente de 0,8% a 5,0%), ao passo que as ANN obtiveram melhor acurácia nos cenários com moderada herdabilidade (h2 = 0,30). As acurácias para os efeitos de dominância variaram entre 0,180 e 0,350 no modelo GBLUP considerando a matriz de relacionamento de dominância (GBLUP-D), entre 0,062 e 0,185 para o RF e foram nulas utilizando-se os métodos ANN e SVM. Entre os métodos de aprendizagem de máquina, apenas o RF foi capaz de capturar implicitamente os efeitos de dominância, resultando em maiores acurácias de predição para os valores genéticos totais e fenotípicos quando a variância devido ao efeito de dominância aumentou. No segundo estudo, dados referentes a bovinos da raça Nelore nascidos entre 1984 e 2015 foram utilizados. As características estudadas foram Idade ao Primeiro Parto (AFC), Circunferência Escrotal (SC), Prenhez Precoce (EP) e Habilidade de Permanência (STAY). Após o controle de qualidade, o número de animais com genótipos e de marcadores SNP disponíveis foram respectivamente, 2.342 e 321.419 (AFC), 4.671 e 309.486 (SC), 3.356 e 319.108 (EP) e 2.681 e 319.619 (STAY). A habilidade preditiva de diferentes métodos de aprendizagem de máquina tais como “Support Vector Regression” (SVR), “Bayesian Regularized Artificial Neural Network” (BRANN) e RF foi avaliada. Os resultados foram comparados aos obtidos pelos modelos paramétricos GBLUP e BLASSO (“Bayesian Least Absolute Shrinkage and Selection Operator”). Para o modelo SVR, investigou-se a influência de diferentes valores para o parâmetro de largura de banda do kernel na habilidade de predição do modelo. Para o modelo BRANN, diferentes números de neurônios na camada oculta (de 1 a 4 neurônios) foram examinados para se identificar a melhor arquitetura de rede. Além disso, duas estruturas de informação genômica foram testadas como informação de entrada no modelo BRANN, a matriz de relacionamento genômica (G) e a matriz de componentes principais (PC). A habilidade de predição dos modelos foi avaliada por meio de um esquema de validação cruzada em 5 “folds”. As acurácias obtidas foram de baixas a moderadas de acordo com a característica e modelos considerados, variando entre 0,555 e 0,625 (AFC), 0,268 e 0,359 (SC), 0,573 e 0,666 (EP) e entre 0,517 e 0,618 (STAY). O modelo SVR obteve desempenho ligeiramente superior em relação aos métodos paramétricos (GBLUP e BLASSO) para todas as características avaliadas, aumentando a acurácia de predição da AFC em aproximadamente 5,1% e 3,7%, quando comparados aos modelos GBLUP e BLASSO, respectivamente, e em 7,2% para SC, 3,4% para EP e 5% para STAY quando comparado aos resultados obtidos por ambos GBLUP e BLASSO. Por outro lado, os modelos RF, BRANN_G e BRANN_PC não apresentaram habilidade de predição competitiva com os métodos tradicionais, apresentando menor acurácia de predição e maiores erros de predição para todas as características. Os resultados indicam que o SVR é um método adequado para a predição de valores genéticos genômicos para características reprodutivas em bovinos da raça Nelore, apresentando melhor habilidade de predição e eficiência no tempo de computação em relação as metodologias paramétricas estudadas. Além disso, o valor mais adequado para o parâmetro de largura de banda do kernel no método SVR dependeu da característica avaliada, desse modo, a correta predefinição desse parâmetro na fase de treinamento do modelo é aconselhável. Por último, um estudo de associação genômica ampla foi realizado utilizando a abordagem RF, a fim de se identificar genes candidatos para a idade ao primeiro parto em bovinos da raça Nelore. Os valores examinados para o parâmetro Mtry (ou seja, o número de SNPs testados em cada nó das árvores) foram 1, √p, 0.01p e 0.1p, em que p representa o número total de SNPs. Os parâmetros que produziram o menor erro quadrático nos dados out-of-bag (MSEOOB) foram mantidos para análises posteriores. Foram realizadas 5 análises independentes com diferentes sementes de inicialização do algoritmo e os escores de importância dos SNPs foram computados como a média das 5 análises. Foram identificados 118 SNPs associados com AFC, localizados em oito cromossomos autossômicos (BTA 3, 5, 10, 11, 18, 21, 25 e 27). No total, 23 regiões não sobrepostas cobriram 172 genes candidatos para AFC. Regiões genômicas previamente associadas com características de fertilidade e crescimento em bovinos Nelore foram reportadas neste estudo, o que reforça a efetividade do RF como um método para a varredura inicial de regiões candidatas associadas com características complexas. O estudo de associação baseado no método RF e a análise funcional apontaram genes candidatos com funções chave na regulação da fertilidade, incluindo a pré-implantação de embriões e seu desenvolvimento, viabilidade embrionária, maturação de células germinais masculinas e reconhecimento de feromônios.
id UNSP_e6821b75a56177c1d04f6b0c6ef7fae9
oai_identifier_str oai:repositorio.unesp.br:11449/191316
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str 2946
spelling Applying machine learning methods for genomic analysis of reproductive traits in Nellore cattleAplicação de métodos de aprendizagem de máquina para análise genômica de características reprodutivas em bovinos da raça NeloreBovinos de corteFertilidadeGenes candidatosMétodos não-paramétricosPrecocidadePredição genômicaBeef cattleFertilityCandidate genesNonparametric methodsPrecocityGenomic predictionA seleção de animais geneticamente superiores com base na informação genômica tem sido uma tendência crescente e promissora em programas de melhoramento. No entanto, os principais métodos de predição genômica envolvem modelos paramétricos, que em sua maioria, assumem somente variância aditiva para o efeito dos marcadores, ignorando-se possíveis relações não-lineares. A consideração de tais efeitos pode ser importante para melhorar a habilidade de predição em características com arquitetura genética complexa. Recentemente, tem crescido o interesse em métodos de predição semi e não paramétricos. Dentro desse contexto, os métodos de aprendizagem de máquina tais como Redes Neurais Artificiais (ANN), “Random Forest” (RF) e “Support Vector Machines” (SVM) são alternativas interessantes. Os objetivos do presente estudo foram: i) Comparar o desempenho preditivo do modelo “Genomic Best Linear Unbiased Predictor” (GBLUP) e de métodos de aprendizagem de máquina em populações simuladas de bovinos de corte, apresentando diferentes níveis para efeitos de dominância; ii) Investigar a habilidade de predição de diferentes métodos de aprendizagem de máquina para predição genômica de características reprodutivas em bovinos da raça Nelore; iii) Desenvolver um estudo de associação genômica ampla (GWAS) utilizando a metodologia “Random Forest”, a fim de buscar genes candidatos para idade ao primeiro parto em novilhas da raça Nelore. No primeiro estudo, o genoma simulado compreendeu um painel de SNPs (“Single Nucleotide Polymorphisms”) com densidade de 50k e 300 QTLs (“Quantitative Trait Loci”), espalhados aleatoriamente ao longo de 29 cromossomos. Foram simuladas ao todo seis características, considerando-se diferentes valores de herdabilidade no sentido restrito e amplo. No cenário puramente aditivo e com baixa herdabilidade (h2 = 0,10), a habilidade de predição utilizando o método GBLUP foi levemente superior em relação aos outros métodos (aproximadamente de 0,8% a 5,0%), ao passo que as ANN obtiveram melhor acurácia nos cenários com moderada herdabilidade (h2 = 0,30). As acurácias para os efeitos de dominância variaram entre 0,180 e 0,350 no modelo GBLUP considerando a matriz de relacionamento de dominância (GBLUP-D), entre 0,062 e 0,185 para o RF e foram nulas utilizando-se os métodos ANN e SVM. Entre os métodos de aprendizagem de máquina, apenas o RF foi capaz de capturar implicitamente os efeitos de dominância, resultando em maiores acurácias de predição para os valores genéticos totais e fenotípicos quando a variância devido ao efeito de dominância aumentou. No segundo estudo, dados referentes a bovinos da raça Nelore nascidos entre 1984 e 2015 foram utilizados. As características estudadas foram Idade ao Primeiro Parto (AFC), Circunferência Escrotal (SC), Prenhez Precoce (EP) e Habilidade de Permanência (STAY). Após o controle de qualidade, o número de animais com genótipos e de marcadores SNP disponíveis foram respectivamente, 2.342 e 321.419 (AFC), 4.671 e 309.486 (SC), 3.356 e 319.108 (EP) e 2.681 e 319.619 (STAY). A habilidade preditiva de diferentes métodos de aprendizagem de máquina tais como “Support Vector Regression” (SVR), “Bayesian Regularized Artificial Neural Network” (BRANN) e RF foi avaliada. Os resultados foram comparados aos obtidos pelos modelos paramétricos GBLUP e BLASSO (“Bayesian Least Absolute Shrinkage and Selection Operator”). Para o modelo SVR, investigou-se a influência de diferentes valores para o parâmetro de largura de banda do kernel na habilidade de predição do modelo. Para o modelo BRANN, diferentes números de neurônios na camada oculta (de 1 a 4 neurônios) foram examinados para se identificar a melhor arquitetura de rede. Além disso, duas estruturas de informação genômica foram testadas como informação de entrada no modelo BRANN, a matriz de relacionamento genômica (G) e a matriz de componentes principais (PC). A habilidade de predição dos modelos foi avaliada por meio de um esquema de validação cruzada em 5 “folds”. As acurácias obtidas foram de baixas a moderadas de acordo com a característica e modelos considerados, variando entre 0,555 e 0,625 (AFC), 0,268 e 0,359 (SC), 0,573 e 0,666 (EP) e entre 0,517 e 0,618 (STAY). O modelo SVR obteve desempenho ligeiramente superior em relação aos métodos paramétricos (GBLUP e BLASSO) para todas as características avaliadas, aumentando a acurácia de predição da AFC em aproximadamente 5,1% e 3,7%, quando comparados aos modelos GBLUP e BLASSO, respectivamente, e em 7,2% para SC, 3,4% para EP e 5% para STAY quando comparado aos resultados obtidos por ambos GBLUP e BLASSO. Por outro lado, os modelos RF, BRANN_G e BRANN_PC não apresentaram habilidade de predição competitiva com os métodos tradicionais, apresentando menor acurácia de predição e maiores erros de predição para todas as características. Os resultados indicam que o SVR é um método adequado para a predição de valores genéticos genômicos para características reprodutivas em bovinos da raça Nelore, apresentando melhor habilidade de predição e eficiência no tempo de computação em relação as metodologias paramétricas estudadas. Além disso, o valor mais adequado para o parâmetro de largura de banda do kernel no método SVR dependeu da característica avaliada, desse modo, a correta predefinição desse parâmetro na fase de treinamento do modelo é aconselhável. Por último, um estudo de associação genômica ampla foi realizado utilizando a abordagem RF, a fim de se identificar genes candidatos para a idade ao primeiro parto em bovinos da raça Nelore. Os valores examinados para o parâmetro Mtry (ou seja, o número de SNPs testados em cada nó das árvores) foram 1, √p, 0.01p e 0.1p, em que p representa o número total de SNPs. Os parâmetros que produziram o menor erro quadrático nos dados out-of-bag (MSEOOB) foram mantidos para análises posteriores. Foram realizadas 5 análises independentes com diferentes sementes de inicialização do algoritmo e os escores de importância dos SNPs foram computados como a média das 5 análises. Foram identificados 118 SNPs associados com AFC, localizados em oito cromossomos autossômicos (BTA 3, 5, 10, 11, 18, 21, 25 e 27). No total, 23 regiões não sobrepostas cobriram 172 genes candidatos para AFC. Regiões genômicas previamente associadas com características de fertilidade e crescimento em bovinos Nelore foram reportadas neste estudo, o que reforça a efetividade do RF como um método para a varredura inicial de regiões candidatas associadas com características complexas. O estudo de associação baseado no método RF e a análise funcional apontaram genes candidatos com funções chave na regulação da fertilidade, incluindo a pré-implantação de embriões e seu desenvolvimento, viabilidade embrionária, maturação de células germinais masculinas e reconhecimento de feromônios.The selection of genetically superior animals based on genomic information has been an increasing and promising trend in breeding programs. However, the main methods used for genome-enabled prediction involve parametric models that mostly assume only additive variance for markers effects, ignoring possible nonlinear relationships. Accounting for such effects may be important to improve the predictive ability for traits with complex genetic architecture. The interest in semi and non-parametric prediction methods has recently increased. Within this context, machine learning methods such as Artificial Neural Networks (ANN), Random Forest (RF) and Support Vector Machines (SVM) are an interesting alternative. The aims of the present study were: i) To compare the predictive performance of Genomic Best Linear Unbiased Predictor (GBLUP) and machine learning methods in simulated beef cattle populations presenting different degrees of dominance; ii) To investigate the predictive ability of different machine learning for genome-enabled prediction of reproductive traits in Nellore cattle and compare their performance with parametric approaches (GBLUP and BLASSO); iii) To perform a genome-wide association study (GWAS) using the Random Forest approach for scanning candidate genes for age at first calving in Nellore heifers. In the first study, the simulated genome comprised 50k single nucleotide polymorphisms (SNPs) and 300 QTL (Quantitative Trait Loci), both biallelic and randomly distributed across 29 chromosomes. A total of six traits were simulated considering different values for the narrow and broad-sense heritability. In the purely additive scenario with low heritability (h2 = 0.10), the predictive ability obtained using GBLUP was slightly higher than the other methods (approximately 0,8% to 5,0%) whereas ANN provided the highest accuracies for scenarios with moderate heritability (h2 = 0.30). The accuracies of dominance deviations varied from 0.180 to 0.350 in the GBLUP model considering the dominance genomic relationship matrix (GBLUP-D), from 0.062 to 0.185 in the RF and were null using ANN and SVM methods. Among machine learning methods, only the RF was capable to cover implicitly dominance effects without increasing the number of covariates in the model, resulting in higher accuracies for the total genetic and phenotypic values as the dominance ratio increased. In the second study, data of Nellore cattle from commercial herds born between 1984 and 2015 were used. The studied traits were Age at First Calving (AFC), Scrotal Circumference (SC), Early Pregnancy (EP) and Stayability (STAY). After quality control, the number of genotyped animals and SNP markers available were respectively, 2,342 and 321,419 (AFC), 4,671 and 309,486 (SC), 3,356 and 319,108 (EP) and 2,681 and 319,619 (STAY). The predictive ability from different machine learning models such as Support Vector Regression (SVR), Bayesian Regularized Artificial Neural Network (BRANN) and RF, was assessed. Results were compared with that obtained using GBLUP and BLASSO (Bayesian Least Absolute Shrinkage and Selection Operator) parametric models. For the SVR, the influence of different kernel bandwidth parameter values on the model predictive ability was assessed. In the BRANN models, different numbers of neurons in the hidden layer (1 to 4 neurons) were examined to assess the best ANN architecture. Further, two genomic structures were assessed as input information in the BRANN model, the marker-based genomic relationship matrix (G) and the principal components scores matrix (PC). The predictive ability of the studied models was evaluated by a 5-fold cross-validation scheme. The average accuracies were from low to moderate according to the trait and model considered, ranging between 0.555 and 0.625 (AFC), 0.268 and 0.359 (SC), 0.573 and 0.666 (EP) and 0.517 and 0.618 (STAY). The SVR provided slightly better performance than the parametric models for all traits, increasing the prediction accuracy for AFC around 5.1% and 3.7% compared to GBLUP and BLASSO models, respectively, and around 7.2% for SC, 3.4% for EP and 5% for STAY, comparing to both GBLUP and BLASSO. In contrast, the RF, BRANN_G and BRANN_PC models did not present competitive predictive ability compared to the benchmark approaches, presenting lower prediction accuracies and higher MSE for all traits. Our results indicate that the SVR is a suitable method for genomic breeding values prediction for reproductive traits in Nellore Cattle, presenting better predictive ability and computational time efficiency than the studied parametric approaches. Further, the optimal kernel bandwidth parameter in the SVR model was trait-dependent, thus, the correct pre-definition of this parameter in the training phase is advisable. Lastly, a genome-wide association study (GWAS) was performed using the RF approach for scanning candidate genes for AFC in Nellore cattle. The assessed values for the Mtry parameter (i.e. the number of SNPs to search at each node) were 1, √p, 0.01p and 0.1p, in which p represents the total number of SNPs. The RF parametrization which produced the lowest mean squared error in the out-of-bag data (MSE_OOB) was maintained for further analysis. We run five independent analyses with different initialization seeds for the algorithm and the SNPs importance scores were averaged. There were identified 118 SNPs associated with AFC, located over eight autosomes (BTA 3, 5, 10, 11, 18, 21, 25 and 27). In total, 23 non-overlapping genomic regions embedded 172 candidate genes for AFC. Genomic regions previously associated with fertility and growth traits in Nellore cattle were reported in the present study, which reinforces RF effectiveness for pre-screening candidate regions associated with complex traits. The RF-based genome-wide scan and functional analysis highlighted candidate genes with key roles in fertility, including embryo pre-implantation and development, embryonic viability, male germinal cell maturation and pheromone recognition.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)FAPESP: 16/24227-2.Universidade Estadual Paulista (Unesp)Albuquerque, Lucia Galvão de [UNESP]Universidade Estadual Paulista (Unesp)Alves, Anderson Antonio Carvalho [UNESP]2020-01-10T12:16:22Z2020-01-10T12:16:22Z2019-12-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://hdl.handle.net/11449/19131600092827633004102030P4enginfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-06-05T18:32:21Zoai:repositorio.unesp.br:11449/191316Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-06-05T18:32:21Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Applying machine learning methods for genomic analysis of reproductive traits in Nellore cattle
Aplicação de métodos de aprendizagem de máquina para análise genômica de características reprodutivas em bovinos da raça Nelore
title Applying machine learning methods for genomic analysis of reproductive traits in Nellore cattle
spellingShingle Applying machine learning methods for genomic analysis of reproductive traits in Nellore cattle
Alves, Anderson Antonio Carvalho [UNESP]
Bovinos de corte
Fertilidade
Genes candidatos
Métodos não-paramétricos
Precocidade
Predição genômica
Beef cattle
Fertility
Candidate genes
Nonparametric methods
Precocity
Genomic prediction
title_short Applying machine learning methods for genomic analysis of reproductive traits in Nellore cattle
title_full Applying machine learning methods for genomic analysis of reproductive traits in Nellore cattle
title_fullStr Applying machine learning methods for genomic analysis of reproductive traits in Nellore cattle
title_full_unstemmed Applying machine learning methods for genomic analysis of reproductive traits in Nellore cattle
title_sort Applying machine learning methods for genomic analysis of reproductive traits in Nellore cattle
author Alves, Anderson Antonio Carvalho [UNESP]
author_facet Alves, Anderson Antonio Carvalho [UNESP]
author_role author
dc.contributor.none.fl_str_mv Albuquerque, Lucia Galvão de [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Alves, Anderson Antonio Carvalho [UNESP]
dc.subject.por.fl_str_mv Bovinos de corte
Fertilidade
Genes candidatos
Métodos não-paramétricos
Precocidade
Predição genômica
Beef cattle
Fertility
Candidate genes
Nonparametric methods
Precocity
Genomic prediction
topic Bovinos de corte
Fertilidade
Genes candidatos
Métodos não-paramétricos
Precocidade
Predição genômica
Beef cattle
Fertility
Candidate genes
Nonparametric methods
Precocity
Genomic prediction
description A seleção de animais geneticamente superiores com base na informação genômica tem sido uma tendência crescente e promissora em programas de melhoramento. No entanto, os principais métodos de predição genômica envolvem modelos paramétricos, que em sua maioria, assumem somente variância aditiva para o efeito dos marcadores, ignorando-se possíveis relações não-lineares. A consideração de tais efeitos pode ser importante para melhorar a habilidade de predição em características com arquitetura genética complexa. Recentemente, tem crescido o interesse em métodos de predição semi e não paramétricos. Dentro desse contexto, os métodos de aprendizagem de máquina tais como Redes Neurais Artificiais (ANN), “Random Forest” (RF) e “Support Vector Machines” (SVM) são alternativas interessantes. Os objetivos do presente estudo foram: i) Comparar o desempenho preditivo do modelo “Genomic Best Linear Unbiased Predictor” (GBLUP) e de métodos de aprendizagem de máquina em populações simuladas de bovinos de corte, apresentando diferentes níveis para efeitos de dominância; ii) Investigar a habilidade de predição de diferentes métodos de aprendizagem de máquina para predição genômica de características reprodutivas em bovinos da raça Nelore; iii) Desenvolver um estudo de associação genômica ampla (GWAS) utilizando a metodologia “Random Forest”, a fim de buscar genes candidatos para idade ao primeiro parto em novilhas da raça Nelore. No primeiro estudo, o genoma simulado compreendeu um painel de SNPs (“Single Nucleotide Polymorphisms”) com densidade de 50k e 300 QTLs (“Quantitative Trait Loci”), espalhados aleatoriamente ao longo de 29 cromossomos. Foram simuladas ao todo seis características, considerando-se diferentes valores de herdabilidade no sentido restrito e amplo. No cenário puramente aditivo e com baixa herdabilidade (h2 = 0,10), a habilidade de predição utilizando o método GBLUP foi levemente superior em relação aos outros métodos (aproximadamente de 0,8% a 5,0%), ao passo que as ANN obtiveram melhor acurácia nos cenários com moderada herdabilidade (h2 = 0,30). As acurácias para os efeitos de dominância variaram entre 0,180 e 0,350 no modelo GBLUP considerando a matriz de relacionamento de dominância (GBLUP-D), entre 0,062 e 0,185 para o RF e foram nulas utilizando-se os métodos ANN e SVM. Entre os métodos de aprendizagem de máquina, apenas o RF foi capaz de capturar implicitamente os efeitos de dominância, resultando em maiores acurácias de predição para os valores genéticos totais e fenotípicos quando a variância devido ao efeito de dominância aumentou. No segundo estudo, dados referentes a bovinos da raça Nelore nascidos entre 1984 e 2015 foram utilizados. As características estudadas foram Idade ao Primeiro Parto (AFC), Circunferência Escrotal (SC), Prenhez Precoce (EP) e Habilidade de Permanência (STAY). Após o controle de qualidade, o número de animais com genótipos e de marcadores SNP disponíveis foram respectivamente, 2.342 e 321.419 (AFC), 4.671 e 309.486 (SC), 3.356 e 319.108 (EP) e 2.681 e 319.619 (STAY). A habilidade preditiva de diferentes métodos de aprendizagem de máquina tais como “Support Vector Regression” (SVR), “Bayesian Regularized Artificial Neural Network” (BRANN) e RF foi avaliada. Os resultados foram comparados aos obtidos pelos modelos paramétricos GBLUP e BLASSO (“Bayesian Least Absolute Shrinkage and Selection Operator”). Para o modelo SVR, investigou-se a influência de diferentes valores para o parâmetro de largura de banda do kernel na habilidade de predição do modelo. Para o modelo BRANN, diferentes números de neurônios na camada oculta (de 1 a 4 neurônios) foram examinados para se identificar a melhor arquitetura de rede. Além disso, duas estruturas de informação genômica foram testadas como informação de entrada no modelo BRANN, a matriz de relacionamento genômica (G) e a matriz de componentes principais (PC). A habilidade de predição dos modelos foi avaliada por meio de um esquema de validação cruzada em 5 “folds”. As acurácias obtidas foram de baixas a moderadas de acordo com a característica e modelos considerados, variando entre 0,555 e 0,625 (AFC), 0,268 e 0,359 (SC), 0,573 e 0,666 (EP) e entre 0,517 e 0,618 (STAY). O modelo SVR obteve desempenho ligeiramente superior em relação aos métodos paramétricos (GBLUP e BLASSO) para todas as características avaliadas, aumentando a acurácia de predição da AFC em aproximadamente 5,1% e 3,7%, quando comparados aos modelos GBLUP e BLASSO, respectivamente, e em 7,2% para SC, 3,4% para EP e 5% para STAY quando comparado aos resultados obtidos por ambos GBLUP e BLASSO. Por outro lado, os modelos RF, BRANN_G e BRANN_PC não apresentaram habilidade de predição competitiva com os métodos tradicionais, apresentando menor acurácia de predição e maiores erros de predição para todas as características. Os resultados indicam que o SVR é um método adequado para a predição de valores genéticos genômicos para características reprodutivas em bovinos da raça Nelore, apresentando melhor habilidade de predição e eficiência no tempo de computação em relação as metodologias paramétricas estudadas. Além disso, o valor mais adequado para o parâmetro de largura de banda do kernel no método SVR dependeu da característica avaliada, desse modo, a correta predefinição desse parâmetro na fase de treinamento do modelo é aconselhável. Por último, um estudo de associação genômica ampla foi realizado utilizando a abordagem RF, a fim de se identificar genes candidatos para a idade ao primeiro parto em bovinos da raça Nelore. Os valores examinados para o parâmetro Mtry (ou seja, o número de SNPs testados em cada nó das árvores) foram 1, √p, 0.01p e 0.1p, em que p representa o número total de SNPs. Os parâmetros que produziram o menor erro quadrático nos dados out-of-bag (MSEOOB) foram mantidos para análises posteriores. Foram realizadas 5 análises independentes com diferentes sementes de inicialização do algoritmo e os escores de importância dos SNPs foram computados como a média das 5 análises. Foram identificados 118 SNPs associados com AFC, localizados em oito cromossomos autossômicos (BTA 3, 5, 10, 11, 18, 21, 25 e 27). No total, 23 regiões não sobrepostas cobriram 172 genes candidatos para AFC. Regiões genômicas previamente associadas com características de fertilidade e crescimento em bovinos Nelore foram reportadas neste estudo, o que reforça a efetividade do RF como um método para a varredura inicial de regiões candidatas associadas com características complexas. O estudo de associação baseado no método RF e a análise funcional apontaram genes candidatos com funções chave na regulação da fertilidade, incluindo a pré-implantação de embriões e seu desenvolvimento, viabilidade embrionária, maturação de células germinais masculinas e reconhecimento de feromônios.
publishDate 2019
dc.date.none.fl_str_mv 2019-12-28
2020-01-10T12:16:22Z
2020-01-10T12:16:22Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11449/191316
000928276
33004102030P4
url http://hdl.handle.net/11449/191316
identifier_str_mv 000928276
33004102030P4
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_ 1803649424300179456