Aprendizado de Máquina e Biologia de Sistemas aplicada ao estudo da Síndrome de Microdeleção 22q11

Detalhes bibliográficos
Autor(a) principal: Alves, Camila Cristina de Oliveira
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UNESP
Texto Completo: http://hdl.handle.net/11449/182382
Resumo: A Síndrome de Microdeleção 22q11 (SD22q11), causada por uma deleção de aproximadamente 3Mb na região 22q11, apresenta uma frequencia média de 1 em 4000 a 9800 nascidos vivos sendo considera a síndrome de microdeleção mais frequente e a segunda causa mais comum de atraso no desenvolvimento e de doença congênita grave, após a síndrome de Down. De acordo com o tamanho e a localização da deleção, diferentes genes podem ser afetados e o principal gene considerado como responsável pelos sinais clássicos da síndrome é o TBX1. A SD22q11 caracteriza-se por um espectro fenotípico bastante amplo, com efeitos pleiotrópicos que resultam no acometimento de praticamente todos os órgãos e/ou sistemas, altamente variáveis com mais de 180 sinais clínicos já descritos, tanto físicos como comportamentais. Nesse trabalho aplicamos ferramentas de bioinformática com o intuito de descobrir padrões clínicos e sistêmicos da deleção 22q11, classificando casos sindrômicos em típicos e atípicos e estudando o impacto da deleção em redes de interação proteína-proteína (PPI). Para avaliação dos sinais clínicos que pudessem diferenciar pacientes sindrômicos foi aplicado uma metodologia baseada em aprendizado de máquina para classificar os casos em típico e atípico de acordo com os sinais clínicos através do algoritmo J48 (um algoritmo de árvore de decisão). As árvores de decisão selecionadas foram altamente precisas. Sinais clínicos como fissura oral, insuficiência velofaríngea, atraso no desenvolvimento de fala e linguagem, incapacidade de aprendizagem específica, anormalidade comportamental e atraso de crescimento foram indicativos para classificação dos casos. Já a avaliação do impacto da deleção da região 22q11 foi realizada através de estudos envolvendo redes biológicas. Assim, os genes codificadores de proteínas envolvidos na deleção foram removidos da rede PPI humana para simular a deleção. Diferentes análises topológicas foram utilizadas para comparar a rede global (GN) com a rede paciente (PN). Além disso foi verificado as comunidades de ambas as redes e realizou-se uma análise de enriquecimento de ontologia. Os resultados mostraram que não há diferença significativa ao comparar GN e PN, porém observamos que há diferença entre as comunidades dessas redes. Além disso, foi possível analisar diferentes genes que estavam presentes em regiões enriquecidas com termos ontológicos semelhantes. Dessa forma, podemos concluir que estudos envolvendo Aprendizado de Máquina e Redes Biológicas podem apontar novas hipoteses no estudo da SD22q11 além de ter potencial para esclarecer diversos aspectos de diferentes patologias que não são prontamente acessíveis pela biologia molecular convencional ou abordagens genéticas.
id UNSP_9f7935ab666561db9fe0139e69267b71
oai_identifier_str oai:repositorio.unesp.br:11449/182382
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str 2946
spelling Aprendizado de Máquina e Biologia de Sistemas aplicada ao estudo da Síndrome de Microdeleção 22q11Machine Learning and Systems Biology applied to the study of the 22q11 Microdeletion Syndrome22q11SDSíndrome DiGeorgeAprendizado de máquinasRede de interação proteína-proteína22q11DSDiGeorge syndromeMachine learningProtein-protein interaction networkA Síndrome de Microdeleção 22q11 (SD22q11), causada por uma deleção de aproximadamente 3Mb na região 22q11, apresenta uma frequencia média de 1 em 4000 a 9800 nascidos vivos sendo considera a síndrome de microdeleção mais frequente e a segunda causa mais comum de atraso no desenvolvimento e de doença congênita grave, após a síndrome de Down. De acordo com o tamanho e a localização da deleção, diferentes genes podem ser afetados e o principal gene considerado como responsável pelos sinais clássicos da síndrome é o TBX1. A SD22q11 caracteriza-se por um espectro fenotípico bastante amplo, com efeitos pleiotrópicos que resultam no acometimento de praticamente todos os órgãos e/ou sistemas, altamente variáveis com mais de 180 sinais clínicos já descritos, tanto físicos como comportamentais. Nesse trabalho aplicamos ferramentas de bioinformática com o intuito de descobrir padrões clínicos e sistêmicos da deleção 22q11, classificando casos sindrômicos em típicos e atípicos e estudando o impacto da deleção em redes de interação proteína-proteína (PPI). Para avaliação dos sinais clínicos que pudessem diferenciar pacientes sindrômicos foi aplicado uma metodologia baseada em aprendizado de máquina para classificar os casos em típico e atípico de acordo com os sinais clínicos através do algoritmo J48 (um algoritmo de árvore de decisão). As árvores de decisão selecionadas foram altamente precisas. Sinais clínicos como fissura oral, insuficiência velofaríngea, atraso no desenvolvimento de fala e linguagem, incapacidade de aprendizagem específica, anormalidade comportamental e atraso de crescimento foram indicativos para classificação dos casos. Já a avaliação do impacto da deleção da região 22q11 foi realizada através de estudos envolvendo redes biológicas. Assim, os genes codificadores de proteínas envolvidos na deleção foram removidos da rede PPI humana para simular a deleção. Diferentes análises topológicas foram utilizadas para comparar a rede global (GN) com a rede paciente (PN). Além disso foi verificado as comunidades de ambas as redes e realizou-se uma análise de enriquecimento de ontologia. Os resultados mostraram que não há diferença significativa ao comparar GN e PN, porém observamos que há diferença entre as comunidades dessas redes. Além disso, foi possível analisar diferentes genes que estavam presentes em regiões enriquecidas com termos ontológicos semelhantes. Dessa forma, podemos concluir que estudos envolvendo Aprendizado de Máquina e Redes Biológicas podem apontar novas hipoteses no estudo da SD22q11 além de ter potencial para esclarecer diversos aspectos de diferentes patologias que não são prontamente acessíveis pela biologia molecular convencional ou abordagens genéticas.The 22q11 Microdeletion Syndrome (22q11DS), caused by a deletion of approximately 3Mb in the 22q11 region, has an average frequency of 1 in 4000 to 9800 live births and is considered the most frequent microdeletion syndrome and the second most common cause of developmental delay and severe congenital disease after Down syndrome. According to the size and location of the deletion, different genes may be affected and the main gene considered to be responsible for the classic signs of the syndrome is TBX1. 22q11DS is characterized by a very broad phenotypic spectrum with pleiotropic effects that result in the involvement of variable organs and/or systems with more than 180 clinical signs already described, both physical and behavioral. In this work, we applied bioinformatics tools to detect clinical and systemic patterns of 22q11 deletion, classifying typical and atypical syndromic cases, and studying the impact of deletion on protein-protein interaction (PPI) networks. To evaluate clinical signs that could differentiate syndromic patients, a machine-learning based methodology was used to classify the cases into typical and atypical according to the clinical signs through the algorithm J48 (a decision tree algorithm). The selected decision trees were highly accurate. Clinical signs such as oral fissure, velopharyngeal insufficiency, speech and language development delay, specific learning disability, behavioral abnormality and growth delay were indicative for case classification. The evaluation of the impact of the 22q11 region deletion was performed through studies involving biological networks. To achieve this goal, the protein coding genes involved in the deletion were removed from the human PPI network to mimic the deletion. Different topological analyzes were used to compare the global network (GN) with the patient network (PN). In addition, the communities of both networks were verified and an ontology enrichment analysis was performed. The results showed that there is no significant difference when comparing GN and PN, but we observed that there is difference between the communities of these networks. In addition, it was possible to analyze different genes that were present in regions enriched with similar ontological terms. Thus, we can conclude that studies involving Machine Learning and Biological Networks may point out new hypotheses in the study of 22q11DS and have the potential to clarify several aspects of different pathologies that are not readily accessible by conventional molecular biology or genetic approaches.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: 1783724Universidade Estadual Paulista (Unesp)Bicudo, Lucilene Arilho Ribeiro [UNESP]Valente, Guilherme Targino [UNESP]Universidade Estadual Paulista (Unesp)Alves, Camila Cristina de Oliveira2019-06-25T12:52:24Z2019-06-25T12:52:24Z2019-04-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfapplication/pdfhttp://hdl.handle.net/11449/18238200091795133004064026P9porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2023-11-17T06:12:13Zoai:repositorio.unesp.br:11449/182382Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462023-11-17T06:12:13Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Aprendizado de Máquina e Biologia de Sistemas aplicada ao estudo da Síndrome de Microdeleção 22q11
Machine Learning and Systems Biology applied to the study of the 22q11 Microdeletion Syndrome
title Aprendizado de Máquina e Biologia de Sistemas aplicada ao estudo da Síndrome de Microdeleção 22q11
spellingShingle Aprendizado de Máquina e Biologia de Sistemas aplicada ao estudo da Síndrome de Microdeleção 22q11
Alves, Camila Cristina de Oliveira
22q11SD
Síndrome DiGeorge
Aprendizado de máquinas
Rede de interação proteína-proteína
22q11DS
DiGeorge syndrome
Machine learning
Protein-protein interaction network
title_short Aprendizado de Máquina e Biologia de Sistemas aplicada ao estudo da Síndrome de Microdeleção 22q11
title_full Aprendizado de Máquina e Biologia de Sistemas aplicada ao estudo da Síndrome de Microdeleção 22q11
title_fullStr Aprendizado de Máquina e Biologia de Sistemas aplicada ao estudo da Síndrome de Microdeleção 22q11
title_full_unstemmed Aprendizado de Máquina e Biologia de Sistemas aplicada ao estudo da Síndrome de Microdeleção 22q11
title_sort Aprendizado de Máquina e Biologia de Sistemas aplicada ao estudo da Síndrome de Microdeleção 22q11
author Alves, Camila Cristina de Oliveira
author_facet Alves, Camila Cristina de Oliveira
author_role author
dc.contributor.none.fl_str_mv Bicudo, Lucilene Arilho Ribeiro [UNESP]
Valente, Guilherme Targino [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Alves, Camila Cristina de Oliveira
dc.subject.por.fl_str_mv 22q11SD
Síndrome DiGeorge
Aprendizado de máquinas
Rede de interação proteína-proteína
22q11DS
DiGeorge syndrome
Machine learning
Protein-protein interaction network
topic 22q11SD
Síndrome DiGeorge
Aprendizado de máquinas
Rede de interação proteína-proteína
22q11DS
DiGeorge syndrome
Machine learning
Protein-protein interaction network
description A Síndrome de Microdeleção 22q11 (SD22q11), causada por uma deleção de aproximadamente 3Mb na região 22q11, apresenta uma frequencia média de 1 em 4000 a 9800 nascidos vivos sendo considera a síndrome de microdeleção mais frequente e a segunda causa mais comum de atraso no desenvolvimento e de doença congênita grave, após a síndrome de Down. De acordo com o tamanho e a localização da deleção, diferentes genes podem ser afetados e o principal gene considerado como responsável pelos sinais clássicos da síndrome é o TBX1. A SD22q11 caracteriza-se por um espectro fenotípico bastante amplo, com efeitos pleiotrópicos que resultam no acometimento de praticamente todos os órgãos e/ou sistemas, altamente variáveis com mais de 180 sinais clínicos já descritos, tanto físicos como comportamentais. Nesse trabalho aplicamos ferramentas de bioinformática com o intuito de descobrir padrões clínicos e sistêmicos da deleção 22q11, classificando casos sindrômicos em típicos e atípicos e estudando o impacto da deleção em redes de interação proteína-proteína (PPI). Para avaliação dos sinais clínicos que pudessem diferenciar pacientes sindrômicos foi aplicado uma metodologia baseada em aprendizado de máquina para classificar os casos em típico e atípico de acordo com os sinais clínicos através do algoritmo J48 (um algoritmo de árvore de decisão). As árvores de decisão selecionadas foram altamente precisas. Sinais clínicos como fissura oral, insuficiência velofaríngea, atraso no desenvolvimento de fala e linguagem, incapacidade de aprendizagem específica, anormalidade comportamental e atraso de crescimento foram indicativos para classificação dos casos. Já a avaliação do impacto da deleção da região 22q11 foi realizada através de estudos envolvendo redes biológicas. Assim, os genes codificadores de proteínas envolvidos na deleção foram removidos da rede PPI humana para simular a deleção. Diferentes análises topológicas foram utilizadas para comparar a rede global (GN) com a rede paciente (PN). Além disso foi verificado as comunidades de ambas as redes e realizou-se uma análise de enriquecimento de ontologia. Os resultados mostraram que não há diferença significativa ao comparar GN e PN, porém observamos que há diferença entre as comunidades dessas redes. Além disso, foi possível analisar diferentes genes que estavam presentes em regiões enriquecidas com termos ontológicos semelhantes. Dessa forma, podemos concluir que estudos envolvendo Aprendizado de Máquina e Redes Biológicas podem apontar novas hipoteses no estudo da SD22q11 além de ter potencial para esclarecer diversos aspectos de diferentes patologias que não são prontamente acessíveis pela biologia molecular convencional ou abordagens genéticas.
publishDate 2019
dc.date.none.fl_str_mv 2019-06-25T12:52:24Z
2019-06-25T12:52:24Z
2019-04-30
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11449/182382
000917951
33004064026P9
url http://hdl.handle.net/11449/182382
identifier_str_mv 000917951
33004064026P9
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_ 1803046527921291264