Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2

Detalhes bibliográficos
Autor(a) principal: Medeiros, Inácio Gomes
Data de Publicação: 2021
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFRN
Texto Completo: https://repositorio.ufrn.br/handle/123456789/44933
Resumo: A análise de variantes em um contexto clínico e o suporte ao desenvolvimento de terapias contra doenças virais são duas áreas em que diversas pesquisas têm utilizado processos de integração e análise de dados ômicos. Aferir se uma dada variante possui ou não impacto patogênico é um desafio presente na análise de variantes, inclusive quando diferentes ferramentas de predição de patogenicidade apontam resultados divergentes. Em relação ao desenvolvimento de terapias baseadas em RNA de interferência, observa-se que existe uma necessidade contínua de desenho e avaliação de eficiência de novos RNAs pequenos de interferência (siRNAs, do inglês short-interfing RNAs) a cada novo vírus que surge, como o SARS-CoV-2, responsável pela pandemia de COVID-19. Nessa direção, argumenta-se nesta tese, a partir da discussão de dois trabalhos, que processos de integração de dados e seleção de características podem trazer contribuições na resolução de questões ligadas à identificação de patogenicidade de variantes e, em um segundo momento, à disponibilização de informação e características de sequências que podem vir a servir para a formulação de terapias para a COVID-19. Em linhas gerais, o estudo objetivou (a) desenvolver métodos de integração de dados e seleção de características de variantes para aferição de patogenicidade e (b) desenvolver métodos de integração de dados visando a construção de um banco de dados de siRNAs para SARS-CoV-2. Para atingir o primeiro objetivo, foi proposto um modelo de classificação baseado em árvores de decisão para estimar a patogenicidade de variantes, construído por meio de um processo de integração de dados públicos de variantes já catalogadas com predições de patogenicidade trazidas por ferramentas baseadas em aprendizado de máquina. O modelo obtido foi capaz de apresentar uma acurácia superior ao estado da arte relativo à predição de patogenicidade de variantes, constituindo-se em uma importante ferramenta de apoio a profissionais de saúde, como nos diagnósticos de doenças genéticas. No segundo objetivo, combinou-se dados de propriedades estruturais, termodinâmicas, toxicidade, similaridade e de eficiência com o intuito de montar um catálogo global de siRNAs para o SARS-CoV-2. A integração de propriedades diversas relativas a siRNAs em uma única base de dados consolida-se como um referencial de informação que permite a realização de filtragens in silico simples e direcionadas, poupando a execução de muitos testes de bancadas em cima de moléculas candidatas para terapias contra a COVID-19. Esses estudos possuem pontos em comum com outros de integração de dados da literatura, entre eles, aspectos envolvendo diversidade dos dados, reprodutibilidade e descoberta de conhecimento. Por fim, verificou-se que estes trabalhos possuem potencial de aplicação clínica, seja para incrementar a compreensão de variantes relacionadas a comorbidades genéticas diversas, no caso do primeiro trabalho, como no apoio ao desenvolvimento de terapias contra a COVID-19, no caso do segundo trabalho.
id UFRN_195fbdbd8242662b0ce9404e200c360f
oai_identifier_str oai:https://repositorio.ufrn.br:123456789/44933
network_acronym_str UFRN
network_name_str Repositório Institucional da UFRN
repository_id_str
spelling Medeiros, Inácio Gomeshttp://lattes.cnpq.br/8450369742588953http://lattes.cnpq.br/8058577659019910Souza, Jorge Estefano Santana de17623795899http://lattes.cnpq.br/8058577659019910Santos, Araken de Medeiroshttp://lattes.cnpq.br/8059198436766378Ferreira, Beatriz Stranskyhttp://lattes.cnpq.br/3142264445097872Santos, Sidney Emanuel Batista doshttp://lattes.cnpq.br/9809924843125163Petta, Tirzah Brazhttp://lattes.cnpq.br/9979644969955564Souza, Jorge Estefano Santana de2021-11-17T17:24:53Z2021-11-17T17:24:53Z2021-09-21MEDEIROS, Inácio Gomes. Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2. 2021. 121f. Tese (Doutorado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2021.https://repositorio.ufrn.br/handle/123456789/44933A análise de variantes em um contexto clínico e o suporte ao desenvolvimento de terapias contra doenças virais são duas áreas em que diversas pesquisas têm utilizado processos de integração e análise de dados ômicos. Aferir se uma dada variante possui ou não impacto patogênico é um desafio presente na análise de variantes, inclusive quando diferentes ferramentas de predição de patogenicidade apontam resultados divergentes. Em relação ao desenvolvimento de terapias baseadas em RNA de interferência, observa-se que existe uma necessidade contínua de desenho e avaliação de eficiência de novos RNAs pequenos de interferência (siRNAs, do inglês short-interfing RNAs) a cada novo vírus que surge, como o SARS-CoV-2, responsável pela pandemia de COVID-19. Nessa direção, argumenta-se nesta tese, a partir da discussão de dois trabalhos, que processos de integração de dados e seleção de características podem trazer contribuições na resolução de questões ligadas à identificação de patogenicidade de variantes e, em um segundo momento, à disponibilização de informação e características de sequências que podem vir a servir para a formulação de terapias para a COVID-19. Em linhas gerais, o estudo objetivou (a) desenvolver métodos de integração de dados e seleção de características de variantes para aferição de patogenicidade e (b) desenvolver métodos de integração de dados visando a construção de um banco de dados de siRNAs para SARS-CoV-2. Para atingir o primeiro objetivo, foi proposto um modelo de classificação baseado em árvores de decisão para estimar a patogenicidade de variantes, construído por meio de um processo de integração de dados públicos de variantes já catalogadas com predições de patogenicidade trazidas por ferramentas baseadas em aprendizado de máquina. O modelo obtido foi capaz de apresentar uma acurácia superior ao estado da arte relativo à predição de patogenicidade de variantes, constituindo-se em uma importante ferramenta de apoio a profissionais de saúde, como nos diagnósticos de doenças genéticas. No segundo objetivo, combinou-se dados de propriedades estruturais, termodinâmicas, toxicidade, similaridade e de eficiência com o intuito de montar um catálogo global de siRNAs para o SARS-CoV-2. A integração de propriedades diversas relativas a siRNAs em uma única base de dados consolida-se como um referencial de informação que permite a realização de filtragens in silico simples e direcionadas, poupando a execução de muitos testes de bancadas em cima de moléculas candidatas para terapias contra a COVID-19. Esses estudos possuem pontos em comum com outros de integração de dados da literatura, entre eles, aspectos envolvendo diversidade dos dados, reprodutibilidade e descoberta de conhecimento. Por fim, verificou-se que estes trabalhos possuem potencial de aplicação clínica, seja para incrementar a compreensão de variantes relacionadas a comorbidades genéticas diversas, no caso do primeiro trabalho, como no apoio ao desenvolvimento de terapias contra a COVID-19, no caso do segundo trabalho.Analysis of variants in clinical context and the support for the development of therapies against viral diseases are two areas which several research have used processes of integration and analysis of omics data. Assessing whether a given variant has a pathogenic impact is a challenge in the analysis of variants, especially when different tools for predicting pathogenicity point to divergent results. Regarding the development of RNA interference-based therapies, it is observed that there is a continuing need to design and evaluate the efficiency of new small-interfering RNAs (siRNAs) for each new virus that arises, like SARS-CoV-2, responsible for the COVID-19 pandemic. In this sense, it is argued in this thesis, based on the discussion of two works, that data integration and feature selection processes can contribute to the resolution of issues related to the identification of pathogenicity of variants and, in a second moment, to the availability of information and characteristics of sequences that may serve as the basis for therapies for COVID-19. In general terms, the study aimed (a) to develop data integration methods and selection of variant characteristics to measure pathogenicity and (b) to develop data integration methods for the construction of a database of siRNAs for SARS-CoV-2. To achieve the first objective, a decision tree-based classification model was proposed to estimate the pathogenicity of variants, built through an integration process of public data of already cataloged variants with pathogenicity predictions provided by machine learning-based tools. The model was able to present a higher accuracy than the state of the art regarding the prediction of pathogenicity of variants, constituting an important tool to support health professionals, such as in the diagnosis of genetic diseases. In the second objective, data on available properties, thermodynamics, toxicity, similarity, and efficiency were combined to assemble a global catalog of siRNAs for SARS-CoV-2. The integration of diverse properties related to siRNAs in a single consolidated database is an information reference that allows the realization of simple and targeted filtering in siRNA, saving the execution of many wet-lab tests on candidate molecules for COVID-19 antiviral therapies. These studies have common features with other data integration works in aspects involving data diversity, reproducibility, and knowledge discovery. Finally, it was found that these studies have potential for clinical application, either to increase the understanding of variants related to different genetic comorbidities, in the case of the first work, or to support the development of therapies against COVID-19, in the case of second job.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESUniversidade Federal do Rio Grande do NortePROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICAUFRNBrasilIntegração de dadosAnálise de variantesÁrvore de decisãosiRNABanco de dadosCOVID-19Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNORIGINALSelecaocaracteristicassequencias_Medeiros_2021.pdfapplication/pdf3584526https://repositorio.ufrn.br/bitstream/123456789/44933/1/Selecaocaracteristicassequencias_Medeiros_2021.pdfd160d310308d5492c4d97fc90fc3dd21MD51123456789/449332022-05-02 12:06:59.496oai:https://repositorio.ufrn.br:123456789/44933Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2022-05-02T15:06:59Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.pt_BR.fl_str_mv Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2
title Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2
spellingShingle Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2
Medeiros, Inácio Gomes
Integração de dados
Análise de variantes
Árvore de decisão
siRNA
Banco de dados
COVID-19
title_short Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2
title_full Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2
title_fullStr Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2
title_full_unstemmed Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2
title_sort Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2
author Medeiros, Inácio Gomes
author_facet Medeiros, Inácio Gomes
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/8450369742588953
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/8058577659019910
dc.contributor.referees1.none.fl_str_mv Santos, Araken de Medeiros
dc.contributor.referees1Lattes.pt_BR.fl_str_mv http://lattes.cnpq.br/8059198436766378
dc.contributor.referees2.none.fl_str_mv Ferreira, Beatriz Stransky
dc.contributor.referees2Lattes.pt_BR.fl_str_mv http://lattes.cnpq.br/3142264445097872
dc.contributor.referees3.none.fl_str_mv Santos, Sidney Emanuel Batista dos
dc.contributor.referees3Lattes.pt_BR.fl_str_mv http://lattes.cnpq.br/9809924843125163
dc.contributor.referees4.none.fl_str_mv Petta, Tirzah Braz
dc.contributor.referees4Lattes.pt_BR.fl_str_mv http://lattes.cnpq.br/9979644969955564
dc.contributor.author.fl_str_mv Medeiros, Inácio Gomes
dc.contributor.advisor-co1.fl_str_mv Souza, Jorge Estefano Santana de
dc.contributor.advisor-co1ID.fl_str_mv 17623795899
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/8058577659019910
dc.contributor.advisor1.fl_str_mv Souza, Jorge Estefano Santana de
contributor_str_mv Souza, Jorge Estefano Santana de
Souza, Jorge Estefano Santana de
dc.subject.por.fl_str_mv Integração de dados
Análise de variantes
Árvore de decisão
siRNA
Banco de dados
COVID-19
topic Integração de dados
Análise de variantes
Árvore de decisão
siRNA
Banco de dados
COVID-19
description A análise de variantes em um contexto clínico e o suporte ao desenvolvimento de terapias contra doenças virais são duas áreas em que diversas pesquisas têm utilizado processos de integração e análise de dados ômicos. Aferir se uma dada variante possui ou não impacto patogênico é um desafio presente na análise de variantes, inclusive quando diferentes ferramentas de predição de patogenicidade apontam resultados divergentes. Em relação ao desenvolvimento de terapias baseadas em RNA de interferência, observa-se que existe uma necessidade contínua de desenho e avaliação de eficiência de novos RNAs pequenos de interferência (siRNAs, do inglês short-interfing RNAs) a cada novo vírus que surge, como o SARS-CoV-2, responsável pela pandemia de COVID-19. Nessa direção, argumenta-se nesta tese, a partir da discussão de dois trabalhos, que processos de integração de dados e seleção de características podem trazer contribuições na resolução de questões ligadas à identificação de patogenicidade de variantes e, em um segundo momento, à disponibilização de informação e características de sequências que podem vir a servir para a formulação de terapias para a COVID-19. Em linhas gerais, o estudo objetivou (a) desenvolver métodos de integração de dados e seleção de características de variantes para aferição de patogenicidade e (b) desenvolver métodos de integração de dados visando a construção de um banco de dados de siRNAs para SARS-CoV-2. Para atingir o primeiro objetivo, foi proposto um modelo de classificação baseado em árvores de decisão para estimar a patogenicidade de variantes, construído por meio de um processo de integração de dados públicos de variantes já catalogadas com predições de patogenicidade trazidas por ferramentas baseadas em aprendizado de máquina. O modelo obtido foi capaz de apresentar uma acurácia superior ao estado da arte relativo à predição de patogenicidade de variantes, constituindo-se em uma importante ferramenta de apoio a profissionais de saúde, como nos diagnósticos de doenças genéticas. No segundo objetivo, combinou-se dados de propriedades estruturais, termodinâmicas, toxicidade, similaridade e de eficiência com o intuito de montar um catálogo global de siRNAs para o SARS-CoV-2. A integração de propriedades diversas relativas a siRNAs em uma única base de dados consolida-se como um referencial de informação que permite a realização de filtragens in silico simples e direcionadas, poupando a execução de muitos testes de bancadas em cima de moléculas candidatas para terapias contra a COVID-19. Esses estudos possuem pontos em comum com outros de integração de dados da literatura, entre eles, aspectos envolvendo diversidade dos dados, reprodutibilidade e descoberta de conhecimento. Por fim, verificou-se que estes trabalhos possuem potencial de aplicação clínica, seja para incrementar a compreensão de variantes relacionadas a comorbidades genéticas diversas, no caso do primeiro trabalho, como no apoio ao desenvolvimento de terapias contra a COVID-19, no caso do segundo trabalho.
publishDate 2021
dc.date.accessioned.fl_str_mv 2021-11-17T17:24:53Z
dc.date.available.fl_str_mv 2021-11-17T17:24:53Z
dc.date.issued.fl_str_mv 2021-09-21
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv MEDEIROS, Inácio Gomes. Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2. 2021. 121f. Tese (Doutorado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2021.
dc.identifier.uri.fl_str_mv https://repositorio.ufrn.br/handle/123456789/44933
identifier_str_mv MEDEIROS, Inácio Gomes. Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2. 2021. 121f. Tese (Doutorado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2021.
url https://repositorio.ufrn.br/handle/123456789/44933
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.publisher.program.fl_str_mv PROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA
dc.publisher.initials.fl_str_mv UFRN
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRN
instname:Universidade Federal do Rio Grande do Norte (UFRN)
instacron:UFRN
instname_str Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str UFRN
institution UFRN
reponame_str Repositório Institucional da UFRN
collection Repositório Institucional da UFRN
bitstream.url.fl_str_mv https://repositorio.ufrn.br/bitstream/123456789/44933/1/Selecaocaracteristicassequencias_Medeiros_2021.pdf
bitstream.checksum.fl_str_mv d160d310308d5492c4d97fc90fc3dd21
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv
_version_ 1802117782556377088