Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRN |
Texto Completo: | https://repositorio.ufrn.br/handle/123456789/44933 |
Resumo: | A análise de variantes em um contexto clínico e o suporte ao desenvolvimento de terapias contra doenças virais são duas áreas em que diversas pesquisas têm utilizado processos de integração e análise de dados ômicos. Aferir se uma dada variante possui ou não impacto patogênico é um desafio presente na análise de variantes, inclusive quando diferentes ferramentas de predição de patogenicidade apontam resultados divergentes. Em relação ao desenvolvimento de terapias baseadas em RNA de interferência, observa-se que existe uma necessidade contínua de desenho e avaliação de eficiência de novos RNAs pequenos de interferência (siRNAs, do inglês short-interfing RNAs) a cada novo vírus que surge, como o SARS-CoV-2, responsável pela pandemia de COVID-19. Nessa direção, argumenta-se nesta tese, a partir da discussão de dois trabalhos, que processos de integração de dados e seleção de características podem trazer contribuições na resolução de questões ligadas à identificação de patogenicidade de variantes e, em um segundo momento, à disponibilização de informação e características de sequências que podem vir a servir para a formulação de terapias para a COVID-19. Em linhas gerais, o estudo objetivou (a) desenvolver métodos de integração de dados e seleção de características de variantes para aferição de patogenicidade e (b) desenvolver métodos de integração de dados visando a construção de um banco de dados de siRNAs para SARS-CoV-2. Para atingir o primeiro objetivo, foi proposto um modelo de classificação baseado em árvores de decisão para estimar a patogenicidade de variantes, construído por meio de um processo de integração de dados públicos de variantes já catalogadas com predições de patogenicidade trazidas por ferramentas baseadas em aprendizado de máquina. O modelo obtido foi capaz de apresentar uma acurácia superior ao estado da arte relativo à predição de patogenicidade de variantes, constituindo-se em uma importante ferramenta de apoio a profissionais de saúde, como nos diagnósticos de doenças genéticas. No segundo objetivo, combinou-se dados de propriedades estruturais, termodinâmicas, toxicidade, similaridade e de eficiência com o intuito de montar um catálogo global de siRNAs para o SARS-CoV-2. A integração de propriedades diversas relativas a siRNAs em uma única base de dados consolida-se como um referencial de informação que permite a realização de filtragens in silico simples e direcionadas, poupando a execução de muitos testes de bancadas em cima de moléculas candidatas para terapias contra a COVID-19. Esses estudos possuem pontos em comum com outros de integração de dados da literatura, entre eles, aspectos envolvendo diversidade dos dados, reprodutibilidade e descoberta de conhecimento. Por fim, verificou-se que estes trabalhos possuem potencial de aplicação clínica, seja para incrementar a compreensão de variantes relacionadas a comorbidades genéticas diversas, no caso do primeiro trabalho, como no apoio ao desenvolvimento de terapias contra a COVID-19, no caso do segundo trabalho. |
id |
UFRN_195fbdbd8242662b0ce9404e200c360f |
---|---|
oai_identifier_str |
oai:https://repositorio.ufrn.br:123456789/44933 |
network_acronym_str |
UFRN |
network_name_str |
Repositório Institucional da UFRN |
repository_id_str |
|
spelling |
Medeiros, Inácio Gomeshttp://lattes.cnpq.br/8450369742588953http://lattes.cnpq.br/8058577659019910Souza, Jorge Estefano Santana de17623795899http://lattes.cnpq.br/8058577659019910Santos, Araken de Medeiroshttp://lattes.cnpq.br/8059198436766378Ferreira, Beatriz Stranskyhttp://lattes.cnpq.br/3142264445097872Santos, Sidney Emanuel Batista doshttp://lattes.cnpq.br/9809924843125163Petta, Tirzah Brazhttp://lattes.cnpq.br/9979644969955564Souza, Jorge Estefano Santana de2021-11-17T17:24:53Z2021-11-17T17:24:53Z2021-09-21MEDEIROS, Inácio Gomes. Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2. 2021. 121f. Tese (Doutorado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2021.https://repositorio.ufrn.br/handle/123456789/44933A análise de variantes em um contexto clínico e o suporte ao desenvolvimento de terapias contra doenças virais são duas áreas em que diversas pesquisas têm utilizado processos de integração e análise de dados ômicos. Aferir se uma dada variante possui ou não impacto patogênico é um desafio presente na análise de variantes, inclusive quando diferentes ferramentas de predição de patogenicidade apontam resultados divergentes. Em relação ao desenvolvimento de terapias baseadas em RNA de interferência, observa-se que existe uma necessidade contínua de desenho e avaliação de eficiência de novos RNAs pequenos de interferência (siRNAs, do inglês short-interfing RNAs) a cada novo vírus que surge, como o SARS-CoV-2, responsável pela pandemia de COVID-19. Nessa direção, argumenta-se nesta tese, a partir da discussão de dois trabalhos, que processos de integração de dados e seleção de características podem trazer contribuições na resolução de questões ligadas à identificação de patogenicidade de variantes e, em um segundo momento, à disponibilização de informação e características de sequências que podem vir a servir para a formulação de terapias para a COVID-19. Em linhas gerais, o estudo objetivou (a) desenvolver métodos de integração de dados e seleção de características de variantes para aferição de patogenicidade e (b) desenvolver métodos de integração de dados visando a construção de um banco de dados de siRNAs para SARS-CoV-2. Para atingir o primeiro objetivo, foi proposto um modelo de classificação baseado em árvores de decisão para estimar a patogenicidade de variantes, construído por meio de um processo de integração de dados públicos de variantes já catalogadas com predições de patogenicidade trazidas por ferramentas baseadas em aprendizado de máquina. O modelo obtido foi capaz de apresentar uma acurácia superior ao estado da arte relativo à predição de patogenicidade de variantes, constituindo-se em uma importante ferramenta de apoio a profissionais de saúde, como nos diagnósticos de doenças genéticas. No segundo objetivo, combinou-se dados de propriedades estruturais, termodinâmicas, toxicidade, similaridade e de eficiência com o intuito de montar um catálogo global de siRNAs para o SARS-CoV-2. A integração de propriedades diversas relativas a siRNAs em uma única base de dados consolida-se como um referencial de informação que permite a realização de filtragens in silico simples e direcionadas, poupando a execução de muitos testes de bancadas em cima de moléculas candidatas para terapias contra a COVID-19. Esses estudos possuem pontos em comum com outros de integração de dados da literatura, entre eles, aspectos envolvendo diversidade dos dados, reprodutibilidade e descoberta de conhecimento. Por fim, verificou-se que estes trabalhos possuem potencial de aplicação clínica, seja para incrementar a compreensão de variantes relacionadas a comorbidades genéticas diversas, no caso do primeiro trabalho, como no apoio ao desenvolvimento de terapias contra a COVID-19, no caso do segundo trabalho.Analysis of variants in clinical context and the support for the development of therapies against viral diseases are two areas which several research have used processes of integration and analysis of omics data. Assessing whether a given variant has a pathogenic impact is a challenge in the analysis of variants, especially when different tools for predicting pathogenicity point to divergent results. Regarding the development of RNA interference-based therapies, it is observed that there is a continuing need to design and evaluate the efficiency of new small-interfering RNAs (siRNAs) for each new virus that arises, like SARS-CoV-2, responsible for the COVID-19 pandemic. In this sense, it is argued in this thesis, based on the discussion of two works, that data integration and feature selection processes can contribute to the resolution of issues related to the identification of pathogenicity of variants and, in a second moment, to the availability of information and characteristics of sequences that may serve as the basis for therapies for COVID-19. In general terms, the study aimed (a) to develop data integration methods and selection of variant characteristics to measure pathogenicity and (b) to develop data integration methods for the construction of a database of siRNAs for SARS-CoV-2. To achieve the first objective, a decision tree-based classification model was proposed to estimate the pathogenicity of variants, built through an integration process of public data of already cataloged variants with pathogenicity predictions provided by machine learning-based tools. The model was able to present a higher accuracy than the state of the art regarding the prediction of pathogenicity of variants, constituting an important tool to support health professionals, such as in the diagnosis of genetic diseases. In the second objective, data on available properties, thermodynamics, toxicity, similarity, and efficiency were combined to assemble a global catalog of siRNAs for SARS-CoV-2. The integration of diverse properties related to siRNAs in a single consolidated database is an information reference that allows the realization of simple and targeted filtering in siRNA, saving the execution of many wet-lab tests on candidate molecules for COVID-19 antiviral therapies. These studies have common features with other data integration works in aspects involving data diversity, reproducibility, and knowledge discovery. Finally, it was found that these studies have potential for clinical application, either to increase the understanding of variants related to different genetic comorbidities, in the case of the first work, or to support the development of therapies against COVID-19, in the case of second job.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESUniversidade Federal do Rio Grande do NortePROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICAUFRNBrasilIntegração de dadosAnálise de variantesÁrvore de decisãosiRNABanco de dadosCOVID-19Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNORIGINALSelecaocaracteristicassequencias_Medeiros_2021.pdfapplication/pdf3584526https://repositorio.ufrn.br/bitstream/123456789/44933/1/Selecaocaracteristicassequencias_Medeiros_2021.pdfd160d310308d5492c4d97fc90fc3dd21MD51123456789/449332022-05-02 12:06:59.496oai:https://repositorio.ufrn.br:123456789/44933Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2022-05-02T15:06:59Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false |
dc.title.pt_BR.fl_str_mv |
Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2 |
title |
Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2 |
spellingShingle |
Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2 Medeiros, Inácio Gomes Integração de dados Análise de variantes Árvore de decisão siRNA Banco de dados COVID-19 |
title_short |
Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2 |
title_full |
Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2 |
title_fullStr |
Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2 |
title_full_unstemmed |
Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2 |
title_sort |
Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2 |
author |
Medeiros, Inácio Gomes |
author_facet |
Medeiros, Inácio Gomes |
author_role |
author |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/8450369742588953 |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/8058577659019910 |
dc.contributor.referees1.none.fl_str_mv |
Santos, Araken de Medeiros |
dc.contributor.referees1Lattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/8059198436766378 |
dc.contributor.referees2.none.fl_str_mv |
Ferreira, Beatriz Stransky |
dc.contributor.referees2Lattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/3142264445097872 |
dc.contributor.referees3.none.fl_str_mv |
Santos, Sidney Emanuel Batista dos |
dc.contributor.referees3Lattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/9809924843125163 |
dc.contributor.referees4.none.fl_str_mv |
Petta, Tirzah Braz |
dc.contributor.referees4Lattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/9979644969955564 |
dc.contributor.author.fl_str_mv |
Medeiros, Inácio Gomes |
dc.contributor.advisor-co1.fl_str_mv |
Souza, Jorge Estefano Santana de |
dc.contributor.advisor-co1ID.fl_str_mv |
17623795899 |
dc.contributor.advisor-co1Lattes.fl_str_mv |
http://lattes.cnpq.br/8058577659019910 |
dc.contributor.advisor1.fl_str_mv |
Souza, Jorge Estefano Santana de |
contributor_str_mv |
Souza, Jorge Estefano Santana de Souza, Jorge Estefano Santana de |
dc.subject.por.fl_str_mv |
Integração de dados Análise de variantes Árvore de decisão siRNA Banco de dados COVID-19 |
topic |
Integração de dados Análise de variantes Árvore de decisão siRNA Banco de dados COVID-19 |
description |
A análise de variantes em um contexto clínico e o suporte ao desenvolvimento de terapias contra doenças virais são duas áreas em que diversas pesquisas têm utilizado processos de integração e análise de dados ômicos. Aferir se uma dada variante possui ou não impacto patogênico é um desafio presente na análise de variantes, inclusive quando diferentes ferramentas de predição de patogenicidade apontam resultados divergentes. Em relação ao desenvolvimento de terapias baseadas em RNA de interferência, observa-se que existe uma necessidade contínua de desenho e avaliação de eficiência de novos RNAs pequenos de interferência (siRNAs, do inglês short-interfing RNAs) a cada novo vírus que surge, como o SARS-CoV-2, responsável pela pandemia de COVID-19. Nessa direção, argumenta-se nesta tese, a partir da discussão de dois trabalhos, que processos de integração de dados e seleção de características podem trazer contribuições na resolução de questões ligadas à identificação de patogenicidade de variantes e, em um segundo momento, à disponibilização de informação e características de sequências que podem vir a servir para a formulação de terapias para a COVID-19. Em linhas gerais, o estudo objetivou (a) desenvolver métodos de integração de dados e seleção de características de variantes para aferição de patogenicidade e (b) desenvolver métodos de integração de dados visando a construção de um banco de dados de siRNAs para SARS-CoV-2. Para atingir o primeiro objetivo, foi proposto um modelo de classificação baseado em árvores de decisão para estimar a patogenicidade de variantes, construído por meio de um processo de integração de dados públicos de variantes já catalogadas com predições de patogenicidade trazidas por ferramentas baseadas em aprendizado de máquina. O modelo obtido foi capaz de apresentar uma acurácia superior ao estado da arte relativo à predição de patogenicidade de variantes, constituindo-se em uma importante ferramenta de apoio a profissionais de saúde, como nos diagnósticos de doenças genéticas. No segundo objetivo, combinou-se dados de propriedades estruturais, termodinâmicas, toxicidade, similaridade e de eficiência com o intuito de montar um catálogo global de siRNAs para o SARS-CoV-2. A integração de propriedades diversas relativas a siRNAs em uma única base de dados consolida-se como um referencial de informação que permite a realização de filtragens in silico simples e direcionadas, poupando a execução de muitos testes de bancadas em cima de moléculas candidatas para terapias contra a COVID-19. Esses estudos possuem pontos em comum com outros de integração de dados da literatura, entre eles, aspectos envolvendo diversidade dos dados, reprodutibilidade e descoberta de conhecimento. Por fim, verificou-se que estes trabalhos possuem potencial de aplicação clínica, seja para incrementar a compreensão de variantes relacionadas a comorbidades genéticas diversas, no caso do primeiro trabalho, como no apoio ao desenvolvimento de terapias contra a COVID-19, no caso do segundo trabalho. |
publishDate |
2021 |
dc.date.accessioned.fl_str_mv |
2021-11-17T17:24:53Z |
dc.date.available.fl_str_mv |
2021-11-17T17:24:53Z |
dc.date.issued.fl_str_mv |
2021-09-21 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
MEDEIROS, Inácio Gomes. Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2. 2021. 121f. Tese (Doutorado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2021. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufrn.br/handle/123456789/44933 |
identifier_str_mv |
MEDEIROS, Inácio Gomes. Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2. 2021. 121f. Tese (Doutorado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2021. |
url |
https://repositorio.ufrn.br/handle/123456789/44933 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte |
dc.publisher.program.fl_str_mv |
PROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA |
dc.publisher.initials.fl_str_mv |
UFRN |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRN instname:Universidade Federal do Rio Grande do Norte (UFRN) instacron:UFRN |
instname_str |
Universidade Federal do Rio Grande do Norte (UFRN) |
instacron_str |
UFRN |
institution |
UFRN |
reponame_str |
Repositório Institucional da UFRN |
collection |
Repositório Institucional da UFRN |
bitstream.url.fl_str_mv |
https://repositorio.ufrn.br/bitstream/123456789/44933/1/Selecaocaracteristicassequencias_Medeiros_2021.pdf |
bitstream.checksum.fl_str_mv |
d160d310308d5492c4d97fc90fc3dd21 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN) |
repository.mail.fl_str_mv |
|
_version_ |
1814832931231760384 |