FLOWViZ: framework for phylogenetic processing

Luís, Miguel Filipe Paiva

FLOWViZ: framework for phylogenetic processing

Detalhes bibliográficos
Autor(a) principal:	Luís, Miguel Filipe Paiva
Data de Publicação:	2022
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10400.21/15760
Resumo:	Final project to obtain the Master Degree in Computer Science and Engineering

Metadados do item

id	RCAP_f6624a4a7d7996cc1ca294e15b10eca9
oai_identifier_str	oai:repositorio.ipl.pt:10400.21/15760
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	FLOWViZ: framework for phylogenetic processingWorkflowsFrameworks filogenéticasIntegração de softwareWorkflow systemsPhylogenetic frameworkSoftware integrationFinal project to obtain the Master Degree in Computer Science and EngineeringO aumento do risco epidemiológico e o constante crescimento da população mundial contribuiu para que se fizesse um forte investimento na análise filogenética, de modo a monitorizar doenças e a conceber tratamentos e medicação rápidos e eficazes. A análise filogenética utiliza grandes quantidades de informação, que deve ser analisada e processada para se extrair conhecimento, utilizando técnicas adequadas e, atualmente, software especializado e algoritmos, de modo a produzir resultados eficazes e rápidos. Estes algoritmos já são fornecidos por um grande conjunto de frameworks e ferramentas disponíveis gratuitamente, um bom exemplo é a framework de inferência filogenética PHYLOViZ[23]. A maioria das técnicas de análise utilizadas na inferência filogenética tendem a formar, topologicamente, pipelines de trabalho - procedimentos constituídos por passos, cujos fluxos de dados são dependentes entre si. Apesar de ser possível executar pipelines de trabalho manualmente, como tem sido feito há várias décadas, atualmente, já não é fazível, dado que os datasets utilizados são volumosos, tornando a sua análise manual contraproducente. A transição manual entre passos necessita também que haja interação humana para que cada passo receba os dados necessários, o que pode também estar sujeito ao erro humano. Por isso, foi construído software que reduzisse a interação humana e que automatizasse estes procedimentos. Este tipo de software é designado por sistemas de workflow - software que permite os utilizadores criarem workflows, através de uma Domain-Specific Language (DSL)[13], onde estes procedimentos são traduzidos para scripts, especificandose o grupo de tarefas, com os seus parâmetros e dependências de dados. Existem atualmente várias soluções de sistemas de workflow, que diferem na sua linguagem e estruturação de workflows, o que leva a que exista uma grande heterogeneidade de software, mas que piora também a partilha destes procedimentos. Por isso, quando se partilham workflows, é necessário despender-se tempo a traduzir pipelines de trabalho para a linguagem específica do sistema de workflow que vai executar a pipeline partilhada. Este problema levou a que fosse criada a Common Workflow Language (CWL)[2] - um novo standard que permite executar workflows entre vários sistemas de workflow. No entanto, nem todos os sistemas suportam este novo standard. Este projeto pretende construir uma framework, recorrendo a um projeto existente - PHYLOViZ e ao seu conjunto de ferramentas de inferência filogenética. Esta framework, permitirá ligar frameworks de inferência filogenética a sistemas de workflow, dando ao utilizador liberdade para construir os seus workflows personalizados, recorrendo à framework e às ferramentas do utilizador, fornecidas remotamente, que poderão ser geridas através de uma interface intuitiva. Tudo isto, fornecerá automatização de workflows e uma análise filogenética mais rápida e eficaz. Este projeto foi financiado, no contexto de uma bolsa de estudo da Fundação para a Ciência e a Tecnologia (FCT) com referência UIDB/50021/2020, no projeto NGPHYLO PTDC/CCI-BIO/29676/2017 e num projeto do IPL - IPL/2021/DIVA_ISEL.The increasing risk of epidemics and a fast-growing world population has contributed to a great investment in phylogenetic analysis, in order to track numerous diseases and conceive effective medication and treatments. Phylogenetic analysis requires large quantities of information to be analyzed and processed for knowledge extraction, using adequate techniques and, nowadays, specific software and algorithms, to deliver results as efficiently and fast as possible. These algorithms and techniques are already provided by a great set of free and available frameworks and tools, such as PHYLOViZ[23]. Most of the applied techniques and algorithms used for phylogenetic inference tend to form work pipelines - procedures formed by steps, which typically have an intrinsic dependency between them. Although it is possible to execute work pipelines manually, as it has been done for decades, nowadays, is not feasible, as genomic datasets are very large, and the respective analysis is time-consuming. The transition between steps also needs human interaction and each step must receive the matching data, correctly, which can introduce human error. Because of this, software were made to ease and reduce manual interaction, so these procedures could be automated. This type of software is typically referred as a workflow system - software which allows users to create workflows, on top of a provided Domain-Specific Language (DSL)[13], where procedures are translated into scripts, through the definition of a group of steps and their specific parameters and dependencies. There are already many software solutions available, which differ in their Domain-Specific Language and workflow structuring, leading to a great software heterogeneity, but also low workflow shareability - as users work on different workflow systems. Thus, when they share workflows with others, time needs to be spent converting and adapting certain workflows to a specific workflow system, so work pipelines can be executed, making workflow sharing a difficult task. This lead to the creation of the Common Workflow Language (CWL)[2] - a new standard which provides a way to execute workflows and work pipelines among diferente workflow systems. However, not every system supports this new standard. This project aims to build a framework on top of an already existing project - PHYLOViZ, which provides a set of state-of-the-art tools for phylogenetic inference. The developed framework, will link phylogenetic inference web frameworks with workflow systems, giving the user freedom to build its workflows, using the provided web framework’s or its remote tools, through a user-friendly web interface. Resulting in workflow automation, task scheduling and a more efficient and faster phylogenetic analysis. The project was supported by funds, under the context of a student grant of Fundação para a Ciência e a Tecnologia (FCT) with reference UIDB/50021/2020, for a INESCID’s project - NGPHYLO PTDC/CCI-BIO/29676/2017 and a Polytechnic Institute of Lisbon project - IPL/2021/DIVA_ISEL.VAZ, Cátia Raquel JesusRCIPLLuís, Miguel Filipe Paiva2023-03-06T15:26:18Z2022-122022-12-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.21/15760TID:203241690engLUÌS, Miguel Filipe Paiva - FLOWViZ: framework for phylogenetic processing. Lisboa: Instituto Superior de Engenharia de Lisboa, 2022. Dissertação de Mestrado.info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-08-03T10:13:40Zoai:repositorio.ipl.pt:10400.21/15760Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:23:22.711716Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	FLOWViZ: framework for phylogenetic processing
title	FLOWViZ: framework for phylogenetic processing
spellingShingle	FLOWViZ: framework for phylogenetic processing Luís, Miguel Filipe Paiva Workflows Frameworks filogenéticas Integração de software Workflow systems Phylogenetic framework Software integration
title_short	FLOWViZ: framework for phylogenetic processing
title_full	FLOWViZ: framework for phylogenetic processing
title_fullStr	FLOWViZ: framework for phylogenetic processing
title_full_unstemmed	FLOWViZ: framework for phylogenetic processing
title_sort	FLOWViZ: framework for phylogenetic processing
author	Luís, Miguel Filipe Paiva
author_facet	Luís, Miguel Filipe Paiva
author_role	author
dc.contributor.none.fl_str_mv	VAZ, Cátia Raquel Jesus RCIPL
dc.contributor.author.fl_str_mv	Luís, Miguel Filipe Paiva
dc.subject.por.fl_str_mv	Workflows Frameworks filogenéticas Integração de software Workflow systems Phylogenetic framework Software integration
topic	Workflows Frameworks filogenéticas Integração de software Workflow systems Phylogenetic framework Software integration
description	Final project to obtain the Master Degree in Computer Science and Engineering
publishDate	2022
dc.date.none.fl_str_mv	2022-12 2022-12-01T00:00:00Z 2023-03-06T15:26:18Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10400.21/15760 TID:203241690
url	http://hdl.handle.net/10400.21/15760
identifier_str_mv	TID:203241690
dc.language.iso.fl_str_mv	eng
language	eng
dc.relation.none.fl_str_mv	LUÌS, Miguel Filipe Paiva - FLOWViZ: framework for phylogenetic processing. Lisboa: Instituto Superior de Engenharia de Lisboa, 2022. Dissertação de Mestrado.
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799133506131984384

FLOWViZ: framework for phylogenetic processing

Registros relacionados