Dados de pesquisa contribuição da infraestrutura para a promoção da reprodutibilidade e do reúso
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/275864 |
Resumo: | Este trabalho analisa a contribuição das ferramentas que compõem a infraestrutura de suporte à pesquisa, particularmente as fornecidas pelo Laboratório Insterinstitucional de e-Astronomia (LIneA), para a reprodutibilidade das pesquisas o reúso dos dados ao longo do tempo. O LIneA foi escolhido por se tratar de uma instituição brasileira que oferece aos seus pesquisadores uma infraestrutura computacional com ferramentas necessárias para a manipulação da grande quantidade de dados em Astronomia, característica comum à e-Science. Este estudo adotou como procedimentos metodológicos a revisão bibliográfica para identificação das ferramentas de suporte à pesquisa que promovem a reprodutibilidade e reúso dos dados na ciência em geral; a pesquisa documental para identificar o funcionamento destas ferramentas; entrevistas semiestruturadas com membros do LIneA e de suas colaborações que desempenham diferentes papéis a fim de identificar como as pesquisas aproveitam a infraestrutura oferecida pelo LIneA e qual a contribuição desta para a reprodutibilidade das pesquisa e o reúso dos dados; além do experimento de reprodução de pesquisas descritas em três artigos publicados por pesquisadores membros das colaborações apoiadas pelo LIneA. Durante este processo, foi identificada a utilização, no LIneA, de ferramentas dentre as quais destaca-se o versionamento de códigofonte de programas de análises através do Git Hub, a descrição interativa de fluxos de análises de dados utilizando Jupyter Hub e o encapsulamento do ambiente computacional por meio de containers Docker. Nas entrevistas, observou-se que os pesquisadores do LIneA utilizam a infraestrutura oferecida, por vezes solicitando auxílio de membros da equipe de TI, seja no uso do Git Hub ou Docker, para a disponibilização de artefatos de pesquisa ou na transformação de dados de terceiros para o reúso do pesquisador. Entretanto os pesquisadores relataram não ter conhecimento da reutilização dos artefatos produzidos por suas pesquisas, apesar de eles mesmo reusarem artefatos de terceiros. O experimento de avaliação de reprodutibilidade partiu da leitura dos três artigos selecionados e posterior coleta dos artefatos de pesquisa neles descritos. Os respectivos artefatos foram parcialmente recuperados, devido à falta de referência para o recorte dos dados de entrada utilizados nos artigos, ou de referência para a correta versão do código-fonte dos experimentos ou, também, pela falta de disponibilidade das dependências de software necessários para o ambiente computacional. Considera-se que o LIneA vem adotando sistematicamente práticas e ferramentas de suporte ao desenvolvimento e à documentação das pesquisas, as quais precisam alcançar um uso padronizado e combinado para atingir a reprodutilidade das pesquisas. Para este fim, com base nos trabalhos relacionados, sugere-se a criação de uma política de curadoria de dados, com o estabelecimento de um padrão de compartilhamento de artefatos para as pesquisas desenvolvidas pelos membros do LIneA, assim como a contratação de equipe responsável pela gestão dos dados de pesquisa para auxiliar tanto na elaboração desta política como na sua adoção pelos pesquisadores e membros do LIneA. Esta pesquisa evidencia a importância da curadoria digital se estender para além dos dados, abrangendo os programas e ambiente computacional utilizados, além de enumerar diversar ferramentas que podem ser empregadas com este propósito e investigar o seu uso pelo LineA. |
id |
URGS_e9f0f42fb89e24d1c33036e0d54ab9ad |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/275864 |
network_acronym_str |
URGS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
repository_id_str |
1853 |
spelling |
Ferreira, Manuela KlanoviczVanz, Samile Andrea de Souza2024-06-18T06:50:49Z2024http://hdl.handle.net/10183/275864001205628Este trabalho analisa a contribuição das ferramentas que compõem a infraestrutura de suporte à pesquisa, particularmente as fornecidas pelo Laboratório Insterinstitucional de e-Astronomia (LIneA), para a reprodutibilidade das pesquisas o reúso dos dados ao longo do tempo. O LIneA foi escolhido por se tratar de uma instituição brasileira que oferece aos seus pesquisadores uma infraestrutura computacional com ferramentas necessárias para a manipulação da grande quantidade de dados em Astronomia, característica comum à e-Science. Este estudo adotou como procedimentos metodológicos a revisão bibliográfica para identificação das ferramentas de suporte à pesquisa que promovem a reprodutibilidade e reúso dos dados na ciência em geral; a pesquisa documental para identificar o funcionamento destas ferramentas; entrevistas semiestruturadas com membros do LIneA e de suas colaborações que desempenham diferentes papéis a fim de identificar como as pesquisas aproveitam a infraestrutura oferecida pelo LIneA e qual a contribuição desta para a reprodutibilidade das pesquisa e o reúso dos dados; além do experimento de reprodução de pesquisas descritas em três artigos publicados por pesquisadores membros das colaborações apoiadas pelo LIneA. Durante este processo, foi identificada a utilização, no LIneA, de ferramentas dentre as quais destaca-se o versionamento de códigofonte de programas de análises através do Git Hub, a descrição interativa de fluxos de análises de dados utilizando Jupyter Hub e o encapsulamento do ambiente computacional por meio de containers Docker. Nas entrevistas, observou-se que os pesquisadores do LIneA utilizam a infraestrutura oferecida, por vezes solicitando auxílio de membros da equipe de TI, seja no uso do Git Hub ou Docker, para a disponibilização de artefatos de pesquisa ou na transformação de dados de terceiros para o reúso do pesquisador. Entretanto os pesquisadores relataram não ter conhecimento da reutilização dos artefatos produzidos por suas pesquisas, apesar de eles mesmo reusarem artefatos de terceiros. O experimento de avaliação de reprodutibilidade partiu da leitura dos três artigos selecionados e posterior coleta dos artefatos de pesquisa neles descritos. Os respectivos artefatos foram parcialmente recuperados, devido à falta de referência para o recorte dos dados de entrada utilizados nos artigos, ou de referência para a correta versão do código-fonte dos experimentos ou, também, pela falta de disponibilidade das dependências de software necessários para o ambiente computacional. Considera-se que o LIneA vem adotando sistematicamente práticas e ferramentas de suporte ao desenvolvimento e à documentação das pesquisas, as quais precisam alcançar um uso padronizado e combinado para atingir a reprodutilidade das pesquisas. Para este fim, com base nos trabalhos relacionados, sugere-se a criação de uma política de curadoria de dados, com o estabelecimento de um padrão de compartilhamento de artefatos para as pesquisas desenvolvidas pelos membros do LIneA, assim como a contratação de equipe responsável pela gestão dos dados de pesquisa para auxiliar tanto na elaboração desta política como na sua adoção pelos pesquisadores e membros do LIneA. Esta pesquisa evidencia a importância da curadoria digital se estender para além dos dados, abrangendo os programas e ambiente computacional utilizados, além de enumerar diversar ferramentas que podem ser empregadas com este propósito e investigar o seu uso pelo LineA.This work analyzes the contribution of the tools that constitute the research support infrastructure, particularly those provided by the Interinstitutional Laboratory of e-Astronomy (LIneA), to the reproducibility of research and the reuse of data over time.. LIneA was chosen because it is a Brazilian institution that offers its researchers the necessary computational infrastructure with tools to handle the large amount of data in Astronomy, a common characteristic of e-Science. This study adopted methodological procedures including a literature review to identify research support tools that promote reproducibility and data reuse in science in general; documentary research to identify the functioning of these tools; semi-structured interviews with LIneA members and their collaborators who play different roles to identify how research benefits from the infrastructure offered by LIneA and how it contributes to the reproducibility of research and data reuse; as well as the experiment of reproducing research described in three articles published by researchers from collaborations supported by LIneA. During this process, the use of tools at LIneA was identified, with particular emphasis on versioning analysis program source code via GitHub, interactively describing data analysis workflows using JupyterHub, and encapsulating the computational environment with Docker containers. In the interviews, it was observed that LIneA researchers use the offered infrastructure, sometimes requesting assistance from IT team members, either in the use of GitHub or Docker for making research artifacts available or transforming third-party data for researcher’s reuse. However, researchers reported not being aware of the reuse of artifacts produced by their research, despite themselves reusing third-party artifacts. The reproducibility evaluation experiment started with reading the three selected articles and subsequently collecting the research artifacts described in them. The respective artifacts were partially recovered due to a lack of reference for the entry data used in the articles, or reference for the correct version of the experiment source code, or also due to the unavailability of the necessary software dependencies for the computational environment. It is considered that LIneA has been systematically adopting practices and tools to support the development and documentation of research, which need to achieve standardized and combined use to attain research reproducibility. To this end, based on related works, it is suggested to create a data curation policy, establishing a standard for sharing artifacts for research developed by LIneA members, as well as hiring a team responsible for research data management to assist both in the creation of this policy and in its adoption by researchers and LIneA members.This research highlights the importance of digital curation extending beyond data to include the programs and computational environment used. It also lists various tools that can be employed for this purpose and investigates their use by LIneA.application/pdfporReprodutibilidade de pesquisasCiência abertaGestão de dados de pesquisaResearch reproducibilityOpen research dataResearch data managementData reuseDados de pesquisa contribuição da infraestrutura para a promoção da reprodutibilidade e do reúsoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulFaculdade de Biblioteconomia e ComunicaçãoPrograma de Pós-Graduação em ComunicaçãoPorto Alegre, BR-RS2024doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001205628.pdf.txt001205628.pdf.txtExtracted Texttext/plain112939http://www.lume.ufrgs.br/bitstream/10183/275864/2/001205628.pdf.txtffaeb9d391a1c3efef5417d2fe2c689eMD52ORIGINAL001205628.pdfTexto parcialapplication/pdf854314http://www.lume.ufrgs.br/bitstream/10183/275864/1/001205628.pdf71019b0f701c386f13de0c0685c589bcMD5110183/2758642024-06-28 06:25:19.114569oai:www.lume.ufrgs.br:10183/275864Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532024-06-28T09:25:19Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Dados de pesquisa contribuição da infraestrutura para a promoção da reprodutibilidade e do reúso |
title |
Dados de pesquisa contribuição da infraestrutura para a promoção da reprodutibilidade e do reúso |
spellingShingle |
Dados de pesquisa contribuição da infraestrutura para a promoção da reprodutibilidade e do reúso Ferreira, Manuela Klanovicz Reprodutibilidade de pesquisas Ciência aberta Gestão de dados de pesquisa Research reproducibility Open research data Research data management Data reuse |
title_short |
Dados de pesquisa contribuição da infraestrutura para a promoção da reprodutibilidade e do reúso |
title_full |
Dados de pesquisa contribuição da infraestrutura para a promoção da reprodutibilidade e do reúso |
title_fullStr |
Dados de pesquisa contribuição da infraestrutura para a promoção da reprodutibilidade e do reúso |
title_full_unstemmed |
Dados de pesquisa contribuição da infraestrutura para a promoção da reprodutibilidade e do reúso |
title_sort |
Dados de pesquisa contribuição da infraestrutura para a promoção da reprodutibilidade e do reúso |
author |
Ferreira, Manuela Klanovicz |
author_facet |
Ferreira, Manuela Klanovicz |
author_role |
author |
dc.contributor.author.fl_str_mv |
Ferreira, Manuela Klanovicz |
dc.contributor.advisor1.fl_str_mv |
Vanz, Samile Andrea de Souza |
contributor_str_mv |
Vanz, Samile Andrea de Souza |
dc.subject.por.fl_str_mv |
Reprodutibilidade de pesquisas Ciência aberta Gestão de dados de pesquisa |
topic |
Reprodutibilidade de pesquisas Ciência aberta Gestão de dados de pesquisa Research reproducibility Open research data Research data management Data reuse |
dc.subject.eng.fl_str_mv |
Research reproducibility Open research data Research data management Data reuse |
description |
Este trabalho analisa a contribuição das ferramentas que compõem a infraestrutura de suporte à pesquisa, particularmente as fornecidas pelo Laboratório Insterinstitucional de e-Astronomia (LIneA), para a reprodutibilidade das pesquisas o reúso dos dados ao longo do tempo. O LIneA foi escolhido por se tratar de uma instituição brasileira que oferece aos seus pesquisadores uma infraestrutura computacional com ferramentas necessárias para a manipulação da grande quantidade de dados em Astronomia, característica comum à e-Science. Este estudo adotou como procedimentos metodológicos a revisão bibliográfica para identificação das ferramentas de suporte à pesquisa que promovem a reprodutibilidade e reúso dos dados na ciência em geral; a pesquisa documental para identificar o funcionamento destas ferramentas; entrevistas semiestruturadas com membros do LIneA e de suas colaborações que desempenham diferentes papéis a fim de identificar como as pesquisas aproveitam a infraestrutura oferecida pelo LIneA e qual a contribuição desta para a reprodutibilidade das pesquisa e o reúso dos dados; além do experimento de reprodução de pesquisas descritas em três artigos publicados por pesquisadores membros das colaborações apoiadas pelo LIneA. Durante este processo, foi identificada a utilização, no LIneA, de ferramentas dentre as quais destaca-se o versionamento de códigofonte de programas de análises através do Git Hub, a descrição interativa de fluxos de análises de dados utilizando Jupyter Hub e o encapsulamento do ambiente computacional por meio de containers Docker. Nas entrevistas, observou-se que os pesquisadores do LIneA utilizam a infraestrutura oferecida, por vezes solicitando auxílio de membros da equipe de TI, seja no uso do Git Hub ou Docker, para a disponibilização de artefatos de pesquisa ou na transformação de dados de terceiros para o reúso do pesquisador. Entretanto os pesquisadores relataram não ter conhecimento da reutilização dos artefatos produzidos por suas pesquisas, apesar de eles mesmo reusarem artefatos de terceiros. O experimento de avaliação de reprodutibilidade partiu da leitura dos três artigos selecionados e posterior coleta dos artefatos de pesquisa neles descritos. Os respectivos artefatos foram parcialmente recuperados, devido à falta de referência para o recorte dos dados de entrada utilizados nos artigos, ou de referência para a correta versão do código-fonte dos experimentos ou, também, pela falta de disponibilidade das dependências de software necessários para o ambiente computacional. Considera-se que o LIneA vem adotando sistematicamente práticas e ferramentas de suporte ao desenvolvimento e à documentação das pesquisas, as quais precisam alcançar um uso padronizado e combinado para atingir a reprodutilidade das pesquisas. Para este fim, com base nos trabalhos relacionados, sugere-se a criação de uma política de curadoria de dados, com o estabelecimento de um padrão de compartilhamento de artefatos para as pesquisas desenvolvidas pelos membros do LIneA, assim como a contratação de equipe responsável pela gestão dos dados de pesquisa para auxiliar tanto na elaboração desta política como na sua adoção pelos pesquisadores e membros do LIneA. Esta pesquisa evidencia a importância da curadoria digital se estender para além dos dados, abrangendo os programas e ambiente computacional utilizados, além de enumerar diversar ferramentas que podem ser empregadas com este propósito e investigar o seu uso pelo LineA. |
publishDate |
2024 |
dc.date.accessioned.fl_str_mv |
2024-06-18T06:50:49Z |
dc.date.issued.fl_str_mv |
2024 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/275864 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001205628 |
url |
http://hdl.handle.net/10183/275864 |
identifier_str_mv |
001205628 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/275864/2/001205628.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/275864/1/001205628.pdf |
bitstream.checksum.fl_str_mv |
ffaeb9d391a1c3efef5417d2fe2c689e 71019b0f701c386f13de0c0685c589bc |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
_version_ |
1810085643842224128 |