The nature of scientific datasets in South American repositories: a survey of formats and extensions
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Outros Autores: | , |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Encontros Bibli |
Texto Completo: | https://periodicos.ufsc.br/index.php/eb/article/view/85148 |
Resumo: | Objective: identifying the scientific data repositories created and managed by Higher Education Institutions and/or South American research and funding agencies; identifying and describing the formats and extensions of files that compile the scientific datasets deposited in these repositories. Methods: eight repositories retrieved by RE3DATA were selected for investigation. A population (N) of 1.115 scientific datasets was obtained. By using Stratified Random Sampling, the resulting sample (n) value was 258 datasets, which corresponds to 23,15% of the population (N). Data surveyed from the samples were condensed into tables and charts. Results: it was noticed that the nature of the scientific datasets investigated is centered on textual and numerical data, saved in text files and tables, respectively. Also, the datasets may be either homogeneous (one or more files saved in a unique format and extension, e.g.: image format in .jpg) or heterogeneous (files saved in different formats and extensions, e.g.: same image format saved in .jpg and .tiff) in their composition. It was found that some extensions enable the identification of the nature, domain and content of the data, as observed in the .gpx and gdb extensions, which refer to geospatial data, therefore, alphanumeric data. Conclusions: There is a growing need of describing the nature of data, as well as the formats and extensions of files. This kind of descriptive metadata would be valuable to potential users, as it would allow a greater understanding of the context of the data, focusing on data reuse. |
id |
UFSC-29_9069aac7c81d4023d2ecb6a6f7aa85b0 |
---|---|
oai_identifier_str |
oai:periodicos.ufsc.br:article/85148 |
network_acronym_str |
UFSC-29 |
network_name_str |
Encontros Bibli |
repository_id_str |
|
spelling |
The nature of scientific datasets in South American repositories: a survey of formats and extensionsLa naturaleza de los conjuntos de datos científicos en repositorios sudamericanos: una encuesta de formatos y extensionesA natureza de conjuntos de dados científicos em repositórios sul-americanos: um levantamento de formatos e extensõesDados científicosConjuntos de dadosRepositórios de dadosFormatos e extensõesLevantamentoScientific dataDatasetsData repositoriesFormats and extensionsSurveyObjective: identifying the scientific data repositories created and managed by Higher Education Institutions and/or South American research and funding agencies; identifying and describing the formats and extensions of files that compile the scientific datasets deposited in these repositories. Methods: eight repositories retrieved by RE3DATA were selected for investigation. A population (N) of 1.115 scientific datasets was obtained. By using Stratified Random Sampling, the resulting sample (n) value was 258 datasets, which corresponds to 23,15% of the population (N). Data surveyed from the samples were condensed into tables and charts. Results: it was noticed that the nature of the scientific datasets investigated is centered on textual and numerical data, saved in text files and tables, respectively. Also, the datasets may be either homogeneous (one or more files saved in a unique format and extension, e.g.: image format in .jpg) or heterogeneous (files saved in different formats and extensions, e.g.: same image format saved in .jpg and .tiff) in their composition. It was found that some extensions enable the identification of the nature, domain and content of the data, as observed in the .gpx and gdb extensions, which refer to geospatial data, therefore, alphanumeric data. Conclusions: There is a growing need of describing the nature of data, as well as the formats and extensions of files. This kind of descriptive metadata would be valuable to potential users, as it would allow a greater understanding of the context of the data, focusing on data reuse.Objetivo: identificar los repositorios de datos científicos creados y administrados por instituciones de educación superior y/o agencias de investigación y desarrollo de América del Sur; identificar y describir los formatos y extensiones de los archivos que componen los conjuntos de datos científicos depositados en estos repositorios. Método: se seleccionaron para la investigación ocho repositorios recuperados por RE3DATA. Se obtuvo una población (N) de 1.115 conjuntos de datos científicos. Con base en el Muestreo Aleatorio Estratificado, se alcanzó el valor de la muestra (n) igual a 258 conjuntos de datos, lo que corresponde al 23,15% de la población (N). Los datos tomados de las muestras se condensaron en tablas y gráficos. Resultado: se observó que la naturaleza de los conjuntos de datos científicos investigados se centra en datos textuales y numéricos, guardados en archivos de texto y en tablas, respectivamente. Se notó que los conjuntos de datos pueden ser homogéneos (uno o más archivos guardados en un solo formato y extensión, por ejemplo, formato de imagen en .jpg) o heterogéneos (archivos guardados en diferentes formatos y extensiones, por ejemplo, el mismo formato de imagen guardado en .jpg y .tiff) en su composición. También se constató que algunas extensiones permiten identificar la naturaleza, el dominio y el contenido de los datos, como se observa en las extensiones .gpx y .gdb, que se refieren a datos de geolocalización, por tanto, de carácter alfanumérico. Conclusiones: existe una creciente necesidad de describir la naturaleza de los datos, así como los formatos y extensiones de sus archivos. Este tipo de metadatos descriptivos sería valioso para los usuarios potenciales, ya que les permitiría obtener una mejor comprensión del contexto de los datos con un enfoque en su reutilización.Objetivo: identificar os repositórios de dados científicos criados e geridos por Instituições de Ensino Superior e/ou agências de pesquisa e fomento sul-americanas; identificar e descrever os formatos e extensões dos arquivos que compõem os conjuntos de dados científicos depositados nesses repositórios. Método: oito repositórios recuperados pelo RE3DATA foram selecionados à investigação. Obteve-se uma população (N) de 1.115 conjuntos de dados científicos. A partir da Amostragem Aleatória Estratificada, chegou-se ao valor da amostra (n) igual a 258 conjuntos de dados, que corresponde a 23,15% da população (N). Os dados retirados das amostras foram condensados em tabelas e quadros. Resultado: notou-se que a natureza dos conjuntos de dados científicos investigados se concentra em dados textuais e numéricos, salvos em arquivos de texto e em tabelas, respectivamente. Percebeu-se que os conjuntos de dados podem ser tanto homogêneos (um ou mais arquivos salvos em um único formato e extensão, ex.: formato de imagem em .jpg) ou heterogêneos (arquivos salvos em diferentes formatos e extensões, ex.: mesmo formato de imagem salvo em .jpg e .tiff) em sua composição. Apurou-se também que algumas extensões possibilitam a identificação da natureza, do domínio e do conteúdo dos dados, como observado nas extensões .gpx e .gdb, que se referem a dados de geolocalização, logo, de natureza alfanumérica. Conclusões: há crescente necessidade de se descrever a natureza dos dados, assim como os formatos e extensões de seus arquivos. Esse tipo de metadado descritivo seria valioso a potenciais usuários, pois permitiria obter maior compreensão do contexto dos dados com foco em seu reúso.Departamento de Ciência da Informação – UFSC2022-05-27info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdftext/xmlhttps://periodicos.ufsc.br/index.php/eb/article/view/8514810.5007/1518-2924.2022.e85148Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; Vol. 27 (2022): O valor da Ciência em prol da Humanidade; 1-26Encontros Bibli: revista electrónica de bibliotecología y ciencias de la información.; Vol. 27 (2022): O valor da Ciência em prol da Humanidade; 1-26Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; v. 27 (2022): O valor da Ciência em prol da Humanidade; 1-261518-2924reponame:Encontros Bibliinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCporhttps://periodicos.ufsc.br/index.php/eb/article/view/85148/49558https://periodicos.ufsc.br/index.php/eb/article/view/85148/53866Copyright (c) 2022 Marcello Mundim Rodrigues, Cíntia de Azevedo Lourenço, Guilherme Ataíde Diashttps://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessRodrigues, Marcello Mundim Lourenço, Cíntia de AzevedoDias, Guilherme Ataíde 2023-07-19T15:14:42Zoai:periodicos.ufsc.br:article/85148Revistahttps://periodicos.ufsc.br/index.php/eb/indexPUBhttps://periodicos.ufsc.br/index.php/eb/oaiencontrosbibli@contato.ufsc.br||portaldeperiodicos.bu@contato.ufsc.br1518-29241518-2924opendoar:2023-07-19T15:14:42Encontros Bibli - Universidade Federal de Santa Catarina (UFSC)false |
dc.title.none.fl_str_mv |
The nature of scientific datasets in South American repositories: a survey of formats and extensions La naturaleza de los conjuntos de datos científicos en repositorios sudamericanos: una encuesta de formatos y extensiones A natureza de conjuntos de dados científicos em repositórios sul-americanos: um levantamento de formatos e extensões |
title |
The nature of scientific datasets in South American repositories: a survey of formats and extensions |
spellingShingle |
The nature of scientific datasets in South American repositories: a survey of formats and extensions Rodrigues, Marcello Mundim Dados científicos Conjuntos de dados Repositórios de dados Formatos e extensões Levantamento Scientific data Datasets Data repositories Formats and extensions Survey |
title_short |
The nature of scientific datasets in South American repositories: a survey of formats and extensions |
title_full |
The nature of scientific datasets in South American repositories: a survey of formats and extensions |
title_fullStr |
The nature of scientific datasets in South American repositories: a survey of formats and extensions |
title_full_unstemmed |
The nature of scientific datasets in South American repositories: a survey of formats and extensions |
title_sort |
The nature of scientific datasets in South American repositories: a survey of formats and extensions |
author |
Rodrigues, Marcello Mundim |
author_facet |
Rodrigues, Marcello Mundim Lourenço, Cíntia de Azevedo Dias, Guilherme Ataíde |
author_role |
author |
author2 |
Lourenço, Cíntia de Azevedo Dias, Guilherme Ataíde |
author2_role |
author author |
dc.contributor.author.fl_str_mv |
Rodrigues, Marcello Mundim Lourenço, Cíntia de Azevedo Dias, Guilherme Ataíde |
dc.subject.por.fl_str_mv |
Dados científicos Conjuntos de dados Repositórios de dados Formatos e extensões Levantamento Scientific data Datasets Data repositories Formats and extensions Survey |
topic |
Dados científicos Conjuntos de dados Repositórios de dados Formatos e extensões Levantamento Scientific data Datasets Data repositories Formats and extensions Survey |
description |
Objective: identifying the scientific data repositories created and managed by Higher Education Institutions and/or South American research and funding agencies; identifying and describing the formats and extensions of files that compile the scientific datasets deposited in these repositories. Methods: eight repositories retrieved by RE3DATA were selected for investigation. A population (N) of 1.115 scientific datasets was obtained. By using Stratified Random Sampling, the resulting sample (n) value was 258 datasets, which corresponds to 23,15% of the population (N). Data surveyed from the samples were condensed into tables and charts. Results: it was noticed that the nature of the scientific datasets investigated is centered on textual and numerical data, saved in text files and tables, respectively. Also, the datasets may be either homogeneous (one or more files saved in a unique format and extension, e.g.: image format in .jpg) or heterogeneous (files saved in different formats and extensions, e.g.: same image format saved in .jpg and .tiff) in their composition. It was found that some extensions enable the identification of the nature, domain and content of the data, as observed in the .gpx and gdb extensions, which refer to geospatial data, therefore, alphanumeric data. Conclusions: There is a growing need of describing the nature of data, as well as the formats and extensions of files. This kind of descriptive metadata would be valuable to potential users, as it would allow a greater understanding of the context of the data, focusing on data reuse. |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-05-27 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://periodicos.ufsc.br/index.php/eb/article/view/85148 10.5007/1518-2924.2022.e85148 |
url |
https://periodicos.ufsc.br/index.php/eb/article/view/85148 |
identifier_str_mv |
10.5007/1518-2924.2022.e85148 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://periodicos.ufsc.br/index.php/eb/article/view/85148/49558 https://periodicos.ufsc.br/index.php/eb/article/view/85148/53866 |
dc.rights.driver.fl_str_mv |
Copyright (c) 2022 Marcello Mundim Rodrigues, Cíntia de Azevedo Lourenço, Guilherme Ataíde Dias https://creativecommons.org/licenses/by/4.0 info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Copyright (c) 2022 Marcello Mundim Rodrigues, Cíntia de Azevedo Lourenço, Guilherme Ataíde Dias https://creativecommons.org/licenses/by/4.0 |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf text/xml |
dc.publisher.none.fl_str_mv |
Departamento de Ciência da Informação – UFSC |
publisher.none.fl_str_mv |
Departamento de Ciência da Informação – UFSC |
dc.source.none.fl_str_mv |
Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; Vol. 27 (2022): O valor da Ciência em prol da Humanidade; 1-26 Encontros Bibli: revista electrónica de bibliotecología y ciencias de la información.; Vol. 27 (2022): O valor da Ciência em prol da Humanidade; 1-26 Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; v. 27 (2022): O valor da Ciência em prol da Humanidade; 1-26 1518-2924 reponame:Encontros Bibli instname:Universidade Federal de Santa Catarina (UFSC) instacron:UFSC |
instname_str |
Universidade Federal de Santa Catarina (UFSC) |
instacron_str |
UFSC |
institution |
UFSC |
reponame_str |
Encontros Bibli |
collection |
Encontros Bibli |
repository.name.fl_str_mv |
Encontros Bibli - Universidade Federal de Santa Catarina (UFSC) |
repository.mail.fl_str_mv |
encontrosbibli@contato.ufsc.br||portaldeperiodicos.bu@contato.ufsc.br |
_version_ |
1797067779577217024 |