Modelo de avaliação de conjuntos de dados cientí­ficos por meio da dimensão de veracidade dos dados.

Detalhes bibliográficos
Autor(a) principal: Batista, André Filipe de Moraes
Data de Publicação: 2018
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/3/3141/tde-04022019-100307/
Resumo: A ciência é uma organização social: grupos de colaboração independentes trabalham para gerar conhecimento como um bem público. A credibilidade dos trabalhos científicos está enraizada nas evidências que os suportam, as quais incluem a metodologia aplicada, os dados adquiridos e os processos para execução dos experimentos, da análise de dados e da interpretação dos resultados obtidos. O dilúvio de dados sob o qual a atual ciência está inserida revoluciona a forma como as pesquisas são realizadas, resultando em um novo paradigma de ciência baseada em dados. Sob tal paradigma, novas atividades são inseridas no método científico de modo a organizar o processo de geração, curadoria e publicação de dados, beneficiando a comunidade científica com o reuso de conjuntos de dados científicos e a reprodutibilidade de experimentos. Nesse contexto, novas abordagens para a resolução de problemas estão sendo apresentadas, obtendo resultados que antes eram considerados de relevante dificuldade, bem como possibilitando a geração de novos conhecimentos. Diversos portais estão disponibilizando conjuntos de dados resultantes de pesquisas científicas. Todavia, tais portais pouco abordam o contexto sobre os quais os conjuntos de dados foram criados, dificultando a compreensão sobre os dados e abrindo espaço para o uso indevido ou uma interpretação errônea. Poucas são as literaturas que abordam essa problemática, deixando o foco para outros temas que lidam com o volume, a variedade e a velocidade dos dados. Essa pesquisa objetivou definir um modelo de avaliação de conjuntos de dados científicos, por meio da construção de um perfil de aplicação, o qual padroniza a descrição de conjuntos de dados científicos. Essa padronização da descrição é baseada no conceito de dimensão de Veracidade dos dados, definido ao longo da pesquisa, e permite o desenvolvimento de métricas que formam o índice de veracidade de conjuntos de dados científicos. Tal índice busca refletir o nível de detalhamento de um conjunto de dados, com base no uso dos elementos de descrição, que facilitarão o reuso dos dados e a reprodutibilidade dos experimentos científicos. O índice possui duas dimensões: a dimensão intrínseca aos dados, a qual pode ser utilizada como critério de admissão de conjunto de dados em portais de publicação de dados; e a dimensão social, mensurando a adequabilidade de um conjunto de dados para uso em uma área de pesquisa ou de aplicação, por meio da avaliação da comunidade científica. Para o modelo de avaliação proposto, um estudo de caso foi desenvolvido, descrevendo um conjunto de dados proveniente de um projeto científico internacional, o projeto GoAmazon, de modo a validar o modelo proposto entre os pares, demonstrando o potencial da solução no apoio ao reuso dos dados, podendo ser incorporado em portais de dados científicos.
id USP_afd4cd3a2effd037c7118f255fd15684
oai_identifier_str oai:teses.usp.br:tde-04022019-100307
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Modelo de avaliação de conjuntos de dados cientí­ficos por meio da dimensão de veracidade dos dados.Scientific datasets evaluation model based on the data veracity dimension.Análise de dadosApplication profileAvaliação colaborativaBig dataCollaborative assessmentDados científicos (Confiabilidade)Data sciencePerfil de aplicaçãoVeracityA ciência é uma organização social: grupos de colaboração independentes trabalham para gerar conhecimento como um bem público. A credibilidade dos trabalhos científicos está enraizada nas evidências que os suportam, as quais incluem a metodologia aplicada, os dados adquiridos e os processos para execução dos experimentos, da análise de dados e da interpretação dos resultados obtidos. O dilúvio de dados sob o qual a atual ciência está inserida revoluciona a forma como as pesquisas são realizadas, resultando em um novo paradigma de ciência baseada em dados. Sob tal paradigma, novas atividades são inseridas no método científico de modo a organizar o processo de geração, curadoria e publicação de dados, beneficiando a comunidade científica com o reuso de conjuntos de dados científicos e a reprodutibilidade de experimentos. Nesse contexto, novas abordagens para a resolução de problemas estão sendo apresentadas, obtendo resultados que antes eram considerados de relevante dificuldade, bem como possibilitando a geração de novos conhecimentos. Diversos portais estão disponibilizando conjuntos de dados resultantes de pesquisas científicas. Todavia, tais portais pouco abordam o contexto sobre os quais os conjuntos de dados foram criados, dificultando a compreensão sobre os dados e abrindo espaço para o uso indevido ou uma interpretação errônea. Poucas são as literaturas que abordam essa problemática, deixando o foco para outros temas que lidam com o volume, a variedade e a velocidade dos dados. Essa pesquisa objetivou definir um modelo de avaliação de conjuntos de dados científicos, por meio da construção de um perfil de aplicação, o qual padroniza a descrição de conjuntos de dados científicos. Essa padronização da descrição é baseada no conceito de dimensão de Veracidade dos dados, definido ao longo da pesquisa, e permite o desenvolvimento de métricas que formam o índice de veracidade de conjuntos de dados científicos. Tal índice busca refletir o nível de detalhamento de um conjunto de dados, com base no uso dos elementos de descrição, que facilitarão o reuso dos dados e a reprodutibilidade dos experimentos científicos. O índice possui duas dimensões: a dimensão intrínseca aos dados, a qual pode ser utilizada como critério de admissão de conjunto de dados em portais de publicação de dados; e a dimensão social, mensurando a adequabilidade de um conjunto de dados para uso em uma área de pesquisa ou de aplicação, por meio da avaliação da comunidade científica. Para o modelo de avaliação proposto, um estudo de caso foi desenvolvido, descrevendo um conjunto de dados proveniente de um projeto científico internacional, o projeto GoAmazon, de modo a validar o modelo proposto entre os pares, demonstrando o potencial da solução no apoio ao reuso dos dados, podendo ser incorporado em portais de dados científicos.Science is a social organization: independent collaboration groups work to generate knowledge as a public good. The credibility of the scientific work is entrenched in the evidence that supports it, which includes the applied methodology, the acquired data, the processes to execute the experiments, the data analysis, and the interpretation of the obtained results. The flood of data under which current science is embedded revolutionizes the way surveys are conducted, resulting in a new paradigm of data-driven science. Under such a paradigm, new activities are inserted into the scientific method to organize the process of generation, curation, and publication of data, benefiting the scientific community with the reuse and reproducibility of scientific datasets. In this context, new approaches to problem solving are being presented, obtaining results that previously were considered of relevant difficulty, as well as making possible the generation of new knowledge. Several portals are providing datasets resulting from scientific research. However, such portals do little to address the context upon which datasets are created, making it difficult to understand the data and opening up space for misuse or misinterpretation. In the Big Data area, the dimension that proposes to deal with this aspect is called Veracity. Few studies in the literature approach such a theme, focusing on other dimensions, such as volume, variety, and velocity of data. This research aimed to define a of scientific datasets, through the establishment of an application profile, which standardizes the description of scientific datasets. This standardization of the description is based on the veracity dimension concept, which is defined throughout the research and allows the development of metrics that form the Veracity Index of scientific datasets. This index seeks to reflect the level of detail of a dataset based on the use of the descriptive elements, which will facilitate the reuse and reproducibility of the data. The index is weighted by the evaluation of the scientific community in a collaborative sense, which assess the level of description, comprehension capacity, and suitability of the dataset for a given research or application area. For the proposed collaborative evaluation model, a case study was developed that described a dataset from an international scientific project, the GoAmazon project, in order to validate the proposed model among the peers, demonstrating the potential of the solution in the reuse and reproducibility of datasets, showing that such an index can be incorporated into scientific data portals.Biblioteca Digitais de Teses e Dissertações da USPCorrêa, Pedro Luiz PizzigattiBatista, André Filipe de Moraes2018-11-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/3/3141/tde-04022019-100307/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-10-09T12:45:40Zoai:teses.usp.br:tde-04022019-100307Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-10-09T12:45:40Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Modelo de avaliação de conjuntos de dados cientí­ficos por meio da dimensão de veracidade dos dados.
Scientific datasets evaluation model based on the data veracity dimension.
title Modelo de avaliação de conjuntos de dados cientí­ficos por meio da dimensão de veracidade dos dados.
spellingShingle Modelo de avaliação de conjuntos de dados cientí­ficos por meio da dimensão de veracidade dos dados.
Batista, André Filipe de Moraes
Análise de dados
Application profile
Avaliação colaborativa
Big data
Collaborative assessment
Dados científicos (Confiabilidade)
Data science
Perfil de aplicação
Veracity
title_short Modelo de avaliação de conjuntos de dados cientí­ficos por meio da dimensão de veracidade dos dados.
title_full Modelo de avaliação de conjuntos de dados cientí­ficos por meio da dimensão de veracidade dos dados.
title_fullStr Modelo de avaliação de conjuntos de dados cientí­ficos por meio da dimensão de veracidade dos dados.
title_full_unstemmed Modelo de avaliação de conjuntos de dados cientí­ficos por meio da dimensão de veracidade dos dados.
title_sort Modelo de avaliação de conjuntos de dados cientí­ficos por meio da dimensão de veracidade dos dados.
author Batista, André Filipe de Moraes
author_facet Batista, André Filipe de Moraes
author_role author
dc.contributor.none.fl_str_mv Corrêa, Pedro Luiz Pizzigatti
dc.contributor.author.fl_str_mv Batista, André Filipe de Moraes
dc.subject.por.fl_str_mv Análise de dados
Application profile
Avaliação colaborativa
Big data
Collaborative assessment
Dados científicos (Confiabilidade)
Data science
Perfil de aplicação
Veracity
topic Análise de dados
Application profile
Avaliação colaborativa
Big data
Collaborative assessment
Dados científicos (Confiabilidade)
Data science
Perfil de aplicação
Veracity
description A ciência é uma organização social: grupos de colaboração independentes trabalham para gerar conhecimento como um bem público. A credibilidade dos trabalhos científicos está enraizada nas evidências que os suportam, as quais incluem a metodologia aplicada, os dados adquiridos e os processos para execução dos experimentos, da análise de dados e da interpretação dos resultados obtidos. O dilúvio de dados sob o qual a atual ciência está inserida revoluciona a forma como as pesquisas são realizadas, resultando em um novo paradigma de ciência baseada em dados. Sob tal paradigma, novas atividades são inseridas no método científico de modo a organizar o processo de geração, curadoria e publicação de dados, beneficiando a comunidade científica com o reuso de conjuntos de dados científicos e a reprodutibilidade de experimentos. Nesse contexto, novas abordagens para a resolução de problemas estão sendo apresentadas, obtendo resultados que antes eram considerados de relevante dificuldade, bem como possibilitando a geração de novos conhecimentos. Diversos portais estão disponibilizando conjuntos de dados resultantes de pesquisas científicas. Todavia, tais portais pouco abordam o contexto sobre os quais os conjuntos de dados foram criados, dificultando a compreensão sobre os dados e abrindo espaço para o uso indevido ou uma interpretação errônea. Poucas são as literaturas que abordam essa problemática, deixando o foco para outros temas que lidam com o volume, a variedade e a velocidade dos dados. Essa pesquisa objetivou definir um modelo de avaliação de conjuntos de dados científicos, por meio da construção de um perfil de aplicação, o qual padroniza a descrição de conjuntos de dados científicos. Essa padronização da descrição é baseada no conceito de dimensão de Veracidade dos dados, definido ao longo da pesquisa, e permite o desenvolvimento de métricas que formam o índice de veracidade de conjuntos de dados científicos. Tal índice busca refletir o nível de detalhamento de um conjunto de dados, com base no uso dos elementos de descrição, que facilitarão o reuso dos dados e a reprodutibilidade dos experimentos científicos. O índice possui duas dimensões: a dimensão intrínseca aos dados, a qual pode ser utilizada como critério de admissão de conjunto de dados em portais de publicação de dados; e a dimensão social, mensurando a adequabilidade de um conjunto de dados para uso em uma área de pesquisa ou de aplicação, por meio da avaliação da comunidade científica. Para o modelo de avaliação proposto, um estudo de caso foi desenvolvido, descrevendo um conjunto de dados proveniente de um projeto científico internacional, o projeto GoAmazon, de modo a validar o modelo proposto entre os pares, demonstrando o potencial da solução no apoio ao reuso dos dados, podendo ser incorporado em portais de dados científicos.
publishDate 2018
dc.date.none.fl_str_mv 2018-11-06
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/3/3141/tde-04022019-100307/
url http://www.teses.usp.br/teses/disponiveis/3/3141/tde-04022019-100307/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815256486214893568