Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade 

Detalhes bibliográficos
Autor(a) principal: Penteado, Bruno Elias
Data de Publicação: 2020
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-14092020-175138/
Resumo: Contexto: A produção de dados abertos governamentais (DAG) tem aumentado desde a última década, sendo considerada como um dos pilares da democracia moderna. A disponibilidade desses dados carrega promessas como: o desenvolvimento econômico, por meio de produtos e serviços baseados nesses dados; o controle social, ao transparecer para a sociedade as ações e resultados dos governos; o embasamento de políticas públicas, ao gerar indicadores de efetividade ao longo do tempo, servindo para pesquisas ou acompanhamentos do próprio governo; o combate à corrupção, por meio da prestação de contas na execução orçamentária de políticas públicas. Diferentes órgãos governamentais divulgam informações dentro de seu escopo, tornando possível que consumidores de dados combinem diferentes fontes para responder questões que antes não eram possíveis. Problema: Embora tenha havido progressos variados em torno desses eixos, vários fatores impedem que esses benefícios sejam realizados em maior escala. Da perspectiva tecnológica, a disponibilização dos dados para que possam ser combinados, a formatação padronizada e sua interoperabilidade são talvez os fatores que mais impactam sobre sua produção. As tecnologias semânticas têm sido desenvolvidas para tratar este problema de interoperabilidade ao representar informações de modo que possam ser interpretadas inequivocamente por humanos e máquinas, por meio dos chamados dados conectados. O encontro dessas áreas traz a possibilidade de fazer com que as informações governamentais sejam mais facilmente processadas, inclusive sendo inferidas informações implícitas. As metodologias existentes apresentam limitações como a percepção de serem muito genéricas e de não tratarem corretamente questões de qualidade dos dados, fazendo com que publicadores adotem métodos ad-hoc de publicação. Objetivo: Assim, o objetivo desta tese é desenvolver uma infraestrutura de publicação de dados abertos governamentais conectados (DAGC) de qualidade para o ecossistema de dados da Web, que utilize os padrões da Web para garantir a interoperabilidade em diferentes aspectos. Métodos: Foi conduzido um mapeamento sistemático para identificar as metodologias existentes, o que trazem de comum e quais suas limitações em torno dos problemas encontrados em sua prática. A partir desses pontos, foi adotada a metodologia Design Science Research Methodology (DSR-M), sob a epistemologia da Design Science, de caráter pragmático, que objetiva o desenvolvimento de artefatos para resolver problemas. Ela guiou a seleção de teorias kernel para atender aos requisitos levantados e descreve a busca de uma solução viável de design para os artefatos da infraestrutura. Foram conduzidos estudos empíricos (cenário ilustrativo e quasi-experimento), utilizando fontes de dados reais, para avaliar a eficácia e a facilidade de uso destes artefatos, por meio do atendimento aos requisitos e mediante um arcabouço de qualidade de dados conectados. Resultados: A infraestrutura proposta é composta por três artefatos: i) um modelo de ciclo de vida de publicação de DAGC, descrevendo quais são as atividades, papéis, ferramentas, verificações e saídas de cada fase de produção; ii) uma arquitetura conceitual, que atende às práticas de compartilhamento de dados, possibilita o acesso aos dados por parte de humanos e máquinas, e considera pontos de controle de verificação dos dados sendo gerados ao longo do processo; iii) modelo de metadados que compila práticas para descrever dados e metadados conectados, objetivando facilitar sua descoberta e processamento. O produto resultante, gerado pelos participantes do estudo empírico, demonstrou nível de qualidade semelhante ou superior aos datasets estado da arte - dentro das métricas de qualidade de dados conectados selecionadas para a avaliação. Conclusão: Esta tese trouxe importantes contribuições teóricas e práticas para a área de publicação de dados abertos governamentais conectados. Ela demonstra como concretizar o atendimento aos requisitos de governo e de abertura de dados por meio de uma infraestrutura com diferentes componentes que permitem que humanos e máquinas possam buscar, acessar e processar dados de qualidade, detalhando diferentes possibilidades de instanciar a infraestrutura.
id USP_04b2ea2b4db552cf2d5dc735761f5779
oai_identifier_str oai:teses.usp.br:tde-14092020-175138
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade Infrastructure model for publishing quality linked open government dataDados abertosDados abertos conectadosDados abertos governamentaisDesign science researchDesign science researchLifecycle modelLinked open dataModelo de ciclo de vidaOpen dataOpen government dataContexto: A produção de dados abertos governamentais (DAG) tem aumentado desde a última década, sendo considerada como um dos pilares da democracia moderna. A disponibilidade desses dados carrega promessas como: o desenvolvimento econômico, por meio de produtos e serviços baseados nesses dados; o controle social, ao transparecer para a sociedade as ações e resultados dos governos; o embasamento de políticas públicas, ao gerar indicadores de efetividade ao longo do tempo, servindo para pesquisas ou acompanhamentos do próprio governo; o combate à corrupção, por meio da prestação de contas na execução orçamentária de políticas públicas. Diferentes órgãos governamentais divulgam informações dentro de seu escopo, tornando possível que consumidores de dados combinem diferentes fontes para responder questões que antes não eram possíveis. Problema: Embora tenha havido progressos variados em torno desses eixos, vários fatores impedem que esses benefícios sejam realizados em maior escala. Da perspectiva tecnológica, a disponibilização dos dados para que possam ser combinados, a formatação padronizada e sua interoperabilidade são talvez os fatores que mais impactam sobre sua produção. As tecnologias semânticas têm sido desenvolvidas para tratar este problema de interoperabilidade ao representar informações de modo que possam ser interpretadas inequivocamente por humanos e máquinas, por meio dos chamados dados conectados. O encontro dessas áreas traz a possibilidade de fazer com que as informações governamentais sejam mais facilmente processadas, inclusive sendo inferidas informações implícitas. As metodologias existentes apresentam limitações como a percepção de serem muito genéricas e de não tratarem corretamente questões de qualidade dos dados, fazendo com que publicadores adotem métodos ad-hoc de publicação. Objetivo: Assim, o objetivo desta tese é desenvolver uma infraestrutura de publicação de dados abertos governamentais conectados (DAGC) de qualidade para o ecossistema de dados da Web, que utilize os padrões da Web para garantir a interoperabilidade em diferentes aspectos. Métodos: Foi conduzido um mapeamento sistemático para identificar as metodologias existentes, o que trazem de comum e quais suas limitações em torno dos problemas encontrados em sua prática. A partir desses pontos, foi adotada a metodologia Design Science Research Methodology (DSR-M), sob a epistemologia da Design Science, de caráter pragmático, que objetiva o desenvolvimento de artefatos para resolver problemas. Ela guiou a seleção de teorias kernel para atender aos requisitos levantados e descreve a busca de uma solução viável de design para os artefatos da infraestrutura. Foram conduzidos estudos empíricos (cenário ilustrativo e quasi-experimento), utilizando fontes de dados reais, para avaliar a eficácia e a facilidade de uso destes artefatos, por meio do atendimento aos requisitos e mediante um arcabouço de qualidade de dados conectados. Resultados: A infraestrutura proposta é composta por três artefatos: i) um modelo de ciclo de vida de publicação de DAGC, descrevendo quais são as atividades, papéis, ferramentas, verificações e saídas de cada fase de produção; ii) uma arquitetura conceitual, que atende às práticas de compartilhamento de dados, possibilita o acesso aos dados por parte de humanos e máquinas, e considera pontos de controle de verificação dos dados sendo gerados ao longo do processo; iii) modelo de metadados que compila práticas para descrever dados e metadados conectados, objetivando facilitar sua descoberta e processamento. O produto resultante, gerado pelos participantes do estudo empírico, demonstrou nível de qualidade semelhante ou superior aos datasets estado da arte - dentro das métricas de qualidade de dados conectados selecionadas para a avaliação. Conclusão: Esta tese trouxe importantes contribuições teóricas e práticas para a área de publicação de dados abertos governamentais conectados. Ela demonstra como concretizar o atendimento aos requisitos de governo e de abertura de dados por meio de uma infraestrutura com diferentes componentes que permitem que humanos e máquinas possam buscar, acessar e processar dados de qualidade, detalhando diferentes possibilidades de instanciar a infraestrutura.Context: The production os open government data (OGD) has increased since the last decade, being considered as one of the fundamental pillars of modern democracy. The availability of these data carries the promises of economic development, through products and services based on these data; social control, by making it transparent to the society the actions and outcomes from the government; the basis for public policies, by generating indicators of effectiveness throughout time, serving for researches or as a follow-up for the government itself; corruption deterrence, by the accountability of budget execution of public policies. Different public bodies release information of their own scope, making it possible that data consumers combine different data sources to answer questions that were not previously possible. Problem: Although there was some progress in different levels around these axes, multiple factors hamper these benefits from being realized on a larger scale. From the technological perspective, the availability of data for combination, the standardized preparation, and their interoperability are arguably the most impacting factors for their production. Semantic technologies have been developed to address this problem of interoperability by representing information so that they can be interpreted unequivocally by humans and machines alike, the so-called linked data. The overlap of these areas carries the possibility of making government information easier to process, including inferring implicit information. Current methodologies present limitations such as their perception of being too generic and not addressing quality systematically, making data publishers prefer to adopt ad-hoc publication practices. Objective: Thus, this thesis aims to develop a high quality linked open government data (LOGD) publication infrastructure for the Web ecosystem, that uses Web standards to ensure interoperability in many aspects. Methods: A systematic mapping was carried out to identify existing methodologies, their commonalities and their limitations regarding the problems found in their practice. With this knowledge, the Design Science Research Methodology (DSR-M) was adopted, under the design science epistemiology, having a pragmatic character and which aims the development of artifacts to solve practical problems. It guided the selection of kernel theories to meet the requirements and to describe the search for a feasible design solution for the infrastructure artifacts. Empirical studies were carried out (both illustrative scenario and quasi-experiment) using real data sources, to evaluate the efficacy and ease of use of these artifacts, by meeting elicited requirements and by assessing through a quality assessment framework. Results: The proposed infrastructure is made by three artifacts: i) a publishing lifecycle model for LOGD, describing the activities, roles, tools verifications and outputs to each of the production phases; ii) a conceptual architecture, meeting data sharing practices and enabling data access for both humans and machines, considering verification checkpoints along the process; iii) a metadata model, compiling practices to describe linked open government data, aiming to make discovery and processing easier. The resulting product, created by the participants in the empirical study, showed a similar or superior level of quality to state-of-the-art datasets - concerning the linked data quality metrics selected for the evaluation. Conclusion: This thesis has made both theoretical and practical contributions to the field of linked open government data. In short, it materializes meeting the requirements of open government and data employing an infrastructure with multiple components that enables both humans and machines to search, access and process quality data, detailing different alternatives to instantiate the infrastructure.Biblioteca Digitais de Teses e Dissertações da USPIsotani, SeijiMaldonado, José CarlosPenteado, Bruno Elias2020-07-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-14092020-175138/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2020-09-14T23:58:01Zoai:teses.usp.br:tde-14092020-175138Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212020-09-14T23:58:01Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade 
Infrastructure model for publishing quality linked open government data
title Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade 
spellingShingle Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade 
Penteado, Bruno Elias
Dados abertos
Dados abertos conectados
Dados abertos governamentais
Design science research
Design science research
Lifecycle model
Linked open data
Modelo de ciclo de vida
Open data
Open government data
title_short Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade 
title_full Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade 
title_fullStr Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade 
title_full_unstemmed Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade 
title_sort Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade 
author Penteado, Bruno Elias
author_facet Penteado, Bruno Elias
author_role author
dc.contributor.none.fl_str_mv Isotani, Seiji
Maldonado, José Carlos
dc.contributor.author.fl_str_mv Penteado, Bruno Elias
dc.subject.por.fl_str_mv Dados abertos
Dados abertos conectados
Dados abertos governamentais
Design science research
Design science research
Lifecycle model
Linked open data
Modelo de ciclo de vida
Open data
Open government data
topic Dados abertos
Dados abertos conectados
Dados abertos governamentais
Design science research
Design science research
Lifecycle model
Linked open data
Modelo de ciclo de vida
Open data
Open government data
description Contexto: A produção de dados abertos governamentais (DAG) tem aumentado desde a última década, sendo considerada como um dos pilares da democracia moderna. A disponibilidade desses dados carrega promessas como: o desenvolvimento econômico, por meio de produtos e serviços baseados nesses dados; o controle social, ao transparecer para a sociedade as ações e resultados dos governos; o embasamento de políticas públicas, ao gerar indicadores de efetividade ao longo do tempo, servindo para pesquisas ou acompanhamentos do próprio governo; o combate à corrupção, por meio da prestação de contas na execução orçamentária de políticas públicas. Diferentes órgãos governamentais divulgam informações dentro de seu escopo, tornando possível que consumidores de dados combinem diferentes fontes para responder questões que antes não eram possíveis. Problema: Embora tenha havido progressos variados em torno desses eixos, vários fatores impedem que esses benefícios sejam realizados em maior escala. Da perspectiva tecnológica, a disponibilização dos dados para que possam ser combinados, a formatação padronizada e sua interoperabilidade são talvez os fatores que mais impactam sobre sua produção. As tecnologias semânticas têm sido desenvolvidas para tratar este problema de interoperabilidade ao representar informações de modo que possam ser interpretadas inequivocamente por humanos e máquinas, por meio dos chamados dados conectados. O encontro dessas áreas traz a possibilidade de fazer com que as informações governamentais sejam mais facilmente processadas, inclusive sendo inferidas informações implícitas. As metodologias existentes apresentam limitações como a percepção de serem muito genéricas e de não tratarem corretamente questões de qualidade dos dados, fazendo com que publicadores adotem métodos ad-hoc de publicação. Objetivo: Assim, o objetivo desta tese é desenvolver uma infraestrutura de publicação de dados abertos governamentais conectados (DAGC) de qualidade para o ecossistema de dados da Web, que utilize os padrões da Web para garantir a interoperabilidade em diferentes aspectos. Métodos: Foi conduzido um mapeamento sistemático para identificar as metodologias existentes, o que trazem de comum e quais suas limitações em torno dos problemas encontrados em sua prática. A partir desses pontos, foi adotada a metodologia Design Science Research Methodology (DSR-M), sob a epistemologia da Design Science, de caráter pragmático, que objetiva o desenvolvimento de artefatos para resolver problemas. Ela guiou a seleção de teorias kernel para atender aos requisitos levantados e descreve a busca de uma solução viável de design para os artefatos da infraestrutura. Foram conduzidos estudos empíricos (cenário ilustrativo e quasi-experimento), utilizando fontes de dados reais, para avaliar a eficácia e a facilidade de uso destes artefatos, por meio do atendimento aos requisitos e mediante um arcabouço de qualidade de dados conectados. Resultados: A infraestrutura proposta é composta por três artefatos: i) um modelo de ciclo de vida de publicação de DAGC, descrevendo quais são as atividades, papéis, ferramentas, verificações e saídas de cada fase de produção; ii) uma arquitetura conceitual, que atende às práticas de compartilhamento de dados, possibilita o acesso aos dados por parte de humanos e máquinas, e considera pontos de controle de verificação dos dados sendo gerados ao longo do processo; iii) modelo de metadados que compila práticas para descrever dados e metadados conectados, objetivando facilitar sua descoberta e processamento. O produto resultante, gerado pelos participantes do estudo empírico, demonstrou nível de qualidade semelhante ou superior aos datasets estado da arte - dentro das métricas de qualidade de dados conectados selecionadas para a avaliação. Conclusão: Esta tese trouxe importantes contribuições teóricas e práticas para a área de publicação de dados abertos governamentais conectados. Ela demonstra como concretizar o atendimento aos requisitos de governo e de abertura de dados por meio de uma infraestrutura com diferentes componentes que permitem que humanos e máquinas possam buscar, acessar e processar dados de qualidade, detalhando diferentes possibilidades de instanciar a infraestrutura.
publishDate 2020
dc.date.none.fl_str_mv 2020-07-03
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-14092020-175138/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-14092020-175138/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815256972506693632