Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-14092020-175138/ |
Resumo: | Contexto: A produção de dados abertos governamentais (DAG) tem aumentado desde a última década, sendo considerada como um dos pilares da democracia moderna. A disponibilidade desses dados carrega promessas como: o desenvolvimento econômico, por meio de produtos e serviços baseados nesses dados; o controle social, ao transparecer para a sociedade as ações e resultados dos governos; o embasamento de políticas públicas, ao gerar indicadores de efetividade ao longo do tempo, servindo para pesquisas ou acompanhamentos do próprio governo; o combate à corrupção, por meio da prestação de contas na execução orçamentária de políticas públicas. Diferentes órgãos governamentais divulgam informações dentro de seu escopo, tornando possível que consumidores de dados combinem diferentes fontes para responder questões que antes não eram possíveis. Problema: Embora tenha havido progressos variados em torno desses eixos, vários fatores impedem que esses benefícios sejam realizados em maior escala. Da perspectiva tecnológica, a disponibilização dos dados para que possam ser combinados, a formatação padronizada e sua interoperabilidade são talvez os fatores que mais impactam sobre sua produção. As tecnologias semânticas têm sido desenvolvidas para tratar este problema de interoperabilidade ao representar informações de modo que possam ser interpretadas inequivocamente por humanos e máquinas, por meio dos chamados dados conectados. O encontro dessas áreas traz a possibilidade de fazer com que as informações governamentais sejam mais facilmente processadas, inclusive sendo inferidas informações implícitas. As metodologias existentes apresentam limitações como a percepção de serem muito genéricas e de não tratarem corretamente questões de qualidade dos dados, fazendo com que publicadores adotem métodos ad-hoc de publicação. Objetivo: Assim, o objetivo desta tese é desenvolver uma infraestrutura de publicação de dados abertos governamentais conectados (DAGC) de qualidade para o ecossistema de dados da Web, que utilize os padrões da Web para garantir a interoperabilidade em diferentes aspectos. Métodos: Foi conduzido um mapeamento sistemático para identificar as metodologias existentes, o que trazem de comum e quais suas limitações em torno dos problemas encontrados em sua prática. A partir desses pontos, foi adotada a metodologia Design Science Research Methodology (DSR-M), sob a epistemologia da Design Science, de caráter pragmático, que objetiva o desenvolvimento de artefatos para resolver problemas. Ela guiou a seleção de teorias kernel para atender aos requisitos levantados e descreve a busca de uma solução viável de design para os artefatos da infraestrutura. Foram conduzidos estudos empíricos (cenário ilustrativo e quasi-experimento), utilizando fontes de dados reais, para avaliar a eficácia e a facilidade de uso destes artefatos, por meio do atendimento aos requisitos e mediante um arcabouço de qualidade de dados conectados. Resultados: A infraestrutura proposta é composta por três artefatos: i) um modelo de ciclo de vida de publicação de DAGC, descrevendo quais são as atividades, papéis, ferramentas, verificações e saídas de cada fase de produção; ii) uma arquitetura conceitual, que atende às práticas de compartilhamento de dados, possibilita o acesso aos dados por parte de humanos e máquinas, e considera pontos de controle de verificação dos dados sendo gerados ao longo do processo; iii) modelo de metadados que compila práticas para descrever dados e metadados conectados, objetivando facilitar sua descoberta e processamento. O produto resultante, gerado pelos participantes do estudo empírico, demonstrou nível de qualidade semelhante ou superior aos datasets estado da arte - dentro das métricas de qualidade de dados conectados selecionadas para a avaliação. Conclusão: Esta tese trouxe importantes contribuições teóricas e práticas para a área de publicação de dados abertos governamentais conectados. Ela demonstra como concretizar o atendimento aos requisitos de governo e de abertura de dados por meio de uma infraestrutura com diferentes componentes que permitem que humanos e máquinas possam buscar, acessar e processar dados de qualidade, detalhando diferentes possibilidades de instanciar a infraestrutura. |
id |
USP_04b2ea2b4db552cf2d5dc735761f5779 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-14092020-175138 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade Infrastructure model for publishing quality linked open government dataDados abertosDados abertos conectadosDados abertos governamentaisDesign science researchDesign science researchLifecycle modelLinked open dataModelo de ciclo de vidaOpen dataOpen government dataContexto: A produção de dados abertos governamentais (DAG) tem aumentado desde a última década, sendo considerada como um dos pilares da democracia moderna. A disponibilidade desses dados carrega promessas como: o desenvolvimento econômico, por meio de produtos e serviços baseados nesses dados; o controle social, ao transparecer para a sociedade as ações e resultados dos governos; o embasamento de políticas públicas, ao gerar indicadores de efetividade ao longo do tempo, servindo para pesquisas ou acompanhamentos do próprio governo; o combate à corrupção, por meio da prestação de contas na execução orçamentária de políticas públicas. Diferentes órgãos governamentais divulgam informações dentro de seu escopo, tornando possível que consumidores de dados combinem diferentes fontes para responder questões que antes não eram possíveis. Problema: Embora tenha havido progressos variados em torno desses eixos, vários fatores impedem que esses benefícios sejam realizados em maior escala. Da perspectiva tecnológica, a disponibilização dos dados para que possam ser combinados, a formatação padronizada e sua interoperabilidade são talvez os fatores que mais impactam sobre sua produção. As tecnologias semânticas têm sido desenvolvidas para tratar este problema de interoperabilidade ao representar informações de modo que possam ser interpretadas inequivocamente por humanos e máquinas, por meio dos chamados dados conectados. O encontro dessas áreas traz a possibilidade de fazer com que as informações governamentais sejam mais facilmente processadas, inclusive sendo inferidas informações implícitas. As metodologias existentes apresentam limitações como a percepção de serem muito genéricas e de não tratarem corretamente questões de qualidade dos dados, fazendo com que publicadores adotem métodos ad-hoc de publicação. Objetivo: Assim, o objetivo desta tese é desenvolver uma infraestrutura de publicação de dados abertos governamentais conectados (DAGC) de qualidade para o ecossistema de dados da Web, que utilize os padrões da Web para garantir a interoperabilidade em diferentes aspectos. Métodos: Foi conduzido um mapeamento sistemático para identificar as metodologias existentes, o que trazem de comum e quais suas limitações em torno dos problemas encontrados em sua prática. A partir desses pontos, foi adotada a metodologia Design Science Research Methodology (DSR-M), sob a epistemologia da Design Science, de caráter pragmático, que objetiva o desenvolvimento de artefatos para resolver problemas. Ela guiou a seleção de teorias kernel para atender aos requisitos levantados e descreve a busca de uma solução viável de design para os artefatos da infraestrutura. Foram conduzidos estudos empíricos (cenário ilustrativo e quasi-experimento), utilizando fontes de dados reais, para avaliar a eficácia e a facilidade de uso destes artefatos, por meio do atendimento aos requisitos e mediante um arcabouço de qualidade de dados conectados. Resultados: A infraestrutura proposta é composta por três artefatos: i) um modelo de ciclo de vida de publicação de DAGC, descrevendo quais são as atividades, papéis, ferramentas, verificações e saídas de cada fase de produção; ii) uma arquitetura conceitual, que atende às práticas de compartilhamento de dados, possibilita o acesso aos dados por parte de humanos e máquinas, e considera pontos de controle de verificação dos dados sendo gerados ao longo do processo; iii) modelo de metadados que compila práticas para descrever dados e metadados conectados, objetivando facilitar sua descoberta e processamento. O produto resultante, gerado pelos participantes do estudo empírico, demonstrou nível de qualidade semelhante ou superior aos datasets estado da arte - dentro das métricas de qualidade de dados conectados selecionadas para a avaliação. Conclusão: Esta tese trouxe importantes contribuições teóricas e práticas para a área de publicação de dados abertos governamentais conectados. Ela demonstra como concretizar o atendimento aos requisitos de governo e de abertura de dados por meio de uma infraestrutura com diferentes componentes que permitem que humanos e máquinas possam buscar, acessar e processar dados de qualidade, detalhando diferentes possibilidades de instanciar a infraestrutura.Context: The production os open government data (OGD) has increased since the last decade, being considered as one of the fundamental pillars of modern democracy. The availability of these data carries the promises of economic development, through products and services based on these data; social control, by making it transparent to the society the actions and outcomes from the government; the basis for public policies, by generating indicators of effectiveness throughout time, serving for researches or as a follow-up for the government itself; corruption deterrence, by the accountability of budget execution of public policies. Different public bodies release information of their own scope, making it possible that data consumers combine different data sources to answer questions that were not previously possible. Problem: Although there was some progress in different levels around these axes, multiple factors hamper these benefits from being realized on a larger scale. From the technological perspective, the availability of data for combination, the standardized preparation, and their interoperability are arguably the most impacting factors for their production. Semantic technologies have been developed to address this problem of interoperability by representing information so that they can be interpreted unequivocally by humans and machines alike, the so-called linked data. The overlap of these areas carries the possibility of making government information easier to process, including inferring implicit information. Current methodologies present limitations such as their perception of being too generic and not addressing quality systematically, making data publishers prefer to adopt ad-hoc publication practices. Objective: Thus, this thesis aims to develop a high quality linked open government data (LOGD) publication infrastructure for the Web ecosystem, that uses Web standards to ensure interoperability in many aspects. Methods: A systematic mapping was carried out to identify existing methodologies, their commonalities and their limitations regarding the problems found in their practice. With this knowledge, the Design Science Research Methodology (DSR-M) was adopted, under the design science epistemiology, having a pragmatic character and which aims the development of artifacts to solve practical problems. It guided the selection of kernel theories to meet the requirements and to describe the search for a feasible design solution for the infrastructure artifacts. Empirical studies were carried out (both illustrative scenario and quasi-experiment) using real data sources, to evaluate the efficacy and ease of use of these artifacts, by meeting elicited requirements and by assessing through a quality assessment framework. Results: The proposed infrastructure is made by three artifacts: i) a publishing lifecycle model for LOGD, describing the activities, roles, tools verifications and outputs to each of the production phases; ii) a conceptual architecture, meeting data sharing practices and enabling data access for both humans and machines, considering verification checkpoints along the process; iii) a metadata model, compiling practices to describe linked open government data, aiming to make discovery and processing easier. The resulting product, created by the participants in the empirical study, showed a similar or superior level of quality to state-of-the-art datasets - concerning the linked data quality metrics selected for the evaluation. Conclusion: This thesis has made both theoretical and practical contributions to the field of linked open government data. In short, it materializes meeting the requirements of open government and data employing an infrastructure with multiple components that enables both humans and machines to search, access and process quality data, detailing different alternatives to instantiate the infrastructure.Biblioteca Digitais de Teses e Dissertações da USPIsotani, SeijiMaldonado, José CarlosPenteado, Bruno Elias2020-07-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-14092020-175138/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2020-09-14T23:58:01Zoai:teses.usp.br:tde-14092020-175138Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212020-09-14T23:58:01Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade Infrastructure model for publishing quality linked open government data |
title |
Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade |
spellingShingle |
Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade Penteado, Bruno Elias Dados abertos Dados abertos conectados Dados abertos governamentais Design science research Design science research Lifecycle model Linked open data Modelo de ciclo de vida Open data Open government data |
title_short |
Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade |
title_full |
Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade |
title_fullStr |
Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade |
title_full_unstemmed |
Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade |
title_sort |
Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade |
author |
Penteado, Bruno Elias |
author_facet |
Penteado, Bruno Elias |
author_role |
author |
dc.contributor.none.fl_str_mv |
Isotani, Seiji Maldonado, José Carlos |
dc.contributor.author.fl_str_mv |
Penteado, Bruno Elias |
dc.subject.por.fl_str_mv |
Dados abertos Dados abertos conectados Dados abertos governamentais Design science research Design science research Lifecycle model Linked open data Modelo de ciclo de vida Open data Open government data |
topic |
Dados abertos Dados abertos conectados Dados abertos governamentais Design science research Design science research Lifecycle model Linked open data Modelo de ciclo de vida Open data Open government data |
description |
Contexto: A produção de dados abertos governamentais (DAG) tem aumentado desde a última década, sendo considerada como um dos pilares da democracia moderna. A disponibilidade desses dados carrega promessas como: o desenvolvimento econômico, por meio de produtos e serviços baseados nesses dados; o controle social, ao transparecer para a sociedade as ações e resultados dos governos; o embasamento de políticas públicas, ao gerar indicadores de efetividade ao longo do tempo, servindo para pesquisas ou acompanhamentos do próprio governo; o combate à corrupção, por meio da prestação de contas na execução orçamentária de políticas públicas. Diferentes órgãos governamentais divulgam informações dentro de seu escopo, tornando possível que consumidores de dados combinem diferentes fontes para responder questões que antes não eram possíveis. Problema: Embora tenha havido progressos variados em torno desses eixos, vários fatores impedem que esses benefícios sejam realizados em maior escala. Da perspectiva tecnológica, a disponibilização dos dados para que possam ser combinados, a formatação padronizada e sua interoperabilidade são talvez os fatores que mais impactam sobre sua produção. As tecnologias semânticas têm sido desenvolvidas para tratar este problema de interoperabilidade ao representar informações de modo que possam ser interpretadas inequivocamente por humanos e máquinas, por meio dos chamados dados conectados. O encontro dessas áreas traz a possibilidade de fazer com que as informações governamentais sejam mais facilmente processadas, inclusive sendo inferidas informações implícitas. As metodologias existentes apresentam limitações como a percepção de serem muito genéricas e de não tratarem corretamente questões de qualidade dos dados, fazendo com que publicadores adotem métodos ad-hoc de publicação. Objetivo: Assim, o objetivo desta tese é desenvolver uma infraestrutura de publicação de dados abertos governamentais conectados (DAGC) de qualidade para o ecossistema de dados da Web, que utilize os padrões da Web para garantir a interoperabilidade em diferentes aspectos. Métodos: Foi conduzido um mapeamento sistemático para identificar as metodologias existentes, o que trazem de comum e quais suas limitações em torno dos problemas encontrados em sua prática. A partir desses pontos, foi adotada a metodologia Design Science Research Methodology (DSR-M), sob a epistemologia da Design Science, de caráter pragmático, que objetiva o desenvolvimento de artefatos para resolver problemas. Ela guiou a seleção de teorias kernel para atender aos requisitos levantados e descreve a busca de uma solução viável de design para os artefatos da infraestrutura. Foram conduzidos estudos empíricos (cenário ilustrativo e quasi-experimento), utilizando fontes de dados reais, para avaliar a eficácia e a facilidade de uso destes artefatos, por meio do atendimento aos requisitos e mediante um arcabouço de qualidade de dados conectados. Resultados: A infraestrutura proposta é composta por três artefatos: i) um modelo de ciclo de vida de publicação de DAGC, descrevendo quais são as atividades, papéis, ferramentas, verificações e saídas de cada fase de produção; ii) uma arquitetura conceitual, que atende às práticas de compartilhamento de dados, possibilita o acesso aos dados por parte de humanos e máquinas, e considera pontos de controle de verificação dos dados sendo gerados ao longo do processo; iii) modelo de metadados que compila práticas para descrever dados e metadados conectados, objetivando facilitar sua descoberta e processamento. O produto resultante, gerado pelos participantes do estudo empírico, demonstrou nível de qualidade semelhante ou superior aos datasets estado da arte - dentro das métricas de qualidade de dados conectados selecionadas para a avaliação. Conclusão: Esta tese trouxe importantes contribuições teóricas e práticas para a área de publicação de dados abertos governamentais conectados. Ela demonstra como concretizar o atendimento aos requisitos de governo e de abertura de dados por meio de uma infraestrutura com diferentes componentes que permitem que humanos e máquinas possam buscar, acessar e processar dados de qualidade, detalhando diferentes possibilidades de instanciar a infraestrutura. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-07-03 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-14092020-175138/ |
url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-14092020-175138/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256972506693632 |