Managing large-scale scientific hypotheses as uncertain and probabilistic data

Detalhes bibliográficos
Autor(a) principal: Gonçalves, Bernardo Nunes
Data de Publicação: 2015
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações do LNCC
Texto Completo: https://tede.lncc.br/handle/tede/197
Resumo: Tendo em vista a mudança de paradigma que faz da ciência cada vez mais guiada por dados, nesta tese propomos um método para codifica e gerência de hipóteses científicas determinísticas de larga escala como dados incertos e probabilísticos. Na forma de equações matemáticas, hipóteses relacionam simetricamente aspectos do fenômeno de estudo. Para computação de predições, no entanto, hipóteses determinísticas podem ser abstraídas como funções. Levamos adiante a no de Simon de equações estruturais para extrair de forma eficiente a então chamada ordenação causal implícita na estrutura de uma hipótese. Mostramos como processar a estrutura preditiva de uma hipótese através de algoritmos originais para sua codifica ‹o como um conjunto de dependências funcionais (df's) e então realizamos inferência causal em termos de raciocínio acíclico pseudo-transitivo sobre df's. Tal raciocínio revela importantes dependências causais implícitas nos dados preditivos da hipótese, que conduzem nossa síntese do banco de dados probabilístico. Como na área de modelos gráficos (IA), o banco de dados probabilístico deve ser normalizado de tal forma que a incerteza oriunda de hipóteses alternativas seja decomposta em fatores e propagada propriamente recuperando sua distribuição de probabilidade conjunta via junção 'lossless.' Isso é motivado como um princípio teórico de projeto para gerência e análise de hip teses. O método proposto é aplicável a hipóteses determinísticas quantitativas e qualitativas e é demonstrado em casos realísticos de ciência computacional.
id LNCC_595f80fa1738b9d273ba0f0d14bbc291
oai_identifier_str oai:tede-server.lncc.br:tede/197
network_acronym_str LNCC
network_name_str Biblioteca Digital de Teses e Dissertações do LNCC
repository_id_str
spelling Porto, Fabio André Machadohttp://lattes.cnpq.br/6418711808050575Casanova, Marco AntonioDias, Pedro Leite da SilvaSalgado, Ana Carolinahttp://lattes.cnpq.br/3537386106760841Gonçalves, Bernardo Nunes2015-04-02T17:48:29Z2015-01-28GONÇALVES, BERNARDO NUNES. Managing large-scale scientific hypotheses as uncertain and probabilistic data, 2015, 128p. Tese (Doutorado em Modelagem Computacional), Programa de Pós-Graduação de Modelagem Computacional, Laboratório Nacional de Computação Científica, Petrópolis, 2015.https://tede.lncc.br/handle/tede/197Tendo em vista a mudança de paradigma que faz da ciência cada vez mais guiada por dados, nesta tese propomos um método para codifica e gerência de hipóteses científicas determinísticas de larga escala como dados incertos e probabilísticos. Na forma de equações matemáticas, hipóteses relacionam simetricamente aspectos do fenômeno de estudo. Para computação de predições, no entanto, hipóteses determinísticas podem ser abstraídas como funções. Levamos adiante a no de Simon de equações estruturais para extrair de forma eficiente a então chamada ordenação causal implícita na estrutura de uma hipótese. Mostramos como processar a estrutura preditiva de uma hipótese através de algoritmos originais para sua codifica ‹o como um conjunto de dependências funcionais (df's) e então realizamos inferência causal em termos de raciocínio acíclico pseudo-transitivo sobre df's. Tal raciocínio revela importantes dependências causais implícitas nos dados preditivos da hipótese, que conduzem nossa síntese do banco de dados probabilístico. Como na área de modelos gráficos (IA), o banco de dados probabilístico deve ser normalizado de tal forma que a incerteza oriunda de hipóteses alternativas seja decomposta em fatores e propagada propriamente recuperando sua distribuição de probabilidade conjunta via junção 'lossless.' Isso é motivado como um princípio teórico de projeto para gerência e análise de hip teses. O método proposto é aplicável a hipóteses determinísticas quantitativas e qualitativas e é demonstrado em casos realísticos de ciência computacional.In view of the paradigm shift that makes science ever more data-driven, in this thesis we propose a synthesis method for encoding and managing large-scale deterministic scientific hypotheses as uncertain and probabilistic data. In the form of mathematical equations, hypotheses symmetrically relate aspects of the studied phenomena. For computing predictions, however, deterministic hypotheses can be abstracted as functions. We build upon Simon's notion of structural equations in order to efficiently extract the (so-called) causal ordering between variables, implicit in a hypothesis structure (set of mathematical equations). We show how to process the hypothesis predictive structure effectively through original algorithms for encoding it into a set of functional dependencies (fd's) and then performing causal reasoning in terms of acyclic pseudo-transitive reasoning over fd's. Such reasoning reveals important causal dependencies implicit in the hypothesis predictive data and guide our synthesis of a probabilistic database. Like in the field of graphical models in AI, such a probabilistic database should be normalized so that the uncertainty arisen from competing hypotheses is decomposed into factors and propagated properly onto predictive data by recovering its joint probability distribution through a lossless join. That is motivated as a design-theoretic principle for data-driven hypothesis management and predictive analytics. The method is applicable to both quantitative and qualitative deterministic hypotheses and demonstrated in realistic use cases from computational science.Submitted by Maria Cristina (library@lncc.br) on 2015-04-02T17:47:07Z No. of bitstreams: 1 bernardo-thesis.pdf: 1669339 bytes, checksum: fbd578e31ff13004edbe4fe1eec0ef5f (MD5)Approved for entry into archive by Maria Cristina (library@lncc.br) on 2015-04-02T17:47:51Z (GMT) No. of bitstreams: 1 bernardo-thesis.pdf: 1669339 bytes, checksum: fbd578e31ff13004edbe4fe1eec0ef5f (MD5)Made available in DSpace on 2015-04-02T17:48:29Z (GMT). No. of bitstreams: 1 bernardo-thesis.pdf: 1669339 bytes, checksum: fbd578e31ff13004edbe4fe1eec0ef5f (MD5) Previous issue date: 2015-01-28Conselho Nacional de Desenvolvimento Científico e TecnológicoFundação Carlos Chagas Filho de Amparo à Pesquisa do estado do Rio de Janeiroapplication/pdfhttp://tede-server.lncc.br:8080/retrieve/457/bernardo-thesis.pdf.jpghttp://tede-server.lncc.br:8080/retrieve/655/bernardo-thesis.pdf.jpgporLaboratório Nacional de Computação CientíficaPrograma de Pós-Graduação em Modelagem ComputacionalLNCCBrasilServiço de Análise e Apoio a Formação de Recursos HumanosGerência de banco de dadosDados incertos e probabilísticosUncertain and probabilistic dataDatabase managementCiências Exatas e da TerraCiência da ComputaçãoBanco de dadosManaging large-scale scientific hypotheses as uncertain and probabilistic dataGerência de hipóteses científicas de larga-escala como dados incertos e probabilísticosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCCLICENSElicense.txtlicense.txttext/plain; charset=utf-82165http://tede-server.lncc.br:8080/tede/bitstream/tede/197/1/license.txtbd3efa91386c1718a7f26a329fdcb468MD51ORIGINALbernardo-thesis.pdfbernardo-thesis.pdfapplication/pdf1669339http://tede-server.lncc.br:8080/tede/bitstream/tede/197/2/bernardo-thesis.pdffbd578e31ff13004edbe4fe1eec0ef5fMD52THUMBNAILbernardo-thesis.pdf.jpgbernardo-thesis.pdf.jpgimage/jpeg3009http://tede-server.lncc.br:8080/tede/bitstream/tede/197/3/bernardo-thesis.pdf.jpg8d49d460c7ac145309c9b25675b26f82MD53tede/1972018-07-04 09:59:46.922oai:tede-server.lncc.br:tede/197Tk9UQTogQ09MT1FVRSBBUVVJIEEgU1VBIFBSw5NQUklBIExJQ0VOw4dBCkVzdGEgbGljZW7Dp2EgZGUgZXhlbXBsbyDDqSBmb3JuZWNpZGEgYXBlbmFzIHBhcmEgZmlucyBpbmZvcm1hdGl2b3MuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgClhYWCAoU2lnbGEgZGEgVW5pdmVyc2lkYWRlKSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IApkaXN0cmlidWlyIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlIAplbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhbnNwb3IgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIApwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byBwYXJhIGZpbnMgZGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIHRhbWLDqW0gY29uY29yZGEgcXVlIGEgU2lnbGEgZGUgVW5pdmVyc2lkYWRlIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBhIHN1YSB0ZXNlIG91IApkaXNzZXJ0YcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyAKbmVzdGEgbGljZW7Dp2EuIFZvY8OqIHRhbWLDqW0gZGVjbGFyYSBxdWUgbyBkZXDDs3NpdG8gZGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBuw6NvLCBxdWUgc2VqYSBkZSBzZXUgCmNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiAKZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSAKb3MgZGlyZWl0b3MgYXByZXNlbnRhZG9zIG5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIAppZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBubyBjb250ZcO6ZG8gZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFRFU0UgT1UgRElTU0VSVEHDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSAKQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBTSUdMQSBERSAKVU5JVkVSU0lEQURFLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyAKVEFNQsOJTSBBUyBERU1BSVMgT0JSSUdBw4fDlUVTIEVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpBIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgCmRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIApjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo=Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2018-07-04T12:59:46Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false
dc.title.por.fl_str_mv Managing large-scale scientific hypotheses as uncertain and probabilistic data
dc.title.alternative.por.fl_str_mv Gerência de hipóteses científicas de larga-escala como dados incertos e probabilísticos
title Managing large-scale scientific hypotheses as uncertain and probabilistic data
spellingShingle Managing large-scale scientific hypotheses as uncertain and probabilistic data
Gonçalves, Bernardo Nunes
Gerência de banco de dados
Dados incertos e probabilísticos
Uncertain and probabilistic data
Database management
Ciências Exatas e da Terra
Ciência da Computação
Banco de dados
title_short Managing large-scale scientific hypotheses as uncertain and probabilistic data
title_full Managing large-scale scientific hypotheses as uncertain and probabilistic data
title_fullStr Managing large-scale scientific hypotheses as uncertain and probabilistic data
title_full_unstemmed Managing large-scale scientific hypotheses as uncertain and probabilistic data
title_sort Managing large-scale scientific hypotheses as uncertain and probabilistic data
author Gonçalves, Bernardo Nunes
author_facet Gonçalves, Bernardo Nunes
author_role author
dc.contributor.advisor1.fl_str_mv Porto, Fabio André Machado
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/6418711808050575
dc.contributor.referee1.fl_str_mv Casanova, Marco Antonio
dc.contributor.referee2.fl_str_mv Dias, Pedro Leite da Silva
dc.contributor.referee3.fl_str_mv Salgado, Ana Carolina
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/3537386106760841
dc.contributor.author.fl_str_mv Gonçalves, Bernardo Nunes
contributor_str_mv Porto, Fabio André Machado
Casanova, Marco Antonio
Dias, Pedro Leite da Silva
Salgado, Ana Carolina
dc.subject.por.fl_str_mv Gerência de banco de dados
Dados incertos e probabilísticos
Uncertain and probabilistic data
topic Gerência de banco de dados
Dados incertos e probabilísticos
Uncertain and probabilistic data
Database management
Ciências Exatas e da Terra
Ciência da Computação
Banco de dados
dc.subject.eng.fl_str_mv Database management
dc.subject.cnpq.fl_str_mv Ciências Exatas e da Terra
Ciência da Computação
Banco de dados
description Tendo em vista a mudança de paradigma que faz da ciência cada vez mais guiada por dados, nesta tese propomos um método para codifica e gerência de hipóteses científicas determinísticas de larga escala como dados incertos e probabilísticos. Na forma de equações matemáticas, hipóteses relacionam simetricamente aspectos do fenômeno de estudo. Para computação de predições, no entanto, hipóteses determinísticas podem ser abstraídas como funções. Levamos adiante a no de Simon de equações estruturais para extrair de forma eficiente a então chamada ordenação causal implícita na estrutura de uma hipótese. Mostramos como processar a estrutura preditiva de uma hipótese através de algoritmos originais para sua codifica ‹o como um conjunto de dependências funcionais (df's) e então realizamos inferência causal em termos de raciocínio acíclico pseudo-transitivo sobre df's. Tal raciocínio revela importantes dependências causais implícitas nos dados preditivos da hipótese, que conduzem nossa síntese do banco de dados probabilístico. Como na área de modelos gráficos (IA), o banco de dados probabilístico deve ser normalizado de tal forma que a incerteza oriunda de hipóteses alternativas seja decomposta em fatores e propagada propriamente recuperando sua distribuição de probabilidade conjunta via junção 'lossless.' Isso é motivado como um princípio teórico de projeto para gerência e análise de hip teses. O método proposto é aplicável a hipóteses determinísticas quantitativas e qualitativas e é demonstrado em casos realísticos de ciência computacional.
publishDate 2015
dc.date.accessioned.fl_str_mv 2015-04-02T17:48:29Z
dc.date.issued.fl_str_mv 2015-01-28
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv GONÇALVES, BERNARDO NUNES. Managing large-scale scientific hypotheses as uncertain and probabilistic data, 2015, 128p. Tese (Doutorado em Modelagem Computacional), Programa de Pós-Graduação de Modelagem Computacional, Laboratório Nacional de Computação Científica, Petrópolis, 2015.
dc.identifier.uri.fl_str_mv https://tede.lncc.br/handle/tede/197
identifier_str_mv GONÇALVES, BERNARDO NUNES. Managing large-scale scientific hypotheses as uncertain and probabilistic data, 2015, 128p. Tese (Doutorado em Modelagem Computacional), Programa de Pós-Graduação de Modelagem Computacional, Laboratório Nacional de Computação Científica, Petrópolis, 2015.
url https://tede.lncc.br/handle/tede/197
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Modelagem Computacional
dc.publisher.initials.fl_str_mv LNCC
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Serviço de Análise e Apoio a Formação de Recursos Humanos
publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do LNCC
instname:Laboratório Nacional de Computação Científica (LNCC)
instacron:LNCC
instname_str Laboratório Nacional de Computação Científica (LNCC)
instacron_str LNCC
institution LNCC
reponame_str Biblioteca Digital de Teses e Dissertações do LNCC
collection Biblioteca Digital de Teses e Dissertações do LNCC
bitstream.url.fl_str_mv http://tede-server.lncc.br:8080/tede/bitstream/tede/197/1/license.txt
http://tede-server.lncc.br:8080/tede/bitstream/tede/197/2/bernardo-thesis.pdf
http://tede-server.lncc.br:8080/tede/bitstream/tede/197/3/bernardo-thesis.pdf.jpg
bitstream.checksum.fl_str_mv bd3efa91386c1718a7f26a329fdcb468
fbd578e31ff13004edbe4fe1eec0ef5f
8d49d460c7ac145309c9b25675b26f82
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)
repository.mail.fl_str_mv library@lncc.br||library@lncc.br
_version_ 1797683217964204032