Managing large-scale scientific hypotheses as uncertain and probabilistic data
Autor(a) principal: | |
---|---|
Data de Publicação: | 2015 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações do LNCC |
Texto Completo: | https://tede.lncc.br/handle/tede/197 |
Resumo: | Tendo em vista a mudança de paradigma que faz da ciência cada vez mais guiada por dados, nesta tese propomos um método para codifica e gerência de hipóteses científicas determinísticas de larga escala como dados incertos e probabilísticos. Na forma de equações matemáticas, hipóteses relacionam simetricamente aspectos do fenômeno de estudo. Para computação de predições, no entanto, hipóteses determinísticas podem ser abstraídas como funções. Levamos adiante a no de Simon de equações estruturais para extrair de forma eficiente a então chamada ordenação causal implícita na estrutura de uma hipótese. Mostramos como processar a estrutura preditiva de uma hipótese através de algoritmos originais para sua codifica ‹o como um conjunto de dependências funcionais (df's) e então realizamos inferência causal em termos de raciocínio acíclico pseudo-transitivo sobre df's. Tal raciocínio revela importantes dependências causais implícitas nos dados preditivos da hipótese, que conduzem nossa síntese do banco de dados probabilístico. Como na área de modelos gráficos (IA), o banco de dados probabilístico deve ser normalizado de tal forma que a incerteza oriunda de hipóteses alternativas seja decomposta em fatores e propagada propriamente recuperando sua distribuição de probabilidade conjunta via junção 'lossless.' Isso é motivado como um princípio teórico de projeto para gerência e análise de hip teses. O método proposto é aplicável a hipóteses determinísticas quantitativas e qualitativas e é demonstrado em casos realísticos de ciência computacional. |
id |
LNCC_595f80fa1738b9d273ba0f0d14bbc291 |
---|---|
oai_identifier_str |
oai:tede-server.lncc.br:tede/197 |
network_acronym_str |
LNCC |
network_name_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
repository_id_str |
|
spelling |
Porto, Fabio André Machadohttp://lattes.cnpq.br/6418711808050575Casanova, Marco AntonioDias, Pedro Leite da SilvaSalgado, Ana Carolinahttp://lattes.cnpq.br/3537386106760841Gonçalves, Bernardo Nunes2015-04-02T17:48:29Z2015-01-28GONÇALVES, BERNARDO NUNES. Managing large-scale scientific hypotheses as uncertain and probabilistic data, 2015, 128p. Tese (Doutorado em Modelagem Computacional), Programa de Pós-Graduação de Modelagem Computacional, Laboratório Nacional de Computação Científica, Petrópolis, 2015.https://tede.lncc.br/handle/tede/197Tendo em vista a mudança de paradigma que faz da ciência cada vez mais guiada por dados, nesta tese propomos um método para codifica e gerência de hipóteses científicas determinísticas de larga escala como dados incertos e probabilísticos. Na forma de equações matemáticas, hipóteses relacionam simetricamente aspectos do fenômeno de estudo. Para computação de predições, no entanto, hipóteses determinísticas podem ser abstraídas como funções. Levamos adiante a no de Simon de equações estruturais para extrair de forma eficiente a então chamada ordenação causal implícita na estrutura de uma hipótese. Mostramos como processar a estrutura preditiva de uma hipótese através de algoritmos originais para sua codifica ‹o como um conjunto de dependências funcionais (df's) e então realizamos inferência causal em termos de raciocínio acíclico pseudo-transitivo sobre df's. Tal raciocínio revela importantes dependências causais implícitas nos dados preditivos da hipótese, que conduzem nossa síntese do banco de dados probabilístico. Como na área de modelos gráficos (IA), o banco de dados probabilístico deve ser normalizado de tal forma que a incerteza oriunda de hipóteses alternativas seja decomposta em fatores e propagada propriamente recuperando sua distribuição de probabilidade conjunta via junção 'lossless.' Isso é motivado como um princípio teórico de projeto para gerência e análise de hip teses. O método proposto é aplicável a hipóteses determinísticas quantitativas e qualitativas e é demonstrado em casos realísticos de ciência computacional.In view of the paradigm shift that makes science ever more data-driven, in this thesis we propose a synthesis method for encoding and managing large-scale deterministic scientific hypotheses as uncertain and probabilistic data. In the form of mathematical equations, hypotheses symmetrically relate aspects of the studied phenomena. For computing predictions, however, deterministic hypotheses can be abstracted as functions. We build upon Simon's notion of structural equations in order to efficiently extract the (so-called) causal ordering between variables, implicit in a hypothesis structure (set of mathematical equations). We show how to process the hypothesis predictive structure effectively through original algorithms for encoding it into a set of functional dependencies (fd's) and then performing causal reasoning in terms of acyclic pseudo-transitive reasoning over fd's. Such reasoning reveals important causal dependencies implicit in the hypothesis predictive data and guide our synthesis of a probabilistic database. Like in the field of graphical models in AI, such a probabilistic database should be normalized so that the uncertainty arisen from competing hypotheses is decomposed into factors and propagated properly onto predictive data by recovering its joint probability distribution through a lossless join. That is motivated as a design-theoretic principle for data-driven hypothesis management and predictive analytics. The method is applicable to both quantitative and qualitative deterministic hypotheses and demonstrated in realistic use cases from computational science.Submitted by Maria Cristina (library@lncc.br) on 2015-04-02T17:47:07Z No. of bitstreams: 1 bernardo-thesis.pdf: 1669339 bytes, checksum: fbd578e31ff13004edbe4fe1eec0ef5f (MD5)Approved for entry into archive by Maria Cristina (library@lncc.br) on 2015-04-02T17:47:51Z (GMT) No. of bitstreams: 1 bernardo-thesis.pdf: 1669339 bytes, checksum: fbd578e31ff13004edbe4fe1eec0ef5f (MD5)Made available in DSpace on 2015-04-02T17:48:29Z (GMT). No. of bitstreams: 1 bernardo-thesis.pdf: 1669339 bytes, checksum: fbd578e31ff13004edbe4fe1eec0ef5f (MD5) Previous issue date: 2015-01-28Conselho Nacional de Desenvolvimento Científico e TecnológicoFundação Carlos Chagas Filho de Amparo à Pesquisa do estado do Rio de Janeiroapplication/pdfhttp://tede-server.lncc.br:8080/retrieve/457/bernardo-thesis.pdf.jpghttp://tede-server.lncc.br:8080/retrieve/655/bernardo-thesis.pdf.jpgporLaboratório Nacional de Computação CientíficaPrograma de Pós-Graduação em Modelagem ComputacionalLNCCBrasilServiço de Análise e Apoio a Formação de Recursos HumanosGerência de banco de dadosDados incertos e probabilísticosUncertain and probabilistic dataDatabase managementCiências Exatas e da TerraCiência da ComputaçãoBanco de dadosManaging large-scale scientific hypotheses as uncertain and probabilistic dataGerência de hipóteses científicas de larga-escala como dados incertos e probabilísticosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCCLICENSElicense.txtlicense.txttext/plain; charset=utf-82165http://tede-server.lncc.br:8080/tede/bitstream/tede/197/1/license.txtbd3efa91386c1718a7f26a329fdcb468MD51ORIGINALbernardo-thesis.pdfbernardo-thesis.pdfapplication/pdf1669339http://tede-server.lncc.br:8080/tede/bitstream/tede/197/2/bernardo-thesis.pdffbd578e31ff13004edbe4fe1eec0ef5fMD52THUMBNAILbernardo-thesis.pdf.jpgbernardo-thesis.pdf.jpgimage/jpeg3009http://tede-server.lncc.br:8080/tede/bitstream/tede/197/3/bernardo-thesis.pdf.jpg8d49d460c7ac145309c9b25675b26f82MD53tede/1972018-07-04 09:59:46.922oai:tede-server.lncc.br:tede/197Tk9UQTogQ09MT1FVRSBBUVVJIEEgU1VBIFBSw5NQUklBIExJQ0VOw4dBCkVzdGEgbGljZW7Dp2EgZGUgZXhlbXBsbyDDqSBmb3JuZWNpZGEgYXBlbmFzIHBhcmEgZmlucyBpbmZvcm1hdGl2b3MuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgClhYWCAoU2lnbGEgZGEgVW5pdmVyc2lkYWRlKSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IApkaXN0cmlidWlyIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlIAplbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhbnNwb3IgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIApwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byBwYXJhIGZpbnMgZGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIHRhbWLDqW0gY29uY29yZGEgcXVlIGEgU2lnbGEgZGUgVW5pdmVyc2lkYWRlIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBhIHN1YSB0ZXNlIG91IApkaXNzZXJ0YcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyAKbmVzdGEgbGljZW7Dp2EuIFZvY8OqIHRhbWLDqW0gZGVjbGFyYSBxdWUgbyBkZXDDs3NpdG8gZGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBuw6NvLCBxdWUgc2VqYSBkZSBzZXUgCmNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiAKZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSAKb3MgZGlyZWl0b3MgYXByZXNlbnRhZG9zIG5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIAppZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBubyBjb250ZcO6ZG8gZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFRFU0UgT1UgRElTU0VSVEHDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSAKQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBTSUdMQSBERSAKVU5JVkVSU0lEQURFLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyAKVEFNQsOJTSBBUyBERU1BSVMgT0JSSUdBw4fDlUVTIEVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpBIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgCmRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIApjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo=Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2018-07-04T12:59:46Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false |
dc.title.por.fl_str_mv |
Managing large-scale scientific hypotheses as uncertain and probabilistic data |
dc.title.alternative.por.fl_str_mv |
Gerência de hipóteses científicas de larga-escala como dados incertos e probabilísticos |
title |
Managing large-scale scientific hypotheses as uncertain and probabilistic data |
spellingShingle |
Managing large-scale scientific hypotheses as uncertain and probabilistic data Gonçalves, Bernardo Nunes Gerência de banco de dados Dados incertos e probabilísticos Uncertain and probabilistic data Database management Ciências Exatas e da Terra Ciência da Computação Banco de dados |
title_short |
Managing large-scale scientific hypotheses as uncertain and probabilistic data |
title_full |
Managing large-scale scientific hypotheses as uncertain and probabilistic data |
title_fullStr |
Managing large-scale scientific hypotheses as uncertain and probabilistic data |
title_full_unstemmed |
Managing large-scale scientific hypotheses as uncertain and probabilistic data |
title_sort |
Managing large-scale scientific hypotheses as uncertain and probabilistic data |
author |
Gonçalves, Bernardo Nunes |
author_facet |
Gonçalves, Bernardo Nunes |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Porto, Fabio André Machado |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/6418711808050575 |
dc.contributor.referee1.fl_str_mv |
Casanova, Marco Antonio |
dc.contributor.referee2.fl_str_mv |
Dias, Pedro Leite da Silva |
dc.contributor.referee3.fl_str_mv |
Salgado, Ana Carolina |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/3537386106760841 |
dc.contributor.author.fl_str_mv |
Gonçalves, Bernardo Nunes |
contributor_str_mv |
Porto, Fabio André Machado Casanova, Marco Antonio Dias, Pedro Leite da Silva Salgado, Ana Carolina |
dc.subject.por.fl_str_mv |
Gerência de banco de dados Dados incertos e probabilísticos Uncertain and probabilistic data |
topic |
Gerência de banco de dados Dados incertos e probabilísticos Uncertain and probabilistic data Database management Ciências Exatas e da Terra Ciência da Computação Banco de dados |
dc.subject.eng.fl_str_mv |
Database management |
dc.subject.cnpq.fl_str_mv |
Ciências Exatas e da Terra Ciência da Computação Banco de dados |
description |
Tendo em vista a mudança de paradigma que faz da ciência cada vez mais guiada por dados, nesta tese propomos um método para codifica e gerência de hipóteses científicas determinísticas de larga escala como dados incertos e probabilísticos. Na forma de equações matemáticas, hipóteses relacionam simetricamente aspectos do fenômeno de estudo. Para computação de predições, no entanto, hipóteses determinísticas podem ser abstraídas como funções. Levamos adiante a no de Simon de equações estruturais para extrair de forma eficiente a então chamada ordenação causal implícita na estrutura de uma hipótese. Mostramos como processar a estrutura preditiva de uma hipótese através de algoritmos originais para sua codifica ‹o como um conjunto de dependências funcionais (df's) e então realizamos inferência causal em termos de raciocínio acíclico pseudo-transitivo sobre df's. Tal raciocínio revela importantes dependências causais implícitas nos dados preditivos da hipótese, que conduzem nossa síntese do banco de dados probabilístico. Como na área de modelos gráficos (IA), o banco de dados probabilístico deve ser normalizado de tal forma que a incerteza oriunda de hipóteses alternativas seja decomposta em fatores e propagada propriamente recuperando sua distribuição de probabilidade conjunta via junção 'lossless.' Isso é motivado como um princípio teórico de projeto para gerência e análise de hip teses. O método proposto é aplicável a hipóteses determinísticas quantitativas e qualitativas e é demonstrado em casos realísticos de ciência computacional. |
publishDate |
2015 |
dc.date.accessioned.fl_str_mv |
2015-04-02T17:48:29Z |
dc.date.issued.fl_str_mv |
2015-01-28 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
GONÇALVES, BERNARDO NUNES. Managing large-scale scientific hypotheses as uncertain and probabilistic data, 2015, 128p. Tese (Doutorado em Modelagem Computacional), Programa de Pós-Graduação de Modelagem Computacional, Laboratório Nacional de Computação Científica, Petrópolis, 2015. |
dc.identifier.uri.fl_str_mv |
https://tede.lncc.br/handle/tede/197 |
identifier_str_mv |
GONÇALVES, BERNARDO NUNES. Managing large-scale scientific hypotheses as uncertain and probabilistic data, 2015, 128p. Tese (Doutorado em Modelagem Computacional), Programa de Pós-Graduação de Modelagem Computacional, Laboratório Nacional de Computação Científica, Petrópolis, 2015. |
url |
https://tede.lncc.br/handle/tede/197 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Modelagem Computacional |
dc.publisher.initials.fl_str_mv |
LNCC |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Serviço de Análise e Apoio a Formação de Recursos Humanos |
publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do LNCC instname:Laboratório Nacional de Computação Científica (LNCC) instacron:LNCC |
instname_str |
Laboratório Nacional de Computação Científica (LNCC) |
instacron_str |
LNCC |
institution |
LNCC |
reponame_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
collection |
Biblioteca Digital de Teses e Dissertações do LNCC |
bitstream.url.fl_str_mv |
http://tede-server.lncc.br:8080/tede/bitstream/tede/197/1/license.txt http://tede-server.lncc.br:8080/tede/bitstream/tede/197/2/bernardo-thesis.pdf http://tede-server.lncc.br:8080/tede/bitstream/tede/197/3/bernardo-thesis.pdf.jpg |
bitstream.checksum.fl_str_mv |
bd3efa91386c1718a7f26a329fdcb468 fbd578e31ff13004edbe4fe1eec0ef5f 8d49d460c7ac145309c9b25675b26f82 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC) |
repository.mail.fl_str_mv |
library@lncc.br||library@lncc.br |
_version_ |
1797683217964204032 |