Modelagem de tópicos e interpretabilidade: uma proposta de visualização de resultados implementada em D3.js
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional do FGV (FGV Repositório Digital) |
Texto Completo: | https://hdl.handle.net/10438/29548 |
Resumo: | Nos últimos anos, diversos avanços foram promovidos no campo de modelagem de tópicos, seja por meio do desenvolvimento de novos algoritmos, seja em processos de avaliação, assim como pelo surgimento de novas ferramentas de visualização. Esta última frente avança devido à percepção de que modelos de tópicos fornecem nova capacidade exploratória de grandes coleções de documentos, o que, aliado a soluções de visualização, pode trazer nova percepção analítica ao especialista de domínio. Este trabalho buscou introduzir uma solução interativa e de alta amplitude analítica, tendo como objeto de estudo uma coleção de documentos disponibilizada pela FGV/CPDOC. A metodologia envolveu uso de resultados provenientes de modelagem de tópicos e transformações dos dados para o processo de visualização, o que demandou o uso de distintas ferramentas de programação disponíveis. Após investigação do estado da arte, a hipótese principal é que haveria baixa disponibilidade de ferramentas de visualização de tópicos que incorporassem uma visão global do corpus acompanhada por um aumento gradual do nível de detalhamento, passando pela análise de agrupamentos de objetos viabilizada pela modelagem de tópicos, até a exploração de cada objeto. A principal contribuição está na conceituação de uma nova ferramenta que atende a conceitos de granularidade, usuário-alvo e data-ink ratio por meio de uma linguagem de programação que forneça o máximo de flexibilidade. Por fim, conclui-se que haveria muito espaço de melhoria, seja por meio de aumento de interatividade, quanto por maior dedicação a etapas de pré-processamento no caso de coleções de documentos que tenham passado por processo de OCR. |
id |
FGV_1e39bd8349a240f86c7edcfe10b8007b |
---|---|
oai_identifier_str |
oai:repositorio.fgv.br:10438/29548 |
network_acronym_str |
FGV |
network_name_str |
Repositório Institucional do FGV (FGV Repositório Digital) |
repository_id_str |
3974 |
spelling |
Barata Ribeiro, Marcelo BianchiEscolas::EMApSouza, Renato RochaCoelho, Flávio CodeçoNonato, Luis GustavoSá, Asla Medeiros2020-08-10T14:41:20Z2020-08-10T14:41:20Z2020-04-24https://hdl.handle.net/10438/29548Nos últimos anos, diversos avanços foram promovidos no campo de modelagem de tópicos, seja por meio do desenvolvimento de novos algoritmos, seja em processos de avaliação, assim como pelo surgimento de novas ferramentas de visualização. Esta última frente avança devido à percepção de que modelos de tópicos fornecem nova capacidade exploratória de grandes coleções de documentos, o que, aliado a soluções de visualização, pode trazer nova percepção analítica ao especialista de domínio. Este trabalho buscou introduzir uma solução interativa e de alta amplitude analítica, tendo como objeto de estudo uma coleção de documentos disponibilizada pela FGV/CPDOC. A metodologia envolveu uso de resultados provenientes de modelagem de tópicos e transformações dos dados para o processo de visualização, o que demandou o uso de distintas ferramentas de programação disponíveis. Após investigação do estado da arte, a hipótese principal é que haveria baixa disponibilidade de ferramentas de visualização de tópicos que incorporassem uma visão global do corpus acompanhada por um aumento gradual do nível de detalhamento, passando pela análise de agrupamentos de objetos viabilizada pela modelagem de tópicos, até a exploração de cada objeto. A principal contribuição está na conceituação de uma nova ferramenta que atende a conceitos de granularidade, usuário-alvo e data-ink ratio por meio de uma linguagem de programação que forneça o máximo de flexibilidade. Por fim, conclui-se que haveria muito espaço de melhoria, seja por meio de aumento de interatividade, quanto por maior dedicação a etapas de pré-processamento no caso de coleções de documentos que tenham passado por processo de OCR.In recent years, several advances have been promoted in topic modeling, either through the development of new algorithms, or in evaluation processes, as well as by the emergence of novel visualization tools. This last field advances due to the realization that topic models provide new exploratory capabilities for large collections of documents which, combined with visualization solutions, can bring new insights to domain specialists. This work sought to introduce a novel interactive and highly analytical solution, having as object of study a document collection provided by FGV/CPDOC. The methodology comprises the use of results from topic modeling and data transformations for the data visualization, which required using distinct programming languages avaliable. After the investigation of the state of the art, the main hypothesis is that there would be low availability of visualization tools aimed at topic models able to incorporate a global view of the corpus together with a gradual increase on the level of detail, passing through the analysis of object clusters provided by topic modeling, until the exploration of each unique object. The main contribution is the implementation of a novel tool that meets the concepts of granularity, target-user and data-ink ratio through a programming language that provides maximum flexibility. Finally, it is reckoned that there would be room for improvement, either through increased interactivity, or through greater dedication to pre-processing steps in the case of document collections that have gone through OCR processes.porAprendizado de máquinaMineração de dadosProcessamento de linguagem naturalVisualização da informaçãoModelagem de tópicosTopic modelingVisualizationText DataMatemáticaAprendizado do computadorMineração de dados (Computação)Processamento da linguagem natural (Computação)Visualização da informaçãoModelagem de dadosModelagem de tópicos e interpretabilidade: uma proposta de visualização de resultados implementada em D3.jsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis2020-04-24reponame:Repositório Institucional do FGV (FGV Repositório Digital)instname:Fundação Getulio Vargas (FGV)instacron:FGVinfo:eu-repo/semantics/openAccessORIGINALthesis.pdfthesis.pdfapplication/pdf21413172https://repositorio.fgv.br/bitstreams/8c4a08f2-532b-4d41-8484-2d127080fcbb/downloadc2564fa6f0b9b14c3b82b88f04009e9cMD53TEXTthesis.pdf.txtthesis.pdf.txtExtracted texttext/plain102840https://repositorio.fgv.br/bitstreams/a8b9fa60-f14f-476f-aefa-de708e02bd78/download9056e55b594a91344bb525df5de48c9bMD58THUMBNAILthesis.pdf.jpgthesis.pdf.jpgGenerated Thumbnailimage/jpeg2878https://repositorio.fgv.br/bitstreams/7dfb8650-4b16-414a-904e-fd335a6c8048/download4935e9d0a6c76f696343f760140f2338MD59LICENSElicense.txtlicense.txttext/plain; charset=utf-84707https://repositorio.fgv.br/bitstreams/bf128281-0493-4be6-a42f-780cc6b5fe69/downloaddfb340242cced38a6cca06c627998fa1MD5210438/295482023-11-04 09:08:31.028open.accessoai:repositorio.fgv.br:10438/29548https://repositorio.fgv.brRepositório InstitucionalPRIhttp://bibliotecadigital.fgv.br/dspace-oai/requestopendoar:39742023-11-04T09:08:31Repositório Institucional do FGV (FGV Repositório Digital) - Fundação Getulio Vargas (FGV)falseVEVSTU9TIExJQ0VOQ0lBTUVOVE8gUEFSQSBBUlFVSVZBTUVOVE8sIFJFUFJPRFXDh8ODTyBFIERJVlVMR0HDh8ODTwpQw5pCTElDQSBERSBDT05URcOaRE8gw4AgQklCTElPVEVDQSBWSVJUVUFMIEZHViAodmVyc8OjbyAxLjIpCgoxLiBWb2PDqiwgdXN1w6FyaW8tZGVwb3NpdGFudGUgZGEgQmlibGlvdGVjYSBWaXJ0dWFsIEZHViwgYXNzZWd1cmEsIG5vCnByZXNlbnRlIGF0bywgcXVlIMOpIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhdHJpbW9uaWFpcyBlL291CmRpcmVpdG9zIGNvbmV4b3MgcmVmZXJlbnRlcyDDoCB0b3RhbGlkYWRlIGRhIE9icmEgb3JhIGRlcG9zaXRhZGEgZW0KZm9ybWF0byBkaWdpdGFsLCBiZW0gY29tbyBkZSBzZXVzIGNvbXBvbmVudGVzIG1lbm9yZXMsIGVtIHNlIHRyYXRhbmRvCmRlIG9icmEgY29sZXRpdmEsIGNvbmZvcm1lIG8gcHJlY2VpdHVhZG8gcGVsYSBMZWkgOS42MTAvOTggZS9vdSBMZWkKOS42MDkvOTguIE7Do28gc2VuZG8gZXN0ZSBvIGNhc28sIHZvY8OqIGFzc2VndXJhIHRlciBvYnRpZG8sIGRpcmV0YW1lbnRlCmRvcyBkZXZpZG9zIHRpdHVsYXJlcywgYXV0b3JpemHDp8OjbyBwcsOpdmlhIGUgZXhwcmVzc2EgcGFyYSBvIGRlcMOzc2l0byBlCmRpdnVsZ2HDp8OjbyBkYSBPYnJhLCBhYnJhbmdlbmRvIHRvZG9zIG9zIGRpcmVpdG9zIGF1dG9yYWlzIGUgY29uZXhvcwphZmV0YWRvcyBwZWxhIGFzc2luYXR1cmEgZG9zIHByZXNlbnRlcyB0ZXJtb3MgZGUgbGljZW5jaWFtZW50bywgZGUKbW9kbyBhIGVmZXRpdmFtZW50ZSBpc2VudGFyIGEgRnVuZGHDp8OjbyBHZXR1bGlvIFZhcmdhcyBlIHNldXMKZnVuY2lvbsOhcmlvcyBkZSBxdWFscXVlciByZXNwb25zYWJpbGlkYWRlIHBlbG8gdXNvIG7Do28tYXV0b3JpemFkbyBkbwptYXRlcmlhbCBkZXBvc2l0YWRvLCBzZWphIGVtIHZpbmN1bGHDp8OjbyDDoCBCaWJsaW90ZWNhIFZpcnR1YWwgRkdWLCBzZWphCmVtIHZpbmN1bGHDp8OjbyBhIHF1YWlzcXVlciBzZXJ2acOnb3MgZGUgYnVzY2EgZSBkaXN0cmlidWnDp8OjbyBkZSBjb250ZcO6ZG8KcXVlIGZhw6dhbSB1c28gZGFzIGludGVyZmFjZXMgZSBlc3Bhw6dvIGRlIGFybWF6ZW5hbWVudG8gcHJvdmlkZW5jaWFkb3MKcGVsYSBGdW5kYcOnw6NvIEdldHVsaW8gVmFyZ2FzIHBvciBtZWlvIGRlIHNldXMgc2lzdGVtYXMgaW5mb3JtYXRpemFkb3MuCgoyLiBBIGFzc2luYXR1cmEgZGVzdGEgbGljZW7Dp2EgdGVtIGNvbW8gY29uc2Vxw7zDqm5jaWEgYSB0cmFuc2ZlcsOqbmNpYSwgYQp0w610dWxvIG7Do28tZXhjbHVzaXZvIGUgbsOjby1vbmVyb3NvLCBpc2VudGEgZG8gcGFnYW1lbnRvIGRlIHJveWFsdGllcwpvdSBxdWFscXVlciBvdXRyYSBjb250cmFwcmVzdGHDp8OjbywgcGVjdW5pw6FyaWEgb3UgbsOjbywgw6AgRnVuZGHDp8OjbwpHZXR1bGlvIFZhcmdhcywgZG9zIGRpcmVpdG9zIGRlIGFybWF6ZW5hciBkaWdpdGFsbWVudGUsIHJlcHJvZHV6aXIgZQpkaXN0cmlidWlyIG5hY2lvbmFsIGUgaW50ZXJuYWNpb25hbG1lbnRlIGEgT2JyYSwgaW5jbHVpbmRvLXNlIG8gc2V1CnJlc3Vtby9hYnN0cmFjdCwgcG9yIG1laW9zIGVsZXRyw7RuaWNvcywgbm8gc2l0ZSBkYSBCaWJsaW90ZWNhIFZpcnR1YWwKRkdWLCBhbyBww7pibGljbyBlbSBnZXJhbCwgZW0gcmVnaW1lIGRlIGFjZXNzbyBhYmVydG8uCgozLiBBIHByZXNlbnRlIGxpY2Vuw6dhIHRhbWLDqW0gYWJyYW5nZSwgbm9zIG1lc21vcyB0ZXJtb3MgZXN0YWJlbGVjaWRvcwpubyBpdGVtIDIsIHN1cHJhLCBxdWFscXVlciBkaXJlaXRvIGRlIGNvbXVuaWNhw6fDo28gYW8gcMO6YmxpY28gY2Fiw612ZWwKZW0gcmVsYcOnw6NvIMOgIE9icmEgb3JhIGRlcG9zaXRhZGEsIGluY2x1aW5kby1zZSBvcyB1c29zIHJlZmVyZW50ZXMgw6AKcmVwcmVzZW50YcOnw6NvIHDDumJsaWNhIGUvb3UgZXhlY3XDp8OjbyBww7pibGljYSwgYmVtIGNvbW8gcXVhbHF1ZXIgb3V0cmEKbW9kYWxpZGFkZSBkZSBjb211bmljYcOnw6NvIGFvIHDDumJsaWNvIHF1ZSBleGlzdGEgb3UgdmVuaGEgYSBleGlzdGlyLApub3MgdGVybW9zIGRvIGFydGlnbyA2OCBlIHNlZ3VpbnRlcyBkYSBMZWkgOS42MTAvOTgsIG5hIGV4dGVuc8OjbyBxdWUKZm9yIGFwbGljw6F2ZWwgYW9zIHNlcnZpw6dvcyBwcmVzdGFkb3MgYW8gcMO6YmxpY28gcGVsYSBCaWJsaW90ZWNhClZpcnR1YWwgRkdWLgoKNC4gRXN0YSBsaWNlbsOnYSBhYnJhbmdlLCBhaW5kYSwgbm9zIG1lc21vcyB0ZXJtb3MgZXN0YWJlbGVjaWRvcyBubwppdGVtIDIsIHN1cHJhLCB0b2RvcyBvcyBkaXJlaXRvcyBjb25leG9zIGRlIGFydGlzdGFzIGludMOpcnByZXRlcyBvdQpleGVjdXRhbnRlcywgcHJvZHV0b3JlcyBmb25vZ3LDoWZpY29zIG91IGVtcHJlc2FzIGRlIHJhZGlvZGlmdXPDo28gcXVlCmV2ZW50dWFsbWVudGUgc2VqYW0gYXBsaWPDoXZlaXMgZW0gcmVsYcOnw6NvIMOgIG9icmEgZGVwb3NpdGFkYSwgZW0KY29uZm9ybWlkYWRlIGNvbSBvIHJlZ2ltZSBmaXhhZG8gbm8gVMOtdHVsbyBWIGRhIExlaSA5LjYxMC85OC4KCjUuIFNlIGEgT2JyYSBkZXBvc2l0YWRhIGZvaSBvdSDDqSBvYmpldG8gZGUgZmluYW5jaWFtZW50byBwb3IKaW5zdGl0dWnDp8O1ZXMgZGUgZm9tZW50byDDoCBwZXNxdWlzYSBvdSBxdWFscXVlciBvdXRyYSBzZW1lbGhhbnRlLCB2b2PDqgpvdSBvIHRpdHVsYXIgYXNzZWd1cmEgcXVlIGN1bXByaXUgdG9kYXMgYXMgb2JyaWdhw6fDtWVzIHF1ZSBsaGUgZm9yYW0KaW1wb3N0YXMgcGVsYSBpbnN0aXR1acOnw6NvIGZpbmFuY2lhZG9yYSBlbSByYXrDo28gZG8gZmluYW5jaWFtZW50bywgZQpxdWUgbsOjbyBlc3TDoSBjb250cmFyaWFuZG8gcXVhbHF1ZXIgZGlzcG9zacOnw6NvIGNvbnRyYXR1YWwgcmVmZXJlbnRlIMOgCnB1YmxpY2HDp8OjbyBkbyBjb250ZcO6ZG8gb3JhIHN1Ym1ldGlkbyDDoCBCaWJsaW90ZWNhIFZpcnR1YWwgRkdWLgoKNi4gQ2FzbyBhIE9icmEgb3JhIGRlcG9zaXRhZGEgZW5jb250cmUtc2UgbGljZW5jaWFkYSBzb2IgdW1hIGxpY2Vuw6dhCkNyZWF0aXZlIENvbW1vbnMgKHF1YWxxdWVyIHZlcnPDo28pLCBzb2IgYSBsaWNlbsOnYSBHTlUgRnJlZQpEb2N1bWVudGF0aW9uIExpY2Vuc2UgKHF1YWxxdWVyIHZlcnPDo28pLCBvdSBvdXRyYSBsaWNlbsOnYSBxdWFsaWZpY2FkYQpjb21vIGxpdnJlIHNlZ3VuZG8gb3MgY3JpdMOpcmlvcyBkYSBEZWZpbml0aW9uIG9mIEZyZWUgQ3VsdHVyYWwgV29ya3MKKGRpc3BvbsOtdmVsIGVtOiBodHRwOi8vZnJlZWRvbWRlZmluZWQub3JnL0RlZmluaXRpb24pIG91IEZyZWUgU29mdHdhcmUKRGVmaW5pdGlvbiAoZGlzcG9uw612ZWwgZW06IGh0dHA6Ly93d3cuZ251Lm9yZy9waGlsb3NvcGh5L2ZyZWUtc3cuaHRtbCksIApvIGFycXVpdm8gcmVmZXJlbnRlIMOgIE9icmEgZGV2ZSBpbmRpY2FyIGEgbGljZW7Dp2EgYXBsaWPDoXZlbCBlbQpjb250ZcO6ZG8gbGVnw612ZWwgcG9yIHNlcmVzIGh1bWFub3MgZSwgc2UgcG9zc8OtdmVsLCB0YW1iw6ltIGVtIG1ldGFkYWRvcwpsZWfDrXZlaXMgcG9yIG3DoXF1aW5hLiBBIGluZGljYcOnw6NvIGRhIGxpY2Vuw6dhIGFwbGljw6F2ZWwgZGV2ZSBzZXIKYWNvbXBhbmhhZGEgZGUgdW0gbGluayBwYXJhIG9zIHRlcm1vcyBkZSBsaWNlbmNpYW1lbnRvIG91IHN1YSBjw7NwaWEKaW50ZWdyYWwuCgoKQW8gY29uY2x1aXIgYSBwcmVzZW50ZSBldGFwYSBlIGFzIGV0YXBhcyBzdWJzZXHDvGVudGVzIGRvIHByb2Nlc3NvIGRlCnN1Ym1pc3PDo28gZGUgYXJxdWl2b3Mgw6AgQmlibGlvdGVjYSBWaXJ0dWFsIEZHViwgdm9jw6ogYXRlc3RhIHF1ZSBsZXUgZQpjb25jb3JkYSBpbnRlZ3JhbG1lbnRlIGNvbSBvcyB0ZXJtb3MgYWNpbWEgZGVsaW1pdGFkb3MsIGFzc2luYW5kby1vcwpzZW0gZmF6ZXIgcXVhbHF1ZXIgcmVzZXJ2YSBlIG5vdmFtZW50ZSBjb25maXJtYW5kbyBxdWUgY3VtcHJlIG9zCnJlcXVpc2l0b3MgaW5kaWNhZG9zIG5vIGl0ZW0gMSwgc3VwcmEuCgpIYXZlbmRvIHF1YWxxdWVyIGRpc2NvcmTDom5jaWEgZW0gcmVsYcOnw6NvIGFvcyBwcmVzZW50ZXMgdGVybW9zIG91IG7Do28Kc2UgdmVyaWZpY2FuZG8gbyBleGlnaWRvIG5vIGl0ZW0gMSwgc3VwcmEsIHZvY8OqIGRldmUgaW50ZXJyb21wZXIKaW1lZGlhdGFtZW50ZSBvIHByb2Nlc3NvIGRlIHN1Ym1pc3PDo28uIEEgY29udGludWlkYWRlIGRvIHByb2Nlc3NvCmVxdWl2YWxlIMOgIGFzc2luYXR1cmEgZGVzdGUgZG9jdW1lbnRvLCBjb20gdG9kYXMgYXMgY29uc2Vxw7zDqm5jaWFzIG5lbGUKcHJldmlzdGFzLCBzdWplaXRhbmRvLXNlIG8gc2lnbmF0w6FyaW8gYSBzYW7Dp8O1ZXMgY2l2aXMgZSBjcmltaW5haXMgY2Fzbwpuw6NvIHNlamEgdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGF0cmltb25pYWlzIGUvb3UgY29uZXhvcwphcGxpY8OhdmVpcyDDoCBPYnJhIGRlcG9zaXRhZGEgZHVyYW50ZSBlc3RlIHByb2Nlc3NvLCBvdSBjYXNvIG7Do28gdGVuaGEKb2J0aWRvIHByw6l2aWEgZSBleHByZXNzYSBhdXRvcml6YcOnw6NvIGRvIHRpdHVsYXIgcGFyYSBvIGRlcMOzc2l0byBlCnRvZG9zIG9zIHVzb3MgZGEgT2JyYSBlbnZvbHZpZG9zLgoKClBhcmEgYSBzb2x1w6fDo28gZGUgcXVhbHF1ZXIgZMO6dmlkYSBxdWFudG8gYW9zIHRlcm1vcyBkZSBsaWNlbmNpYW1lbnRvIGUKbyBwcm9jZXNzbyBkZSBzdWJtaXNzw6NvLCBjbGlxdWUgbm8gbGluayAiRmFsZSBjb25vc2NvIi4K |
dc.title.por.fl_str_mv |
Modelagem de tópicos e interpretabilidade: uma proposta de visualização de resultados implementada em D3.js |
title |
Modelagem de tópicos e interpretabilidade: uma proposta de visualização de resultados implementada em D3.js |
spellingShingle |
Modelagem de tópicos e interpretabilidade: uma proposta de visualização de resultados implementada em D3.js Barata Ribeiro, Marcelo Bianchi Aprendizado de máquina Mineração de dados Processamento de linguagem natural Visualização da informação Modelagem de tópicos Topic modeling Visualization Text Data Matemática Aprendizado do computador Mineração de dados (Computação) Processamento da linguagem natural (Computação) Visualização da informação Modelagem de dados |
title_short |
Modelagem de tópicos e interpretabilidade: uma proposta de visualização de resultados implementada em D3.js |
title_full |
Modelagem de tópicos e interpretabilidade: uma proposta de visualização de resultados implementada em D3.js |
title_fullStr |
Modelagem de tópicos e interpretabilidade: uma proposta de visualização de resultados implementada em D3.js |
title_full_unstemmed |
Modelagem de tópicos e interpretabilidade: uma proposta de visualização de resultados implementada em D3.js |
title_sort |
Modelagem de tópicos e interpretabilidade: uma proposta de visualização de resultados implementada em D3.js |
author |
Barata Ribeiro, Marcelo Bianchi |
author_facet |
Barata Ribeiro, Marcelo Bianchi |
author_role |
author |
dc.contributor.unidadefgv.por.fl_str_mv |
Escolas::EMAp |
dc.contributor.member.none.fl_str_mv |
Souza, Renato Rocha Coelho, Flávio Codeço Nonato, Luis Gustavo |
dc.contributor.author.fl_str_mv |
Barata Ribeiro, Marcelo Bianchi |
dc.contributor.advisor1.fl_str_mv |
Sá, Asla Medeiros |
contributor_str_mv |
Sá, Asla Medeiros |
dc.subject.por.fl_str_mv |
Aprendizado de máquina Mineração de dados Processamento de linguagem natural Visualização da informação Modelagem de tópicos |
topic |
Aprendizado de máquina Mineração de dados Processamento de linguagem natural Visualização da informação Modelagem de tópicos Topic modeling Visualization Text Data Matemática Aprendizado do computador Mineração de dados (Computação) Processamento da linguagem natural (Computação) Visualização da informação Modelagem de dados |
dc.subject.eng.fl_str_mv |
Topic modeling Visualization Text Data |
dc.subject.area.por.fl_str_mv |
Matemática |
dc.subject.bibliodata.por.fl_str_mv |
Aprendizado do computador Mineração de dados (Computação) Processamento da linguagem natural (Computação) Visualização da informação Modelagem de dados |
description |
Nos últimos anos, diversos avanços foram promovidos no campo de modelagem de tópicos, seja por meio do desenvolvimento de novos algoritmos, seja em processos de avaliação, assim como pelo surgimento de novas ferramentas de visualização. Esta última frente avança devido à percepção de que modelos de tópicos fornecem nova capacidade exploratória de grandes coleções de documentos, o que, aliado a soluções de visualização, pode trazer nova percepção analítica ao especialista de domínio. Este trabalho buscou introduzir uma solução interativa e de alta amplitude analítica, tendo como objeto de estudo uma coleção de documentos disponibilizada pela FGV/CPDOC. A metodologia envolveu uso de resultados provenientes de modelagem de tópicos e transformações dos dados para o processo de visualização, o que demandou o uso de distintas ferramentas de programação disponíveis. Após investigação do estado da arte, a hipótese principal é que haveria baixa disponibilidade de ferramentas de visualização de tópicos que incorporassem uma visão global do corpus acompanhada por um aumento gradual do nível de detalhamento, passando pela análise de agrupamentos de objetos viabilizada pela modelagem de tópicos, até a exploração de cada objeto. A principal contribuição está na conceituação de uma nova ferramenta que atende a conceitos de granularidade, usuário-alvo e data-ink ratio por meio de uma linguagem de programação que forneça o máximo de flexibilidade. Por fim, conclui-se que haveria muito espaço de melhoria, seja por meio de aumento de interatividade, quanto por maior dedicação a etapas de pré-processamento no caso de coleções de documentos que tenham passado por processo de OCR. |
publishDate |
2020 |
dc.date.accessioned.fl_str_mv |
2020-08-10T14:41:20Z |
dc.date.available.fl_str_mv |
2020-08-10T14:41:20Z |
dc.date.issued.fl_str_mv |
2020-04-24 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/10438/29548 |
url |
https://hdl.handle.net/10438/29548 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional do FGV (FGV Repositório Digital) instname:Fundação Getulio Vargas (FGV) instacron:FGV |
instname_str |
Fundação Getulio Vargas (FGV) |
instacron_str |
FGV |
institution |
FGV |
reponame_str |
Repositório Institucional do FGV (FGV Repositório Digital) |
collection |
Repositório Institucional do FGV (FGV Repositório Digital) |
bitstream.url.fl_str_mv |
https://repositorio.fgv.br/bitstreams/8c4a08f2-532b-4d41-8484-2d127080fcbb/download https://repositorio.fgv.br/bitstreams/a8b9fa60-f14f-476f-aefa-de708e02bd78/download https://repositorio.fgv.br/bitstreams/7dfb8650-4b16-414a-904e-fd335a6c8048/download https://repositorio.fgv.br/bitstreams/bf128281-0493-4be6-a42f-780cc6b5fe69/download |
bitstream.checksum.fl_str_mv |
c2564fa6f0b9b14c3b82b88f04009e9c 9056e55b594a91344bb525df5de48c9b 4935e9d0a6c76f696343f760140f2338 dfb340242cced38a6cca06c627998fa1 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional do FGV (FGV Repositório Digital) - Fundação Getulio Vargas (FGV) |
repository.mail.fl_str_mv |
|
_version_ |
1810024103500840960 |