Modelos para a identificação de tópicos em notícias extraídas da web e filtradas por qualidade de dados

Detalhes bibliográficos
Autor(a) principal: Frias, Luiz Fernando Cagiano Parodi de
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFRJ
Texto Completo: http://hdl.handle.net/11422/21710
Resumo: O aumento no número de usuários com acesso a web, das taxas de conectividade e dispositivos móveis, criou uma nova dinâmica para a publicação e disseminação de conteúdo online. Devido à não uniformidade dos formatos de publicação, a captura de informação por agentes automáticos mostra-se uma tarefa complexa e sujeita à introdução de erros no conteúdo extraído. Dessa forma, a busca por informação relevante torna- se mais complexa, o que enseja o desenvolvimento de técnicas de processamento de texto capazes de extrair informações relevantes de um grande volume de documentos com possíveis problemas de qualidade. A Modelagem de Tópicos é um conjunto de técnicas que tem por objetivo resumir, explorar e categorizar um conjunto de documentos de maneira não- supervisionada. Como desafios da área estão a garantia de interpretabilidade dos grupos encontrados, além da escolha pelo número ideal de tópicos. Este trabalho avaliou o uso das medidas de coerência e estabilidade para a escolha do número de tópicos, de forma a garantir a coerência semântica dos grupos, em bases de dados não-anotadas, com notícias sujeitas a problemas de qualidade de dados. Para tanto, foram definidas dimensões e critérios de qualidade a serem atendidos pelos documentos e as medidas de coerência e estabilidade foram avaliadas para diferentes níveis de ruído. Como resultado, a filtragem por qualidade de dados aumentou a coerência da extração de tópicos, enquanto as medida de coerência e estabilidade ajudaram a diminuir o intervalo possível de escolha para o número de tópicos. No entanto, ainda não foi encontrada uma maneira de conjugar o número de tópicos, estabilidade e coerência para escolher entre uma extração mais generalista ou mais detalhista.
id UFRJ_2af382bfc8f0f06e0d2613188d8de5a1
oai_identifier_str oai:pantheon.ufrj.br:11422/21710
network_acronym_str UFRJ
network_name_str Repositório Institucional da UFRJ
repository_id_str
spelling Frias, Luiz Fernando Cagiano Parodi dehttp://lattes.cnpq.br/3308827315067630Ferreira, Fernando GuimarãesFigueiredo, Daniel RattonVellasco, Marley Maria Bernardes RebuzziLima Netto, SergioEvsukoff, Alexandre GonçalvesSeixas, José Manoel de2023-09-27T14:21:54Z2023-11-30T03:01:28Z2019-03-02http://hdl.handle.net/11422/21710O aumento no número de usuários com acesso a web, das taxas de conectividade e dispositivos móveis, criou uma nova dinâmica para a publicação e disseminação de conteúdo online. Devido à não uniformidade dos formatos de publicação, a captura de informação por agentes automáticos mostra-se uma tarefa complexa e sujeita à introdução de erros no conteúdo extraído. Dessa forma, a busca por informação relevante torna- se mais complexa, o que enseja o desenvolvimento de técnicas de processamento de texto capazes de extrair informações relevantes de um grande volume de documentos com possíveis problemas de qualidade. A Modelagem de Tópicos é um conjunto de técnicas que tem por objetivo resumir, explorar e categorizar um conjunto de documentos de maneira não- supervisionada. Como desafios da área estão a garantia de interpretabilidade dos grupos encontrados, além da escolha pelo número ideal de tópicos. Este trabalho avaliou o uso das medidas de coerência e estabilidade para a escolha do número de tópicos, de forma a garantir a coerência semântica dos grupos, em bases de dados não-anotadas, com notícias sujeitas a problemas de qualidade de dados. Para tanto, foram definidas dimensões e critérios de qualidade a serem atendidos pelos documentos e as medidas de coerência e estabilidade foram avaliadas para diferentes níveis de ruído. Como resultado, a filtragem por qualidade de dados aumentou a coerência da extração de tópicos, enquanto as medida de coerência e estabilidade ajudaram a diminuir o intervalo possível de escolha para o número de tópicos. No entanto, ainda não foi encontrada uma maneira de conjugar o número de tópicos, estabilidade e coerência para escolher entre uma extração mais generalista ou mais detalhista.The increase in the number of users online, connectivity rates and mobile devices has created a new dynamic for the publication and dissemination of online content. Due to different publication formats, the capture of information by automatic agents is a complex task and prone to the introduction of errors in the extracted content. In this way, the search for relevant information becomes more complex, which leads to the development of text processing techniques that are capable of extracting relevant information from a large volume of documents with possible data quality issues. Topic Modeling is a set of techniques that aims to summarize, explore and cat- egorize a set of documents using unsupervised learning. As challenges in the area are the interpretability of the clusters, as well as the choice of the best number of topics. This work evaluates the use of coherence and stability measures for choosing the number of topics, in order to guarantee the groups show semantic coherence, in non- annotated databases, with news with data quality issues.To this end, data quality dimensions and criteria are defined to be met by the documents, and coherence and stability measures are evaluated for different levels of noise. As a result, filtering the news using data quality criteria increased the consistency of topic extraction, while the measure of coherence and stability helped to narrow the range of choice for the number of topics. However, a way of combining the number of topics, stability and coherence to choose between a more generalist or more detailed extraction has not yet been found.Submitted by Aglair Aguiar (aglair@ct.ufrj.br) on 2023-03-30T21:21:23Z No. of bitstreams: 1 924799.pdf: 3085327 bytes, checksum: 5b005badae09bc61ddeb7a36c80557a0 (MD5)Rejected by Christianne Fontes de Andrade (cfontes@ct.ufrj.br), reason: Trocar o arquivo. Baixar pelo proprio link da planilha. on 2023-09-26T14:48:21Z (GMT)Submitted by Aglair Aguiar (aglair@ct.ufrj.br) on 2023-09-26T16:15:32Z No. of bitstreams: 1 924799.pdf: 1088357 bytes, checksum: fed935ba37ce5c0ac7133496ed08ea8a (MD5)Approved for entry into archive by Christianne Fontes de Andrade (cfontes@ct.ufrj.br) on 2023-09-27T14:21:54Z (GMT) No. of bitstreams: 1 924799.pdf: 1088357 bytes, checksum: fed935ba37ce5c0ac7133496ed08ea8a (MD5)Made available in DSpace on 2023-09-27T14:21:54Z (GMT). No. of bitstreams: 1 924799.pdf: 1088357 bytes, checksum: fed935ba37ce5c0ac7133496ed08ea8a (MD5) Previous issue date: 2019-03-02porUniversidade Federal do Rio de JaneiroPrograma de Pós-Graduação em Engenharia ElétricaUFRJBrasilInstituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de EngenhariaCNPQ::ENGENHARIAS::ENGENHARIA ELETRICAModelagem de tópicosQualidade de dadosFatoração de matrizes não-negativasModelos para a identificação de tópicos em notícias extraídas da web e filtradas por qualidade de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisabertoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJLICENSElicense.txtlicense.txttext/plain; charset=utf-81853http://pantheon.ufrj.br:80/bitstream/11422/21710/4/license.txtdd32849f2bfb22da963c3aac6e26e255MD54ORIGINAL924799.pdf924799.pdfapplication/pdf1088357http://pantheon.ufrj.br:80/bitstream/11422/21710/3/924799.pdffed935ba37ce5c0ac7133496ed08ea8aMD5311422/217102023-11-30 00:01:28.646oai:pantheon.ufrj.br:11422/21710TElDRU7Dh0EgTsODTy1FWENMVVNJVkEgREUgRElTVFJJQlVJw4fDg08KCkFvIGFzc2luYXIgZSBlbnRyZWdhciBlc3RhIGxpY2Vuw6dhLCB2b2PDqihzKSBvKHMpIGF1dG9yKGVzKSBvdSBwcm9wcmlldMOhcmlvKHMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBjb25jZWRlKG0pIGFvIFJlcG9zaXTDs3JpbyBQYW50aGVvbiBkYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gZGUgSmFuZWlybyAoVUZSSikgbyBkaXJlaXRvIG7Do28gLSBleGNsdXNpdm8gZGUgcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vKSBlbSB0b2RvIG8gbXVuZG8sIGVtIGZvcm1hdG8gZWxldHLDtG5pY28gZSBlbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8sIG1hcyBuw6NvIGxpbWl0YWRvIGEgw6F1ZGlvIGUvb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIGEgVUZSSiBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhZHV6aXIgYSBhcHJlc2VudGHDp8OjbyBkZSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gY29tIGEgZmluYWxpZGFkZSBkZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogdGFtYsOpbSBjb25jb3JkYSBxdWUgYSBVRlJKIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXNzYSBzdWJtaXNzw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8OjbyBkaWdpdGFsLgoKRGVjbGFyYSBxdWUgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgc2V1IHRyYWJhbGhvIG9yaWdpbmFsLCBlIHF1ZSB2b2PDqiB0ZW0gbyBkaXJlaXRvIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIGEgc3VhIGFwcmVzZW50YcOnw6NvLCBjb20gbyBtZWxob3IgZGUgc2V1cyBjb25oZWNpbWVudG9zLCBuw6NvIGluZnJpbmdpIGRpcmVpdG9zIGF1dG9yYWlzIGRlIHRlcmNlaXJvcy4KClNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCB2b2PDqiBuw6NvIHRlbSBkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBlIGNvbmNlZGUgYSBVRlJKIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRhIHN1Ym1pc3PDo28uCgpTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIHF1ZSBmb2ksIG91IHRlbSBzaWRvIHBhdHJvY2luYWRvIG91IGFwb2lhZG8gcG9yIHVtYSBhZ8OqbmNpYSBvdSBvdXRybyhzKSBvcmdhbmlzbW8ocykgcXVlIG7Do28gYSBVRlJKLCB2b2PDqiBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWxxdWVyIGRpcmVpdG8gZGUgUkVWSVPDg08gb3UgZGUgb3V0cmFzIG9icmlnYcOnw7VlcyByZXF1ZXJpZGFzIHBvciBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUkogaXLDoSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8ocykgc2V1KHMpIG5vbWUocykgY29tbyBhdXRvcihlcykgb3UgcHJvcHJpZXTDoXJpbyhzKSBkYSBzdWJtaXNzw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZGFzIHBlcm1pdGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EsIG5vIGF0byBkZSBzdWJtaXNzw6NvLgo=Repositório de PublicaçõesPUBhttp://www.pantheon.ufrj.br/oai/requestopendoar:2023-11-30T03:01:28Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false
dc.title.pt_BR.fl_str_mv Modelos para a identificação de tópicos em notícias extraídas da web e filtradas por qualidade de dados
title Modelos para a identificação de tópicos em notícias extraídas da web e filtradas por qualidade de dados
spellingShingle Modelos para a identificação de tópicos em notícias extraídas da web e filtradas por qualidade de dados
Frias, Luiz Fernando Cagiano Parodi de
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
Modelagem de tópicos
Qualidade de dados
Fatoração de matrizes não-negativas
title_short Modelos para a identificação de tópicos em notícias extraídas da web e filtradas por qualidade de dados
title_full Modelos para a identificação de tópicos em notícias extraídas da web e filtradas por qualidade de dados
title_fullStr Modelos para a identificação de tópicos em notícias extraídas da web e filtradas por qualidade de dados
title_full_unstemmed Modelos para a identificação de tópicos em notícias extraídas da web e filtradas por qualidade de dados
title_sort Modelos para a identificação de tópicos em notícias extraídas da web e filtradas por qualidade de dados
author Frias, Luiz Fernando Cagiano Parodi de
author_facet Frias, Luiz Fernando Cagiano Parodi de
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/3308827315067630
dc.contributor.author.fl_str_mv Frias, Luiz Fernando Cagiano Parodi de
dc.contributor.referee1.fl_str_mv Ferreira, Fernando Guimarães
dc.contributor.referee2.fl_str_mv Figueiredo, Daniel Ratton
dc.contributor.referee3.fl_str_mv Vellasco, Marley Maria Bernardes Rebuzzi
dc.contributor.referee4.fl_str_mv Lima Netto, Sergio
dc.contributor.referee5.fl_str_mv Evsukoff, Alexandre Gonçalves
dc.contributor.advisor1.fl_str_mv Seixas, José Manoel de
contributor_str_mv Ferreira, Fernando Guimarães
Figueiredo, Daniel Ratton
Vellasco, Marley Maria Bernardes Rebuzzi
Lima Netto, Sergio
Evsukoff, Alexandre Gonçalves
Seixas, José Manoel de
dc.subject.cnpq.fl_str_mv CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
topic CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
Modelagem de tópicos
Qualidade de dados
Fatoração de matrizes não-negativas
dc.subject.por.fl_str_mv Modelagem de tópicos
Qualidade de dados
Fatoração de matrizes não-negativas
description O aumento no número de usuários com acesso a web, das taxas de conectividade e dispositivos móveis, criou uma nova dinâmica para a publicação e disseminação de conteúdo online. Devido à não uniformidade dos formatos de publicação, a captura de informação por agentes automáticos mostra-se uma tarefa complexa e sujeita à introdução de erros no conteúdo extraído. Dessa forma, a busca por informação relevante torna- se mais complexa, o que enseja o desenvolvimento de técnicas de processamento de texto capazes de extrair informações relevantes de um grande volume de documentos com possíveis problemas de qualidade. A Modelagem de Tópicos é um conjunto de técnicas que tem por objetivo resumir, explorar e categorizar um conjunto de documentos de maneira não- supervisionada. Como desafios da área estão a garantia de interpretabilidade dos grupos encontrados, além da escolha pelo número ideal de tópicos. Este trabalho avaliou o uso das medidas de coerência e estabilidade para a escolha do número de tópicos, de forma a garantir a coerência semântica dos grupos, em bases de dados não-anotadas, com notícias sujeitas a problemas de qualidade de dados. Para tanto, foram definidas dimensões e critérios de qualidade a serem atendidos pelos documentos e as medidas de coerência e estabilidade foram avaliadas para diferentes níveis de ruído. Como resultado, a filtragem por qualidade de dados aumentou a coerência da extração de tópicos, enquanto as medida de coerência e estabilidade ajudaram a diminuir o intervalo possível de escolha para o número de tópicos. No entanto, ainda não foi encontrada uma maneira de conjugar o número de tópicos, estabilidade e coerência para escolher entre uma extração mais generalista ou mais detalhista.
publishDate 2019
dc.date.issued.fl_str_mv 2019-03-02
dc.date.accessioned.fl_str_mv 2023-09-27T14:21:54Z
dc.date.available.fl_str_mv 2023-11-30T03:01:28Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11422/21710
url http://hdl.handle.net/11422/21710
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Engenharia Elétrica
dc.publisher.initials.fl_str_mv UFRJ
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia
publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRJ
instname:Universidade Federal do Rio de Janeiro (UFRJ)
instacron:UFRJ
instname_str Universidade Federal do Rio de Janeiro (UFRJ)
instacron_str UFRJ
institution UFRJ
reponame_str Repositório Institucional da UFRJ
collection Repositório Institucional da UFRJ
bitstream.url.fl_str_mv http://pantheon.ufrj.br:80/bitstream/11422/21710/4/license.txt
http://pantheon.ufrj.br:80/bitstream/11422/21710/3/924799.pdf
bitstream.checksum.fl_str_mv dd32849f2bfb22da963c3aac6e26e255
fed935ba37ce5c0ac7133496ed08ea8a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)
repository.mail.fl_str_mv
_version_ 1784097284146855936