Modelos para a identificação de tópicos em notícias extraídas da web e filtradas por qualidade de dados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRJ |
Texto Completo: | http://hdl.handle.net/11422/21710 |
Resumo: | The increase in the number of users online, connectivity rates and mobile devices has created a new dynamic for the publication and dissemination of online content. Due to different publication formats, the capture of information by automatic agents is a complex task and prone to the introduction of errors in the extracted content. In this way, the search for relevant information becomes more complex, which leads to the development of text processing techniques that are capable of extracting relevant information from a large volume of documents with possible data quality issues. Topic Modeling is a set of techniques that aims to summarize, explore and cat- egorize a set of documents using unsupervised learning. As challenges in the area are the interpretability of the clusters, as well as the choice of the best number of topics. This work evaluates the use of coherence and stability measures for choosing the number of topics, in order to guarantee the groups show semantic coherence, in non- annotated databases, with news with data quality issues.To this end, data quality dimensions and criteria are defined to be met by the documents, and coherence and stability measures are evaluated for different levels of noise. As a result, filtering the news using data quality criteria increased the consistency of topic extraction, while the measure of coherence and stability helped to narrow the range of choice for the number of topics. However, a way of combining the number of topics, stability and coherence to choose between a more generalist or more detailed extraction has not yet been found. |
id |
UFRJ_2af382bfc8f0f06e0d2613188d8de5a1 |
---|---|
oai_identifier_str |
oai:pantheon.ufrj.br:11422/21710 |
network_acronym_str |
UFRJ |
network_name_str |
Repositório Institucional da UFRJ |
repository_id_str |
|
spelling |
Modelos para a identificação de tópicos em notícias extraídas da web e filtradas por qualidade de dadosModelagem de tópicosQualidade de dadosFatoração de matrizes não-negativasCNPQ::ENGENHARIAS::ENGENHARIA ELETRICAThe increase in the number of users online, connectivity rates and mobile devices has created a new dynamic for the publication and dissemination of online content. Due to different publication formats, the capture of information by automatic agents is a complex task and prone to the introduction of errors in the extracted content. In this way, the search for relevant information becomes more complex, which leads to the development of text processing techniques that are capable of extracting relevant information from a large volume of documents with possible data quality issues. Topic Modeling is a set of techniques that aims to summarize, explore and cat- egorize a set of documents using unsupervised learning. As challenges in the area are the interpretability of the clusters, as well as the choice of the best number of topics. This work evaluates the use of coherence and stability measures for choosing the number of topics, in order to guarantee the groups show semantic coherence, in non- annotated databases, with news with data quality issues.To this end, data quality dimensions and criteria are defined to be met by the documents, and coherence and stability measures are evaluated for different levels of noise. As a result, filtering the news using data quality criteria increased the consistency of topic extraction, while the measure of coherence and stability helped to narrow the range of choice for the number of topics. However, a way of combining the number of topics, stability and coherence to choose between a more generalist or more detailed extraction has not yet been found.O aumento no número de usuários com acesso a web, das taxas de conectividade e dispositivos móveis, criou uma nova dinâmica para a publicação e disseminação de conteúdo online. Devido à não uniformidade dos formatos de publicação, a captura de informação por agentes automáticos mostra-se uma tarefa complexa e sujeita à introdução de erros no conteúdo extraído. Dessa forma, a busca por informação relevante torna- se mais complexa, o que enseja o desenvolvimento de técnicas de processamento de texto capazes de extrair informações relevantes de um grande volume de documentos com possíveis problemas de qualidade. A Modelagem de Tópicos é um conjunto de técnicas que tem por objetivo resumir, explorar e categorizar um conjunto de documentos de maneira não- supervisionada. Como desafios da área estão a garantia de interpretabilidade dos grupos encontrados, além da escolha pelo número ideal de tópicos. Este trabalho avaliou o uso das medidas de coerência e estabilidade para a escolha do número de tópicos, de forma a garantir a coerência semântica dos grupos, em bases de dados não-anotadas, com notícias sujeitas a problemas de qualidade de dados. Para tanto, foram definidas dimensões e critérios de qualidade a serem atendidos pelos documentos e as medidas de coerência e estabilidade foram avaliadas para diferentes níveis de ruído. Como resultado, a filtragem por qualidade de dados aumentou a coerência da extração de tópicos, enquanto as medida de coerência e estabilidade ajudaram a diminuir o intervalo possível de escolha para o número de tópicos. No entanto, ainda não foi encontrada uma maneira de conjugar o número de tópicos, estabilidade e coerência para escolher entre uma extração mais generalista ou mais detalhista.Universidade Federal do Rio de JaneiroBrasilInstituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de EngenhariaPrograma de Pós-Graduação em Engenharia ElétricaUFRJSeixas, José Manoel dehttp://lattes.cnpq.br/3308827315067630Ferreira, Fernando GuimarãesFigueiredo, Daniel RattonVellasco, Marley Maria Bernardes RebuzziLima Netto, SergioEvsukoff, Alexandre GonçalvesFrias, Luiz Fernando Cagiano Parodi de2023-09-27T14:21:54Z2023-12-21T03:02:04Z2019-03-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/11422/21710porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJ2023-12-21T03:02:04Zoai:pantheon.ufrj.br:11422/21710Repositório InstitucionalPUBhttp://www.pantheon.ufrj.br/oai/requestpantheon@sibi.ufrj.bropendoar:2023-12-21T03:02:04Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false |
dc.title.none.fl_str_mv |
Modelos para a identificação de tópicos em notícias extraídas da web e filtradas por qualidade de dados |
title |
Modelos para a identificação de tópicos em notícias extraídas da web e filtradas por qualidade de dados |
spellingShingle |
Modelos para a identificação de tópicos em notícias extraídas da web e filtradas por qualidade de dados Frias, Luiz Fernando Cagiano Parodi de Modelagem de tópicos Qualidade de dados Fatoração de matrizes não-negativas CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA |
title_short |
Modelos para a identificação de tópicos em notícias extraídas da web e filtradas por qualidade de dados |
title_full |
Modelos para a identificação de tópicos em notícias extraídas da web e filtradas por qualidade de dados |
title_fullStr |
Modelos para a identificação de tópicos em notícias extraídas da web e filtradas por qualidade de dados |
title_full_unstemmed |
Modelos para a identificação de tópicos em notícias extraídas da web e filtradas por qualidade de dados |
title_sort |
Modelos para a identificação de tópicos em notícias extraídas da web e filtradas por qualidade de dados |
author |
Frias, Luiz Fernando Cagiano Parodi de |
author_facet |
Frias, Luiz Fernando Cagiano Parodi de |
author_role |
author |
dc.contributor.none.fl_str_mv |
Seixas, José Manoel de http://lattes.cnpq.br/3308827315067630 Ferreira, Fernando Guimarães Figueiredo, Daniel Ratton Vellasco, Marley Maria Bernardes Rebuzzi Lima Netto, Sergio Evsukoff, Alexandre Gonçalves |
dc.contributor.author.fl_str_mv |
Frias, Luiz Fernando Cagiano Parodi de |
dc.subject.por.fl_str_mv |
Modelagem de tópicos Qualidade de dados Fatoração de matrizes não-negativas CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA |
topic |
Modelagem de tópicos Qualidade de dados Fatoração de matrizes não-negativas CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA |
description |
The increase in the number of users online, connectivity rates and mobile devices has created a new dynamic for the publication and dissemination of online content. Due to different publication formats, the capture of information by automatic agents is a complex task and prone to the introduction of errors in the extracted content. In this way, the search for relevant information becomes more complex, which leads to the development of text processing techniques that are capable of extracting relevant information from a large volume of documents with possible data quality issues. Topic Modeling is a set of techniques that aims to summarize, explore and cat- egorize a set of documents using unsupervised learning. As challenges in the area are the interpretability of the clusters, as well as the choice of the best number of topics. This work evaluates the use of coherence and stability measures for choosing the number of topics, in order to guarantee the groups show semantic coherence, in non- annotated databases, with news with data quality issues.To this end, data quality dimensions and criteria are defined to be met by the documents, and coherence and stability measures are evaluated for different levels of noise. As a result, filtering the news using data quality criteria increased the consistency of topic extraction, while the measure of coherence and stability helped to narrow the range of choice for the number of topics. However, a way of combining the number of topics, stability and coherence to choose between a more generalist or more detailed extraction has not yet been found. |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-03-02 2023-09-27T14:21:54Z 2023-12-21T03:02:04Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/11422/21710 |
url |
http://hdl.handle.net/11422/21710 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal do Rio de Janeiro Brasil Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia Programa de Pós-Graduação em Engenharia Elétrica UFRJ |
publisher.none.fl_str_mv |
Universidade Federal do Rio de Janeiro Brasil Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia Programa de Pós-Graduação em Engenharia Elétrica UFRJ |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRJ instname:Universidade Federal do Rio de Janeiro (UFRJ) instacron:UFRJ |
instname_str |
Universidade Federal do Rio de Janeiro (UFRJ) |
instacron_str |
UFRJ |
institution |
UFRJ |
reponame_str |
Repositório Institucional da UFRJ |
collection |
Repositório Institucional da UFRJ |
repository.name.fl_str_mv |
Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ) |
repository.mail.fl_str_mv |
pantheon@sibi.ufrj.br |
_version_ |
1815456043289804800 |