Um comparativo quantitativo e qualitativo de algoritmos de coagrupamento baseados em fatoração de matrizes

Detalhes bibliográficos
Autor(a) principal: Freitas Junior, Waldyr Lourenço de
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/100/100131/tde-11052023-184459/
Resumo: Agrupamento é uma estratégia para análise de dados que objetiva encontrar grupos cujos dados são mais similares entre si, enquanto dados organizados em grupos distintos são mais dissimilares entre si. Coagrupamento é uma estratégia semelhante, contudo, aplicado simultaneamente sobre os dados e atributos de um conjunto de dados. Diferentes contextos usam coagrupamento, tais como análise de imagens, bioinformática e mineração de textos. Para este último, cujos dados sob análise dizem respeito a contextos caracterizados por subjetividade, a literatura apresenta alguns poucos estudos relacionados à interação humana para interpretação dos resultados. Dentre uma série de abordagens de coagrupamento, destaca-se a fatoração tripla de matrizes não negativas (NMTF). Estudos reconhecem a utilidade dessa abordagem por seu alto desempenho e facilidade em trabalhar com dados diádicos e dados com alta dimensionalidade. Corpus textuais, cuja representação seja baseada no modelo de espaço vetorial, podem produzir matrizes de dados com alta dimensionalidade e alta esparsidade. Essas características tornam tais problemas candidatos a serem tratados por meio da abordagem NMTF. A literatura apresenta diferentes algoritmos de coagrupamento baseados em fatoração de matrizes; tais estudos concentraram-se na avaliação da capacidade de agrupamento dos algoritmos, mas não trataram o aspecto da qualidade dos resultados segundo a ótica da interpretação humana. Assim, o objetivo principal deste trabalho foi explorar sistematicamente um conjunto de algoritmos de coagrupamento baseados em fatoração de matrizes, com atenção à interpretação humana dos resultados produzidos por eles. Este trabalho também explorou esses algoritmos em diferentes circunstâncias e revelou mais claramente suas vantagens e desvantagens. Os experimentos se basearam em conjuntos de dados sintéticos e do mundo real. Os conjuntos de dados sintéticos foram rotulados e contavam com diferentes estruturas de cogrupos; o objetivo foi explorar a capacidade que os algoritmos têm em agrupar dados e atributos. Um conjunto de dados do mundo real usado como referência para tarefas de análise automática de textos foi escolhido para uso nos experimentos com dados do mundo real. O conjunto consiste de um corpus público de notícias (com e sem caráter de hiperpartidarismo), extraídas de diferentes sites entre 2016 e 2018; o objetivo foi realizar uma análise detalhada da robustez dos algoritmos sob uma análise qualitativa de resultados, realizada sob uma ótica de interpretação humana. Para essa análise qualitativa, foram realizadas uma série de tarefas baseadas em questionários estruturados aplicados a alunos de graduação da Universidade de São Paulo. Os experimentos com dados sintéticos e do mundo real demostraram que algoritmos com restrições binárias apresentam desempenho melhor que os demais. Além disso, uma análise de palavras que melhor representam grupos de notícias evidenciou dificuldades dos algoritmos em definir claramente, no sentido semântico, tais grupos. O algoritmo proposto neste trabalho (WC-FNMTF) foi submetido a diferentes tarefas e apresentou bons resultados. A tarefa com humanos revelou superioridade do algoritmo NBVD, seguido do WC-FNMTF.
id USP_10731f9967225da45cfdf98f4972595b
oai_identifier_str oai:teses.usp.br:tde-11052023-184459
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Um comparativo quantitativo e qualitativo de algoritmos de coagrupamento baseados em fatoração de matrizesA quantitative and qualitative comparison of co-clustering algorithms based on matrix factorizationCo-clusteringCoagrupamentoFatoração de matrizesHuman interpretationInterpretação humanaMatrix factorizationAgrupamento é uma estratégia para análise de dados que objetiva encontrar grupos cujos dados são mais similares entre si, enquanto dados organizados em grupos distintos são mais dissimilares entre si. Coagrupamento é uma estratégia semelhante, contudo, aplicado simultaneamente sobre os dados e atributos de um conjunto de dados. Diferentes contextos usam coagrupamento, tais como análise de imagens, bioinformática e mineração de textos. Para este último, cujos dados sob análise dizem respeito a contextos caracterizados por subjetividade, a literatura apresenta alguns poucos estudos relacionados à interação humana para interpretação dos resultados. Dentre uma série de abordagens de coagrupamento, destaca-se a fatoração tripla de matrizes não negativas (NMTF). Estudos reconhecem a utilidade dessa abordagem por seu alto desempenho e facilidade em trabalhar com dados diádicos e dados com alta dimensionalidade. Corpus textuais, cuja representação seja baseada no modelo de espaço vetorial, podem produzir matrizes de dados com alta dimensionalidade e alta esparsidade. Essas características tornam tais problemas candidatos a serem tratados por meio da abordagem NMTF. A literatura apresenta diferentes algoritmos de coagrupamento baseados em fatoração de matrizes; tais estudos concentraram-se na avaliação da capacidade de agrupamento dos algoritmos, mas não trataram o aspecto da qualidade dos resultados segundo a ótica da interpretação humana. Assim, o objetivo principal deste trabalho foi explorar sistematicamente um conjunto de algoritmos de coagrupamento baseados em fatoração de matrizes, com atenção à interpretação humana dos resultados produzidos por eles. Este trabalho também explorou esses algoritmos em diferentes circunstâncias e revelou mais claramente suas vantagens e desvantagens. Os experimentos se basearam em conjuntos de dados sintéticos e do mundo real. Os conjuntos de dados sintéticos foram rotulados e contavam com diferentes estruturas de cogrupos; o objetivo foi explorar a capacidade que os algoritmos têm em agrupar dados e atributos. Um conjunto de dados do mundo real usado como referência para tarefas de análise automática de textos foi escolhido para uso nos experimentos com dados do mundo real. O conjunto consiste de um corpus público de notícias (com e sem caráter de hiperpartidarismo), extraídas de diferentes sites entre 2016 e 2018; o objetivo foi realizar uma análise detalhada da robustez dos algoritmos sob uma análise qualitativa de resultados, realizada sob uma ótica de interpretação humana. Para essa análise qualitativa, foram realizadas uma série de tarefas baseadas em questionários estruturados aplicados a alunos de graduação da Universidade de São Paulo. Os experimentos com dados sintéticos e do mundo real demostraram que algoritmos com restrições binárias apresentam desempenho melhor que os demais. Além disso, uma análise de palavras que melhor representam grupos de notícias evidenciou dificuldades dos algoritmos em definir claramente, no sentido semântico, tais grupos. O algoritmo proposto neste trabalho (WC-FNMTF) foi submetido a diferentes tarefas e apresentou bons resultados. A tarefa com humanos revelou superioridade do algoritmo NBVD, seguido do WC-FNMTF.Clustering is a strategy for data analysis to identify clusters whose data points are more similar to each other. Data points organized into distinct clusters are more dissimilar to each other. Co-clustering is a similar strategy, however, it is applied simultaneously to data and attributes of a data set. Different contexts use co-clustering, such as image analysis, bioinformatics, and text mining. For the latter, whose data under analysis concern contexts characterized by subjectivity, the literature presents a few studies related to human interaction for interpreting results. Among several co-clustering approaches, the Non-negative Matrix Factorization (NMTF) stands out. Studies recognize the usefulness of such an approach because of its high performance and ease of working with dyadic data and data with high dimensionality. Corpus, whose representation is based on the vector space model, can produce data matrices with high dimensionality and high sparsity. These characteristics make such problems candidates to be addressed through the NMTF approach. The literature presents different co-clustering algorithms based on matrix factorization; such studies focused on evaluating the algorithms clustering ability but did not address quality aspects from the perspective of human interpretation of the meaning of the generated clusters. Thus, the main objective of this work was systematically to explore a set of co-clustering algorithms based on matrix factorization, with attention to human interpretation of the results produced by them. This work also explored such algorithms in different circumstances to reveal their advantages and disadvantages. Experiments were based on synthetic data sets and real-world data sets. The synthetic data sets were labeled and composed of different co-cluster structures; the goal was to explore algorithms ability to cluster attributes and data. A real-world data set used as a reference for automatic text analysis tasks was chosen for experiments with real-world data. The data set comprises a public corpus of news (with and without a hyper-partisan character), drawn from different websites between the years 2016 and 2018; the aim was to carry out a detailed analysis of the robustness of the algorithms under a qualitative analysis, from the human perspective of interpretation. For this qualitative analysis, a series of tasks were carried out based on structured questionnaires applied to undergraduate students at the University of São Paulo. Experiments with both synthetic data and real-world data showed algorithms with binary restrictions performed better than the others. An analysis of words that best represent clusters of news showed algorithms\' difficulties in precisely defining, in the semantic sense, such clusters. The algorithm proposed in this work (WC-FNMTF) was submitted to several tasks and presented promising results. The task with humans revealed the superiority of the NBVD algorithm, followed by the WC-FNMTF.Biblioteca Digitais de Teses e Dissertações da USPPeres, Sarajane MarquesFreitas Junior, Waldyr Lourenço de2023-03-23info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/100/100131/tde-11052023-184459/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-07-10T11:56:16Zoai:teses.usp.br:tde-11052023-184459Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-07-10T11:56:16Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Um comparativo quantitativo e qualitativo de algoritmos de coagrupamento baseados em fatoração de matrizes
A quantitative and qualitative comparison of co-clustering algorithms based on matrix factorization
title Um comparativo quantitativo e qualitativo de algoritmos de coagrupamento baseados em fatoração de matrizes
spellingShingle Um comparativo quantitativo e qualitativo de algoritmos de coagrupamento baseados em fatoração de matrizes
Freitas Junior, Waldyr Lourenço de
Co-clustering
Coagrupamento
Fatoração de matrizes
Human interpretation
Interpretação humana
Matrix factorization
title_short Um comparativo quantitativo e qualitativo de algoritmos de coagrupamento baseados em fatoração de matrizes
title_full Um comparativo quantitativo e qualitativo de algoritmos de coagrupamento baseados em fatoração de matrizes
title_fullStr Um comparativo quantitativo e qualitativo de algoritmos de coagrupamento baseados em fatoração de matrizes
title_full_unstemmed Um comparativo quantitativo e qualitativo de algoritmos de coagrupamento baseados em fatoração de matrizes
title_sort Um comparativo quantitativo e qualitativo de algoritmos de coagrupamento baseados em fatoração de matrizes
author Freitas Junior, Waldyr Lourenço de
author_facet Freitas Junior, Waldyr Lourenço de
author_role author
dc.contributor.none.fl_str_mv Peres, Sarajane Marques
dc.contributor.author.fl_str_mv Freitas Junior, Waldyr Lourenço de
dc.subject.por.fl_str_mv Co-clustering
Coagrupamento
Fatoração de matrizes
Human interpretation
Interpretação humana
Matrix factorization
topic Co-clustering
Coagrupamento
Fatoração de matrizes
Human interpretation
Interpretação humana
Matrix factorization
description Agrupamento é uma estratégia para análise de dados que objetiva encontrar grupos cujos dados são mais similares entre si, enquanto dados organizados em grupos distintos são mais dissimilares entre si. Coagrupamento é uma estratégia semelhante, contudo, aplicado simultaneamente sobre os dados e atributos de um conjunto de dados. Diferentes contextos usam coagrupamento, tais como análise de imagens, bioinformática e mineração de textos. Para este último, cujos dados sob análise dizem respeito a contextos caracterizados por subjetividade, a literatura apresenta alguns poucos estudos relacionados à interação humana para interpretação dos resultados. Dentre uma série de abordagens de coagrupamento, destaca-se a fatoração tripla de matrizes não negativas (NMTF). Estudos reconhecem a utilidade dessa abordagem por seu alto desempenho e facilidade em trabalhar com dados diádicos e dados com alta dimensionalidade. Corpus textuais, cuja representação seja baseada no modelo de espaço vetorial, podem produzir matrizes de dados com alta dimensionalidade e alta esparsidade. Essas características tornam tais problemas candidatos a serem tratados por meio da abordagem NMTF. A literatura apresenta diferentes algoritmos de coagrupamento baseados em fatoração de matrizes; tais estudos concentraram-se na avaliação da capacidade de agrupamento dos algoritmos, mas não trataram o aspecto da qualidade dos resultados segundo a ótica da interpretação humana. Assim, o objetivo principal deste trabalho foi explorar sistematicamente um conjunto de algoritmos de coagrupamento baseados em fatoração de matrizes, com atenção à interpretação humana dos resultados produzidos por eles. Este trabalho também explorou esses algoritmos em diferentes circunstâncias e revelou mais claramente suas vantagens e desvantagens. Os experimentos se basearam em conjuntos de dados sintéticos e do mundo real. Os conjuntos de dados sintéticos foram rotulados e contavam com diferentes estruturas de cogrupos; o objetivo foi explorar a capacidade que os algoritmos têm em agrupar dados e atributos. Um conjunto de dados do mundo real usado como referência para tarefas de análise automática de textos foi escolhido para uso nos experimentos com dados do mundo real. O conjunto consiste de um corpus público de notícias (com e sem caráter de hiperpartidarismo), extraídas de diferentes sites entre 2016 e 2018; o objetivo foi realizar uma análise detalhada da robustez dos algoritmos sob uma análise qualitativa de resultados, realizada sob uma ótica de interpretação humana. Para essa análise qualitativa, foram realizadas uma série de tarefas baseadas em questionários estruturados aplicados a alunos de graduação da Universidade de São Paulo. Os experimentos com dados sintéticos e do mundo real demostraram que algoritmos com restrições binárias apresentam desempenho melhor que os demais. Além disso, uma análise de palavras que melhor representam grupos de notícias evidenciou dificuldades dos algoritmos em definir claramente, no sentido semântico, tais grupos. O algoritmo proposto neste trabalho (WC-FNMTF) foi submetido a diferentes tarefas e apresentou bons resultados. A tarefa com humanos revelou superioridade do algoritmo NBVD, seguido do WC-FNMTF.
publishDate 2023
dc.date.none.fl_str_mv 2023-03-23
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/100/100131/tde-11052023-184459/
url https://www.teses.usp.br/teses/disponiveis/100/100131/tde-11052023-184459/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809090616431214592