Text Representation through Multimodal Variational Autoencoder for One-Class Learning
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-23052022-150550/ |
Resumo: | Automatic text classification has become increasingly relevant for several applications, both for academic and business purposes. Traditionally, multi-class learning methods perform text classification, which requires prior labeling of textual datasets for all classes. These methods fail when there is no well-defined information about the texts classes and require a great effort to label the training set. One-Class Learning (OCL) can mitigate these limitations since the model training is performed only with labeled examples of an interest class, reducing the users labeling effort and turning the classification more appropriate for open-domain applications. However, OCL is more challenging due to the lack of counterexamples for model training. Thus, OCL requires more robust text representations. On the other hand, most studies use unimodal representations, even though different domains contain other types of information that can be interpreted as distinct modalities for textual data. In this sense, the Multimodal Variational Autoencoder (MVAE) was proposed. MVAE is a multimodal method that learns a new representation from the fusion of different modalities, capturing the characteristics of the interest class in a more adequate way. MVAE explores semantic and syntactic representations, density, linguistic and spatial information as modalities. Furthermore, MVAE is based on a Variational Autoencoder, considered one of the state-of-the-art for learning representations. Finally, the main contributions of this dissertation are: (i) a multimodal method to represent texts in the OCL scenario; (ii) detection of fake news through representations generated by MVAE; (iii) applying MVAE to represent app reviews in the filtering of relevant app reviews; and (iv) sensing events represented by the MVAE. |
id |
USP_3a2cdc6ce10584ce45221777d209038e |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-23052022-150550 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Text Representation through Multimodal Variational Autoencoder for One-Class LearningVariational Autoencoder Multimodal para Representação de Textos na Classificação baseada em Uma Única ClasseAprendizado de máquina baseado em uma única classeClassificação de textosMultimodal variational autoencoderOne class learningText classificationVariational autoencoders multimodaisAutomatic text classification has become increasingly relevant for several applications, both for academic and business purposes. Traditionally, multi-class learning methods perform text classification, which requires prior labeling of textual datasets for all classes. These methods fail when there is no well-defined information about the texts classes and require a great effort to label the training set. One-Class Learning (OCL) can mitigate these limitations since the model training is performed only with labeled examples of an interest class, reducing the users labeling effort and turning the classification more appropriate for open-domain applications. However, OCL is more challenging due to the lack of counterexamples for model training. Thus, OCL requires more robust text representations. On the other hand, most studies use unimodal representations, even though different domains contain other types of information that can be interpreted as distinct modalities for textual data. In this sense, the Multimodal Variational Autoencoder (MVAE) was proposed. MVAE is a multimodal method that learns a new representation from the fusion of different modalities, capturing the characteristics of the interest class in a more adequate way. MVAE explores semantic and syntactic representations, density, linguistic and spatial information as modalities. Furthermore, MVAE is based on a Variational Autoencoder, considered one of the state-of-the-art for learning representations. Finally, the main contributions of this dissertation are: (i) a multimodal method to represent texts in the OCL scenario; (ii) detection of fake news through representations generated by MVAE; (iii) applying MVAE to represent app reviews in the filtering of relevant app reviews; and (iv) sensing events represented by the MVAE.A classificação automática de textos tem se tornado cada vez mais relevante tanto para fins aca- dêmicos quanto empresariais. Tradicionalmente, essa classificação é realizada pelo aprendizado de máquina multi-classe, o qual necessita de rotulação prévia dos textos de todas as classes do problema. Essa abordagem pode falhar quando não se tem um conhecimento bem definido das classes do problema, além de exigir um grande esforço na rotulação de exemplos de treinamento para cada classe. Uma abordagem conhecida como One-Class Learning (OCL) pode sanar essas limitações, uma vez que seu treinamento é realizado somente com exemplos rotulados de uma classe de interesse, diminuindo assim o esforço de rotulação do usuário e tornando a classificação mais apropriada para aplicações envolvendo domínio aberto. O OCL é mais desafi- ador devido à falta de contra-exemplos para o treinamento do modelo. Portanto, OCL requer representações textuais mais robustas. Por outro lado, a maioria dos estudos usa representações unimodais, mesmo que diferentes domínios contenham outros tipos de informações que podem ser interpretados como modalidades distintas para dados textuais. Nesse sentido, foi proposto o Multimodal Variational Autoencoder (MVAE). O MVAE é um método multimodal que aprende uma nova representação a partir da fusão das modalidades distintas, capturando de forma mais adequada às características da classe de interesse. O MVAE foi explorado com as modalidades de representações semânticas e sintáticas, informações de densidade, linguísticas e espaciais. Além disso, o MVAE é baseado em um Variational Autoencoder que é considerado um dos estados-da-arte para aprendizado de representações. Por fim, as principais contribuições desta dissertação são: (i) um método multimodal para representar textos no cenário de OCL; (ii) detec- ção de notícias falsas por meio de representações geradas pelo MVAE; (iii) aplicação do MVAE para representar revisões de app no filtro de revisões de app relevantes; e (iv) sensoriamento de eventos representados pelo MVAE.Biblioteca Digitais de Teses e Dissertações da USPMarcacini, Ricardo MarcondesGôlo, Marcos Paulo Silva2022-02-17info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-23052022-150550/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2022-05-23T18:14:30Zoai:teses.usp.br:tde-23052022-150550Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212022-05-23T18:14:30Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Text Representation through Multimodal Variational Autoencoder for One-Class Learning Variational Autoencoder Multimodal para Representação de Textos na Classificação baseada em Uma Única Classe |
title |
Text Representation through Multimodal Variational Autoencoder for One-Class Learning |
spellingShingle |
Text Representation through Multimodal Variational Autoencoder for One-Class Learning Gôlo, Marcos Paulo Silva Aprendizado de máquina baseado em uma única classe Classificação de textos Multimodal variational autoencoder One class learning Text classification Variational autoencoders multimodais |
title_short |
Text Representation through Multimodal Variational Autoencoder for One-Class Learning |
title_full |
Text Representation through Multimodal Variational Autoencoder for One-Class Learning |
title_fullStr |
Text Representation through Multimodal Variational Autoencoder for One-Class Learning |
title_full_unstemmed |
Text Representation through Multimodal Variational Autoencoder for One-Class Learning |
title_sort |
Text Representation through Multimodal Variational Autoencoder for One-Class Learning |
author |
Gôlo, Marcos Paulo Silva |
author_facet |
Gôlo, Marcos Paulo Silva |
author_role |
author |
dc.contributor.none.fl_str_mv |
Marcacini, Ricardo Marcondes |
dc.contributor.author.fl_str_mv |
Gôlo, Marcos Paulo Silva |
dc.subject.por.fl_str_mv |
Aprendizado de máquina baseado em uma única classe Classificação de textos Multimodal variational autoencoder One class learning Text classification Variational autoencoders multimodais |
topic |
Aprendizado de máquina baseado em uma única classe Classificação de textos Multimodal variational autoencoder One class learning Text classification Variational autoencoders multimodais |
description |
Automatic text classification has become increasingly relevant for several applications, both for academic and business purposes. Traditionally, multi-class learning methods perform text classification, which requires prior labeling of textual datasets for all classes. These methods fail when there is no well-defined information about the texts classes and require a great effort to label the training set. One-Class Learning (OCL) can mitigate these limitations since the model training is performed only with labeled examples of an interest class, reducing the users labeling effort and turning the classification more appropriate for open-domain applications. However, OCL is more challenging due to the lack of counterexamples for model training. Thus, OCL requires more robust text representations. On the other hand, most studies use unimodal representations, even though different domains contain other types of information that can be interpreted as distinct modalities for textual data. In this sense, the Multimodal Variational Autoencoder (MVAE) was proposed. MVAE is a multimodal method that learns a new representation from the fusion of different modalities, capturing the characteristics of the interest class in a more adequate way. MVAE explores semantic and syntactic representations, density, linguistic and spatial information as modalities. Furthermore, MVAE is based on a Variational Autoencoder, considered one of the state-of-the-art for learning representations. Finally, the main contributions of this dissertation are: (i) a multimodal method to represent texts in the OCL scenario; (ii) detection of fake news through representations generated by MVAE; (iii) applying MVAE to represent app reviews in the filtering of relevant app reviews; and (iv) sensing events represented by the MVAE. |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-02-17 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-23052022-150550/ |
url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-23052022-150550/ |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815257363688456192 |