Feature extraction from text flows based on semantic similarity for classification tasks: an approach inspired by audio analysis.
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Tese |
Idioma: | eng |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFCG |
Texto Completo: | http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/25059 |
Resumo: | A classificação de texto é um dos principais desafios investigados na pesquisa em Processamento de Linguagem Natural. Um melhor desempenho de um modelo de classificação depende de uma representação que possa extrair informações valiosas sobre os textos. O problema discutido nesta pesquisa de doutorado é como melhorar as representações de texto incorporando semântica para melhorar a eficácia dos modelos de classificação de texto. Visando não perder informações locais dos textos, uma forma de representá-los é por meio de fluxos, sequências de informações coletadas deles. Esta tese propõe uma abordagem que combina várias técnicas de representação de textos: a representação por fluxos,o poder dos word embeddings associado a léxicos por meio de semelhança semântica e a extração de features inspiradas na área de análise de áudio. A abordagem divide o texto em frases e calcula uma distância de similaridade semântica para um léxico em um embedding space. A sequência de distâncias compõe o fluxo do texto. Em seguida, o método realiza a extração de vinte e cinco features inspiradas na análise de áudio(Audio-LikeFeatures). A adaptação de features da análise de áudio vem de uma semelhança entre um fluxo de texto e sinal digital, além do relacionamento existente entre texto, discurso falado e áudio. A avaliação experimental realizada compreende cinco tarefas de classificação de textos: Detecção de Fake News em Inglês e Português; Colunas de jornal versus notícias; Polaridade de Sentimentos envolvendo Resenhas de Filmes em Inglês e Resenhas de Livros em Português. Os experimentos compreenderam seis data sets e seis léxicos envolvendo os idiomas inglês e português. A eficácia da abordagem é comparada a fortes baselines que incorporam semântica na representação de texto: Paragraph Vector e BERT. O objetivo dos experimentos foi investigar se a abordagem proposta poderia competir com a eficácia dos métodos baseline ou melhorar sua eficácia quando associada a eles. A avaliação experimental demonstra que o método pode aumentar a eficácia da classificação dos métodos baseline em quatro dos cinco cenários.Na tarefa Detecção de Fake News em Português, a abordagem superou os baselines e obteve a melhor eficácia(PR-AUC=0,98). As features propostas alcançaram melhores resultados em modelos de Shallow Learning comparado a Deep Learning em três tarefas. Nenhum sub-conjunto de features apareceu entre os mais impactantes em todas as tarefas de classificação, destacando a importância de todas as vinte e cinco features. |
id |
UFCG_9732b2df8da33da5dbcb7ae928951623 |
---|---|
oai_identifier_str |
oai:localhost:riufcg/25059 |
network_acronym_str |
UFCG |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFCG |
repository_id_str |
4851 |
spelling |
Feature extraction from text flows based on semantic similarity for classification tasks: an approach inspired by audio analysis.Natural language processingClassificationSemantic similarityFeature extractionComputer scienceCiência da ComputaçãoA classificação de texto é um dos principais desafios investigados na pesquisa em Processamento de Linguagem Natural. Um melhor desempenho de um modelo de classificação depende de uma representação que possa extrair informações valiosas sobre os textos. O problema discutido nesta pesquisa de doutorado é como melhorar as representações de texto incorporando semântica para melhorar a eficácia dos modelos de classificação de texto. Visando não perder informações locais dos textos, uma forma de representá-los é por meio de fluxos, sequências de informações coletadas deles. Esta tese propõe uma abordagem que combina várias técnicas de representação de textos: a representação por fluxos,o poder dos word embeddings associado a léxicos por meio de semelhança semântica e a extração de features inspiradas na área de análise de áudio. A abordagem divide o texto em frases e calcula uma distância de similaridade semântica para um léxico em um embedding space. A sequência de distâncias compõe o fluxo do texto. Em seguida, o método realiza a extração de vinte e cinco features inspiradas na análise de áudio(Audio-LikeFeatures). A adaptação de features da análise de áudio vem de uma semelhança entre um fluxo de texto e sinal digital, além do relacionamento existente entre texto, discurso falado e áudio. A avaliação experimental realizada compreende cinco tarefas de classificação de textos: Detecção de Fake News em Inglês e Português; Colunas de jornal versus notícias; Polaridade de Sentimentos envolvendo Resenhas de Filmes em Inglês e Resenhas de Livros em Português. Os experimentos compreenderam seis data sets e seis léxicos envolvendo os idiomas inglês e português. A eficácia da abordagem é comparada a fortes baselines que incorporam semântica na representação de texto: Paragraph Vector e BERT. O objetivo dos experimentos foi investigar se a abordagem proposta poderia competir com a eficácia dos métodos baseline ou melhorar sua eficácia quando associada a eles. A avaliação experimental demonstra que o método pode aumentar a eficácia da classificação dos métodos baseline em quatro dos cinco cenários.Na tarefa Detecção de Fake News em Português, a abordagem superou os baselines e obteve a melhor eficácia(PR-AUC=0,98). As features propostas alcançaram melhores resultados em modelos de Shallow Learning comparado a Deep Learning em três tarefas. Nenhum sub-conjunto de features apareceu entre os mais impactantes em todas as tarefas de classificação, destacando a importância de todas as vinte e cinco features.Text classification is one of the mainly investigated challenges in Natural Language Processing research.The higher performance of a classification model depends on a representation that can extract valuable information about the texts. The problem discussed in this doctoral research is how to enhance text representations by incorporating semantics to improve the efficacy of textclassification models. Aiming not to lose crucial local text information, a way to represent texts is through flows, sequences of information collected from texts. This thesis proposes an approach that combines various techniques to represent texts: the representation by flows, the power of the word embeddings text representation associated with lexicon information via semantic similarity distances, and the extraction of features inspired by well-established audio analysis features. The approach splits the text in to sentences and calculates a semantic similarity metric to a lexicon on an embedding vector space. The sequence of semantic similarity metrics composes the text flow. Then, the method performs the twenty-five audio analysis features inspired ( called Audio-Like Features) extraction. The features adaptation from audio analysis comes from a similitude between a text flow and a digital signal, in addition to the existing relationship between text, speech, and audio. The conducted experimental evaluation comprises five text classification tasks: Fake News Detection in English and Portuguese; Newspaper Columns versus News; Sentiment Polarity involving Movie Reviews in Portuguese. The experiments comprised six datasets and six lexicons involving the English and Portuguese languages. The approach efficacy is compared to baselines that embed semantics in text representation: the strong Paragraph Vector and the BERT. The objective of the experiments was to investigate if the proposed approach could compete with the baselines methods efficacy or improve their effectiveness when associated with them. The experimental evaluation demonstrates that the method can enhance the baseline methods classification efficacy in four of the five scenarios. In the Fake News Detectionin Portuguese task, the approach surpassed the baselines and obtained the best effectiveness (PR-AUC=0.98). The proposed features achieved better results on shallow learning models than deep learning in three tasks. None subset of features appeared among the most impacting ones in all classification tasks, highlighting the importance of all the twenty-five features.Universidade Federal de Campina GrandeBrasilCentro de Engenharia Elétrica e Informática - CEEIPÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOUFCGCAMPELO, Cláudio Elízio Calazans.http://lattes.cnpq.br/2042247762832979ARAÚJO, Joseana Macêdo Fechine Régis de.http://lattes.cnpq.br/7179691582151907MARINHO, Leandro Balby.http://lattes.cnpq.br/3728312501032061VELOSO, Adriano Alonso.http://lattes.cnpq.br/9973021912226739LIMA, Rinaldo José de.http://lattes.cnpq.br/7645118086647340VASCONCELOS, Larissa Lucena.2022-03-182022-05-09T14:54:45Z2022-05-092022-05-09T14:54:45Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/25059VASCONCELOS, Larissa Lucena. Feature extraction from text flows based on semantic similarity for classification tasks: an approach inspired by audio analysis. 104 f. Tese (Doutorado em Ciência da Computação)- Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2022.info:eu-repo/semantics/openAccessengreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCG2022-06-14T12:36:54Zoai:localhost:riufcg/25059Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.bropendoar:48512022-06-14T12:36:54Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false |
dc.title.none.fl_str_mv |
Feature extraction from text flows based on semantic similarity for classification tasks: an approach inspired by audio analysis. |
title |
Feature extraction from text flows based on semantic similarity for classification tasks: an approach inspired by audio analysis. |
spellingShingle |
Feature extraction from text flows based on semantic similarity for classification tasks: an approach inspired by audio analysis. VASCONCELOS, Larissa Lucena. Natural language processing Classification Semantic similarity Feature extraction Computer science Ciência da Computação |
title_short |
Feature extraction from text flows based on semantic similarity for classification tasks: an approach inspired by audio analysis. |
title_full |
Feature extraction from text flows based on semantic similarity for classification tasks: an approach inspired by audio analysis. |
title_fullStr |
Feature extraction from text flows based on semantic similarity for classification tasks: an approach inspired by audio analysis. |
title_full_unstemmed |
Feature extraction from text flows based on semantic similarity for classification tasks: an approach inspired by audio analysis. |
title_sort |
Feature extraction from text flows based on semantic similarity for classification tasks: an approach inspired by audio analysis. |
author |
VASCONCELOS, Larissa Lucena. |
author_facet |
VASCONCELOS, Larissa Lucena. |
author_role |
author |
dc.contributor.none.fl_str_mv |
CAMPELO, Cláudio Elízio Calazans. http://lattes.cnpq.br/2042247762832979 ARAÚJO, Joseana Macêdo Fechine Régis de. http://lattes.cnpq.br/7179691582151907 MARINHO, Leandro Balby. http://lattes.cnpq.br/3728312501032061 VELOSO, Adriano Alonso. http://lattes.cnpq.br/9973021912226739 LIMA, Rinaldo José de. http://lattes.cnpq.br/7645118086647340 |
dc.contributor.author.fl_str_mv |
VASCONCELOS, Larissa Lucena. |
dc.subject.por.fl_str_mv |
Natural language processing Classification Semantic similarity Feature extraction Computer science Ciência da Computação |
topic |
Natural language processing Classification Semantic similarity Feature extraction Computer science Ciência da Computação |
description |
A classificação de texto é um dos principais desafios investigados na pesquisa em Processamento de Linguagem Natural. Um melhor desempenho de um modelo de classificação depende de uma representação que possa extrair informações valiosas sobre os textos. O problema discutido nesta pesquisa de doutorado é como melhorar as representações de texto incorporando semântica para melhorar a eficácia dos modelos de classificação de texto. Visando não perder informações locais dos textos, uma forma de representá-los é por meio de fluxos, sequências de informações coletadas deles. Esta tese propõe uma abordagem que combina várias técnicas de representação de textos: a representação por fluxos,o poder dos word embeddings associado a léxicos por meio de semelhança semântica e a extração de features inspiradas na área de análise de áudio. A abordagem divide o texto em frases e calcula uma distância de similaridade semântica para um léxico em um embedding space. A sequência de distâncias compõe o fluxo do texto. Em seguida, o método realiza a extração de vinte e cinco features inspiradas na análise de áudio(Audio-LikeFeatures). A adaptação de features da análise de áudio vem de uma semelhança entre um fluxo de texto e sinal digital, além do relacionamento existente entre texto, discurso falado e áudio. A avaliação experimental realizada compreende cinco tarefas de classificação de textos: Detecção de Fake News em Inglês e Português; Colunas de jornal versus notícias; Polaridade de Sentimentos envolvendo Resenhas de Filmes em Inglês e Resenhas de Livros em Português. Os experimentos compreenderam seis data sets e seis léxicos envolvendo os idiomas inglês e português. A eficácia da abordagem é comparada a fortes baselines que incorporam semântica na representação de texto: Paragraph Vector e BERT. O objetivo dos experimentos foi investigar se a abordagem proposta poderia competir com a eficácia dos métodos baseline ou melhorar sua eficácia quando associada a eles. A avaliação experimental demonstra que o método pode aumentar a eficácia da classificação dos métodos baseline em quatro dos cinco cenários.Na tarefa Detecção de Fake News em Português, a abordagem superou os baselines e obteve a melhor eficácia(PR-AUC=0,98). As features propostas alcançaram melhores resultados em modelos de Shallow Learning comparado a Deep Learning em três tarefas. Nenhum sub-conjunto de features apareceu entre os mais impactantes em todas as tarefas de classificação, destacando a importância de todas as vinte e cinco features. |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-03-18 2022-05-09T14:54:45Z 2022-05-09 2022-05-09T14:54:45Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/25059 VASCONCELOS, Larissa Lucena. Feature extraction from text flows based on semantic similarity for classification tasks: an approach inspired by audio analysis. 104 f. Tese (Doutorado em Ciência da Computação)- Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2022. |
url |
http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/25059 |
identifier_str_mv |
VASCONCELOS, Larissa Lucena. Feature extraction from text flows based on semantic similarity for classification tasks: an approach inspired by audio analysis. 104 f. Tese (Doutorado em Ciência da Computação)- Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2022. |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Campina Grande Brasil Centro de Engenharia Elétrica e Informática - CEEI PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO UFCG |
publisher.none.fl_str_mv |
Universidade Federal de Campina Grande Brasil Centro de Engenharia Elétrica e Informática - CEEI PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO UFCG |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFCG instname:Universidade Federal de Campina Grande (UFCG) instacron:UFCG |
instname_str |
Universidade Federal de Campina Grande (UFCG) |
instacron_str |
UFCG |
institution |
UFCG |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFCG |
collection |
Biblioteca Digital de Teses e Dissertações da UFCG |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG) |
repository.mail.fl_str_mv |
bdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.br |
_version_ |
1809744538437156864 |