Construção Automática de Funções de Proximidade para Redes de Termos usando Evolução Gramatical
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16032020-150627/ |
Resumo: | Com o crescente volume de dados textuais, a simples tarefa de rotulação de documentos tornase onerosa. Algoritmos de aprendizado de máquina podem aprender com dados históricos e então serem capazes de realizar a tarefa de rotulação automática em novos documentos. Geralmente, os algoritmos supervisionados são utilizados. Nessa abordagem uma grande quantidade de exemplos é necessária para que o algoritmo seja capaz de identificar padrões e generalizar esse conhecimento com a rotulação de novos exemplos. Uma alternativa é o uso de algoritmos transdutivos, que necessitam apenas de poucos documentos rotulados para realizar a generalização. Geralmente, algoritmos transdutivos utilizam redes de documentos ou um modelo espaço vetorial para representação de documentos. A rede de documentos cresce a medida que novos documentos são adicionados, enquanto o modelo espaço vetorial sofre de problemas como a independência entre termos e alta esparsidade. Uma rede de termos é uma alternativa interessante aos modelos anteriores porque o número de termos tende a se estabilizar a medida que novos documentos são adicionados, a representação da relação entre termos é natural e é possível realizar a seleção de termos diminuir a rede e acelerar a classificação. O Transductive Classification through Terms Networks (TCTN) é estado-da-arte na classificação de documentos utilizando rede de termos, contudo um de seus hiperparâmetros é a função de proximidade que quantifica a proximidade entre termos e a escolha por uma função pode não ser trivial. Nessa dissertação, uma abordagem para construção automática de funções de proximidade para redes de termos é proposta, implementada e avaliada. A abordagem denominada Grammatical Evolution for Automatically Design Interestingness Measures for Transductive Classification through Term Networks (GE-TCTN) utiliza uma gramática livre de contexto para evolução de novas funções de proximidade através do algoritmo de otimização denominado Evolução Gramatical. Os resultados do GE-TCTN são comparados com os resultados do TCTN com objetivo de verificar se novas funções de proximidade construídas automaticamente pelo GETCTN são capazes de produzir resultados de classificação de documentos melhores do que os resultados produzidos utilizando-se funções de proximidade tradicionais da literatura em termos da medida de avaliação de classificação F1-ponderada. Além disso, o GE-TCTN é comparado aos algoritmos aprendizado transdutivo tradicionais e avaliados estatisticamente. Os resultados do GE-TCTN são competitivos com os algoritmos tradicionais e o GE-TCTN é capaz de produzir funções de proximidade que levam a resultados de classificação de documentos superiores ao TCTN. |
id |
USP_ac21c44dc6b8cc5daf7041d8dc1dba4c |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-16032020-150627 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Construção Automática de Funções de Proximidade para Redes de Termos usando Evolução GramaticalAutomatic Construction of Proximity Functions for Term Networks Using Grammatical EvolutionClassificação de documentosDocument classificationEvolução gramaticalFunções de proximidadeGrammatical evolutionProximity functionsRede de termosTerms networkCom o crescente volume de dados textuais, a simples tarefa de rotulação de documentos tornase onerosa. Algoritmos de aprendizado de máquina podem aprender com dados históricos e então serem capazes de realizar a tarefa de rotulação automática em novos documentos. Geralmente, os algoritmos supervisionados são utilizados. Nessa abordagem uma grande quantidade de exemplos é necessária para que o algoritmo seja capaz de identificar padrões e generalizar esse conhecimento com a rotulação de novos exemplos. Uma alternativa é o uso de algoritmos transdutivos, que necessitam apenas de poucos documentos rotulados para realizar a generalização. Geralmente, algoritmos transdutivos utilizam redes de documentos ou um modelo espaço vetorial para representação de documentos. A rede de documentos cresce a medida que novos documentos são adicionados, enquanto o modelo espaço vetorial sofre de problemas como a independência entre termos e alta esparsidade. Uma rede de termos é uma alternativa interessante aos modelos anteriores porque o número de termos tende a se estabilizar a medida que novos documentos são adicionados, a representação da relação entre termos é natural e é possível realizar a seleção de termos diminuir a rede e acelerar a classificação. O Transductive Classification through Terms Networks (TCTN) é estado-da-arte na classificação de documentos utilizando rede de termos, contudo um de seus hiperparâmetros é a função de proximidade que quantifica a proximidade entre termos e a escolha por uma função pode não ser trivial. Nessa dissertação, uma abordagem para construção automática de funções de proximidade para redes de termos é proposta, implementada e avaliada. A abordagem denominada Grammatical Evolution for Automatically Design Interestingness Measures for Transductive Classification through Term Networks (GE-TCTN) utiliza uma gramática livre de contexto para evolução de novas funções de proximidade através do algoritmo de otimização denominado Evolução Gramatical. Os resultados do GE-TCTN são comparados com os resultados do TCTN com objetivo de verificar se novas funções de proximidade construídas automaticamente pelo GETCTN são capazes de produzir resultados de classificação de documentos melhores do que os resultados produzidos utilizando-se funções de proximidade tradicionais da literatura em termos da medida de avaliação de classificação F1-ponderada. Além disso, o GE-TCTN é comparado aos algoritmos aprendizado transdutivo tradicionais e avaliados estatisticamente. Os resultados do GE-TCTN são competitivos com os algoritmos tradicionais e o GE-TCTN é capaz de produzir funções de proximidade que levam a resultados de classificação de documentos superiores ao TCTN.With the increasing volume of textual data the simple task document labeling becomes costly. Machine learning algorithms can learn from historical data and then be able to perform the automatic labeling task on new documents. Generally, supervised algorithms are used for this. In this approach a large number of examples are required for the algorithm to be able to identify patterns and generalize this knowledge by labeling new examples. An alternative is the use of transductive algorithms that only require a few labeled documents to generalize. Usually, transductive algorithms use document networks or a vector space model for document representation. The document network grows as new documents are added and the vector space model suffers from problems such as term independence and high sparsity. A term network is an interesting alternative to previous models because the number of terms tends to stabilize as new documents are added, the representation of the relationship between terms is natural and it is possible to select terms to narrow the network and speed up classification. Transductive Classification through Terms Networks (TCTN) is state-of-the-art in document classification using term networks, however one of its hyperparameters is the proximity function that quantifies the proximity between terms and choosing a function may not be trivial. In this dissertation, an approach for automatic construction of proximity functions for term networks is proposed, implemented and evaluated. The approach called textit Grammatical Evolution for Automatically Design Proximity Functions for Transductive Classification through Term Networks (GE-TCTN) uses a context-free grammar to evolve new proximity functions through the optimization algorithm called Grammatical Evolution. The results produced by GE-TCTN are compared to TCTNs results to verify whether new proximity functions built automatically by GE-TCTN are capable of producing better document classification results than results produced by using traditional proximity functions of the literature. In addition, GE-TCTN is compared to traditional algorithms in the literature and statistically evaluated. GE-TCTN results are competitive with traditional algorithms and GE-TCTN is capable of producing proximity functions that lead to document classification results superior to TCTN in terms of F1-measure.Biblioteca Digitais de Teses e Dissertações da USPRezende, Solange OliveiraCoutinho, Felipe Provezano2019-12-04info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-16032020-150627/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2020-03-16T21:15:02Zoai:teses.usp.br:tde-16032020-150627Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212020-03-16T21:15:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Construção Automática de Funções de Proximidade para Redes de Termos usando Evolução Gramatical Automatic Construction of Proximity Functions for Term Networks Using Grammatical Evolution |
title |
Construção Automática de Funções de Proximidade para Redes de Termos usando Evolução Gramatical |
spellingShingle |
Construção Automática de Funções de Proximidade para Redes de Termos usando Evolução Gramatical Coutinho, Felipe Provezano Classificação de documentos Document classification Evolução gramatical Funções de proximidade Grammatical evolution Proximity functions Rede de termos Terms network |
title_short |
Construção Automática de Funções de Proximidade para Redes de Termos usando Evolução Gramatical |
title_full |
Construção Automática de Funções de Proximidade para Redes de Termos usando Evolução Gramatical |
title_fullStr |
Construção Automática de Funções de Proximidade para Redes de Termos usando Evolução Gramatical |
title_full_unstemmed |
Construção Automática de Funções de Proximidade para Redes de Termos usando Evolução Gramatical |
title_sort |
Construção Automática de Funções de Proximidade para Redes de Termos usando Evolução Gramatical |
author |
Coutinho, Felipe Provezano |
author_facet |
Coutinho, Felipe Provezano |
author_role |
author |
dc.contributor.none.fl_str_mv |
Rezende, Solange Oliveira |
dc.contributor.author.fl_str_mv |
Coutinho, Felipe Provezano |
dc.subject.por.fl_str_mv |
Classificação de documentos Document classification Evolução gramatical Funções de proximidade Grammatical evolution Proximity functions Rede de termos Terms network |
topic |
Classificação de documentos Document classification Evolução gramatical Funções de proximidade Grammatical evolution Proximity functions Rede de termos Terms network |
description |
Com o crescente volume de dados textuais, a simples tarefa de rotulação de documentos tornase onerosa. Algoritmos de aprendizado de máquina podem aprender com dados históricos e então serem capazes de realizar a tarefa de rotulação automática em novos documentos. Geralmente, os algoritmos supervisionados são utilizados. Nessa abordagem uma grande quantidade de exemplos é necessária para que o algoritmo seja capaz de identificar padrões e generalizar esse conhecimento com a rotulação de novos exemplos. Uma alternativa é o uso de algoritmos transdutivos, que necessitam apenas de poucos documentos rotulados para realizar a generalização. Geralmente, algoritmos transdutivos utilizam redes de documentos ou um modelo espaço vetorial para representação de documentos. A rede de documentos cresce a medida que novos documentos são adicionados, enquanto o modelo espaço vetorial sofre de problemas como a independência entre termos e alta esparsidade. Uma rede de termos é uma alternativa interessante aos modelos anteriores porque o número de termos tende a se estabilizar a medida que novos documentos são adicionados, a representação da relação entre termos é natural e é possível realizar a seleção de termos diminuir a rede e acelerar a classificação. O Transductive Classification through Terms Networks (TCTN) é estado-da-arte na classificação de documentos utilizando rede de termos, contudo um de seus hiperparâmetros é a função de proximidade que quantifica a proximidade entre termos e a escolha por uma função pode não ser trivial. Nessa dissertação, uma abordagem para construção automática de funções de proximidade para redes de termos é proposta, implementada e avaliada. A abordagem denominada Grammatical Evolution for Automatically Design Interestingness Measures for Transductive Classification through Term Networks (GE-TCTN) utiliza uma gramática livre de contexto para evolução de novas funções de proximidade através do algoritmo de otimização denominado Evolução Gramatical. Os resultados do GE-TCTN são comparados com os resultados do TCTN com objetivo de verificar se novas funções de proximidade construídas automaticamente pelo GETCTN são capazes de produzir resultados de classificação de documentos melhores do que os resultados produzidos utilizando-se funções de proximidade tradicionais da literatura em termos da medida de avaliação de classificação F1-ponderada. Além disso, o GE-TCTN é comparado aos algoritmos aprendizado transdutivo tradicionais e avaliados estatisticamente. Os resultados do GE-TCTN são competitivos com os algoritmos tradicionais e o GE-TCTN é capaz de produzir funções de proximidade que levam a resultados de classificação de documentos superiores ao TCTN. |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-12-04 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16032020-150627/ |
url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16032020-150627/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1809090763695325184 |