Evaluating features for rhetorical structure classification in scientific abstracts
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Outros Autores: | |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://doi.org/10.21814/lm.11.1.273 |
Resumo: | Rhetorical structure classification is a NLP task in which we want to identify the rhetorical components of a discourse and its relationships. In this work, we aimed at automatically identifying propositions at the sentential level that make up the rhetorical structure of scientific abstracts. Specifically, the purpose was to evaluate the impact of different sets of attributes on the implementation of rhetorical classifiers for scientific abstracts written in Portuguese. For this, we used superficial features (extracted as TF-IDF values and selected with the $\chi^2$ test), morphosyntactic features (implemented by the AZPort classifier) and features extracted from \textit {word embeddings} models (Word2Vec, Wang2Vec and GloVe, all of them previously trained). These sets of features, as well as its combinations, were used for the training of the following supervised learning classifiers: Support Vector Machines, Naive Bayes, K-Nearest Neighbors, Decision Trees and Conditional Random Fields (CRF). They were trained and tested through cross-validation on three \textit{corpora} composed by abstracts of theses and dissertations. The best result, $94\%$ of F1, was obtained by the CRF classifier with the following combinations of features: (i) Wang2Vec--Skip-gram of $100$ dimension with the features from AZPort; (ii) TF-IDF, AZPort and \textit{embeddings} extracted with the Word2Vec--Skip-gram and GloVe models of dimensions $1000$ and $300$, respectively. From the results, we concluded that the AZPort features were fundamental for the performance of the CRF and that the combination with \textit{word embeddings} proved valid. |
id |
RCAP_c580acae6f1174428515c8938f1fb727 |
---|---|
oai_identifier_str |
oai:linguamatica.com:article/273 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Evaluating features for rhetorical structure classification in scientific abstractsAvaliando atributos para a classificação de estrutura retórica em resumos científicosnatural language processingrhetorical structure classificationscientific abstracts in Portugueseprocessamento de linguagem naturalclassificação de estrutura retóricaresumos científicos em portuguêsRhetorical structure classification is a NLP task in which we want to identify the rhetorical components of a discourse and its relationships. In this work, we aimed at automatically identifying propositions at the sentential level that make up the rhetorical structure of scientific abstracts. Specifically, the purpose was to evaluate the impact of different sets of attributes on the implementation of rhetorical classifiers for scientific abstracts written in Portuguese. For this, we used superficial features (extracted as TF-IDF values and selected with the $\chi^2$ test), morphosyntactic features (implemented by the AZPort classifier) and features extracted from \textit {word embeddings} models (Word2Vec, Wang2Vec and GloVe, all of them previously trained). These sets of features, as well as its combinations, were used for the training of the following supervised learning classifiers: Support Vector Machines, Naive Bayes, K-Nearest Neighbors, Decision Trees and Conditional Random Fields (CRF). They were trained and tested through cross-validation on three \textit{corpora} composed by abstracts of theses and dissertations. The best result, $94\%$ of F1, was obtained by the CRF classifier with the following combinations of features: (i) Wang2Vec--Skip-gram of $100$ dimension with the features from AZPort; (ii) TF-IDF, AZPort and \textit{embeddings} extracted with the Word2Vec--Skip-gram and GloVe models of dimensions $1000$ and $300$, respectively. From the results, we concluded that the AZPort features were fundamental for the performance of the CRF and that the combination with \textit{word embeddings} proved valid.A classificação de estrutura retórica é uma tarefa de PLN na qual se busca identificar os componentes retóricos de um discurso e seus relacionamentos. No caso deste trabalho, buscou-se identificar automaticamente categorias em nível de sentenças que compõem a estrutura retórica de resumos científicos. Especificamente, o objetivo foi avaliar o impacto de diferentes conjuntos de atributos na implementação de classificadores retóricos para resumos científicos escritos em português. Para isso, foram utilizados atributos superficiais (extraídos como valores TF-IDF e selecionados com o teste chi-quadrado), atributos morfossintáticos (implementados pelo classificador AZPort) e atributos extraídos a partir de modelos de word embeddings (Word2Vec, Wang2Vec e GloVe, todos previamente treinados). Tais conjuntos de atributos, bem como as suas combinações, foram usados para o treinamento de classificadores usando os seguintes algoritmos de aprendizado supervisionado: Support Vector Machines, Naive Bayes, K-Nearest Neighbors, Decision Trees e Conditional Random Fields (CRF). Os classificadores foram avaliados por meio de validação cruzada sobre três corpora compostos por resumos de teses e dissertações. O melhor resultado, 94% de F1, foi obtido pelo classificador CRF com as seguintes combinações de atributos: (i) Wang2Vec--Skip-gram de dimensões 100 com os atributos provenientes do AZPort; (ii) Wang2Vec--Skip-gram e GloVe de dimensão 300 com os atributos do AZPort; (iii) TF-IDF, AZPort e embeddings extraídos com os modelos Wang2Vec--Skip-gram de dimensões 100 e 300 e GloVe de dimensão 300. A partir dos resultados obtidos, conclui-se que os atributos provenientes do classificador AZPort foram fundamentais para o bom desempenho do classificador CRF, enquanto que a combinação com word embeddings se mostrou válida para a melhoria dos resultados.A classificação de estrutura retórica é uma tarefa de PLN na qual se busca identificar os componentes retóricos de um discurso e seus relacionamentos. No caso deste trabalho, buscou-se identificar automaticamente categorias em nível de sentenças que compõem a estrutura retórica de resumos científicos. Especificamente, o objetivo foi avaliar o impacto de diferentes conjuntos de atributos na implementação de classificadores retóricos para resumos científicos escritos em português. Para isso, foram utilizados atributos superficiais (extraídos como valores TF-IDF e selecionados com o teste chi-quadrado), atributos morfossintáticos (implementados pelo classificador AZPort) e atributos extraídos a partir de modelos de word embeddings (Word2Vec, Wang2Vec e GloVe, todos previamente treinados). Tais conjuntos de atributos, bem como as suas combinações, foram usados para o treinamento de classificadores usando os seguintes algoritmos de aprendizado supervisionado: Support Vector Machines, Naive Bayes, K-Nearest Neighbors, Decision Trees e Conditional Random Fields (CRF). Os classificadores foram avaliados por meio de validação cruzada sobre três corpora compostos por resumos de teses e dissertações. O melhor resultado, 94% de F1, foi obtido pelo classificador CRF com as seguintes combinações de atributos: (i) Wang2Vec--Skip-gram de dimensões 100 com os atributos provenientes do AZPort; (ii) Wang2Vec--Skip-gram e GloVe de dimensão 300 com os atributos do AZPort; (iii) TF-IDF, AZPort e embeddings extraídos com os modelos Wang2Vec--Skip-gram de dimensões 100 e 300 e GloVe de dimensão 300. A partir dos resultados obtidos, conclui-se que os atributos provenientes do classificador AZPort foram fundamentais para o bom desempenho do classificador CRF, enquanto que a combinação com word embeddings se mostrou válida para a melhoria dos resultados.Universidade do Minho e Universidade de Vigo2019-07-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.11.1.273https://doi.org/10.21814/lm.11.1.273Linguamática; Vol. 11 No. 1; 41-53Linguamática; Vol. 11 Núm. 1; 41-53Linguamática; v. 11 n. 1; 41-531647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/273https://linguamatica.com/index.php/linguamatica/article/view/273/451Direitos de Autor (c) 2019 Alessandra Harumi Iriguti, Valéria Delisandra Feltrimhttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessIriguti, Alessandra HarumiFeltrim, Valéria Delisandra2023-09-08T13:46:38Zoai:linguamatica.com:article/273Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:38.766740Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Evaluating features for rhetorical structure classification in scientific abstracts Avaliando atributos para a classificação de estrutura retórica em resumos científicos |
title |
Evaluating features for rhetorical structure classification in scientific abstracts |
spellingShingle |
Evaluating features for rhetorical structure classification in scientific abstracts Iriguti, Alessandra Harumi natural language processing rhetorical structure classification scientific abstracts in Portuguese processamento de linguagem natural classificação de estrutura retórica resumos científicos em português |
title_short |
Evaluating features for rhetorical structure classification in scientific abstracts |
title_full |
Evaluating features for rhetorical structure classification in scientific abstracts |
title_fullStr |
Evaluating features for rhetorical structure classification in scientific abstracts |
title_full_unstemmed |
Evaluating features for rhetorical structure classification in scientific abstracts |
title_sort |
Evaluating features for rhetorical structure classification in scientific abstracts |
author |
Iriguti, Alessandra Harumi |
author_facet |
Iriguti, Alessandra Harumi Feltrim, Valéria Delisandra |
author_role |
author |
author2 |
Feltrim, Valéria Delisandra |
author2_role |
author |
dc.contributor.author.fl_str_mv |
Iriguti, Alessandra Harumi Feltrim, Valéria Delisandra |
dc.subject.por.fl_str_mv |
natural language processing rhetorical structure classification scientific abstracts in Portuguese processamento de linguagem natural classificação de estrutura retórica resumos científicos em português |
topic |
natural language processing rhetorical structure classification scientific abstracts in Portuguese processamento de linguagem natural classificação de estrutura retórica resumos científicos em português |
description |
Rhetorical structure classification is a NLP task in which we want to identify the rhetorical components of a discourse and its relationships. In this work, we aimed at automatically identifying propositions at the sentential level that make up the rhetorical structure of scientific abstracts. Specifically, the purpose was to evaluate the impact of different sets of attributes on the implementation of rhetorical classifiers for scientific abstracts written in Portuguese. For this, we used superficial features (extracted as TF-IDF values and selected with the $\chi^2$ test), morphosyntactic features (implemented by the AZPort classifier) and features extracted from \textit {word embeddings} models (Word2Vec, Wang2Vec and GloVe, all of them previously trained). These sets of features, as well as its combinations, were used for the training of the following supervised learning classifiers: Support Vector Machines, Naive Bayes, K-Nearest Neighbors, Decision Trees and Conditional Random Fields (CRF). They were trained and tested through cross-validation on three \textit{corpora} composed by abstracts of theses and dissertations. The best result, $94\%$ of F1, was obtained by the CRF classifier with the following combinations of features: (i) Wang2Vec--Skip-gram of $100$ dimension with the features from AZPort; (ii) TF-IDF, AZPort and \textit{embeddings} extracted with the Word2Vec--Skip-gram and GloVe models of dimensions $1000$ and $300$, respectively. From the results, we concluded that the AZPort features were fundamental for the performance of the CRF and that the combination with \textit{word embeddings} proved valid. |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-07-20 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://doi.org/10.21814/lm.11.1.273 https://doi.org/10.21814/lm.11.1.273 |
url |
https://doi.org/10.21814/lm.11.1.273 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://linguamatica.com/index.php/linguamatica/article/view/273 https://linguamatica.com/index.php/linguamatica/article/view/273/451 |
dc.rights.driver.fl_str_mv |
Direitos de Autor (c) 2019 Alessandra Harumi Iriguti, Valéria Delisandra Feltrim http://creativecommons.org/licenses/by/4.0 info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Direitos de Autor (c) 2019 Alessandra Harumi Iriguti, Valéria Delisandra Feltrim http://creativecommons.org/licenses/by/4.0 |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
dc.source.none.fl_str_mv |
Linguamática; Vol. 11 No. 1; 41-53 Linguamática; Vol. 11 Núm. 1; 41-53 Linguamática; v. 11 n. 1; 41-53 1647-0818 reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133553991090176 |