Characterization of temporal complementarity: fundamentals for multi-document summarization
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Outros Autores: | |
Tipo de documento: | Artigo |
Idioma: | por eng |
Título da fonte: | Alfa (São José do Rio Preto. Online) |
Texto Completo: | https://periodicos.fclar.unesp.br/alfa/article/view/9204 |
Resumo: | Complementarity is a usual multi-document phenomenon that commonly occurs among news texts about the same event. From a set of sentence pairs (in Portuguese) manually annotated with CST (Cross-Document Structure Theory) relations (Historical background and Follow-up) that make explicit the temporal complementary among the sentences, we identified a potential set of linguistic attributes of such complementary. Using Machine Learning algorithms, we evaluate the capacity of the attributes to discriminate between Historical background and Follow-up. JRip learned a small set of rules with high accuracy. Based on a set of 5 rules, the classifier discriminates the CST relations with 80% of accuracy. According to the rules, the occurrence of temporal expression in sentence 2 is the most discriminative feature in the task. As a contribution, the JRip classifier can improve the performance of the CST-discourse parsers for Portuguese. |
id |
UNESP-4_2074779b6ea179e37f0c345c4b0229ca |
---|---|
oai_identifier_str |
oai:ojs.pkp.sfu.ca:article/9204 |
network_acronym_str |
UNESP-4 |
network_name_str |
Alfa (São José do Rio Preto. Online) |
repository_id_str |
|
spelling |
Characterization of temporal complementarity: fundamentals for multi-document summarizationCaracterização da complementaridade temporal: subsídios para sumarização automática multidocumentoLinguistic descriptionComplementarityCSTMulti-document SummarizationNatural Language ProcessingDescrição linguísticaComplementaridadeCSTSumarização MultidocumentoProcessamento Automático de Língua NaturalComplementarity is a usual multi-document phenomenon that commonly occurs among news texts about the same event. From a set of sentence pairs (in Portuguese) manually annotated with CST (Cross-Document Structure Theory) relations (Historical background and Follow-up) that make explicit the temporal complementary among the sentences, we identified a potential set of linguistic attributes of such complementary. Using Machine Learning algorithms, we evaluate the capacity of the attributes to discriminate between Historical background and Follow-up. JRip learned a small set of rules with high accuracy. Based on a set of 5 rules, the classifier discriminates the CST relations with 80% of accuracy. According to the rules, the occurrence of temporal expression in sentence 2 is the most discriminative feature in the task. As a contribution, the JRip classifier can improve the performance of the CST-discourse parsers for Portuguese.A complementaridade é um fenômeno multidocumento comumente observado entre notícias que versam sobre um mesmo evento. A partir de um corpus em português composto por um conjunto de pares de sentenças manualmente anotadas com as relações da Cross-Document Structure Theory (CST) que explicitam a complementaridade temporal (Historical background e Follow-up), identificou-se um conjunto potencial de atributos linguísticos desse tipo de complementaridade. Por meio de algoritmos de Aprendizado de Máquina, testou-se o potencial dos atributos em distinguir as referidas relações. O classificador simbólico gerado pelo algoritmo JRip obteve o melhor desempenho ao se considerar a precisão e o tamanho reduzido do conjunto de regras. Somente com base em 5 regras, tal classificador identificou Follow-up e Historical background com precisão aproximada de 80%. Ademais, as regras do classificador indicam que o atributo ocorrência de expressão temporal na sentença 2 é o mais relevante para a tarefa. Como contribuição, salienta-se que o classificador JRip aqui gerado pode ser utilizado nos analisadores discursivos multidocumento para o português do Brasil que são baseados na CST.UNESP2018-04-25info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfapplication/pdfhttps://periodicos.fclar.unesp.br/alfa/article/view/920410.1590/1981-5794-1804-6ALFA: Revista de Linguística; v. 62 n. 1 (2018)1981-5794reponame:Alfa (São José do Rio Preto. Online)instname:Universidade Estadual Paulista (UNESP)instacron:UNESPporenghttps://periodicos.fclar.unesp.br/alfa/article/view/9204/7223https://periodicos.fclar.unesp.br/alfa/article/view/9204/7233Copyright (c) 2018 ALFA: Revista de Linguísticainfo:eu-repo/semantics/openAccessSouza, Jackson Wilke da CruzFelippo, Ariani Di2018-05-15T23:55:28Zoai:ojs.pkp.sfu.ca:article/9204Revistahttp://www.scielo.br/scielo.php?script=sci_serial&pid=1981-5794&lng=pt&nrm=isoPUBhttps://old.scielo.br/oai/scielo-oai.phpalfa@unesp.br1981-57940002-5216opendoar:2018-05-15T23:55:28Alfa (São José do Rio Preto. Online) - Universidade Estadual Paulista (UNESP)false |
dc.title.none.fl_str_mv |
Characterization of temporal complementarity: fundamentals for multi-document summarization Caracterização da complementaridade temporal: subsídios para sumarização automática multidocumento |
title |
Characterization of temporal complementarity: fundamentals for multi-document summarization |
spellingShingle |
Characterization of temporal complementarity: fundamentals for multi-document summarization Souza, Jackson Wilke da Cruz Linguistic description Complementarity CST Multi-document Summarization Natural Language Processing Descrição linguística Complementaridade CST Sumarização Multidocumento Processamento Automático de Língua Natural |
title_short |
Characterization of temporal complementarity: fundamentals for multi-document summarization |
title_full |
Characterization of temporal complementarity: fundamentals for multi-document summarization |
title_fullStr |
Characterization of temporal complementarity: fundamentals for multi-document summarization |
title_full_unstemmed |
Characterization of temporal complementarity: fundamentals for multi-document summarization |
title_sort |
Characterization of temporal complementarity: fundamentals for multi-document summarization |
author |
Souza, Jackson Wilke da Cruz |
author_facet |
Souza, Jackson Wilke da Cruz Felippo, Ariani Di |
author_role |
author |
author2 |
Felippo, Ariani Di |
author2_role |
author |
dc.contributor.author.fl_str_mv |
Souza, Jackson Wilke da Cruz Felippo, Ariani Di |
dc.subject.por.fl_str_mv |
Linguistic description Complementarity CST Multi-document Summarization Natural Language Processing Descrição linguística Complementaridade CST Sumarização Multidocumento Processamento Automático de Língua Natural |
topic |
Linguistic description Complementarity CST Multi-document Summarization Natural Language Processing Descrição linguística Complementaridade CST Sumarização Multidocumento Processamento Automático de Língua Natural |
description |
Complementarity is a usual multi-document phenomenon that commonly occurs among news texts about the same event. From a set of sentence pairs (in Portuguese) manually annotated with CST (Cross-Document Structure Theory) relations (Historical background and Follow-up) that make explicit the temporal complementary among the sentences, we identified a potential set of linguistic attributes of such complementary. Using Machine Learning algorithms, we evaluate the capacity of the attributes to discriminate between Historical background and Follow-up. JRip learned a small set of rules with high accuracy. Based on a set of 5 rules, the classifier discriminates the CST relations with 80% of accuracy. According to the rules, the occurrence of temporal expression in sentence 2 is the most discriminative feature in the task. As a contribution, the JRip classifier can improve the performance of the CST-discourse parsers for Portuguese. |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018-04-25 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://periodicos.fclar.unesp.br/alfa/article/view/9204 10.1590/1981-5794-1804-6 |
url |
https://periodicos.fclar.unesp.br/alfa/article/view/9204 |
identifier_str_mv |
10.1590/1981-5794-1804-6 |
dc.language.iso.fl_str_mv |
por eng |
language |
por eng |
dc.relation.none.fl_str_mv |
https://periodicos.fclar.unesp.br/alfa/article/view/9204/7223 https://periodicos.fclar.unesp.br/alfa/article/view/9204/7233 |
dc.rights.driver.fl_str_mv |
Copyright (c) 2018 ALFA: Revista de Linguística info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Copyright (c) 2018 ALFA: Revista de Linguística |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf application/pdf |
dc.publisher.none.fl_str_mv |
UNESP |
publisher.none.fl_str_mv |
UNESP |
dc.source.none.fl_str_mv |
ALFA: Revista de Linguística; v. 62 n. 1 (2018) 1981-5794 reponame:Alfa (São José do Rio Preto. Online) instname:Universidade Estadual Paulista (UNESP) instacron:UNESP |
instname_str |
Universidade Estadual Paulista (UNESP) |
instacron_str |
UNESP |
institution |
UNESP |
reponame_str |
Alfa (São José do Rio Preto. Online) |
collection |
Alfa (São José do Rio Preto. Online) |
repository.name.fl_str_mv |
Alfa (São José do Rio Preto. Online) - Universidade Estadual Paulista (UNESP) |
repository.mail.fl_str_mv |
alfa@unesp.br |
_version_ |
1800214377397223424 |