Sumarização automática multidocumento multilíngue: seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual

Detalhes bibliográficos
Autor(a) principal: Camargo, Yasmin Vizeu
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFSCAR
Texto Completo: https://repositorio.ufscar.br/handle/ufscar/12445
Resumo: Multilingual Multi-document Summarization consists in automatically producing, from a collection of texts on the same topic and in different languages, a summary in one of the source languages. Thus, this task deals with the problems of Multi-document Summarization, such as the identification of relevant content and the treatment of redundancy, and with the multiplicity of source languages. For the production of multilingual summaries in Portuguese, CFUL is the method with the best performance. CFUL is extractive and thus it punctuates the source sentences in their original languages based on the simple frequency of their nominal concepts in the collection and it selects the best-ranked ones in Portuguese for the summary, avoiding redundancy based on word overlapping between them. In this work, the CFULHiper extractive method is proposed. It also selects content based on the simple frequency of the nominal concepts, but it additionally takes into account a differentiated score for the superordinate concepts that are in hierarchical relations with others in the collection. The method assumes that superordinate concepts convey generic information, which is relevant to compose informative summaries. Moreover, CFULHiper avoids redundancy based on concept overlapping, capturing sentence similarity in a more intelligent manner. To develop CFULHiper, we have selected the CM2News corpus, which consists of 20 bilingual collections (Portuguese and English) of news, whose nouns of the source texts were annotated with concepts from WordNet of Princeton. The corpus was extended with the inclusion of 10 new collections, resulting at the second version of CM2News. The CM2News 2.0 corpus was submitted to an automatic pre-processing. For each collection, we have performed: (ii) identification of the conceptual hierarquical relations across the source-texts, and (iii) calculation of the simple and cumulative frequencies of the nominal concepts. To calculate the accumulated frequency of a hyperonym x, the simple frequency of x is added to the simple frequency of its hyponyms. Then, we automatically applied CFULHiper to each collection of the corpus, producing 30 summaries in Portuguese with 70% compression. We have evaluated the linguistic quality (gramaticality, non-redundancy, referential clarity, focus and estructure/coherence) and the informativeness (ROUGE) of all summaires generated by CFULHiper. The informativeness of the CFULHiper extracts is slightly better, which indicates that more generic information is relevant for composing multilingual extracts. The conceptual overlap, however, had no impact on the treatment of redundancy. Since sentences selected exclusively from a single source-text no longer have much redundancy between themselves, and multi-document clusters tend to have few cases of synonymy and polysemy, the application of a lexical or conceptual overlap measure basically generates the same results for similarity identification.
id SCAR_c459ecc71aa953342b087eec630f3113
oai_identifier_str oai:repositorio.ufscar.br:ufscar/12445
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Camargo, Yasmin VizeuDi Felippo, Arianihttp://lattes.cnpq.br/8648412103197455http://lattes.cnpq.br/58477059513797768d8aabd3-b543-493c-bc51-3e0a1609ef6d2020-04-23T11:45:37Z2020-04-23T11:45:37Z2020-03-19CAMARGO, Yasmin Vizeu. Sumarização automática multidocumento multilíngue: seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual. 2020. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12445.https://repositorio.ufscar.br/handle/ufscar/12445Multilingual Multi-document Summarization consists in automatically producing, from a collection of texts on the same topic and in different languages, a summary in one of the source languages. Thus, this task deals with the problems of Multi-document Summarization, such as the identification of relevant content and the treatment of redundancy, and with the multiplicity of source languages. For the production of multilingual summaries in Portuguese, CFUL is the method with the best performance. CFUL is extractive and thus it punctuates the source sentences in their original languages based on the simple frequency of their nominal concepts in the collection and it selects the best-ranked ones in Portuguese for the summary, avoiding redundancy based on word overlapping between them. In this work, the CFULHiper extractive method is proposed. It also selects content based on the simple frequency of the nominal concepts, but it additionally takes into account a differentiated score for the superordinate concepts that are in hierarchical relations with others in the collection. The method assumes that superordinate concepts convey generic information, which is relevant to compose informative summaries. Moreover, CFULHiper avoids redundancy based on concept overlapping, capturing sentence similarity in a more intelligent manner. To develop CFULHiper, we have selected the CM2News corpus, which consists of 20 bilingual collections (Portuguese and English) of news, whose nouns of the source texts were annotated with concepts from WordNet of Princeton. The corpus was extended with the inclusion of 10 new collections, resulting at the second version of CM2News. The CM2News 2.0 corpus was submitted to an automatic pre-processing. For each collection, we have performed: (ii) identification of the conceptual hierarquical relations across the source-texts, and (iii) calculation of the simple and cumulative frequencies of the nominal concepts. To calculate the accumulated frequency of a hyperonym x, the simple frequency of x is added to the simple frequency of its hyponyms. Then, we automatically applied CFULHiper to each collection of the corpus, producing 30 summaries in Portuguese with 70% compression. We have evaluated the linguistic quality (gramaticality, non-redundancy, referential clarity, focus and estructure/coherence) and the informativeness (ROUGE) of all summaires generated by CFULHiper. The informativeness of the CFULHiper extracts is slightly better, which indicates that more generic information is relevant for composing multilingual extracts. The conceptual overlap, however, had no impact on the treatment of redundancy. Since sentences selected exclusively from a single source-text no longer have much redundancy between themselves, and multi-document clusters tend to have few cases of synonymy and polysemy, the application of a lexical or conceptual overlap measure basically generates the same results for similarity identification.As aplicações de Sumarização Automática Multidocumento Multilíngue (SAMM) geram, a partir de uma coleção de textos em diferentes línguas, um sumário em uma das línguas-fonte. Assim, a SAMM lida com os problemas da Sumarização Automática Multidocumento (SAM), como a identificação de conteúdo relevante e o tratamento da redundância, além das múltiples línguas-fonte. Para a produção de sumários multilíngues em português, o método CFUL é o de melhor desempenho. Sendo extrativo, ele basicamente pontua as sentenças dos texto-fonte em suas línguas originais com base na frequência simples de seus conceitos nominais na coleção e seleciona as mais bem ranqueadas em português para o sumário, evitando a redundância entre tais sentençcas com base na verificação da sobreposição de palavras entre elas. Neste trabalho, propôs-se o método extrativo CFULHiper. Nele, a seleção de conteúdo também é feita com base na frequência dos conceitos nominais da coleção, mas considerando adicionalmente uma pontuação diferenciada para os conceitos superordenados que se encontram em relação hierárquica a outros na coleção, sob a hipótese de que eles veiculam informações mais genéricas e, portanto, relevantes para sumários informativos. Ademais, o CFULHiper objetiva evitar a redundância com base na sobreposição de conceitos, buscando capturar mais adequadamente a similaridade de conteúdo entre as sentenças selecionadas. Para desenvolver o CFULHiper, selecionou-se o corpus CM2News, que é composto por 20 coleções bilíngues (português e inglês) de notícias, cujos nomes dos textos-fonte foram anotados com conceitos extraídos da WordNet de Princeton. Tal corpus foi estendido pela inclusão de 10 novas coleções, o que resultou na versão 2.0 do CM2News. O CM2News 2.0 foi submetido a um pré-processamento automático no qual, para cada coleção, realizou-se: (i) identificação das relações conceituais hierárquicas em cada uma das 30 coleções e (ii) cálculo da frequência simples e da acumulada dos conceitos em cada uma das 30 coleções. Para calcular a frequência acumulada de um hiperônimo x, a frequência simples de x é somada à frequência simples de seus hipônimos. Na sequência, aplicou-se automaticamente o CFULHiper a cada coleção do corpus, produzindo sumários em português com 70% de compressão. Os 30 sumários gerados pelo método foram avaliados manualmente quanto à qualidade linguística (DUC’05), segundo sua gramaticalidade, não-redundância, clareza referencial, foco temático e estrutura/coerência, e à informatividade, automaticamente, via ROUGE. Os extratos gerados pelo CFULHiper apresentaram resultados ligeiramente melhores na avaliação de informatividade, quando comparado a outros métodos, indicando que informações mais genéricas são, de fato, relevantes para compor extratos multilíngues. A sobreposição conceitual, no entanto, não teve impacto no tratamento da redundância porque sentenças selecionadas exclusivamente de um único texto-fonte já não apresentam muita redundância entre si e também porque as coleções multidocumento tendem a apresentar baixa sinonímia e polissemia e, assim, aplicar uma medida de sobreposição lexical ou conceitual não gera diferença na identificação da similaridade entre as sentenças.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: código de financiamento - 001porUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Linguística - PPGLUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessSumarização multidocumento multilíngueConhecimento léxico-conceitualSeleção de conteúdoRedundânciaRelação hierárquicaMultilingual multi-document summarizationLexical-conceptual knowledgeContent selectionRedundancyHierarquical relationLINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICASumarização automática multidocumento multilíngue: seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitualMultilingual multi-document summarization: content selection and redundancy treatment based on lexical-conceptual knowledgeinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis60060026c5db60-6612-41e6-a8f9-f94fb475ca58reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALSumarização Automática Multidocumento Multilíngue seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual.pdfSumarização Automática Multidocumento Multilíngue seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual.pdfDissertaçãoapplication/pdf2496693https://repositorio.ufscar.br/bitstream/ufscar/12445/3/Sumariza%c3%a7%c3%a3o%20Autom%c3%a1tica%20Multidocumento%20Multil%c3%adngue%20sele%c3%a7%c3%a3o%20de%20conte%c3%bado%20e%20tratamento%20da%20redund%c3%a2ncia%20com%20base%20em%20conhecimento%20l%c3%a9xico-conceitual.pdfc928cb05790a019f97453a268ef5de1eMD53Anexo I Carta Orientador (a).pdfAnexo I Carta Orientador (a).pdfCarta orientadorapplication/pdf182365https://repositorio.ufscar.br/bitstream/ufscar/12445/4/Anexo%20I%20Carta%20Orientador%20%28a%29.pdf00ef51948f97ee3db71dd0346a53f54fMD54CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstream/ufscar/12445/5/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD55TEXTSumarização Automática Multidocumento Multilíngue seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual.pdf.txtSumarização Automática Multidocumento Multilíngue seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual.pdf.txtExtracted texttext/plain218092https://repositorio.ufscar.br/bitstream/ufscar/12445/6/Sumariza%c3%a7%c3%a3o%20Autom%c3%a1tica%20Multidocumento%20Multil%c3%adngue%20sele%c3%a7%c3%a3o%20de%20conte%c3%bado%20e%20tratamento%20da%20redund%c3%a2ncia%20com%20base%20em%20conhecimento%20l%c3%a9xico-conceitual.pdf.txt5142514f9ac168ddc0a659b76e2f1b15MD56Anexo I Carta Orientador (a).pdf.txtAnexo I Carta Orientador (a).pdf.txtExtracted texttext/plain1422https://repositorio.ufscar.br/bitstream/ufscar/12445/8/Anexo%20I%20Carta%20Orientador%20%28a%29.pdf.txtf013d6482cadb67f071b2617948da979MD58THUMBNAILSumarização Automática Multidocumento Multilíngue seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual.pdf.jpgSumarização Automática Multidocumento Multilíngue seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual.pdf.jpgIM Thumbnailimage/jpeg10903https://repositorio.ufscar.br/bitstream/ufscar/12445/7/Sumariza%c3%a7%c3%a3o%20Autom%c3%a1tica%20Multidocumento%20Multil%c3%adngue%20sele%c3%a7%c3%a3o%20de%20conte%c3%bado%20e%20tratamento%20da%20redund%c3%a2ncia%20com%20base%20em%20conhecimento%20l%c3%a9xico-conceitual.pdf.jpg5169af01c1b43cd89b92721cda09469fMD57Anexo I Carta Orientador (a).pdf.jpgAnexo I Carta Orientador (a).pdf.jpgIM Thumbnailimage/jpeg6359https://repositorio.ufscar.br/bitstream/ufscar/12445/9/Anexo%20I%20Carta%20Orientador%20%28a%29.pdf.jpg2e006bf0887508cb0d527b287eed4a06MD59ufscar/124452023-09-18 18:31:53.438oai:repositorio.ufscar.br:ufscar/12445Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:31:53Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Sumarização automática multidocumento multilíngue: seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual
dc.title.alternative.eng.fl_str_mv Multilingual multi-document summarization: content selection and redundancy treatment based on lexical-conceptual knowledge
title Sumarização automática multidocumento multilíngue: seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual
spellingShingle Sumarização automática multidocumento multilíngue: seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual
Camargo, Yasmin Vizeu
Sumarização multidocumento multilíngue
Conhecimento léxico-conceitual
Seleção de conteúdo
Redundância
Relação hierárquica
Multilingual multi-document summarization
Lexical-conceptual knowledge
Content selection
Redundancy
Hierarquical relation
LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA
title_short Sumarização automática multidocumento multilíngue: seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual
title_full Sumarização automática multidocumento multilíngue: seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual
title_fullStr Sumarização automática multidocumento multilíngue: seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual
title_full_unstemmed Sumarização automática multidocumento multilíngue: seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual
title_sort Sumarização automática multidocumento multilíngue: seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual
author Camargo, Yasmin Vizeu
author_facet Camargo, Yasmin Vizeu
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/5847705951379776
dc.contributor.author.fl_str_mv Camargo, Yasmin Vizeu
dc.contributor.advisor1.fl_str_mv Di Felippo, Ariani
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/8648412103197455
dc.contributor.authorID.fl_str_mv 8d8aabd3-b543-493c-bc51-3e0a1609ef6d
contributor_str_mv Di Felippo, Ariani
dc.subject.por.fl_str_mv Sumarização multidocumento multilíngue
Conhecimento léxico-conceitual
Seleção de conteúdo
Redundância
Relação hierárquica
topic Sumarização multidocumento multilíngue
Conhecimento léxico-conceitual
Seleção de conteúdo
Redundância
Relação hierárquica
Multilingual multi-document summarization
Lexical-conceptual knowledge
Content selection
Redundancy
Hierarquical relation
LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA
dc.subject.eng.fl_str_mv Multilingual multi-document summarization
Lexical-conceptual knowledge
Content selection
Redundancy
Hierarquical relation
dc.subject.cnpq.fl_str_mv LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA
description Multilingual Multi-document Summarization consists in automatically producing, from a collection of texts on the same topic and in different languages, a summary in one of the source languages. Thus, this task deals with the problems of Multi-document Summarization, such as the identification of relevant content and the treatment of redundancy, and with the multiplicity of source languages. For the production of multilingual summaries in Portuguese, CFUL is the method with the best performance. CFUL is extractive and thus it punctuates the source sentences in their original languages based on the simple frequency of their nominal concepts in the collection and it selects the best-ranked ones in Portuguese for the summary, avoiding redundancy based on word overlapping between them. In this work, the CFULHiper extractive method is proposed. It also selects content based on the simple frequency of the nominal concepts, but it additionally takes into account a differentiated score for the superordinate concepts that are in hierarchical relations with others in the collection. The method assumes that superordinate concepts convey generic information, which is relevant to compose informative summaries. Moreover, CFULHiper avoids redundancy based on concept overlapping, capturing sentence similarity in a more intelligent manner. To develop CFULHiper, we have selected the CM2News corpus, which consists of 20 bilingual collections (Portuguese and English) of news, whose nouns of the source texts were annotated with concepts from WordNet of Princeton. The corpus was extended with the inclusion of 10 new collections, resulting at the second version of CM2News. The CM2News 2.0 corpus was submitted to an automatic pre-processing. For each collection, we have performed: (ii) identification of the conceptual hierarquical relations across the source-texts, and (iii) calculation of the simple and cumulative frequencies of the nominal concepts. To calculate the accumulated frequency of a hyperonym x, the simple frequency of x is added to the simple frequency of its hyponyms. Then, we automatically applied CFULHiper to each collection of the corpus, producing 30 summaries in Portuguese with 70% compression. We have evaluated the linguistic quality (gramaticality, non-redundancy, referential clarity, focus and estructure/coherence) and the informativeness (ROUGE) of all summaires generated by CFULHiper. The informativeness of the CFULHiper extracts is slightly better, which indicates that more generic information is relevant for composing multilingual extracts. The conceptual overlap, however, had no impact on the treatment of redundancy. Since sentences selected exclusively from a single source-text no longer have much redundancy between themselves, and multi-document clusters tend to have few cases of synonymy and polysemy, the application of a lexical or conceptual overlap measure basically generates the same results for similarity identification.
publishDate 2020
dc.date.accessioned.fl_str_mv 2020-04-23T11:45:37Z
dc.date.available.fl_str_mv 2020-04-23T11:45:37Z
dc.date.issued.fl_str_mv 2020-03-19
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv CAMARGO, Yasmin Vizeu. Sumarização automática multidocumento multilíngue: seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual. 2020. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12445.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/ufscar/12445
identifier_str_mv CAMARGO, Yasmin Vizeu. Sumarização automática multidocumento multilíngue: seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual. 2020. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12445.
url https://repositorio.ufscar.br/handle/ufscar/12445
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
600
dc.relation.authority.fl_str_mv 26c5db60-6612-41e6-a8f9-f94fb475ca58
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Linguística - PPGL
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstream/ufscar/12445/3/Sumariza%c3%a7%c3%a3o%20Autom%c3%a1tica%20Multidocumento%20Multil%c3%adngue%20sele%c3%a7%c3%a3o%20de%20conte%c3%bado%20e%20tratamento%20da%20redund%c3%a2ncia%20com%20base%20em%20conhecimento%20l%c3%a9xico-conceitual.pdf
https://repositorio.ufscar.br/bitstream/ufscar/12445/4/Anexo%20I%20Carta%20Orientador%20%28a%29.pdf
https://repositorio.ufscar.br/bitstream/ufscar/12445/5/license_rdf
https://repositorio.ufscar.br/bitstream/ufscar/12445/6/Sumariza%c3%a7%c3%a3o%20Autom%c3%a1tica%20Multidocumento%20Multil%c3%adngue%20sele%c3%a7%c3%a3o%20de%20conte%c3%bado%20e%20tratamento%20da%20redund%c3%a2ncia%20com%20base%20em%20conhecimento%20l%c3%a9xico-conceitual.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/12445/8/Anexo%20I%20Carta%20Orientador%20%28a%29.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/12445/7/Sumariza%c3%a7%c3%a3o%20Autom%c3%a1tica%20Multidocumento%20Multil%c3%adngue%20sele%c3%a7%c3%a3o%20de%20conte%c3%bado%20e%20tratamento%20da%20redund%c3%a2ncia%20com%20base%20em%20conhecimento%20l%c3%a9xico-conceitual.pdf.jpg
https://repositorio.ufscar.br/bitstream/ufscar/12445/9/Anexo%20I%20Carta%20Orientador%20%28a%29.pdf.jpg
bitstream.checksum.fl_str_mv c928cb05790a019f97453a268ef5de1e
00ef51948f97ee3db71dd0346a53f54f
e39d27027a6cc9cb039ad269a5db8e34
5142514f9ac168ddc0a659b76e2f1b15
f013d6482cadb67f071b2617948da979
5169af01c1b43cd89b92721cda09469f
2e006bf0887508cb0d527b287eed4a06
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_ 1813715615610830848