Sumarização automática multidocumento: seleção de conteúdo com base no Modelo CST (Cross-document Structure Theory)

Detalhes bibliográficos
Autor(a) principal: Jorge, Maria Lucía Del Rosario Castro
Data de Publicação: 2010
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-07062010-112156/
Resumo: A sumarização automática multidocumento consiste em produzir um sumário ou resumo (como mais comumente é conhecido) a partir de um grupo de textos que versam sobre um mesmo assunto, contendo as informações mais relevantes de acordo com o interesse do usuário. No cenário atual, com a quantidade imensa de informação em constante crescimento e atualização, e o tempo cada vez mais reduzido disponível para apreender o conteúdo de interesse, sumários multidocumento têm se tornado um recurso importante. Nesta dissertação, foram explorados métodos de seleção de conteúdo para sumarização multidocumento com base no modelo de relacionamento multidocumento CST (Cross-document Structure Theory), proposto recentemente e já difundido na área de Processamento de Línguas Naturais. Em particular, neste trabalho, foram definidos e formalizados operadores de seleção de conteúdo para sumarização multidocumento com base no modelo CST. Estes operadores representam possíveis preferências de sumarização e focam-se no tratamento dos principais desafios presentes no processamento de múltiplos documentos: redundância, complementaridade e informações contraditórias. Estes operadores são especificados em templates contendo regras e funções que relacionam essas preferências às relações CST. Especificamente, foram definidos operadores para extrair a informação principal, apresentar informação de contexto, identificar autoria, tratar redundâncias e identificar informação contraditória. Também foi avaliado o impacto do uso do modelo CST em métodos de sumarização superficiais. Experimentos foram realizados com textos jornalísticos escritos em português brasileiro. Os resultados das avaliações mostram que o uso da teoria CST melhora a informatividade e a qualidade dos sumários gerados
id USP_f67fb8fc6680810de0cfa17e408719d0
oai_identifier_str oai:teses.usp.br:tde-07062010-112156
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Sumarização automática multidocumento: seleção de conteúdo com base no Modelo CST (Cross-document Structure Theory)Multidocument sumarization: content selection based on CST (Cross-document Structure Theory)ContentConteúdoCSTCSTMultidocumentSeleçãoSelectionSumarização. MultidocumentoSumarizationA sumarização automática multidocumento consiste em produzir um sumário ou resumo (como mais comumente é conhecido) a partir de um grupo de textos que versam sobre um mesmo assunto, contendo as informações mais relevantes de acordo com o interesse do usuário. No cenário atual, com a quantidade imensa de informação em constante crescimento e atualização, e o tempo cada vez mais reduzido disponível para apreender o conteúdo de interesse, sumários multidocumento têm se tornado um recurso importante. Nesta dissertação, foram explorados métodos de seleção de conteúdo para sumarização multidocumento com base no modelo de relacionamento multidocumento CST (Cross-document Structure Theory), proposto recentemente e já difundido na área de Processamento de Línguas Naturais. Em particular, neste trabalho, foram definidos e formalizados operadores de seleção de conteúdo para sumarização multidocumento com base no modelo CST. Estes operadores representam possíveis preferências de sumarização e focam-se no tratamento dos principais desafios presentes no processamento de múltiplos documentos: redundância, complementaridade e informações contraditórias. Estes operadores são especificados em templates contendo regras e funções que relacionam essas preferências às relações CST. Especificamente, foram definidos operadores para extrair a informação principal, apresentar informação de contexto, identificar autoria, tratar redundâncias e identificar informação contraditória. Também foi avaliado o impacto do uso do modelo CST em métodos de sumarização superficiais. Experimentos foram realizados com textos jornalísticos escritos em português brasileiro. Os resultados das avaliações mostram que o uso da teoria CST melhora a informatividade e a qualidade dos sumários geradosMultidocument summarization consists in producing a summary from a group of texts on a same topic, containing the most relevant information according to the users interest. Recently, with the huge amount of growing information over the internet and the short time available to learn and process the information of interest, automatic summaries have become a very important resource. In this work, we explored content selection methods for multidocument summarization based on CST (Cross-document Structure Theory) a recently proposed model and already investigated in the Computational Linguistics area. Particularly, in this work we defined and formalized content selection operators based on CST model. These operators represent possible summarization preferences and they focus on the treatment of the main challenges of multidocument summarization: redundancy, complementarity and contradiction among information. These operators are specified in templates containing rules and functions that relate the preferences to CST relations. Specifically, we define operators for extracting main information, context information, identifying authorship, treating redundancy and showing contradicted information. We also explored the impact of CST model over superficial summarization methods. Experiments were done using journalistic texts written in Brazilian Portuguese. Results show that the use of CST model helps to improve informativeness and quality in automatic summariesBiblioteca Digitais de Teses e Dissertações da USPPardo, Thiago Alexandre SalgueiroJorge, Maria Lucía Del Rosario Castro2010-04-08info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/55/55134/tde-07062010-112156/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2016-07-28T16:10:07Zoai:teses.usp.br:tde-07062010-112156Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212016-07-28T16:10:07Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Sumarização automática multidocumento: seleção de conteúdo com base no Modelo CST (Cross-document Structure Theory)
Multidocument sumarization: content selection based on CST (Cross-document Structure Theory)
title Sumarização automática multidocumento: seleção de conteúdo com base no Modelo CST (Cross-document Structure Theory)
spellingShingle Sumarização automática multidocumento: seleção de conteúdo com base no Modelo CST (Cross-document Structure Theory)
Jorge, Maria Lucía Del Rosario Castro
Content
Conteúdo
CST
CST
Multidocument
Seleção
Selection
Sumarização. Multidocumento
Sumarization
title_short Sumarização automática multidocumento: seleção de conteúdo com base no Modelo CST (Cross-document Structure Theory)
title_full Sumarização automática multidocumento: seleção de conteúdo com base no Modelo CST (Cross-document Structure Theory)
title_fullStr Sumarização automática multidocumento: seleção de conteúdo com base no Modelo CST (Cross-document Structure Theory)
title_full_unstemmed Sumarização automática multidocumento: seleção de conteúdo com base no Modelo CST (Cross-document Structure Theory)
title_sort Sumarização automática multidocumento: seleção de conteúdo com base no Modelo CST (Cross-document Structure Theory)
author Jorge, Maria Lucía Del Rosario Castro
author_facet Jorge, Maria Lucía Del Rosario Castro
author_role author
dc.contributor.none.fl_str_mv Pardo, Thiago Alexandre Salgueiro
dc.contributor.author.fl_str_mv Jorge, Maria Lucía Del Rosario Castro
dc.subject.por.fl_str_mv Content
Conteúdo
CST
CST
Multidocument
Seleção
Selection
Sumarização. Multidocumento
Sumarization
topic Content
Conteúdo
CST
CST
Multidocument
Seleção
Selection
Sumarização. Multidocumento
Sumarization
description A sumarização automática multidocumento consiste em produzir um sumário ou resumo (como mais comumente é conhecido) a partir de um grupo de textos que versam sobre um mesmo assunto, contendo as informações mais relevantes de acordo com o interesse do usuário. No cenário atual, com a quantidade imensa de informação em constante crescimento e atualização, e o tempo cada vez mais reduzido disponível para apreender o conteúdo de interesse, sumários multidocumento têm se tornado um recurso importante. Nesta dissertação, foram explorados métodos de seleção de conteúdo para sumarização multidocumento com base no modelo de relacionamento multidocumento CST (Cross-document Structure Theory), proposto recentemente e já difundido na área de Processamento de Línguas Naturais. Em particular, neste trabalho, foram definidos e formalizados operadores de seleção de conteúdo para sumarização multidocumento com base no modelo CST. Estes operadores representam possíveis preferências de sumarização e focam-se no tratamento dos principais desafios presentes no processamento de múltiplos documentos: redundância, complementaridade e informações contraditórias. Estes operadores são especificados em templates contendo regras e funções que relacionam essas preferências às relações CST. Especificamente, foram definidos operadores para extrair a informação principal, apresentar informação de contexto, identificar autoria, tratar redundâncias e identificar informação contraditória. Também foi avaliado o impacto do uso do modelo CST em métodos de sumarização superficiais. Experimentos foram realizados com textos jornalísticos escritos em português brasileiro. Os resultados das avaliações mostram que o uso da teoria CST melhora a informatividade e a qualidade dos sumários gerados
publishDate 2010
dc.date.none.fl_str_mv 2010-04-08
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/55/55134/tde-07062010-112156/
url http://www.teses.usp.br/teses/disponiveis/55/55134/tde-07062010-112156/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1826318538010263552