Sumarização automática de texto

Detalhes bibliográficos
Autor(a) principal: Rodrigues, Luís Filipe Romão
Data de Publicação: 2011
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10174/15176
Resumo: Sumarizar é uma actividade frequentemente realizada pelo ser humano. Quando se narra um evento, em geral, é costume fazer um sumário do que aconteceu e não fazer uma narração completa e detalhada. A sumarização automática de texto é uma técnica que utiliza um programa de computador para gerar estruturas sintéticas que contêm as informações mais relevantes de um textos. O texto original é passado ao programa sendo transformado numa versão condensada. Esta área das ciências da computação tem a sua origem no final dos anos 50 e tem vindo a ser investigada desde então. O aumento exponencial de informação disponível hoje devido principalmente à Internet, coloca a sumarização automática de novo em voga. Assim, é essencial o desenvolvimento de novas metodologias e técnicas de forma a ser possível a rápida consulta e fácil acesso a toda informação disponível ao ser humano. A dissertação proposta apresenta o estudo de uma abordagem e a implementação de um sistema simbólico (em oposição à abordagem estatística) de sumarização automática para a língua portuguesa. Os sistema utiliza a teoria da estrutura retórica para o reconhecimento de relações entre segmentos, fazendo uso do modelo desenvolvido no sistema AuTema-Dis (Leal, 2008). Uma arquitectura modular em quatro etapas que processa um texto desde a sua forma original até a geração do sumário final. No final deste trabalho é feita uma avaliação que compara a performance dos vários sistemas de sumarização para a língua portuguesa. É feita uma avaliação qualitativa do sistema desenvolvido neste projecto recorrendo a juízes humanos falantes nativos do português de Portugal; ABSTRACT: Summarization is an activity often performed by humans. When an event is narrated, in general, it is customary to make a summary of what happened not detailed narration. Automatic text summarization is a technique that uses a computer program to generate synthetic structures that contain the most relevant information of a text. The original text is used as input for the computer program and is transformed into a condensed version. This area of computer science has its origins in the late 50’s and has been continuously researched since then. The exponential growth of information available due mainly to the Internet, puts the automatic summarization once again in vogue. It is therefore essential to develop new methodologies and techniques so as to be possible an easy access to all information available to humans. This thesis addresses an approach and the implementation of a symbolic system (as opposed to statistical approach) for automatic summarization for the Portuguese language. The system uses the theory of rhetorical structure for recognizing relationships between segments, using also the model developed in AuTema- Dis (Leal, 2008). This system defines a modular four steps architecture which processes a text from its original form into the final summary. At the end of this thesis there is a evaluation that compares the performance leading systems for automatic summarization for the Portuguese language. The system presented in this thesis is evaluated resorting to human judges (all native speakers of Portuguese from Portugal).
id RCAP_fe7b581523c03e3f7750037fc16644a6
oai_identifier_str oai:dspace.uevora.pt:10174/15176
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Sumarização automática de textoSumarizar é uma actividade frequentemente realizada pelo ser humano. Quando se narra um evento, em geral, é costume fazer um sumário do que aconteceu e não fazer uma narração completa e detalhada. A sumarização automática de texto é uma técnica que utiliza um programa de computador para gerar estruturas sintéticas que contêm as informações mais relevantes de um textos. O texto original é passado ao programa sendo transformado numa versão condensada. Esta área das ciências da computação tem a sua origem no final dos anos 50 e tem vindo a ser investigada desde então. O aumento exponencial de informação disponível hoje devido principalmente à Internet, coloca a sumarização automática de novo em voga. Assim, é essencial o desenvolvimento de novas metodologias e técnicas de forma a ser possível a rápida consulta e fácil acesso a toda informação disponível ao ser humano. A dissertação proposta apresenta o estudo de uma abordagem e a implementação de um sistema simbólico (em oposição à abordagem estatística) de sumarização automática para a língua portuguesa. Os sistema utiliza a teoria da estrutura retórica para o reconhecimento de relações entre segmentos, fazendo uso do modelo desenvolvido no sistema AuTema-Dis (Leal, 2008). Uma arquitectura modular em quatro etapas que processa um texto desde a sua forma original até a geração do sumário final. No final deste trabalho é feita uma avaliação que compara a performance dos vários sistemas de sumarização para a língua portuguesa. É feita uma avaliação qualitativa do sistema desenvolvido neste projecto recorrendo a juízes humanos falantes nativos do português de Portugal; ABSTRACT: Summarization is an activity often performed by humans. When an event is narrated, in general, it is customary to make a summary of what happened not detailed narration. Automatic text summarization is a technique that uses a computer program to generate synthetic structures that contain the most relevant information of a text. The original text is used as input for the computer program and is transformed into a condensed version. This area of computer science has its origins in the late 50’s and has been continuously researched since then. The exponential growth of information available due mainly to the Internet, puts the automatic summarization once again in vogue. It is therefore essential to develop new methodologies and techniques so as to be possible an easy access to all information available to humans. This thesis addresses an approach and the implementation of a symbolic system (as opposed to statistical approach) for automatic summarization for the Portuguese language. The system uses the theory of rhetorical structure for recognizing relationships between segments, using also the model developed in AuTema- Dis (Leal, 2008). This system defines a modular four steps architecture which processes a text from its original form into the final summary. At the end of this thesis there is a evaluation that compares the performance leading systems for automatic summarization for the Portuguese language. The system presented in this thesis is evaluated resorting to human judges (all native speakers of Portuguese from Portugal).Universidade de Évora2015-09-01T09:45:39Z2015-09-012011-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10174/15176http://hdl.handle.net/10174/15176porDepartamento de Informáticateses@bib.uevora.pt498Rodrigues, Luís Filipe Romãoinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-01-03T18:57:17Zoai:dspace.uevora.pt:10174/15176Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T01:06:08.526920Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Sumarização automática de texto
title Sumarização automática de texto
spellingShingle Sumarização automática de texto
Rodrigues, Luís Filipe Romão
title_short Sumarização automática de texto
title_full Sumarização automática de texto
title_fullStr Sumarização automática de texto
title_full_unstemmed Sumarização automática de texto
title_sort Sumarização automática de texto
author Rodrigues, Luís Filipe Romão
author_facet Rodrigues, Luís Filipe Romão
author_role author
dc.contributor.author.fl_str_mv Rodrigues, Luís Filipe Romão
description Sumarizar é uma actividade frequentemente realizada pelo ser humano. Quando se narra um evento, em geral, é costume fazer um sumário do que aconteceu e não fazer uma narração completa e detalhada. A sumarização automática de texto é uma técnica que utiliza um programa de computador para gerar estruturas sintéticas que contêm as informações mais relevantes de um textos. O texto original é passado ao programa sendo transformado numa versão condensada. Esta área das ciências da computação tem a sua origem no final dos anos 50 e tem vindo a ser investigada desde então. O aumento exponencial de informação disponível hoje devido principalmente à Internet, coloca a sumarização automática de novo em voga. Assim, é essencial o desenvolvimento de novas metodologias e técnicas de forma a ser possível a rápida consulta e fácil acesso a toda informação disponível ao ser humano. A dissertação proposta apresenta o estudo de uma abordagem e a implementação de um sistema simbólico (em oposição à abordagem estatística) de sumarização automática para a língua portuguesa. Os sistema utiliza a teoria da estrutura retórica para o reconhecimento de relações entre segmentos, fazendo uso do modelo desenvolvido no sistema AuTema-Dis (Leal, 2008). Uma arquitectura modular em quatro etapas que processa um texto desde a sua forma original até a geração do sumário final. No final deste trabalho é feita uma avaliação que compara a performance dos vários sistemas de sumarização para a língua portuguesa. É feita uma avaliação qualitativa do sistema desenvolvido neste projecto recorrendo a juízes humanos falantes nativos do português de Portugal; ABSTRACT: Summarization is an activity often performed by humans. When an event is narrated, in general, it is customary to make a summary of what happened not detailed narration. Automatic text summarization is a technique that uses a computer program to generate synthetic structures that contain the most relevant information of a text. The original text is used as input for the computer program and is transformed into a condensed version. This area of computer science has its origins in the late 50’s and has been continuously researched since then. The exponential growth of information available due mainly to the Internet, puts the automatic summarization once again in vogue. It is therefore essential to develop new methodologies and techniques so as to be possible an easy access to all information available to humans. This thesis addresses an approach and the implementation of a symbolic system (as opposed to statistical approach) for automatic summarization for the Portuguese language. The system uses the theory of rhetorical structure for recognizing relationships between segments, using also the model developed in AuTema- Dis (Leal, 2008). This system defines a modular four steps architecture which processes a text from its original form into the final summary. At the end of this thesis there is a evaluation that compares the performance leading systems for automatic summarization for the Portuguese language. The system presented in this thesis is evaluated resorting to human judges (all native speakers of Portuguese from Portugal).
publishDate 2011
dc.date.none.fl_str_mv 2011-01-01T00:00:00Z
2015-09-01T09:45:39Z
2015-09-01
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10174/15176
http://hdl.handle.net/10174/15176
url http://hdl.handle.net/10174/15176
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv Departamento de Informática
teses@bib.uevora.pt
498
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade de Évora
publisher.none.fl_str_mv Universidade de Évora
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799136546399453184