Sumarização automática de texto
Autor(a) principal: | |
---|---|
Data de Publicação: | 2011 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10174/15176 |
Resumo: | Sumarizar é uma actividade frequentemente realizada pelo ser humano. Quando se narra um evento, em geral, é costume fazer um sumário do que aconteceu e não fazer uma narração completa e detalhada. A sumarização automática de texto é uma técnica que utiliza um programa de computador para gerar estruturas sintéticas que contêm as informações mais relevantes de um textos. O texto original é passado ao programa sendo transformado numa versão condensada. Esta área das ciências da computação tem a sua origem no final dos anos 50 e tem vindo a ser investigada desde então. O aumento exponencial de informação disponível hoje devido principalmente à Internet, coloca a sumarização automática de novo em voga. Assim, é essencial o desenvolvimento de novas metodologias e técnicas de forma a ser possível a rápida consulta e fácil acesso a toda informação disponível ao ser humano. A dissertação proposta apresenta o estudo de uma abordagem e a implementação de um sistema simbólico (em oposição à abordagem estatística) de sumarização automática para a língua portuguesa. Os sistema utiliza a teoria da estrutura retórica para o reconhecimento de relações entre segmentos, fazendo uso do modelo desenvolvido no sistema AuTema-Dis (Leal, 2008). Uma arquitectura modular em quatro etapas que processa um texto desde a sua forma original até a geração do sumário final. No final deste trabalho é feita uma avaliação que compara a performance dos vários sistemas de sumarização para a língua portuguesa. É feita uma avaliação qualitativa do sistema desenvolvido neste projecto recorrendo a juízes humanos falantes nativos do português de Portugal; ABSTRACT: Summarization is an activity often performed by humans. When an event is narrated, in general, it is customary to make a summary of what happened not detailed narration. Automatic text summarization is a technique that uses a computer program to generate synthetic structures that contain the most relevant information of a text. The original text is used as input for the computer program and is transformed into a condensed version. This area of computer science has its origins in the late 50’s and has been continuously researched since then. The exponential growth of information available due mainly to the Internet, puts the automatic summarization once again in vogue. It is therefore essential to develop new methodologies and techniques so as to be possible an easy access to all information available to humans. This thesis addresses an approach and the implementation of a symbolic system (as opposed to statistical approach) for automatic summarization for the Portuguese language. The system uses the theory of rhetorical structure for recognizing relationships between segments, using also the model developed in AuTema- Dis (Leal, 2008). This system defines a modular four steps architecture which processes a text from its original form into the final summary. At the end of this thesis there is a evaluation that compares the performance leading systems for automatic summarization for the Portuguese language. The system presented in this thesis is evaluated resorting to human judges (all native speakers of Portuguese from Portugal). |
id |
RCAP_fe7b581523c03e3f7750037fc16644a6 |
---|---|
oai_identifier_str |
oai:dspace.uevora.pt:10174/15176 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Sumarização automática de textoSumarizar é uma actividade frequentemente realizada pelo ser humano. Quando se narra um evento, em geral, é costume fazer um sumário do que aconteceu e não fazer uma narração completa e detalhada. A sumarização automática de texto é uma técnica que utiliza um programa de computador para gerar estruturas sintéticas que contêm as informações mais relevantes de um textos. O texto original é passado ao programa sendo transformado numa versão condensada. Esta área das ciências da computação tem a sua origem no final dos anos 50 e tem vindo a ser investigada desde então. O aumento exponencial de informação disponível hoje devido principalmente à Internet, coloca a sumarização automática de novo em voga. Assim, é essencial o desenvolvimento de novas metodologias e técnicas de forma a ser possível a rápida consulta e fácil acesso a toda informação disponível ao ser humano. A dissertação proposta apresenta o estudo de uma abordagem e a implementação de um sistema simbólico (em oposição à abordagem estatística) de sumarização automática para a língua portuguesa. Os sistema utiliza a teoria da estrutura retórica para o reconhecimento de relações entre segmentos, fazendo uso do modelo desenvolvido no sistema AuTema-Dis (Leal, 2008). Uma arquitectura modular em quatro etapas que processa um texto desde a sua forma original até a geração do sumário final. No final deste trabalho é feita uma avaliação que compara a performance dos vários sistemas de sumarização para a língua portuguesa. É feita uma avaliação qualitativa do sistema desenvolvido neste projecto recorrendo a juízes humanos falantes nativos do português de Portugal; ABSTRACT: Summarization is an activity often performed by humans. When an event is narrated, in general, it is customary to make a summary of what happened not detailed narration. Automatic text summarization is a technique that uses a computer program to generate synthetic structures that contain the most relevant information of a text. The original text is used as input for the computer program and is transformed into a condensed version. This area of computer science has its origins in the late 50’s and has been continuously researched since then. The exponential growth of information available due mainly to the Internet, puts the automatic summarization once again in vogue. It is therefore essential to develop new methodologies and techniques so as to be possible an easy access to all information available to humans. This thesis addresses an approach and the implementation of a symbolic system (as opposed to statistical approach) for automatic summarization for the Portuguese language. The system uses the theory of rhetorical structure for recognizing relationships between segments, using also the model developed in AuTema- Dis (Leal, 2008). This system defines a modular four steps architecture which processes a text from its original form into the final summary. At the end of this thesis there is a evaluation that compares the performance leading systems for automatic summarization for the Portuguese language. The system presented in this thesis is evaluated resorting to human judges (all native speakers of Portuguese from Portugal).Universidade de Évora2015-09-01T09:45:39Z2015-09-012011-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10174/15176http://hdl.handle.net/10174/15176porDepartamento de Informáticateses@bib.uevora.pt498Rodrigues, Luís Filipe Romãoinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-01-03T18:57:17Zoai:dspace.uevora.pt:10174/15176Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T01:06:08.526920Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Sumarização automática de texto |
title |
Sumarização automática de texto |
spellingShingle |
Sumarização automática de texto Rodrigues, Luís Filipe Romão |
title_short |
Sumarização automática de texto |
title_full |
Sumarização automática de texto |
title_fullStr |
Sumarização automática de texto |
title_full_unstemmed |
Sumarização automática de texto |
title_sort |
Sumarização automática de texto |
author |
Rodrigues, Luís Filipe Romão |
author_facet |
Rodrigues, Luís Filipe Romão |
author_role |
author |
dc.contributor.author.fl_str_mv |
Rodrigues, Luís Filipe Romão |
description |
Sumarizar é uma actividade frequentemente realizada pelo ser humano. Quando se narra um evento, em geral, é costume fazer um sumário do que aconteceu e não fazer uma narração completa e detalhada. A sumarização automática de texto é uma técnica que utiliza um programa de computador para gerar estruturas sintéticas que contêm as informações mais relevantes de um textos. O texto original é passado ao programa sendo transformado numa versão condensada. Esta área das ciências da computação tem a sua origem no final dos anos 50 e tem vindo a ser investigada desde então. O aumento exponencial de informação disponível hoje devido principalmente à Internet, coloca a sumarização automática de novo em voga. Assim, é essencial o desenvolvimento de novas metodologias e técnicas de forma a ser possível a rápida consulta e fácil acesso a toda informação disponível ao ser humano. A dissertação proposta apresenta o estudo de uma abordagem e a implementação de um sistema simbólico (em oposição à abordagem estatística) de sumarização automática para a língua portuguesa. Os sistema utiliza a teoria da estrutura retórica para o reconhecimento de relações entre segmentos, fazendo uso do modelo desenvolvido no sistema AuTema-Dis (Leal, 2008). Uma arquitectura modular em quatro etapas que processa um texto desde a sua forma original até a geração do sumário final. No final deste trabalho é feita uma avaliação que compara a performance dos vários sistemas de sumarização para a língua portuguesa. É feita uma avaliação qualitativa do sistema desenvolvido neste projecto recorrendo a juízes humanos falantes nativos do português de Portugal; ABSTRACT: Summarization is an activity often performed by humans. When an event is narrated, in general, it is customary to make a summary of what happened not detailed narration. Automatic text summarization is a technique that uses a computer program to generate synthetic structures that contain the most relevant information of a text. The original text is used as input for the computer program and is transformed into a condensed version. This area of computer science has its origins in the late 50’s and has been continuously researched since then. The exponential growth of information available due mainly to the Internet, puts the automatic summarization once again in vogue. It is therefore essential to develop new methodologies and techniques so as to be possible an easy access to all information available to humans. This thesis addresses an approach and the implementation of a symbolic system (as opposed to statistical approach) for automatic summarization for the Portuguese language. The system uses the theory of rhetorical structure for recognizing relationships between segments, using also the model developed in AuTema- Dis (Leal, 2008). This system defines a modular four steps architecture which processes a text from its original form into the final summary. At the end of this thesis there is a evaluation that compares the performance leading systems for automatic summarization for the Portuguese language. The system presented in this thesis is evaluated resorting to human judges (all native speakers of Portuguese from Portugal). |
publishDate |
2011 |
dc.date.none.fl_str_mv |
2011-01-01T00:00:00Z 2015-09-01T09:45:39Z 2015-09-01 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10174/15176 http://hdl.handle.net/10174/15176 |
url |
http://hdl.handle.net/10174/15176 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
Departamento de Informática teses@bib.uevora.pt 498 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade de Évora |
publisher.none.fl_str_mv |
Universidade de Évora |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799136546399453184 |