Sumarização automática de texto

Rodrigues, Luís Filipe Romão

Sumarização automática de texto

Detalhes bibliográficos
Autor(a) principal:	Rodrigues, Luís Filipe Romão
Data de Publicação:	2011
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10174/15176
Resumo:	Sumarizar é uma actividade frequentemente realizada pelo ser humano. Quando se narra um evento, em geral, é costume fazer um sumário do que aconteceu e não fazer uma narração completa e detalhada. A sumarização automática de texto é uma técnica que utiliza um programa de computador para gerar estruturas sintéticas que contêm as informações mais relevantes de um textos. O texto original é passado ao programa sendo transformado numa versão condensada. Esta área das ciências da computação tem a sua origem no final dos anos 50 e tem vindo a ser investigada desde então. O aumento exponencial de informação disponível hoje devido principalmente à Internet, coloca a sumarização automática de novo em voga. Assim, é essencial o desenvolvimento de novas metodologias e técnicas de forma a ser possível a rápida consulta e fácil acesso a toda informação disponível ao ser humano. A dissertação proposta apresenta o estudo de uma abordagem e a implementação de um sistema simbólico (em oposição à abordagem estatística) de sumarização automática para a língua portuguesa. Os sistema utiliza a teoria da estrutura retórica para o reconhecimento de relações entre segmentos, fazendo uso do modelo desenvolvido no sistema AuTema-Dis (Leal, 2008). Uma arquitectura modular em quatro etapas que processa um texto desde a sua forma original até a geração do sumário final. No final deste trabalho é feita uma avaliação que compara a performance dos vários sistemas de sumarização para a língua portuguesa. É feita uma avaliação qualitativa do sistema desenvolvido neste projecto recorrendo a juízes humanos falantes nativos do português de Portugal; ABSTRACT: Summarization is an activity often performed by humans. When an event is narrated, in general, it is customary to make a summary of what happened not detailed narration. Automatic text summarization is a technique that uses a computer program to generate synthetic structures that contain the most relevant information of a text. The original text is used as input for the computer program and is transformed into a condensed version. This area of computer science has its origins in the late 50’s and has been continuously researched since then. The exponential growth of information available due mainly to the Internet, puts the automatic summarization once again in vogue. It is therefore essential to develop new methodologies and techniques so as to be possible an easy access to all information available to humans. This thesis addresses an approach and the implementation of a symbolic system (as opposed to statistical approach) for automatic summarization for the Portuguese language. The system uses the theory of rhetorical structure for recognizing relationships between segments, using also the model developed in AuTema- Dis (Leal, 2008). This system defines a modular four steps architecture which processes a text from its original form into the final summary. At the end of this thesis there is a evaluation that compares the performance leading systems for automatic summarization for the Portuguese language. The system presented in this thesis is evaluated resorting to human judges (all native speakers of Portuguese from Portugal).

Metadados do item

id	RCAP_fe7b581523c03e3f7750037fc16644a6
oai_identifier_str	oai:dspace.uevora.pt:10174/15176
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Sumarização automática de textoSumarizar é uma actividade frequentemente realizada pelo ser humano. Quando se narra um evento, em geral, é costume fazer um sumário do que aconteceu e não fazer uma narração completa e detalhada. A sumarização automática de texto é uma técnica que utiliza um programa de computador para gerar estruturas sintéticas que contêm as informações mais relevantes de um textos. O texto original é passado ao programa sendo transformado numa versão condensada. Esta área das ciências da computação tem a sua origem no final dos anos 50 e tem vindo a ser investigada desde então. O aumento exponencial de informação disponível hoje devido principalmente à Internet, coloca a sumarização automática de novo em voga. Assim, é essencial o desenvolvimento de novas metodologias e técnicas de forma a ser possível a rápida consulta e fácil acesso a toda informação disponível ao ser humano. A dissertação proposta apresenta o estudo de uma abordagem e a implementação de um sistema simbólico (em oposição à abordagem estatística) de sumarização automática para a língua portuguesa. Os sistema utiliza a teoria da estrutura retórica para o reconhecimento de relações entre segmentos, fazendo uso do modelo desenvolvido no sistema AuTema-Dis (Leal, 2008). Uma arquitectura modular em quatro etapas que processa um texto desde a sua forma original até a geração do sumário final. No final deste trabalho é feita uma avaliação que compara a performance dos vários sistemas de sumarização para a língua portuguesa. É feita uma avaliação qualitativa do sistema desenvolvido neste projecto recorrendo a juízes humanos falantes nativos do português de Portugal; ABSTRACT: Summarization is an activity often performed by humans. When an event is narrated, in general, it is customary to make a summary of what happened not detailed narration. Automatic text summarization is a technique that uses a computer program to generate synthetic structures that contain the most relevant information of a text. The original text is used as input for the computer program and is transformed into a condensed version. This area of computer science has its origins in the late 50’s and has been continuously researched since then. The exponential growth of information available due mainly to the Internet, puts the automatic summarization once again in vogue. It is therefore essential to develop new methodologies and techniques so as to be possible an easy access to all information available to humans. This thesis addresses an approach and the implementation of a symbolic system (as opposed to statistical approach) for automatic summarization for the Portuguese language. The system uses the theory of rhetorical structure for recognizing relationships between segments, using also the model developed in AuTema- Dis (Leal, 2008). This system defines a modular four steps architecture which processes a text from its original form into the final summary. At the end of this thesis there is a evaluation that compares the performance leading systems for automatic summarization for the Portuguese language. The system presented in this thesis is evaluated resorting to human judges (all native speakers of Portuguese from Portugal).Universidade de Évora2015-09-01T09:45:39Z2015-09-012011-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10174/15176http://hdl.handle.net/10174/15176porDepartamento de Informáticateses@bib.uevora.pt498Rodrigues, Luís Filipe Romãoinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-01-03T18:57:17Zoai:dspace.uevora.pt:10174/15176Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T01:06:08.526920Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Sumarização automática de texto
title	Sumarização automática de texto
spellingShingle	Sumarização automática de texto Rodrigues, Luís Filipe Romão
title_short	Sumarização automática de texto
title_full	Sumarização automática de texto
title_fullStr	Sumarização automática de texto
title_full_unstemmed	Sumarização automática de texto
title_sort	Sumarização automática de texto
author	Rodrigues, Luís Filipe Romão
author_facet	Rodrigues, Luís Filipe Romão
author_role	author
dc.contributor.author.fl_str_mv	Rodrigues, Luís Filipe Romão
description	Sumarizar é uma actividade frequentemente realizada pelo ser humano. Quando se narra um evento, em geral, é costume fazer um sumário do que aconteceu e não fazer uma narração completa e detalhada. A sumarização automática de texto é uma técnica que utiliza um programa de computador para gerar estruturas sintéticas que contêm as informações mais relevantes de um textos. O texto original é passado ao programa sendo transformado numa versão condensada. Esta área das ciências da computação tem a sua origem no final dos anos 50 e tem vindo a ser investigada desde então. O aumento exponencial de informação disponível hoje devido principalmente à Internet, coloca a sumarização automática de novo em voga. Assim, é essencial o desenvolvimento de novas metodologias e técnicas de forma a ser possível a rápida consulta e fácil acesso a toda informação disponível ao ser humano. A dissertação proposta apresenta o estudo de uma abordagem e a implementação de um sistema simbólico (em oposição à abordagem estatística) de sumarização automática para a língua portuguesa. Os sistema utiliza a teoria da estrutura retórica para o reconhecimento de relações entre segmentos, fazendo uso do modelo desenvolvido no sistema AuTema-Dis (Leal, 2008). Uma arquitectura modular em quatro etapas que processa um texto desde a sua forma original até a geração do sumário final. No final deste trabalho é feita uma avaliação que compara a performance dos vários sistemas de sumarização para a língua portuguesa. É feita uma avaliação qualitativa do sistema desenvolvido neste projecto recorrendo a juízes humanos falantes nativos do português de Portugal; ABSTRACT: Summarization is an activity often performed by humans. When an event is narrated, in general, it is customary to make a summary of what happened not detailed narration. Automatic text summarization is a technique that uses a computer program to generate synthetic structures that contain the most relevant information of a text. The original text is used as input for the computer program and is transformed into a condensed version. This area of computer science has its origins in the late 50’s and has been continuously researched since then. The exponential growth of information available due mainly to the Internet, puts the automatic summarization once again in vogue. It is therefore essential to develop new methodologies and techniques so as to be possible an easy access to all information available to humans. This thesis addresses an approach and the implementation of a symbolic system (as opposed to statistical approach) for automatic summarization for the Portuguese language. The system uses the theory of rhetorical structure for recognizing relationships between segments, using also the model developed in AuTema- Dis (Leal, 2008). This system defines a modular four steps architecture which processes a text from its original form into the final summary. At the end of this thesis there is a evaluation that compares the performance leading systems for automatic summarization for the Portuguese language. The system presented in this thesis is evaluated resorting to human judges (all native speakers of Portuguese from Portugal).
publishDate	2011
dc.date.none.fl_str_mv	2011-01-01T00:00:00Z 2015-09-01T09:45:39Z 2015-09-01
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10174/15176 http://hdl.handle.net/10174/15176
url	http://hdl.handle.net/10174/15176
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	Departamento de Informática teses@bib.uevora.pt 498
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade de Évora
publisher.none.fl_str_mv	Universidade de Évora
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799136546399453184

Sumarização automática de texto

Registros relacionados