Studying the influence of adding lexical-semantic knowledge to Principal Component Analysis technique for multilingual summarization

Alcón, Óscar; Lloret, Elena

Studying the influence of adding lexical-semantic knowledge to Principal Component Analysis technique for multilingual summarization

Detalhes bibliográficos
Autor(a) principal:	Alcón, Óscar
Data de Publicação:	2015
Outros Autores:	Lloret, Elena
Tipo de documento:	Artigo
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	https://linguamatica.com/index.php/linguamatica/article/view/V7N1-4
Resumo:	The objective of automatic text summarization is to reduce the dimension of a text keeping the relevant information. In this paper we analyse and apply the language-independent Principal Component Analysis technique for generating extractive single-document multilingual summaries. This technique will be studied to evaluate its performance with and without adding lexical-semantic knowledge through language-dependent resources and tools. Experiments were conducted using two different corpora: newswire and Wikipedia articles in three languages (English, German and Spanish) to validate the use of this technique in several scenarios. The proposed approaches show very competitive results compared to multilingual available systems, indicating that, although there is still room for improvement with respect to the technique and the type of knowledge to be taken into consideration, this has great potential for being applied in other contexts and for other languages.

Metadados do item

id	RCAP_e8ee9ec4adea86ec24d36aae6f116143
oai_identifier_str	oai:linguamatica.com:article/205
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Studying the influence of adding lexical-semantic knowledge to Principal Component Analysis technique for multilingual summarizationEstudio de la influencia de incorporar conocimiento léxico-semántico a la técnica de Análisis de Componentes Principales para la generación de resúmenes multilingüesEstudio de la influencia de incorporar conocimiento léxico-semántico a la técnica de Análisis de Componentes Principales para la generación de resúmenes multilingüesPCAAnálisis de Componentes Principalesgeneración de resúmenesmultilingüesextractivosentidades nombradasidentificación de conceptosThe objective of automatic text summarization is to reduce the dimension of a text keeping the relevant information. In this paper we analyse and apply the language-independent Principal Component Analysis technique for generating extractive single-document multilingual summaries. This technique will be studied to evaluate its performance with and without adding lexical-semantic knowledge through language-dependent resources and tools. Experiments were conducted using two different corpora: newswire and Wikipedia articles in three languages (English, German and Spanish) to validate the use of this technique in several scenarios. The proposed approaches show very competitive results compared to multilingual available systems, indicating that, although there is still room for improvement with respect to the technique and the type of knowledge to be taken into consideration, this has great potential for being applied in other contexts and for other languages.El objetivo de la generación automática de resúmenes es reducir la dimensión de un texto y a su vez mantener la información relevante del mismo. En este artículo se analiza y aplica la técnica de Análisis de Componentes Principales, que es independiente del idioma, para la generación de resúmenes extractivos mono-documento y multilingües. Dicha técnica se estudiará con el objetivo de poder evaluar su funcionamiento cuando se incorpora (o no) conocimiento léxico-semántico, a partir del uso de recursos y herramientas dependientes del idioma. La experimentación propuesta se ha realizado en base a dos corpus de diferente naturaleza: noticias periodísticas y artículos de la Wikipedia en tres idiomas (alemán, español e inglés) para verificar el uso de esta técnica en varios escenarios. Los enfoques propuestos presentan resultados muy competitivos comparados con generadores de resúmenes multilingües existentes, lo que indica que, aunque exista un claro margen de mejora respecto a la técnica y el tipo de conocimiento incorporado, ésta tiene una gran potencial para ser aplicada en otros contextos e idiomas.El objetivo de la generación automática de resúmenes es reducir la dimensión de un texto y a su vez mantener la información relevante del mismo. En este artículo se analiza y aplica la técnica de Análisis de Componentes Principales, que es independiente del idioma, para la generación de resúmenes extractivos mono-documento y multilingües. Dicha técnica se estudiará con el objetivo de poder evaluar su funcionamiento cuando se incorpora (o no) conocimiento léxico-semántico, a partir del uso de recursos y herramientas dependientes del idioma. La experimentación propuesta se ha realizado en base a dos corpus de diferente naturaleza: noticias periodísticas y artículos de la Wikipedia en tres idiomas (alemán, español e inglés) para verificar el uso de esta técnica en varios escenarios. Los enfoques propuestos presentan resultados muy competitivos comparados con generadores de resúmenes multilingües existentes, lo que indica que, aunque exista un claro margen de mejora respecto a la técnica y el tipo de conocimiento incorporado, ésta tiene una gran potencial para ser aplicada en otros contextos e idiomas.Universidade do Minho e Universidade de Vigo2015-07-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://linguamatica.com/index.php/linguamatica/article/view/V7N1-4Linguamática; Vol. 7 No. 1; 53-63Linguamática; Vol. 7 Núm. 1; 53-63Linguamática; v. 7 n. 1; 53-631647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/V7N1-4https://linguamatica.com/index.php/linguamatica/article/view/V7N1-4/321Alcón, ÓscarLloret, Elenainfo:eu-repo/semantics/openAccess2023-09-08T13:46:33Zoai:linguamatica.com:article/205Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:37.064057Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Studying the influence of adding lexical-semantic knowledge to Principal Component Analysis technique for multilingual summarization Estudio de la influencia de incorporar conocimiento léxico-semántico a la técnica de Análisis de Componentes Principales para la generación de resúmenes multilingües Estudio de la influencia de incorporar conocimiento léxico-semántico a la técnica de Análisis de Componentes Principales para la generación de resúmenes multilingües
title	Studying the influence of adding lexical-semantic knowledge to Principal Component Analysis technique for multilingual summarization
spellingShingle	Studying the influence of adding lexical-semantic knowledge to Principal Component Analysis technique for multilingual summarization Alcón, Óscar PCA Análisis de Componentes Principales generación de resúmenes multilingües extractivos entidades nombradas identificación de conceptos
title_short	Studying the influence of adding lexical-semantic knowledge to Principal Component Analysis technique for multilingual summarization
title_full	Studying the influence of adding lexical-semantic knowledge to Principal Component Analysis technique for multilingual summarization
title_fullStr	Studying the influence of adding lexical-semantic knowledge to Principal Component Analysis technique for multilingual summarization
title_full_unstemmed	Studying the influence of adding lexical-semantic knowledge to Principal Component Analysis technique for multilingual summarization
title_sort	Studying the influence of adding lexical-semantic knowledge to Principal Component Analysis technique for multilingual summarization
author	Alcón, Óscar
author_facet	Alcón, Óscar Lloret, Elena
author_role	author
author2	Lloret, Elena
author2_role	author
dc.contributor.author.fl_str_mv	Alcón, Óscar Lloret, Elena
dc.subject.por.fl_str_mv	PCA Análisis de Componentes Principales generación de resúmenes multilingües extractivos entidades nombradas identificación de conceptos
topic	PCA Análisis de Componentes Principales generación de resúmenes multilingües extractivos entidades nombradas identificación de conceptos
description	The objective of automatic text summarization is to reduce the dimension of a text keeping the relevant information. In this paper we analyse and apply the language-independent Principal Component Analysis technique for generating extractive single-document multilingual summaries. This technique will be studied to evaluate its performance with and without adding lexical-semantic knowledge through language-dependent resources and tools. Experiments were conducted using two different corpora: newswire and Wikipedia articles in three languages (English, German and Spanish) to validate the use of this technique in several scenarios. The proposed approaches show very competitive results compared to multilingual available systems, indicating that, although there is still room for improvement with respect to the technique and the type of knowledge to be taken into consideration, this has great potential for being applied in other contexts and for other languages.
publishDate	2015
dc.date.none.fl_str_mv	2015-07-31
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/article
format	article
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://linguamatica.com/index.php/linguamatica/article/view/V7N1-4
url	https://linguamatica.com/index.php/linguamatica/article/view/V7N1-4
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	https://linguamatica.com/index.php/linguamatica/article/view/V7N1-4 https://linguamatica.com/index.php/linguamatica/article/view/V7N1-4/321
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade do Minho e Universidade de Vigo
publisher.none.fl_str_mv	Universidade do Minho e Universidade de Vigo
dc.source.none.fl_str_mv	Linguamática; Vol. 7 No. 1; 53-63 Linguamática; Vol. 7 Núm. 1; 53-63 Linguamática; v. 7 n. 1; 53-63 1647-0818 reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799133553262329856

Studying the influence of adding lexical-semantic knowledge to Principal Component Analysis technique for multilingual summarization

Registros relacionados