Kernels para la clasificacíon de preguntas en español y catalán
Autor(a) principal: | |
---|---|
Data de Publicação: | 2009 |
Outros Autores: | |
Tipo de documento: | Artigo |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://linguamatica.com/index.php/linguamatica/article/view/31 |
Resumo: | Este artículo presenta una aproximacíon a la clasificación automática de preguntas en español y catalán. El sistema de clasificación está basado en el algoritmo SVM y en el uso de diferentes funciones kernel, empleando únicamente características textuales superficiales que permiten la obtencíon de un sistema fácilmente adaptable a diferentes idiomas. Se ha realizado un estudio sobre el correcto a juste de parámetros de los kernels, la precisíon de los mismos, la definicíon de distintos vectores de características de aprendizaje y el rendimiento en función del idioma de trabajo. Adicionalmente, se ha experimentado con el algoritmo LIBLINEAR, aplicado aquí por vez primera a la tarea de clasificación de preguntas. Con este algoritmo, así como con los kernels definidos, se han obtenido valores de precisión por encima del 80 % para los dos idiomas tratados, superando a otros algoritmos tradicionales de clasificación. Para el entrenamiento y evaluación del sistema se ha desarrollado un corpus paralelo de 2.393 preguntas en inglés, español y catalán. |
id |
RCAP_0ef831e1b2ee0fd241bb28e77a7986bd |
---|---|
oai_identifier_str |
oai:linguamatica.com:article/31 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Kernels para la clasificacíon de preguntas en español y catalánEste artículo presenta una aproximacíon a la clasificación automática de preguntas en español y catalán. El sistema de clasificación está basado en el algoritmo SVM y en el uso de diferentes funciones kernel, empleando únicamente características textuales superficiales que permiten la obtencíon de un sistema fácilmente adaptable a diferentes idiomas. Se ha realizado un estudio sobre el correcto a juste de parámetros de los kernels, la precisíon de los mismos, la definicíon de distintos vectores de características de aprendizaje y el rendimiento en función del idioma de trabajo. Adicionalmente, se ha experimentado con el algoritmo LIBLINEAR, aplicado aquí por vez primera a la tarea de clasificación de preguntas. Con este algoritmo, así como con los kernels definidos, se han obtenido valores de precisión por encima del 80 % para los dos idiomas tratados, superando a otros algoritmos tradicionales de clasificación. Para el entrenamiento y evaluación del sistema se ha desarrollado un corpus paralelo de 2.393 preguntas en inglés, español y catalán.Universidade do Minho e Universidade de Vigo2009-11-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://linguamatica.com/index.php/linguamatica/article/view/31Linguamática; Vol. 1 No. 2; 41-53Linguamática; Vol. 1 Núm. 2; 41-53Linguamática; v. 1 n. 2; 41-531647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPenghttps://linguamatica.com/index.php/linguamatica/article/view/31https://linguamatica.com/index.php/linguamatica/article/view/31/32Tomás, DavidVicedo, José Luisinfo:eu-repo/semantics/openAccess2023-09-08T13:46:12Zoai:linguamatica.com:article/31Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:32.873348Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Kernels para la clasificacíon de preguntas en español y catalán |
title |
Kernels para la clasificacíon de preguntas en español y catalán |
spellingShingle |
Kernels para la clasificacíon de preguntas en español y catalán Tomás, David |
title_short |
Kernels para la clasificacíon de preguntas en español y catalán |
title_full |
Kernels para la clasificacíon de preguntas en español y catalán |
title_fullStr |
Kernels para la clasificacíon de preguntas en español y catalán |
title_full_unstemmed |
Kernels para la clasificacíon de preguntas en español y catalán |
title_sort |
Kernels para la clasificacíon de preguntas en español y catalán |
author |
Tomás, David |
author_facet |
Tomás, David Vicedo, José Luis |
author_role |
author |
author2 |
Vicedo, José Luis |
author2_role |
author |
dc.contributor.author.fl_str_mv |
Tomás, David Vicedo, José Luis |
description |
Este artículo presenta una aproximacíon a la clasificación automática de preguntas en español y catalán. El sistema de clasificación está basado en el algoritmo SVM y en el uso de diferentes funciones kernel, empleando únicamente características textuales superficiales que permiten la obtencíon de un sistema fácilmente adaptable a diferentes idiomas. Se ha realizado un estudio sobre el correcto a juste de parámetros de los kernels, la precisíon de los mismos, la definicíon de distintos vectores de características de aprendizaje y el rendimiento en función del idioma de trabajo. Adicionalmente, se ha experimentado con el algoritmo LIBLINEAR, aplicado aquí por vez primera a la tarea de clasificación de preguntas. Con este algoritmo, así como con los kernels definidos, se han obtenido valores de precisión por encima del 80 % para los dos idiomas tratados, superando a otros algoritmos tradicionales de clasificación. Para el entrenamiento y evaluación del sistema se ha desarrollado un corpus paralelo de 2.393 preguntas en inglés, español y catalán. |
publishDate |
2009 |
dc.date.none.fl_str_mv |
2009-11-27 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://linguamatica.com/index.php/linguamatica/article/view/31 |
url |
https://linguamatica.com/index.php/linguamatica/article/view/31 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
https://linguamatica.com/index.php/linguamatica/article/view/31 https://linguamatica.com/index.php/linguamatica/article/view/31/32 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
dc.source.none.fl_str_mv |
Linguamática; Vol. 1 No. 2; 41-53 Linguamática; Vol. 1 Núm. 2; 41-53 Linguamática; v. 1 n. 2; 41-53 1647-0818 reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133553107140608 |