Kernels para la clasificacíon de preguntas en español y catalán

Detalhes bibliográficos
Autor(a) principal: Tomás, David
Data de Publicação: 2009
Outros Autores: Vicedo, José Luis
Tipo de documento: Artigo
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://linguamatica.com/index.php/linguamatica/article/view/31
Resumo: Este artículo presenta una aproximacíon a la clasificación automática de preguntas en español y catalán. El sistema de clasificación está basado en el algoritmo SVM y en el uso de diferentes funciones kernel, empleando únicamente características textuales superficiales que permiten la obtencíon de un sistema fácilmente adaptable a diferentes idiomas. Se ha realizado un estudio sobre el correcto a juste de parámetros de los kernels, la precisíon de los mismos, la definicíon de distintos vectores de características de aprendizaje y el rendimiento en función del idioma de trabajo. Adicionalmente, se ha experimentado con el algoritmo LIBLINEAR, aplicado aquí por vez primera a la tarea de clasificación de preguntas. Con este algoritmo, así como con los kernels definidos, se han obtenido valores de precisión por encima del 80 % para los dos idiomas tratados, superando a otros algoritmos tradicionales de clasificación. Para el entrenamiento y evaluación del sistema se ha desarrollado un corpus paralelo de 2.393 preguntas en inglés, español y catalán.
id RCAP_0ef831e1b2ee0fd241bb28e77a7986bd
oai_identifier_str oai:linguamatica.com:article/31
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Kernels para la clasificacíon de preguntas en español y catalánEste artículo presenta una aproximacíon a la clasificación automática de preguntas en español y catalán. El sistema de clasificación está basado en el algoritmo SVM y en el uso de diferentes funciones kernel, empleando únicamente características textuales superficiales que permiten la obtencíon de un sistema fácilmente adaptable a diferentes idiomas. Se ha realizado un estudio sobre el correcto a juste de parámetros de los kernels, la precisíon de los mismos, la definicíon de distintos vectores de características de aprendizaje y el rendimiento en función del idioma de trabajo. Adicionalmente, se ha experimentado con el algoritmo LIBLINEAR, aplicado aquí por vez primera a la tarea de clasificación de preguntas. Con este algoritmo, así como con los kernels definidos, se han obtenido valores de precisión por encima del 80 % para los dos idiomas tratados, superando a otros algoritmos tradicionales de clasificación. Para el entrenamiento y evaluación del sistema se ha desarrollado un corpus paralelo de 2.393 preguntas en inglés, español y catalán.Universidade do Minho e Universidade de Vigo2009-11-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://linguamatica.com/index.php/linguamatica/article/view/31Linguamática; Vol. 1 No. 2; 41-53Linguamática; Vol. 1 Núm. 2; 41-53Linguamática; v. 1 n. 2; 41-531647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPenghttps://linguamatica.com/index.php/linguamatica/article/view/31https://linguamatica.com/index.php/linguamatica/article/view/31/32Tomás, DavidVicedo, José Luisinfo:eu-repo/semantics/openAccess2023-09-08T13:46:12Zoai:linguamatica.com:article/31Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:32.873348Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Kernels para la clasificacíon de preguntas en español y catalán
title Kernels para la clasificacíon de preguntas en español y catalán
spellingShingle Kernels para la clasificacíon de preguntas en español y catalán
Tomás, David
title_short Kernels para la clasificacíon de preguntas en español y catalán
title_full Kernels para la clasificacíon de preguntas en español y catalán
title_fullStr Kernels para la clasificacíon de preguntas en español y catalán
title_full_unstemmed Kernels para la clasificacíon de preguntas en español y catalán
title_sort Kernels para la clasificacíon de preguntas en español y catalán
author Tomás, David
author_facet Tomás, David
Vicedo, José Luis
author_role author
author2 Vicedo, José Luis
author2_role author
dc.contributor.author.fl_str_mv Tomás, David
Vicedo, José Luis
description Este artículo presenta una aproximacíon a la clasificación automática de preguntas en español y catalán. El sistema de clasificación está basado en el algoritmo SVM y en el uso de diferentes funciones kernel, empleando únicamente características textuales superficiales que permiten la obtencíon de un sistema fácilmente adaptable a diferentes idiomas. Se ha realizado un estudio sobre el correcto a juste de parámetros de los kernels, la precisíon de los mismos, la definicíon de distintos vectores de características de aprendizaje y el rendimiento en función del idioma de trabajo. Adicionalmente, se ha experimentado con el algoritmo LIBLINEAR, aplicado aquí por vez primera a la tarea de clasificación de preguntas. Con este algoritmo, así como con los kernels definidos, se han obtenido valores de precisión por encima del 80 % para los dos idiomas tratados, superando a otros algoritmos tradicionales de clasificación. Para el entrenamiento y evaluación del sistema se ha desarrollado un corpus paralelo de 2.393 preguntas en inglés, español y catalán.
publishDate 2009
dc.date.none.fl_str_mv 2009-11-27
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://linguamatica.com/index.php/linguamatica/article/view/31
url https://linguamatica.com/index.php/linguamatica/article/view/31
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv https://linguamatica.com/index.php/linguamatica/article/view/31
https://linguamatica.com/index.php/linguamatica/article/view/31/32
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
dc.source.none.fl_str_mv Linguamática; Vol. 1 No. 2; 41-53
Linguamática; Vol. 1 Núm. 2; 41-53
Linguamática; v. 1 n. 2; 41-53
1647-0818
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133553107140608