Solo Queue at ASSIN: Combinando Abordagens Tradicionais e Emergentes
Autor(a) principal: | |
---|---|
Data de Publicação: | 2016 |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://linguamatica.com/index.php/linguamatica/article/view/v8n2-6 |
Resumo: | No presente artigo apresentamos uma proposta para atribuição automática da similaridade entre duas sentenças, tarefa definida na avaliação conjunta ASSIN 2016. Nossa proposta consiste no uso de uma feature clássica da classe bag-of-words, a TF-IDF; e uma feature emergente, capturada por meio de word embeddings. Sabe-se que a medida TF-IDF pode ser utilizada para relacionar documentos que contém os mesmos elementos e, portanto, pode ser utilizada para documentos que compartilham palavras. Word embeddings é uma técnica de semântica distribucional e é conhecida por modelar a sintaxe e semântica das palavras e, segundo Mikolov et al. (2013), pode ser utilizada para modelar a embedding de uma sentença. Ao considerar ambas as features, ponderamos as palavras contidas nas sentenças e a semântica compartilhada entre elas. Como o rótulo de similaridade para o problema em questão é um valor real na escala entre 1 e 5, aplicamos uma técnica de regressão, a Regressão Linear. Os resultados obtidos mostraram que, apesar da feature de embeddings ter obtido resultados similares ao sistema baseline, ao ser combinada à feature TF-IDF, apresentou resultados levemente superiores aos obtidos ao ser usada somente a segunda feature. Esse foi o trabalho campeão da competição ASSIN 2016 de similaridade semântica pela primeira colocação entre os trabalhos que participaram da tarefa de similaridade textual para português do Brasil e segunda colocação para português de Portugal. |
id |
RCAP_bc85c395c6f25a858398fbb9d36fd82b |
---|---|
oai_identifier_str |
oai:linguamatica.com:article/230 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Solo Queue at ASSIN: Combinando Abordagens Tradicionais e EmergentesSolo Queue at ASSIN: Combinando Abordagens Tradicionais e EmergentesSolo Queue at ASSIN: Mix of Traditional and Emerging ApproachesNo presente artigo apresentamos uma proposta para atribuição automática da similaridade entre duas sentenças, tarefa definida na avaliação conjunta ASSIN 2016. Nossa proposta consiste no uso de uma feature clássica da classe bag-of-words, a TF-IDF; e uma feature emergente, capturada por meio de word embeddings. Sabe-se que a medida TF-IDF pode ser utilizada para relacionar documentos que contém os mesmos elementos e, portanto, pode ser utilizada para documentos que compartilham palavras. Word embeddings é uma técnica de semântica distribucional e é conhecida por modelar a sintaxe e semântica das palavras e, segundo Mikolov et al. (2013), pode ser utilizada para modelar a embedding de uma sentença. Ao considerar ambas as features, ponderamos as palavras contidas nas sentenças e a semântica compartilhada entre elas. Como o rótulo de similaridade para o problema em questão é um valor real na escala entre 1 e 5, aplicamos uma técnica de regressão, a Regressão Linear. Os resultados obtidos mostraram que, apesar da feature de embeddings ter obtido resultados similares ao sistema baseline, ao ser combinada à feature TF-IDF, apresentou resultados levemente superiores aos obtidos ao ser usada somente a segunda feature. Esse foi o trabalho campeão da competição ASSIN 2016 de similaridade semântica pela primeira colocação entre os trabalhos que participaram da tarefa de similaridade textual para português do Brasil e segunda colocação para português de Portugal.No presente artigo apresentamos uma proposta para atribuição automática da similaridade entre duas sentenças, tarefa definida na avaliação conjunta ASSIN 2016. Nossa proposta consiste no uso de uma feature clássica da classe bag-of-words, a TF-IDF; e uma feature emergente, capturada por meio de word embeddings. Sabe-se que a medida TF-IDF pode ser utilizada para relacionar documentos que contém os mesmos elementos e, portanto, pode ser utilizada para documentos que compartilham palavras. Word embeddings é uma técnica de semântica distribucional e é conhecida por modelar a sintaxe e semântica das palavras e, segundo Mikolov et al. (2013), pode ser utilizada para modelar a embedding de uma sentença. Ao considerar ambas as features, ponderamos as palavras contidas nas sentenças e a semântica compartilhada entre elas. Como o rótulo de similaridade para o problema em questão é um valor real na escala entre 1 e 5, aplicamos uma técnica de regressão, a Regressão Linear. Os resultados obtidos mostraram que, apesar da feature de embeddings ter obtido resultados similares ao sistema baseline, ao ser combinada à feature TF-IDF, apresentou resultados levemente superiores aos obtidos ao ser usada somente a segunda feature. Esse foi o trabalho campeão da competição ASSIN 2016 de similaridade semântica pela primeira colocação entre os trabalhos que participaram da tarefa de similaridade textual para português do Brasil e segunda colocação para português de Portugal.In this paper we present a proposal to automatically label the similarity between a pair of sentences and the results obtained on ASSIN 2016 sentence similarity shared-task. Our proposal consists of using a classical feature of bag-of-words, the TF-IDF model; and an emergent feature, obtained from processing word embeddings. The TF-IDF is used to relate texts which share words. Word embeddings are known by capture the syntax and semantics of a word. Following Mikolov et al. (2013), the sum of embedding vectors can model the meaning of a sentence. Using both features, we are able to capture the words shared between sentences and their semantics. We use linear regression to solve this problem, once the dataset is labeled as real numbers between 1 and 5. Our results are promising. Although the usage of embeddings has not overcome our baseline system, when we combined it with TF-IDF, our system achieved better results than only using TF-IDF. Our results achieved the first collocation of ASSIN 2016 for sentence similarity shared-task applied on brazilian portuguese sentences and second collocation when applying to Portugal portuguese sentences.Universidade do Minho e Universidade de Vigo2016-12-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://linguamatica.com/index.php/linguamatica/article/view/v8n2-6Linguamática; Vol. 8 No. 2; 59-64Linguamática; Vol. 8 Núm. 2; 59-64Linguamática; v. 8 n. 2; 59-641647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/v8n2-6https://linguamatica.com/index.php/linguamatica/article/view/v8n2-6/365Hartmann, Nathan Siegleinfo:eu-repo/semantics/openAccess2023-09-08T13:46:35Zoai:linguamatica.com:article/230Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:37.650168Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Solo Queue at ASSIN: Combinando Abordagens Tradicionais e Emergentes Solo Queue at ASSIN: Combinando Abordagens Tradicionais e Emergentes Solo Queue at ASSIN: Mix of Traditional and Emerging Approaches |
title |
Solo Queue at ASSIN: Combinando Abordagens Tradicionais e Emergentes |
spellingShingle |
Solo Queue at ASSIN: Combinando Abordagens Tradicionais e Emergentes Hartmann, Nathan Siegle |
title_short |
Solo Queue at ASSIN: Combinando Abordagens Tradicionais e Emergentes |
title_full |
Solo Queue at ASSIN: Combinando Abordagens Tradicionais e Emergentes |
title_fullStr |
Solo Queue at ASSIN: Combinando Abordagens Tradicionais e Emergentes |
title_full_unstemmed |
Solo Queue at ASSIN: Combinando Abordagens Tradicionais e Emergentes |
title_sort |
Solo Queue at ASSIN: Combinando Abordagens Tradicionais e Emergentes |
author |
Hartmann, Nathan Siegle |
author_facet |
Hartmann, Nathan Siegle |
author_role |
author |
dc.contributor.author.fl_str_mv |
Hartmann, Nathan Siegle |
description |
No presente artigo apresentamos uma proposta para atribuição automática da similaridade entre duas sentenças, tarefa definida na avaliação conjunta ASSIN 2016. Nossa proposta consiste no uso de uma feature clássica da classe bag-of-words, a TF-IDF; e uma feature emergente, capturada por meio de word embeddings. Sabe-se que a medida TF-IDF pode ser utilizada para relacionar documentos que contém os mesmos elementos e, portanto, pode ser utilizada para documentos que compartilham palavras. Word embeddings é uma técnica de semântica distribucional e é conhecida por modelar a sintaxe e semântica das palavras e, segundo Mikolov et al. (2013), pode ser utilizada para modelar a embedding de uma sentença. Ao considerar ambas as features, ponderamos as palavras contidas nas sentenças e a semântica compartilhada entre elas. Como o rótulo de similaridade para o problema em questão é um valor real na escala entre 1 e 5, aplicamos uma técnica de regressão, a Regressão Linear. Os resultados obtidos mostraram que, apesar da feature de embeddings ter obtido resultados similares ao sistema baseline, ao ser combinada à feature TF-IDF, apresentou resultados levemente superiores aos obtidos ao ser usada somente a segunda feature. Esse foi o trabalho campeão da competição ASSIN 2016 de similaridade semântica pela primeira colocação entre os trabalhos que participaram da tarefa de similaridade textual para português do Brasil e segunda colocação para português de Portugal. |
publishDate |
2016 |
dc.date.none.fl_str_mv |
2016-12-31 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://linguamatica.com/index.php/linguamatica/article/view/v8n2-6 |
url |
https://linguamatica.com/index.php/linguamatica/article/view/v8n2-6 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://linguamatica.com/index.php/linguamatica/article/view/v8n2-6 https://linguamatica.com/index.php/linguamatica/article/view/v8n2-6/365 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
dc.source.none.fl_str_mv |
Linguamática; Vol. 8 No. 2; 59-64 Linguamática; Vol. 8 Núm. 2; 59-64 Linguamática; v. 8 n. 2; 59-64 1647-0818 reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133553942855680 |