Compiling Specialised Comparable Corpora. Should we always trust (Semi-)automatic Compilation Tools?

Costa, Hernani; Dúran Muñoz, Isabel; Corpas Pastor, Gloria; Mitkov, Ruslan

Compiling Specialised Comparable Corpora. Should we always trust (Semi-)automatic Compilation Tools?

Detalhes bibliográficos
Autor(a) principal:	Costa, Hernani
Data de Publicação:	2016
Outros Autores:	Dúran Muñoz, Isabel, Corpas Pastor, Gloria, Mitkov, Ruslan
Tipo de documento:	Artigo
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	https://linguamatica.com/index.php/linguamatica/article/view/v8n1-1
Resumo:	Decisions at the outset of compiling a comparable corpus are of crucial importance for how the corpus is to be built and analysed later on. Several variables and external criteria are usually followed when building a corpus but little is been said about textual distributional similarity in this context and the quality that it brings to research. In an attempt to fulfil this gap, this paper aims at presenting a simple but efficient methodology capable of measuring a corpus internal degree of relatedness. To do so, this methodology takes advantage of both available natural language processing technology and statistical methods in a successful attempt to access the relatedness degree between documents. Our findings prove that using a list of common entities and a set of distributional similarity measures is enough not only to describe and assess the degree of relatedness between the documents in a comparable corpus, but also to rank them according to their degree of relatedness within the corpus.

Metadados do item

id	RCAP_0fc33d53e08e5db137eca86907cc4932
oai_identifier_str	oai:linguamatica.com:article/221
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Compiling Specialised Comparable Corpora. Should we always trust (Semi-)automatic Compilation Tools?Compilação de Corpos Comparáveis Especializados: Devemos sempre confiar nas Ferramentas de Compilação Semi-automáticas?Compilação de Corpos Comparáveis Especializados: Devemos sempre confiar nas Ferramentas de Compilação Semi-automáticas?comparable corporacomputational linguisticsdistributional similarity measuresmanual and semi-automatic compilationnatural language processingDecisions at the outset of compiling a comparable corpus are of crucial importance for how the corpus is to be built and analysed later on. Several variables and external criteria are usually followed when building a corpus but little is been said about textual distributional similarity in this context and the quality that it brings to research. In an attempt to fulfil this gap, this paper aims at presenting a simple but efficient methodology capable of measuring a corpus internal degree of relatedness. To do so, this methodology takes advantage of both available natural language processing technology and statistical methods in a successful attempt to access the relatedness degree between documents. Our findings prove that using a list of common entities and a set of distributional similarity measures is enough not only to describe and assess the degree of relatedness between the documents in a comparable corpus, but also to rank them according to their degree of relatedness within the corpus.<p>Decisões tomadas anteriormente à compilação de um corpo comparável têm um grande impacto na forma em que este será posteriormente construído e analisado. Diversas variáveis e critérios externos são normalmente seguidos na construção de um corpo, mas pouco se tem investigado sobre a sua distribuição de similaridade textual interna ou nas suas vantagens qualitativas para a investigação.</p><p>Numa tentativa de preencher esta lacuna, este artigo tem como objetivo apresentar uma metodologia simples, contudo eficiente, capaz de medir o grau de similaridade interno de um corpo. Para isso, a metodologia proposta usa diversas técnicas de processamento de linguagem natural e vários métodos estatísticos, numa tentativa bem sucedida de avaliar o grau de similaridade entre documentos. Os nossos resultados demonstram que a utilização de uma lista de entidades comuns e um conjunto de medidas de similaridade distribucional são suficientes, não só para descrever e avaliar o grau de similaridade entre os documentos num corpo comparável, mas também para os classificar de acordo com seu grau de semelhança e, consequentemente, melhorar a qualidade do corpos através da eliminação de documentos irrelevantes.</p>Decisões tomadas anteriormente à compilação de um corpo comparável têm um grande impacto na forma em que este será posteriormente construído e analisado. Diversas variáveis e critérios externos são normalmente seguidos na construção de um corpo, mas pouco se tem investigado sobre a sua distribuição de similaridade textual interna ou nas suas vantagens qualitativas para a investigação. Numa tentativa de preencher esta lacuna, este artigo tem como objetivo apresentar uma metodologia simples, contudo eficiente, capaz de medir o grau de similaridade interno de um corpo. Para isso, a metodologia proposta usa diversas técnicas de processamento de linguagem natural e vários métodos estatísticos, numa tentativa bem sucedida de avaliar o grau de similaridade entre documentos. Os nossos resultados demonstram que a utilização de uma lista de entidades comuns e um conjunto de medidas de similaridade distribucional são suficientes, não só para descrever e avaliar o grau de similaridade entre os documentos num corpo comparável, mas também para os classificar de acordo com seu grau de semelhança e, consequentemente, melhorar a qualidade do corpos através da eliminação de documentos irrelevantes.Universidade do Minho e Universidade de Vigo2016-07-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://linguamatica.com/index.php/linguamatica/article/view/v8n1-1Linguamática; Vol. 8 No. 1; 3-19Linguamática; Vol. 8 Núm. 1; 3-19Linguamática; v. 8 n. 1; 3-191647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/v8n1-1https://linguamatica.com/index.php/linguamatica/article/view/v8n1-1/361Costa, HernaniDúran Muñoz, IsabelCorpas Pastor, GloriaMitkov, Ruslaninfo:eu-repo/semantics/openAccess2023-09-08T13:46:34Zoai:linguamatica.com:article/221Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:37.473729Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Compiling Specialised Comparable Corpora. Should we always trust (Semi-)automatic Compilation Tools? Compilação de Corpos Comparáveis Especializados: Devemos sempre confiar nas Ferramentas de Compilação Semi-automáticas? Compilação de Corpos Comparáveis Especializados: Devemos sempre confiar nas Ferramentas de Compilação Semi-automáticas?
title	Compiling Specialised Comparable Corpora. Should we always trust (Semi-)automatic Compilation Tools?
spellingShingle	Compiling Specialised Comparable Corpora. Should we always trust (Semi-)automatic Compilation Tools? Costa, Hernani comparable corpora computational linguistics distributional similarity measures manual and semi-automatic compilation natural language processing
title_short	Compiling Specialised Comparable Corpora. Should we always trust (Semi-)automatic Compilation Tools?
title_full	Compiling Specialised Comparable Corpora. Should we always trust (Semi-)automatic Compilation Tools?
title_fullStr	Compiling Specialised Comparable Corpora. Should we always trust (Semi-)automatic Compilation Tools?
title_full_unstemmed	Compiling Specialised Comparable Corpora. Should we always trust (Semi-)automatic Compilation Tools?
title_sort	Compiling Specialised Comparable Corpora. Should we always trust (Semi-)automatic Compilation Tools?
author	Costa, Hernani
author_facet	Costa, Hernani Dúran Muñoz, Isabel Corpas Pastor, Gloria Mitkov, Ruslan
author_role	author
author2	Dúran Muñoz, Isabel Corpas Pastor, Gloria Mitkov, Ruslan
author2_role	author author author
dc.contributor.author.fl_str_mv	Costa, Hernani Dúran Muñoz, Isabel Corpas Pastor, Gloria Mitkov, Ruslan
dc.subject.por.fl_str_mv	comparable corpora computational linguistics distributional similarity measures manual and semi-automatic compilation natural language processing
topic	comparable corpora computational linguistics distributional similarity measures manual and semi-automatic compilation natural language processing
description	Decisions at the outset of compiling a comparable corpus are of crucial importance for how the corpus is to be built and analysed later on. Several variables and external criteria are usually followed when building a corpus but little is been said about textual distributional similarity in this context and the quality that it brings to research. In an attempt to fulfil this gap, this paper aims at presenting a simple but efficient methodology capable of measuring a corpus internal degree of relatedness. To do so, this methodology takes advantage of both available natural language processing technology and statistical methods in a successful attempt to access the relatedness degree between documents. Our findings prove that using a list of common entities and a set of distributional similarity measures is enough not only to describe and assess the degree of relatedness between the documents in a comparable corpus, but also to rank them according to their degree of relatedness within the corpus.
publishDate	2016
dc.date.none.fl_str_mv	2016-07-22
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/article
format	article
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://linguamatica.com/index.php/linguamatica/article/view/v8n1-1
url	https://linguamatica.com/index.php/linguamatica/article/view/v8n1-1
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	https://linguamatica.com/index.php/linguamatica/article/view/v8n1-1 https://linguamatica.com/index.php/linguamatica/article/view/v8n1-1/361
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade do Minho e Universidade de Vigo
publisher.none.fl_str_mv	Universidade do Minho e Universidade de Vigo
dc.source.none.fl_str_mv	Linguamática; Vol. 8 No. 1; 3-19 Linguamática; Vol. 8 Núm. 1; 3-19 Linguamática; v. 8 n. 1; 3-19 1647-0818 reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799133553935515648

Compiling Specialised Comparable Corpora. Should we always trust (Semi-)automatic Compilation Tools?

Registros relacionados