Using comparable corpora to filter bilingual dictionaries generated by transitivity
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | DELTA: Documentação de Estudos em Lingüística Teórica e Aplicada |
Texto Completo: | https://revistas.pucsp.br/index.php/delta/article/view/6268 |
Resumo: | This article proposes a method for building new bilingual dictionaries from existing ones and the use of comparable corpora. More precisely, a new bilingual dictionary with pairs in two target languages is built in two steps. First, a noisy dictionary is generated by transitivity by crossing two existing dictionaries containing translation pairs in one of the two target languages and an intermediary one. The result of crossing the two existing dictionaries gives rise to a noisy resource because of the ambiguity of words in the intermediary language. Second, odd translation pairs are filtered out by making use of a set of bilingual lexicons automatically extracted from comparable corpora. The quality of the filtered dictionary is very high, close to that of those dictionaries built by lexicographs. We also report a case study where a new, non noisy, English-Portuguese dictionary with more than 7,000 bilingual entries was automatically generated. |
id |
PUC_SP-4_e651224e8b5217af4fe4672580321375 |
---|---|
oai_identifier_str |
oai:ojs.pkp.sfu.ca:article/6268 |
network_acronym_str |
PUC_SP-4 |
network_name_str |
DELTA: Documentação de Estudos em Lingüística Teórica e Aplicada |
repository_id_str |
|
spelling |
Using comparable corpora to filter bilingual dictionaries generated by transitivityUso de corpora comparáveis para fi ltrar dicionários bilíngues gerados por transitividadenatural language processinginformation extractioncomparable corporabilingual dictionariesprocessamento da língua naturalextração de informaçãocorpora comparáveisdicionários bilínguesThis article proposes a method for building new bilingual dictionaries from existing ones and the use of comparable corpora. More precisely, a new bilingual dictionary with pairs in two target languages is built in two steps. First, a noisy dictionary is generated by transitivity by crossing two existing dictionaries containing translation pairs in one of the two target languages and an intermediary one. The result of crossing the two existing dictionaries gives rise to a noisy resource because of the ambiguity of words in the intermediary language. Second, odd translation pairs are filtered out by making use of a set of bilingual lexicons automatically extracted from comparable corpora. The quality of the filtered dictionary is very high, close to that of those dictionaries built by lexicographs. We also report a case study where a new, non noisy, English-Portuguese dictionary with more than 7,000 bilingual entries was automatically generated.Este artigo propõe um método para a construção de novos dicionários bilíngues a partir de dicionários já existentes e da exploração de corpora comparáveis. Mais concretamente, um novo dicionário para um par de línguas é gerado em duas etapas: primeiro, cruzam-se dicionários bilíngues entre essas línguas e uma terceira intermediária e, segundo, o resultado do cruzamento, que contém um número elevado de traduções espúrias causadas pela ambiguidade das palavras da língua intermediária, filtra-se com apoio em textos de temática comparável nas duas línguas alvo. A qualidade do dicionário derivado é muito alta, próxima dos dicionários construídos manualmente. Descreveremos um caso de estudo onde criaremos um novo dicionário Inglês-Português com mais de 7.000 entradas bilíngues geradas pelo nosso método.Pontifícia Universidade Católica de São paulo2014-09-24info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://revistas.pucsp.br/index.php/delta/article/view/6268DELTA: Documentação e Estudos em Linguística Teórica e Aplicada; v. 30 n. 2 (2014)1678-460X0102-4450reponame:DELTA: Documentação de Estudos em Lingüística Teórica e Aplicadainstname:Pontifícia Universidade Católica de São Paulo (PUC-SP)instacron:PUC_SPporhttps://revistas.pucsp.br/index.php/delta/article/view/6268/15275Gamallo, Pabloinfo:eu-repo/semantics/openAccess2016-08-16T14:41:15Zoai:ojs.pkp.sfu.ca:article/6268Revistahttps://revistas.pucsp.br/deltaPRIhttps://revistas.pucsp.br/index.php/delta/oai||delta@pucsp.br1678-460X1678-460Xopendoar:2016-08-16T14:41:15DELTA: Documentação de Estudos em Lingüística Teórica e Aplicada - Pontifícia Universidade Católica de São Paulo (PUC-SP)false |
dc.title.none.fl_str_mv |
Using comparable corpora to filter bilingual dictionaries generated by transitivity Uso de corpora comparáveis para fi ltrar dicionários bilíngues gerados por transitividade |
title |
Using comparable corpora to filter bilingual dictionaries generated by transitivity |
spellingShingle |
Using comparable corpora to filter bilingual dictionaries generated by transitivity Gamallo, Pablo natural language processing information extraction comparable corpora bilingual dictionaries processamento da língua natural extração de informação corpora comparáveis dicionários bilíngues |
title_short |
Using comparable corpora to filter bilingual dictionaries generated by transitivity |
title_full |
Using comparable corpora to filter bilingual dictionaries generated by transitivity |
title_fullStr |
Using comparable corpora to filter bilingual dictionaries generated by transitivity |
title_full_unstemmed |
Using comparable corpora to filter bilingual dictionaries generated by transitivity |
title_sort |
Using comparable corpora to filter bilingual dictionaries generated by transitivity |
author |
Gamallo, Pablo |
author_facet |
Gamallo, Pablo |
author_role |
author |
dc.contributor.author.fl_str_mv |
Gamallo, Pablo |
dc.subject.por.fl_str_mv |
natural language processing information extraction comparable corpora bilingual dictionaries processamento da língua natural extração de informação corpora comparáveis dicionários bilíngues |
topic |
natural language processing information extraction comparable corpora bilingual dictionaries processamento da língua natural extração de informação corpora comparáveis dicionários bilíngues |
description |
This article proposes a method for building new bilingual dictionaries from existing ones and the use of comparable corpora. More precisely, a new bilingual dictionary with pairs in two target languages is built in two steps. First, a noisy dictionary is generated by transitivity by crossing two existing dictionaries containing translation pairs in one of the two target languages and an intermediary one. The result of crossing the two existing dictionaries gives rise to a noisy resource because of the ambiguity of words in the intermediary language. Second, odd translation pairs are filtered out by making use of a set of bilingual lexicons automatically extracted from comparable corpora. The quality of the filtered dictionary is very high, close to that of those dictionaries built by lexicographs. We also report a case study where a new, non noisy, English-Portuguese dictionary with more than 7,000 bilingual entries was automatically generated. |
publishDate |
2014 |
dc.date.none.fl_str_mv |
2014-09-24 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://revistas.pucsp.br/index.php/delta/article/view/6268 |
url |
https://revistas.pucsp.br/index.php/delta/article/view/6268 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://revistas.pucsp.br/index.php/delta/article/view/6268/15275 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Pontifícia Universidade Católica de São paulo |
publisher.none.fl_str_mv |
Pontifícia Universidade Católica de São paulo |
dc.source.none.fl_str_mv |
DELTA: Documentação e Estudos em Linguística Teórica e Aplicada; v. 30 n. 2 (2014) 1678-460X 0102-4450 reponame:DELTA: Documentação de Estudos em Lingüística Teórica e Aplicada instname:Pontifícia Universidade Católica de São Paulo (PUC-SP) instacron:PUC_SP |
instname_str |
Pontifícia Universidade Católica de São Paulo (PUC-SP) |
instacron_str |
PUC_SP |
institution |
PUC_SP |
reponame_str |
DELTA: Documentação de Estudos em Lingüística Teórica e Aplicada |
collection |
DELTA: Documentação de Estudos em Lingüística Teórica e Aplicada |
repository.name.fl_str_mv |
DELTA: Documentação de Estudos em Lingüística Teórica e Aplicada - Pontifícia Universidade Católica de São Paulo (PUC-SP) |
repository.mail.fl_str_mv |
||delta@pucsp.br |
_version_ |
1799129300255899648 |