Using comparable corpora to filter bilingual dictionaries generated by transitivity

Detalhes bibliográficos
Autor(a) principal: Gamallo, Pablo
Data de Publicação: 2014
Tipo de documento: Artigo
Idioma: por
Título da fonte: DELTA: Documentação de Estudos em Lingüística Teórica e Aplicada
Texto Completo: https://revistas.pucsp.br/index.php/delta/article/view/6268
Resumo: This article proposes a method for building new bilingual dictionaries from existing ones and the use of comparable corpora. More precisely, a new bilingual dictionary with pairs in two target languages is built in two steps. First, a noisy dictionary is generated by transitivity by crossing two existing dictionaries containing translation pairs in one of the two target languages and an intermediary one. The result of crossing the two existing dictionaries gives rise to a noisy resource because of the ambiguity of words in the intermediary language. Second, odd translation pairs are filtered out by making use of a set of bilingual lexicons automatically extracted from comparable corpora. The quality of the filtered dictionary is very high, close to that of those dictionaries built by lexicographs. We also report a case study where a new, non noisy, English-Portuguese dictionary with more than 7,000 bilingual entries was automatically generated.
id PUC_SP-4_e651224e8b5217af4fe4672580321375
oai_identifier_str oai:ojs.pkp.sfu.ca:article/6268
network_acronym_str PUC_SP-4
network_name_str DELTA: Documentação de Estudos em Lingüística Teórica e Aplicada
repository_id_str
spelling Using comparable corpora to filter bilingual dictionaries generated by transitivityUso de corpora comparáveis para fi ltrar dicionários bilíngues gerados por transitividadenatural language processinginformation extractioncomparable corporabilingual dictionariesprocessamento da língua naturalextração de informaçãocorpora comparáveisdicionários bilínguesThis article proposes a method for building new bilingual dictionaries from existing ones and the use of comparable corpora. More precisely, a new bilingual dictionary with pairs in two target languages is built in two steps. First, a noisy dictionary is generated by transitivity by crossing two existing dictionaries containing translation pairs in one of the two target languages and an intermediary one. The result of crossing the two existing dictionaries gives rise to a noisy resource because of the ambiguity of words in the intermediary language. Second, odd translation pairs are filtered out by making use of a set of bilingual lexicons automatically extracted from comparable corpora. The quality of the filtered dictionary is very high, close to that of those dictionaries built by lexicographs. We also report a case study where a new, non noisy, English-Portuguese dictionary with more than 7,000 bilingual entries was automatically generated.Este artigo propõe um método para a construção de novos dicionários bilíngues a partir de dicionários já existentes e da exploração de corpora comparáveis. Mais concretamente, um novo dicionário para um par de línguas é gerado em duas etapas: primeiro, cruzam-se dicionários bilíngues entre essas línguas e uma terceira intermediária e, segundo, o resultado do cruzamento, que contém um número elevado de traduções espúrias causadas pela ambiguidade das palavras da língua intermediária, filtra-se com apoio em textos de temática comparável nas duas línguas alvo. A qualidade do dicionário derivado é muito alta, próxima dos dicionários construídos manualmente. Descreveremos um caso de estudo onde criaremos um novo dicionário Inglês-Português com mais de 7.000 entradas bilíngues geradas pelo nosso método.Pontifícia Universidade Católica de São paulo2014-09-24info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://revistas.pucsp.br/index.php/delta/article/view/6268DELTA: Documentação e Estudos em Linguística Teórica e Aplicada; v. 30 n. 2 (2014)1678-460X0102-4450reponame:DELTA: Documentação de Estudos em Lingüística Teórica e Aplicadainstname:Pontifícia Universidade Católica de São Paulo (PUC-SP)instacron:PUC_SPporhttps://revistas.pucsp.br/index.php/delta/article/view/6268/15275Gamallo, Pabloinfo:eu-repo/semantics/openAccess2016-08-16T14:41:15Zoai:ojs.pkp.sfu.ca:article/6268Revistahttps://revistas.pucsp.br/deltaPRIhttps://revistas.pucsp.br/index.php/delta/oai||delta@pucsp.br1678-460X1678-460Xopendoar:2016-08-16T14:41:15DELTA: Documentação de Estudos em Lingüística Teórica e Aplicada - Pontifícia Universidade Católica de São Paulo (PUC-SP)false
dc.title.none.fl_str_mv Using comparable corpora to filter bilingual dictionaries generated by transitivity
Uso de corpora comparáveis para fi ltrar dicionários bilíngues gerados por transitividade
title Using comparable corpora to filter bilingual dictionaries generated by transitivity
spellingShingle Using comparable corpora to filter bilingual dictionaries generated by transitivity
Gamallo, Pablo
natural language processing
information extraction
comparable corpora
bilingual dictionaries
processamento da língua natural
extração de informação
corpora comparáveis
dicionários bilíngues
title_short Using comparable corpora to filter bilingual dictionaries generated by transitivity
title_full Using comparable corpora to filter bilingual dictionaries generated by transitivity
title_fullStr Using comparable corpora to filter bilingual dictionaries generated by transitivity
title_full_unstemmed Using comparable corpora to filter bilingual dictionaries generated by transitivity
title_sort Using comparable corpora to filter bilingual dictionaries generated by transitivity
author Gamallo, Pablo
author_facet Gamallo, Pablo
author_role author
dc.contributor.author.fl_str_mv Gamallo, Pablo
dc.subject.por.fl_str_mv natural language processing
information extraction
comparable corpora
bilingual dictionaries
processamento da língua natural
extração de informação
corpora comparáveis
dicionários bilíngues
topic natural language processing
information extraction
comparable corpora
bilingual dictionaries
processamento da língua natural
extração de informação
corpora comparáveis
dicionários bilíngues
description This article proposes a method for building new bilingual dictionaries from existing ones and the use of comparable corpora. More precisely, a new bilingual dictionary with pairs in two target languages is built in two steps. First, a noisy dictionary is generated by transitivity by crossing two existing dictionaries containing translation pairs in one of the two target languages and an intermediary one. The result of crossing the two existing dictionaries gives rise to a noisy resource because of the ambiguity of words in the intermediary language. Second, odd translation pairs are filtered out by making use of a set of bilingual lexicons automatically extracted from comparable corpora. The quality of the filtered dictionary is very high, close to that of those dictionaries built by lexicographs. We also report a case study where a new, non noisy, English-Portuguese dictionary with more than 7,000 bilingual entries was automatically generated.
publishDate 2014
dc.date.none.fl_str_mv 2014-09-24
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://revistas.pucsp.br/index.php/delta/article/view/6268
url https://revistas.pucsp.br/index.php/delta/article/view/6268
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://revistas.pucsp.br/index.php/delta/article/view/6268/15275
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica de São paulo
publisher.none.fl_str_mv Pontifícia Universidade Católica de São paulo
dc.source.none.fl_str_mv DELTA: Documentação e Estudos em Linguística Teórica e Aplicada; v. 30 n. 2 (2014)
1678-460X
0102-4450
reponame:DELTA: Documentação de Estudos em Lingüística Teórica e Aplicada
instname:Pontifícia Universidade Católica de São Paulo (PUC-SP)
instacron:PUC_SP
instname_str Pontifícia Universidade Católica de São Paulo (PUC-SP)
instacron_str PUC_SP
institution PUC_SP
reponame_str DELTA: Documentação de Estudos em Lingüística Teórica e Aplicada
collection DELTA: Documentação de Estudos em Lingüística Teórica e Aplicada
repository.name.fl_str_mv DELTA: Documentação de Estudos em Lingüística Teórica e Aplicada - Pontifícia Universidade Católica de São Paulo (PUC-SP)
repository.mail.fl_str_mv ||delta@pucsp.br
_version_ 1799129300255899648