Extração multilíngue de termos multipalavra em corpora comparáveis
Autor(a) principal: | |
---|---|
Data de Publicação: | 2015 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/118257 |
Resumo: | Este trabalho investiga técnicas de extração de termos multipalavra a partir de corpora comparáveis, que são conjuntos de textos em duas (ou mais) línguas sobre o mesmo domínio. A extração de termos, especialmente termos multipalavra é muito importante para auxiliar a criação de terminologias, ontologias e o aperfeiçoamento de tradutores automáticos. Neste trabalho utilizamos um corpus comparável português/inglês e queremos encontrar termos e seus equivalentes em ambas as línguas. Para isso começamos com a extração dos termos separadamente em cada língua, utilizando padrões morfossintáticos para identificar os n-gramas (sequências de n palavras) mais prováveis de serem termos importantes para o domínio. A partir dos termos de cada língua, utilizamos o contexto, isto é, as palavras que ocorrem no entorno dos termos para comparar os termos das diferentes línguas e encontrar os equivalentes bilíngues. Tínhamos como objetivos principais neste trabalho fazer a identificação monolíngue de termos, aplicar as técnicas de alinhamento para o português e avaliar os diferentes parâmetros de tamanho e tipo (PoS utilizados) de janela para a extração de contexto. Esse é o primeiro trabalho a aplicar essa metodologia para o Português e apesar da falta de alguns recursos léxicos e computacionais (como dicionários bilíngues e parsers) para essa língua, conseguimos alcançar resultados comparáveis com o estado da arte para trabalhos em Francês/Inglês. |
id |
URGS_2e77023a3e9f52f0f8ca3ae593b6204f |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/118257 |
network_acronym_str |
URGS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
repository_id_str |
1853 |
spelling |
Prestes, Kassius VargasVillavicencio, Aline2015-06-27T02:01:37Z2015http://hdl.handle.net/10183/118257000969306Este trabalho investiga técnicas de extração de termos multipalavra a partir de corpora comparáveis, que são conjuntos de textos em duas (ou mais) línguas sobre o mesmo domínio. A extração de termos, especialmente termos multipalavra é muito importante para auxiliar a criação de terminologias, ontologias e o aperfeiçoamento de tradutores automáticos. Neste trabalho utilizamos um corpus comparável português/inglês e queremos encontrar termos e seus equivalentes em ambas as línguas. Para isso começamos com a extração dos termos separadamente em cada língua, utilizando padrões morfossintáticos para identificar os n-gramas (sequências de n palavras) mais prováveis de serem termos importantes para o domínio. A partir dos termos de cada língua, utilizamos o contexto, isto é, as palavras que ocorrem no entorno dos termos para comparar os termos das diferentes línguas e encontrar os equivalentes bilíngues. Tínhamos como objetivos principais neste trabalho fazer a identificação monolíngue de termos, aplicar as técnicas de alinhamento para o português e avaliar os diferentes parâmetros de tamanho e tipo (PoS utilizados) de janela para a extração de contexto. Esse é o primeiro trabalho a aplicar essa metodologia para o Português e apesar da falta de alguns recursos léxicos e computacionais (como dicionários bilíngues e parsers) para essa língua, conseguimos alcançar resultados comparáveis com o estado da arte para trabalhos em Francês/Inglês.This work investigates techniques for multiword term extraction from comparable corpora, which are sets of texts in two (or more) languages about the same topic. Term extraction, specially multiword terms is very important to help the creation of terminologies, ontologies and the improvement of machine translation. In this work we use a comparable corpora Portuguese/ English and want to find terms and their equivalents in both languages. To do this we start with separate term extraction for each language. Using morphossintatic patterns to identify n-grams (sequences of n words) most likely to be important terms of the domain. From the terms of each language, we use their context, i. e., the words that occurr around the term to compare the terms of different languages and to find the bilingual equivalents. We had as main goals in this work identificate monolingual terms, apply alignment techniques for Portuguese and evaluate the different parameters of size and type (used PoS) of window to the context extraction. This is the first work to apply this methodology to Portuguese and in spite of the lack of lexical and computational resources (like bilingual dictionaries and parsers) for this language, we achieved results comparable to state of the art in French/English.application/pdfporProcessamento : Linguagem naturalLíngua portuguesaNatural language processingTerm extractionMultilingual alignmentComparable corpora alignmentCorpusExtração multilíngue de termos multipalavra em corpora comparáveisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2015mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000969306.pdf000969306.pdfTexto completoapplication/pdf695514http://www.lume.ufrgs.br/bitstream/10183/118257/1/000969306.pdf23578610a330aa1c354a4b981a9eed09MD51TEXT000969306.pdf.txt000969306.pdf.txtExtracted Texttext/plain182622http://www.lume.ufrgs.br/bitstream/10183/118257/2/000969306.pdf.txtced1011af4eebac1221a625627d8a112MD52THUMBNAIL000969306.pdf.jpg000969306.pdf.jpgGenerated Thumbnailimage/jpeg1113http://www.lume.ufrgs.br/bitstream/10183/118257/3/000969306.pdf.jpgbb38467b84cfe9dd3e468baac45fe1d8MD5310183/1182572018-10-19 10:34:01.45oai:www.lume.ufrgs.br:10183/118257Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532018-10-19T13:34:01Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Extração multilíngue de termos multipalavra em corpora comparáveis |
title |
Extração multilíngue de termos multipalavra em corpora comparáveis |
spellingShingle |
Extração multilíngue de termos multipalavra em corpora comparáveis Prestes, Kassius Vargas Processamento : Linguagem natural Língua portuguesa Natural language processing Term extraction Multilingual alignment Comparable corpora alignment Corpus |
title_short |
Extração multilíngue de termos multipalavra em corpora comparáveis |
title_full |
Extração multilíngue de termos multipalavra em corpora comparáveis |
title_fullStr |
Extração multilíngue de termos multipalavra em corpora comparáveis |
title_full_unstemmed |
Extração multilíngue de termos multipalavra em corpora comparáveis |
title_sort |
Extração multilíngue de termos multipalavra em corpora comparáveis |
author |
Prestes, Kassius Vargas |
author_facet |
Prestes, Kassius Vargas |
author_role |
author |
dc.contributor.author.fl_str_mv |
Prestes, Kassius Vargas |
dc.contributor.advisor1.fl_str_mv |
Villavicencio, Aline |
contributor_str_mv |
Villavicencio, Aline |
dc.subject.por.fl_str_mv |
Processamento : Linguagem natural Língua portuguesa |
topic |
Processamento : Linguagem natural Língua portuguesa Natural language processing Term extraction Multilingual alignment Comparable corpora alignment Corpus |
dc.subject.eng.fl_str_mv |
Natural language processing Term extraction Multilingual alignment Comparable corpora alignment Corpus |
description |
Este trabalho investiga técnicas de extração de termos multipalavra a partir de corpora comparáveis, que são conjuntos de textos em duas (ou mais) línguas sobre o mesmo domínio. A extração de termos, especialmente termos multipalavra é muito importante para auxiliar a criação de terminologias, ontologias e o aperfeiçoamento de tradutores automáticos. Neste trabalho utilizamos um corpus comparável português/inglês e queremos encontrar termos e seus equivalentes em ambas as línguas. Para isso começamos com a extração dos termos separadamente em cada língua, utilizando padrões morfossintáticos para identificar os n-gramas (sequências de n palavras) mais prováveis de serem termos importantes para o domínio. A partir dos termos de cada língua, utilizamos o contexto, isto é, as palavras que ocorrem no entorno dos termos para comparar os termos das diferentes línguas e encontrar os equivalentes bilíngues. Tínhamos como objetivos principais neste trabalho fazer a identificação monolíngue de termos, aplicar as técnicas de alinhamento para o português e avaliar os diferentes parâmetros de tamanho e tipo (PoS utilizados) de janela para a extração de contexto. Esse é o primeiro trabalho a aplicar essa metodologia para o Português e apesar da falta de alguns recursos léxicos e computacionais (como dicionários bilíngues e parsers) para essa língua, conseguimos alcançar resultados comparáveis com o estado da arte para trabalhos em Francês/Inglês. |
publishDate |
2015 |
dc.date.accessioned.fl_str_mv |
2015-06-27T02:01:37Z |
dc.date.issued.fl_str_mv |
2015 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/118257 |
dc.identifier.nrb.pt_BR.fl_str_mv |
000969306 |
url |
http://hdl.handle.net/10183/118257 |
identifier_str_mv |
000969306 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/118257/1/000969306.pdf http://www.lume.ufrgs.br/bitstream/10183/118257/2/000969306.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/118257/3/000969306.pdf.jpg |
bitstream.checksum.fl_str_mv |
23578610a330aa1c354a4b981a9eed09 ced1011af4eebac1221a625627d8a112 bb38467b84cfe9dd3e468baac45fe1d8 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
_version_ |
1810085325649739776 |