Extração multilíngue de termos multipalavra em corpora comparáveis

Detalhes bibliográficos
Autor(a) principal: Prestes, Kassius Vargas
Data de Publicação: 2015
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/118257
Resumo: Este trabalho investiga técnicas de extração de termos multipalavra a partir de corpora comparáveis, que são conjuntos de textos em duas (ou mais) línguas sobre o mesmo domínio. A extração de termos, especialmente termos multipalavra é muito importante para auxiliar a criação de terminologias, ontologias e o aperfeiçoamento de tradutores automáticos. Neste trabalho utilizamos um corpus comparável português/inglês e queremos encontrar termos e seus equivalentes em ambas as línguas. Para isso começamos com a extração dos termos separadamente em cada língua, utilizando padrões morfossintáticos para identificar os n-gramas (sequências de n palavras) mais prováveis de serem termos importantes para o domínio. A partir dos termos de cada língua, utilizamos o contexto, isto é, as palavras que ocorrem no entorno dos termos para comparar os termos das diferentes línguas e encontrar os equivalentes bilíngues. Tínhamos como objetivos principais neste trabalho fazer a identificação monolíngue de termos, aplicar as técnicas de alinhamento para o português e avaliar os diferentes parâmetros de tamanho e tipo (PoS utilizados) de janela para a extração de contexto. Esse é o primeiro trabalho a aplicar essa metodologia para o Português e apesar da falta de alguns recursos léxicos e computacionais (como dicionários bilíngues e parsers) para essa língua, conseguimos alcançar resultados comparáveis com o estado da arte para trabalhos em Francês/Inglês.
id URGS_2e77023a3e9f52f0f8ca3ae593b6204f
oai_identifier_str oai:www.lume.ufrgs.br:10183/118257
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Prestes, Kassius VargasVillavicencio, Aline2015-06-27T02:01:37Z2015http://hdl.handle.net/10183/118257000969306Este trabalho investiga técnicas de extração de termos multipalavra a partir de corpora comparáveis, que são conjuntos de textos em duas (ou mais) línguas sobre o mesmo domínio. A extração de termos, especialmente termos multipalavra é muito importante para auxiliar a criação de terminologias, ontologias e o aperfeiçoamento de tradutores automáticos. Neste trabalho utilizamos um corpus comparável português/inglês e queremos encontrar termos e seus equivalentes em ambas as línguas. Para isso começamos com a extração dos termos separadamente em cada língua, utilizando padrões morfossintáticos para identificar os n-gramas (sequências de n palavras) mais prováveis de serem termos importantes para o domínio. A partir dos termos de cada língua, utilizamos o contexto, isto é, as palavras que ocorrem no entorno dos termos para comparar os termos das diferentes línguas e encontrar os equivalentes bilíngues. Tínhamos como objetivos principais neste trabalho fazer a identificação monolíngue de termos, aplicar as técnicas de alinhamento para o português e avaliar os diferentes parâmetros de tamanho e tipo (PoS utilizados) de janela para a extração de contexto. Esse é o primeiro trabalho a aplicar essa metodologia para o Português e apesar da falta de alguns recursos léxicos e computacionais (como dicionários bilíngues e parsers) para essa língua, conseguimos alcançar resultados comparáveis com o estado da arte para trabalhos em Francês/Inglês.This work investigates techniques for multiword term extraction from comparable corpora, which are sets of texts in two (or more) languages about the same topic. Term extraction, specially multiword terms is very important to help the creation of terminologies, ontologies and the improvement of machine translation. In this work we use a comparable corpora Portuguese/ English and want to find terms and their equivalents in both languages. To do this we start with separate term extraction for each language. Using morphossintatic patterns to identify n-grams (sequences of n words) most likely to be important terms of the domain. From the terms of each language, we use their context, i. e., the words that occurr around the term to compare the terms of different languages and to find the bilingual equivalents. We had as main goals in this work identificate monolingual terms, apply alignment techniques for Portuguese and evaluate the different parameters of size and type (used PoS) of window to the context extraction. This is the first work to apply this methodology to Portuguese and in spite of the lack of lexical and computational resources (like bilingual dictionaries and parsers) for this language, we achieved results comparable to state of the art in French/English.application/pdfporProcessamento : Linguagem naturalLíngua portuguesaNatural language processingTerm extractionMultilingual alignmentComparable corpora alignmentCorpusExtração multilíngue de termos multipalavra em corpora comparáveisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2015mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000969306.pdf000969306.pdfTexto completoapplication/pdf695514http://www.lume.ufrgs.br/bitstream/10183/118257/1/000969306.pdf23578610a330aa1c354a4b981a9eed09MD51TEXT000969306.pdf.txt000969306.pdf.txtExtracted Texttext/plain182622http://www.lume.ufrgs.br/bitstream/10183/118257/2/000969306.pdf.txtced1011af4eebac1221a625627d8a112MD52THUMBNAIL000969306.pdf.jpg000969306.pdf.jpgGenerated Thumbnailimage/jpeg1113http://www.lume.ufrgs.br/bitstream/10183/118257/3/000969306.pdf.jpgbb38467b84cfe9dd3e468baac45fe1d8MD5310183/1182572018-10-19 10:34:01.45oai:www.lume.ufrgs.br:10183/118257Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532018-10-19T13:34:01Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Extração multilíngue de termos multipalavra em corpora comparáveis
title Extração multilíngue de termos multipalavra em corpora comparáveis
spellingShingle Extração multilíngue de termos multipalavra em corpora comparáveis
Prestes, Kassius Vargas
Processamento : Linguagem natural
Língua portuguesa
Natural language processing
Term extraction
Multilingual alignment
Comparable corpora alignment
Corpus
title_short Extração multilíngue de termos multipalavra em corpora comparáveis
title_full Extração multilíngue de termos multipalavra em corpora comparáveis
title_fullStr Extração multilíngue de termos multipalavra em corpora comparáveis
title_full_unstemmed Extração multilíngue de termos multipalavra em corpora comparáveis
title_sort Extração multilíngue de termos multipalavra em corpora comparáveis
author Prestes, Kassius Vargas
author_facet Prestes, Kassius Vargas
author_role author
dc.contributor.author.fl_str_mv Prestes, Kassius Vargas
dc.contributor.advisor1.fl_str_mv Villavicencio, Aline
contributor_str_mv Villavicencio, Aline
dc.subject.por.fl_str_mv Processamento : Linguagem natural
Língua portuguesa
topic Processamento : Linguagem natural
Língua portuguesa
Natural language processing
Term extraction
Multilingual alignment
Comparable corpora alignment
Corpus
dc.subject.eng.fl_str_mv Natural language processing
Term extraction
Multilingual alignment
Comparable corpora alignment
Corpus
description Este trabalho investiga técnicas de extração de termos multipalavra a partir de corpora comparáveis, que são conjuntos de textos em duas (ou mais) línguas sobre o mesmo domínio. A extração de termos, especialmente termos multipalavra é muito importante para auxiliar a criação de terminologias, ontologias e o aperfeiçoamento de tradutores automáticos. Neste trabalho utilizamos um corpus comparável português/inglês e queremos encontrar termos e seus equivalentes em ambas as línguas. Para isso começamos com a extração dos termos separadamente em cada língua, utilizando padrões morfossintáticos para identificar os n-gramas (sequências de n palavras) mais prováveis de serem termos importantes para o domínio. A partir dos termos de cada língua, utilizamos o contexto, isto é, as palavras que ocorrem no entorno dos termos para comparar os termos das diferentes línguas e encontrar os equivalentes bilíngues. Tínhamos como objetivos principais neste trabalho fazer a identificação monolíngue de termos, aplicar as técnicas de alinhamento para o português e avaliar os diferentes parâmetros de tamanho e tipo (PoS utilizados) de janela para a extração de contexto. Esse é o primeiro trabalho a aplicar essa metodologia para o Português e apesar da falta de alguns recursos léxicos e computacionais (como dicionários bilíngues e parsers) para essa língua, conseguimos alcançar resultados comparáveis com o estado da arte para trabalhos em Francês/Inglês.
publishDate 2015
dc.date.accessioned.fl_str_mv 2015-06-27T02:01:37Z
dc.date.issued.fl_str_mv 2015
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/118257
dc.identifier.nrb.pt_BR.fl_str_mv 000969306
url http://hdl.handle.net/10183/118257
identifier_str_mv 000969306
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/118257/1/000969306.pdf
http://www.lume.ufrgs.br/bitstream/10183/118257/2/000969306.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/118257/3/000969306.pdf.jpg
bitstream.checksum.fl_str_mv 23578610a330aa1c354a4b981a9eed09
ced1011af4eebac1221a625627d8a112
bb38467b84cfe9dd3e468baac45fe1d8
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085325649739776