Extração multilíngue de termos multipalavra em corpora comparáveis

Prestes, Kassius Vargas

Extração multilíngue de termos multipalavra em corpora comparáveis

Detalhes bibliográficos
Autor(a) principal:	Prestes, Kassius Vargas
Data de Publicação:	2015
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo:	http://hdl.handle.net/10183/118257
Resumo:	Este trabalho investiga técnicas de extração de termos multipalavra a partir de corpora comparáveis, que são conjuntos de textos em duas (ou mais) línguas sobre o mesmo domínio. A extração de termos, especialmente termos multipalavra é muito importante para auxiliar a criação de terminologias, ontologias e o aperfeiçoamento de tradutores automáticos. Neste trabalho utilizamos um corpus comparável português/inglês e queremos encontrar termos e seus equivalentes em ambas as línguas. Para isso começamos com a extração dos termos separadamente em cada língua, utilizando padrões morfossintáticos para identificar os n-gramas (sequências de n palavras) mais prováveis de serem termos importantes para o domínio. A partir dos termos de cada língua, utilizamos o contexto, isto é, as palavras que ocorrem no entorno dos termos para comparar os termos das diferentes línguas e encontrar os equivalentes bilíngues. Tínhamos como objetivos principais neste trabalho fazer a identificação monolíngue de termos, aplicar as técnicas de alinhamento para o português e avaliar os diferentes parâmetros de tamanho e tipo (PoS utilizados) de janela para a extração de contexto. Esse é o primeiro trabalho a aplicar essa metodologia para o Português e apesar da falta de alguns recursos léxicos e computacionais (como dicionários bilíngues e parsers) para essa língua, conseguimos alcançar resultados comparáveis com o estado da arte para trabalhos em Francês/Inglês.

Metadados do item

id	URGS_2e77023a3e9f52f0f8ca3ae593b6204f
oai_identifier_str	oai:www.lume.ufrgs.br:10183/118257
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str	1853
spelling	Prestes, Kassius VargasVillavicencio, Aline2015-06-27T02:01:37Z2015http://hdl.handle.net/10183/118257000969306Este trabalho investiga técnicas de extração de termos multipalavra a partir de corpora comparáveis, que são conjuntos de textos em duas (ou mais) línguas sobre o mesmo domínio. A extração de termos, especialmente termos multipalavra é muito importante para auxiliar a criação de terminologias, ontologias e o aperfeiçoamento de tradutores automáticos. Neste trabalho utilizamos um corpus comparável português/inglês e queremos encontrar termos e seus equivalentes em ambas as línguas. Para isso começamos com a extração dos termos separadamente em cada língua, utilizando padrões morfossintáticos para identificar os n-gramas (sequências de n palavras) mais prováveis de serem termos importantes para o domínio. A partir dos termos de cada língua, utilizamos o contexto, isto é, as palavras que ocorrem no entorno dos termos para comparar os termos das diferentes línguas e encontrar os equivalentes bilíngues. Tínhamos como objetivos principais neste trabalho fazer a identificação monolíngue de termos, aplicar as técnicas de alinhamento para o português e avaliar os diferentes parâmetros de tamanho e tipo (PoS utilizados) de janela para a extração de contexto. Esse é o primeiro trabalho a aplicar essa metodologia para o Português e apesar da falta de alguns recursos léxicos e computacionais (como dicionários bilíngues e parsers) para essa língua, conseguimos alcançar resultados comparáveis com o estado da arte para trabalhos em Francês/Inglês.This work investigates techniques for multiword term extraction from comparable corpora, which are sets of texts in two (or more) languages about the same topic. Term extraction, specially multiword terms is very important to help the creation of terminologies, ontologies and the improvement of machine translation. In this work we use a comparable corpora Portuguese/ English and want to find terms and their equivalents in both languages. To do this we start with separate term extraction for each language. Using morphossintatic patterns to identify n-grams (sequences of n words) most likely to be important terms of the domain. From the terms of each language, we use their context, i. e., the words that occurr around the term to compare the terms of different languages and to find the bilingual equivalents. We had as main goals in this work identificate monolingual terms, apply alignment techniques for Portuguese and evaluate the different parameters of size and type (used PoS) of window to the context extraction. This is the first work to apply this methodology to Portuguese and in spite of the lack of lexical and computational resources (like bilingual dictionaries and parsers) for this language, we achieved results comparable to state of the art in French/English.application/pdfporProcessamento : Linguagem naturalLíngua portuguesaNatural language processingTerm extractionMultilingual alignmentComparable corpora alignmentCorpusExtração multilíngue de termos multipalavra em corpora comparáveisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2015mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000969306.pdf000969306.pdfTexto completoapplication/pdf695514http://www.lume.ufrgs.br/bitstream/10183/118257/1/000969306.pdf23578610a330aa1c354a4b981a9eed09MD51TEXT000969306.pdf.txt000969306.pdf.txtExtracted Texttext/plain182622http://www.lume.ufrgs.br/bitstream/10183/118257/2/000969306.pdf.txtced1011af4eebac1221a625627d8a112MD52THUMBNAIL000969306.pdf.jpg000969306.pdf.jpgGenerated Thumbnailimage/jpeg1113http://www.lume.ufrgs.br/bitstream/10183/118257/3/000969306.pdf.jpgbb38467b84cfe9dd3e468baac45fe1d8MD5310183/1182572018-10-19 10:34:01.45oai:www.lume.ufrgs.br:10183/118257Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532018-10-19T13:34:01Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Extração multilíngue de termos multipalavra em corpora comparáveis
title	Extração multilíngue de termos multipalavra em corpora comparáveis
spellingShingle	Extração multilíngue de termos multipalavra em corpora comparáveis Prestes, Kassius Vargas Processamento : Linguagem natural Língua portuguesa Natural language processing Term extraction Multilingual alignment Comparable corpora alignment Corpus
title_short	Extração multilíngue de termos multipalavra em corpora comparáveis
title_full	Extração multilíngue de termos multipalavra em corpora comparáveis
title_fullStr	Extração multilíngue de termos multipalavra em corpora comparáveis
title_full_unstemmed	Extração multilíngue de termos multipalavra em corpora comparáveis
title_sort	Extração multilíngue de termos multipalavra em corpora comparáveis
author	Prestes, Kassius Vargas
author_facet	Prestes, Kassius Vargas
author_role	author
dc.contributor.author.fl_str_mv	Prestes, Kassius Vargas
dc.contributor.advisor1.fl_str_mv	Villavicencio, Aline
contributor_str_mv	Villavicencio, Aline
dc.subject.por.fl_str_mv	Processamento : Linguagem natural Língua portuguesa
topic	Processamento : Linguagem natural Língua portuguesa Natural language processing Term extraction Multilingual alignment Comparable corpora alignment Corpus
dc.subject.eng.fl_str_mv	Natural language processing Term extraction Multilingual alignment Comparable corpora alignment Corpus
description	Este trabalho investiga técnicas de extração de termos multipalavra a partir de corpora comparáveis, que são conjuntos de textos em duas (ou mais) línguas sobre o mesmo domínio. A extração de termos, especialmente termos multipalavra é muito importante para auxiliar a criação de terminologias, ontologias e o aperfeiçoamento de tradutores automáticos. Neste trabalho utilizamos um corpus comparável português/inglês e queremos encontrar termos e seus equivalentes em ambas as línguas. Para isso começamos com a extração dos termos separadamente em cada língua, utilizando padrões morfossintáticos para identificar os n-gramas (sequências de n palavras) mais prováveis de serem termos importantes para o domínio. A partir dos termos de cada língua, utilizamos o contexto, isto é, as palavras que ocorrem no entorno dos termos para comparar os termos das diferentes línguas e encontrar os equivalentes bilíngues. Tínhamos como objetivos principais neste trabalho fazer a identificação monolíngue de termos, aplicar as técnicas de alinhamento para o português e avaliar os diferentes parâmetros de tamanho e tipo (PoS utilizados) de janela para a extração de contexto. Esse é o primeiro trabalho a aplicar essa metodologia para o Português e apesar da falta de alguns recursos léxicos e computacionais (como dicionários bilíngues e parsers) para essa língua, conseguimos alcançar resultados comparáveis com o estado da arte para trabalhos em Francês/Inglês.
publishDate	2015
dc.date.accessioned.fl_str_mv	2015-06-27T02:01:37Z
dc.date.issued.fl_str_mv	2015
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/118257
dc.identifier.nrb.pt_BR.fl_str_mv	000969306
url	http://hdl.handle.net/10183/118257
identifier_str_mv	000969306
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/118257/1/000969306.pdf http://www.lume.ufrgs.br/bitstream/10183/118257/2/000969306.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/118257/3/000969306.pdf.jpg
bitstream.checksum.fl_str_mv	23578610a330aa1c354a4b981a9eed09 ced1011af4eebac1221a625627d8a112 bb38467b84cfe9dd3e468baac45fe1d8
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1810085325649739776

Extração multilíngue de termos multipalavra em corpora comparáveis

Registros relacionados