Identificação - extração semiautomática de colocações utilizando métodos contrastivos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2013 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/1822/44295 |
Resumo: | Dissertação de mestrado em Linguística Portuguesa e Comparada |
id |
RCAP_b5e76de079bddee002589fe3acfff2b6 |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/44295 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Identificação - extração semiautomática de colocações utilizando métodos contrastivosSemiautomatic identification - extraction of collocations using contrastive methodsIdentificación - extracción semiautomática de colocaciones utilizando métodos contrastivosHumanidades::Línguas e LiteraturasDissertação de mestrado em Linguística Portuguesa e ComparadaO presente trabalho, que se inscreve nas áreas de investigação da Lexicografia e da Linguística Computacional, pretende investigar da exequibilidade a criação de um algoritmo automático para a extração automática coerente e consistente de colocações a partir da comparação de duas línguas. Para esta experiência escolheram-se as línguas espanhola e a portuguesa e, partindo de um corpus do Banco Central Europeu, obtiveram-se 46,089 pares candidatos a colocação. Estes pares candidatos foram verificados e avaliados de forma manual, utilizando métodos contrastivos. Para além da avaliação fez-se uma análise cuidada dos vários tipos de erros existentes no algoritmo para que mais tarde este possa ser melhorado. Concluindo a análise, comprovou-se que 56,14% dos pares correspondem a combinações lexicais correctamente identificadas, das quais 13,99% eram combinações em que opera algum tipo de restrição lexical e 42,15% eram combinações livres.This work, which falls in the research areas of Lexicography and Computational Linguistics, pretends to study the practicability of an algorithm for the automatic, coherent and consistent extraction of collocations by comparing translations from two different languages. For this study the chosen languages were Spanish and Portuguese and, starting with the European Central Bank corpus, a total of 46,089 collocation candidates pairs were obtained. This data was verified and evaluated manually, using contrastive methods. Beyond the evaluation, a careful study of the different kind of errors found in the algorithm was made, so that later the algorithm can be improved. The results shown that 56,14% of the extracted pairs are correctly identified as lexical combinations. From these, 13,99% are combinations where exists some kind of lexical restriction, and 42,15% are free combinations.Este trabajo, que se encuadra dentro de las áreas de investigación de la lingüística computacional y la lexicografía, se propone investigar la viabilidad de un algoritmo para la extracción automática coherente y consistente de colocaciones a partir de la comparación de dos lenguas. Para este experimento se eligieron muestras en español y en portugués, y, a partir de un corpus del Banco Central Europeo, se obtuvieron 46.089 pares de candidatos a colocación. Estos pares de candidatos fueron revisados y evaluados manualmente, utilizando métodos contrastivos. Además de la evaluación, se hizo un análisis detallado de los distintos tipos de errores producidos, para posibilitar correcciones e mejoras posteriores del algoritmo. Concluido el análisis, se comprobó que el 56,14% de los pares corresponden a combinaciones lexicales correctamente identificadas, de las cuales el 13,99% eran combinaciones en que operaba algún tipo de restricción lexical y el 42,15% eran combinaciones libres.Iriarte Sanromán, ÁlvaroSimões, AlbertoUniversidade do MinhoVeloso, Joana Isabel da Silva20132013-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/44295por201429322info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-05-11T04:56:23Zoai:repositorium.sdum.uminho.pt:1822/44295Portal AgregadorONGhttps://www.rcaap.pt/oai/openairemluisa.alvim@gmail.comopendoar:71602024-05-11T04:56:23Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Identificação - extração semiautomática de colocações utilizando métodos contrastivos Semiautomatic identification - extraction of collocations using contrastive methods Identificación - extracción semiautomática de colocaciones utilizando métodos contrastivos |
title |
Identificação - extração semiautomática de colocações utilizando métodos contrastivos |
spellingShingle |
Identificação - extração semiautomática de colocações utilizando métodos contrastivos Veloso, Joana Isabel da Silva Humanidades::Línguas e Literaturas |
title_short |
Identificação - extração semiautomática de colocações utilizando métodos contrastivos |
title_full |
Identificação - extração semiautomática de colocações utilizando métodos contrastivos |
title_fullStr |
Identificação - extração semiautomática de colocações utilizando métodos contrastivos |
title_full_unstemmed |
Identificação - extração semiautomática de colocações utilizando métodos contrastivos |
title_sort |
Identificação - extração semiautomática de colocações utilizando métodos contrastivos |
author |
Veloso, Joana Isabel da Silva |
author_facet |
Veloso, Joana Isabel da Silva |
author_role |
author |
dc.contributor.none.fl_str_mv |
Iriarte Sanromán, Álvaro Simões, Alberto Universidade do Minho |
dc.contributor.author.fl_str_mv |
Veloso, Joana Isabel da Silva |
dc.subject.por.fl_str_mv |
Humanidades::Línguas e Literaturas |
topic |
Humanidades::Línguas e Literaturas |
description |
Dissertação de mestrado em Linguística Portuguesa e Comparada |
publishDate |
2013 |
dc.date.none.fl_str_mv |
2013 2013-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1822/44295 |
url |
http://hdl.handle.net/1822/44295 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
201429322 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
mluisa.alvim@gmail.com |
_version_ |
1817544465452105728 |