Automatic compositionality detection from corpora

Detalhes bibliográficos
Autor(a) principal: Gamboa, John Cristian Borges
Data de Publicação: 2013
Tipo de documento: Trabalho de conclusão de curso
Idioma: eng
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/86409
Resumo: A classe de verbos frasais da língua inglesa apresenta níveis variáveis de idiosincrasias semânticas. Com o objetivo de detectar algumas dessas idiossincrasias (nesse caso, quanto do significado de um verbo frasal pode ser extraído de cada uma de suas palavras) um conjunto de medidades foi proposto por MCC (2003), o qual usa um tessauro como entrada. Este trabalho reimplementa essas medidas, com o foco de verificar o quão robustas elas são, ao aplicá-las em diferentes tessauros. Os tessauros são construídos usando o método em Lin (1998). Nós avaliamos nossos resultados usando uma gold standard, e os resultados sugerem o PMI como a melhor forma de filtrar os contextos nos quais os verbos são encontrados.
id UFRGS-2_d5a02023f255d36c97a0e51c60124cd7
oai_identifier_str oai:www.lume.ufrgs.br:10183/86409
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Gamboa, John Cristian BorgesVillavicencio, AlinePadró, Muntsa2014-01-22T01:54:34Z2013http://hdl.handle.net/10183/86409000910102A classe de verbos frasais da língua inglesa apresenta níveis variáveis de idiosincrasias semânticas. Com o objetivo de detectar algumas dessas idiossincrasias (nesse caso, quanto do significado de um verbo frasal pode ser extraído de cada uma de suas palavras) um conjunto de medidades foi proposto por MCC (2003), o qual usa um tessauro como entrada. Este trabalho reimplementa essas medidas, com o foco de verificar o quão robustas elas são, ao aplicá-las em diferentes tessauros. Os tessauros são construídos usando o método em Lin (1998). Nós avaliamos nossos resultados usando uma gold standard, e os resultados sugerem o PMI como a melhor forma de filtrar os contextos nos quais os verbos são encontrados.Phrasal verbs in English present varying levels of semantic idiosyncrasies. Aiming to detect some of these idiosyncrasies (in this case, how much of the meaning of a phrasal verb can be extracted from each of its words) a set of measures was proposed by MCC (2003), which use a thesaurus as input. This work reimplements those measures, focusing on checking how robust they are, by applying them on several thesauri. The thesauri were built using the method in Lin (1998). We evaluate our results using a gold standard, and the results suggest the PMI as the best way to filter the contexts the verbs are found in.application/pdfengProcessamento : Linguagem naturalGerencia : ProjetoMultiword expressionsNatural language processingVerb-particle constructionsCompositionality detectionAutomatic compositionality detection from corporaDetecção automática de composicionalidade a partir de corpora info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2013Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000910102.pdf000910102.pdfTexto completo (inglês)application/pdf823120http://www.lume.ufrgs.br/bitstream/10183/86409/1/000910102.pdfc075286b0e721804176ea3eb65dc1f8bMD51TEXT000910102.pdf.txt000910102.pdf.txtExtracted Texttext/plain70913http://www.lume.ufrgs.br/bitstream/10183/86409/2/000910102.pdf.txt56017f200d3b3a838ee1681deb5c1788MD52THUMBNAIL000910102.pdf.jpg000910102.pdf.jpgGenerated Thumbnailimage/jpeg1080http://www.lume.ufrgs.br/bitstream/10183/86409/3/000910102.pdf.jpg0c20835ec8a932700a8431ab5de51f35MD5310183/864092021-05-07 04:41:10.795866oai:www.lume.ufrgs.br:10183/86409Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2021-05-07T07:41:10Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Automatic compositionality detection from corpora
dc.title.alternative.pt.fl_str_mv Detecção automática de composicionalidade a partir de corpora
title Automatic compositionality detection from corpora
spellingShingle Automatic compositionality detection from corpora
Gamboa, John Cristian Borges
Processamento : Linguagem natural
Gerencia : Projeto
Multiword expressions
Natural language processing
Verb-particle constructions
Compositionality detection
title_short Automatic compositionality detection from corpora
title_full Automatic compositionality detection from corpora
title_fullStr Automatic compositionality detection from corpora
title_full_unstemmed Automatic compositionality detection from corpora
title_sort Automatic compositionality detection from corpora
author Gamboa, John Cristian Borges
author_facet Gamboa, John Cristian Borges
author_role author
dc.contributor.author.fl_str_mv Gamboa, John Cristian Borges
dc.contributor.advisor1.fl_str_mv Villavicencio, Aline
dc.contributor.advisor-co1.fl_str_mv Padró, Muntsa
contributor_str_mv Villavicencio, Aline
Padró, Muntsa
dc.subject.por.fl_str_mv Processamento : Linguagem natural
Gerencia : Projeto
topic Processamento : Linguagem natural
Gerencia : Projeto
Multiword expressions
Natural language processing
Verb-particle constructions
Compositionality detection
dc.subject.eng.fl_str_mv Multiword expressions
Natural language processing
Verb-particle constructions
Compositionality detection
description A classe de verbos frasais da língua inglesa apresenta níveis variáveis de idiosincrasias semânticas. Com o objetivo de detectar algumas dessas idiossincrasias (nesse caso, quanto do significado de um verbo frasal pode ser extraído de cada uma de suas palavras) um conjunto de medidades foi proposto por MCC (2003), o qual usa um tessauro como entrada. Este trabalho reimplementa essas medidas, com o foco de verificar o quão robustas elas são, ao aplicá-las em diferentes tessauros. Os tessauros são construídos usando o método em Lin (1998). Nós avaliamos nossos resultados usando uma gold standard, e os resultados sugerem o PMI como a melhor forma de filtrar os contextos nos quais os verbos são encontrados.
publishDate 2013
dc.date.issued.fl_str_mv 2013
dc.date.accessioned.fl_str_mv 2014-01-22T01:54:34Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/86409
dc.identifier.nrb.pt_BR.fl_str_mv 000910102
url http://hdl.handle.net/10183/86409
identifier_str_mv 000910102
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/86409/1/000910102.pdf
http://www.lume.ufrgs.br/bitstream/10183/86409/2/000910102.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/86409/3/000910102.pdf.jpg
bitstream.checksum.fl_str_mv c075286b0e721804176ea3eb65dc1f8b
56017f200d3b3a838ee1681deb5c1788
0c20835ec8a932700a8431ab5de51f35
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224458567942144