Persian idioms: collection and identification in texts
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10400.1/7126 |
Resumo: | Dissertação de mestrado, Ciências da Linguagem, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve, 2014 |
id |
RCAP_0b8aacbd8f6108204ea762f05df564ce |
---|---|
oai_identifier_str |
oai:sapientia.ualg.pt:10400.1/7126 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Persian idioms: collection and identification in textsCiências da linguagemLíngua persaExpressões idiomáticasLinguísticaUnidades lexicais multipalavraDomínio/Área Científica::Humanidades::Línguas e LiteraturasDissertação de mestrado, Ciências da Linguagem, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve, 2014An idiom is a string of words whose meaning is different from the meaning conveyed by its individual words. This project will study Persian idioms with the structure N0 C1 V, which are sentences with a free subject (N0), a frozen direct object (C1) and a verb (V). The purpose of this project is to build a database of Persian idioms in order to be used in the computational processing of this language. First, a selection of web sources was used for the collection of idioms; second, from this a database of Persian idioms was built; third, a set of finite-state tools was used to intersect the database with reference graphs and build FSTs (transducers) for corpus exploring; forth, these FSTs were then used to extract idiom candidates from a large subtitles Persian corpus; fifth, the resulting candidates lists was evaluated in order to: (a) estimate the scope of the database; (b) determine the precision of the task of identifying the idioms, using the finite-state tools; and (c) compare it with two association measures (t-test and chi-square). Results show chi-square to be an efficient association measures to retrieve idioms candidates; however, the finite state tolls allow for a better precision. Attention should also give to the idioms´ main verb; namely, full verbs tend to yield more precise result than more grammaticalized verbs such as support verbs. The database, in its current state, contains 364 verbal idioms form a single formal class.Uma expressão idiomática é uma sequência de palavras cujo significado é diferente do significado veiculado pelas suas palavras quando usadas individualmente. Este projeto estudou as expressões idiomáticas em língua Persa com a estrutura N0 V C1, que são frases com um sujeito livre (N0), um objeto direto fixo (C1) e um verbo (V). O objetivo deste projeto é construir um banco de dados (ou léxico-gramática) de expressões idiomáticas persas, a fim de ser utilizado no processamento computacional desta língua. Em primeiro lugar, uma seleção de fontes da web foi utilizada para a recolha de expressões idiomáticas; a partir desta recolha, procedeu-se à construção de um banco de dados de expressões idiomáticas persas; seguidamente, usaram-se ferramentas próprias para construir máquinas de estados-finitos de referência e intercetá-las com o banco de dados e assim produzir FSTs (transdutores ) capazes de explorar corpora textuais; estes FSTs foram então usados para extrair sequências candidatas ao estatuto de expressão idiomática partir de um corpus Persa de legendas de filmes; em quinto lugar, as listas de candidatos resultantes foram avaliadas com o fim de: (a) estimar a extensão da base de dados; (b) determinar a precisão da tarefa de identificação das expressões idiomáticas quando são usadas as ferramentas de estados finitos aqui empregues; e (c) comparar estes resultados com os que podem ser obtidos usando duas medidas de associação (o Student t-teste e o qui-quadrado). Os resultados mostram que o qui-quadrado é uma medida de associação eficiente para recuperar sequências candidatas a expressões idiomáticas; no entanto, as máquinas de estados finitos permitem uma melhor precisão; Também se deve dar atenção ao verbo principal envolvido nessas expressões idiomáticas, ou seja, verbos plenos tendem a produzir resultados mais precisos do que verbos mais gramaticalizados, como os verbos-suporte. O banco de dados, no seu estado atual, contém 364 expressões idiomáticas verbais, de uma única classe formal.Baptista, JorgeSapientiaOstovar, Vahid2015-11-24T09:08:11Z201420142014-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.1/7126TID:202465071enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-24T10:18:15Zoai:sapientia.ualg.pt:10400.1/7126Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:59:36.695053Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Persian idioms: collection and identification in texts |
title |
Persian idioms: collection and identification in texts |
spellingShingle |
Persian idioms: collection and identification in texts Ostovar, Vahid Ciências da linguagem Língua persa Expressões idiomáticas Linguística Unidades lexicais multipalavra Domínio/Área Científica::Humanidades::Línguas e Literaturas |
title_short |
Persian idioms: collection and identification in texts |
title_full |
Persian idioms: collection and identification in texts |
title_fullStr |
Persian idioms: collection and identification in texts |
title_full_unstemmed |
Persian idioms: collection and identification in texts |
title_sort |
Persian idioms: collection and identification in texts |
author |
Ostovar, Vahid |
author_facet |
Ostovar, Vahid |
author_role |
author |
dc.contributor.none.fl_str_mv |
Baptista, Jorge Sapientia |
dc.contributor.author.fl_str_mv |
Ostovar, Vahid |
dc.subject.por.fl_str_mv |
Ciências da linguagem Língua persa Expressões idiomáticas Linguística Unidades lexicais multipalavra Domínio/Área Científica::Humanidades::Línguas e Literaturas |
topic |
Ciências da linguagem Língua persa Expressões idiomáticas Linguística Unidades lexicais multipalavra Domínio/Área Científica::Humanidades::Línguas e Literaturas |
description |
Dissertação de mestrado, Ciências da Linguagem, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve, 2014 |
publishDate |
2014 |
dc.date.none.fl_str_mv |
2014 2014 2014-01-01T00:00:00Z 2015-11-24T09:08:11Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.1/7126 TID:202465071 |
url |
http://hdl.handle.net/10400.1/7126 |
identifier_str_mv |
TID:202465071 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133218770780160 |