Persian idioms: collection and identification in texts

Detalhes bibliográficos
Autor(a) principal: Ostovar, Vahid
Data de Publicação: 2014
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.1/7126
Resumo: Dissertação de mestrado, Ciências da Linguagem, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve, 2014
id RCAP_0b8aacbd8f6108204ea762f05df564ce
oai_identifier_str oai:sapientia.ualg.pt:10400.1/7126
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Persian idioms: collection and identification in textsCiências da linguagemLíngua persaExpressões idiomáticasLinguísticaUnidades lexicais multipalavraDomínio/Área Científica::Humanidades::Línguas e LiteraturasDissertação de mestrado, Ciências da Linguagem, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve, 2014An idiom is a string of words whose meaning is different from the meaning conveyed by its individual words. This project will study Persian idioms with the structure N0 C1 V, which are sentences with a free subject (N0), a frozen direct object (C1) and a verb (V). The purpose of this project is to build a database of Persian idioms in order to be used in the computational processing of this language. First, a selection of web sources was used for the collection of idioms; second, from this a database of Persian idioms was built; third, a set of finite-state tools was used to intersect the database with reference graphs and build FSTs (transducers) for corpus exploring; forth, these FSTs were then used to extract idiom candidates from a large subtitles Persian corpus; fifth, the resulting candidates lists was evaluated in order to: (a) estimate the scope of the database; (b) determine the precision of the task of identifying the idioms, using the finite-state tools; and (c) compare it with two association measures (t-test and chi-square). Results show chi-square to be an efficient association measures to retrieve idioms candidates; however, the finite state tolls allow for a better precision. Attention should also give to the idioms´ main verb; namely, full verbs tend to yield more precise result than more grammaticalized verbs such as support verbs. The database, in its current state, contains 364 verbal idioms form a single formal class.Uma expressão idiomática é uma sequência de palavras cujo significado é diferente do significado veiculado pelas suas palavras quando usadas individualmente. Este projeto estudou as expressões idiomáticas em língua Persa com a estrutura N0 V C1, que são frases com um sujeito livre (N0), um objeto direto fixo (C1) e um verbo (V). O objetivo deste projeto é construir um banco de dados (ou léxico-gramática) de expressões idiomáticas persas, a fim de ser utilizado no processamento computacional desta língua. Em primeiro lugar, uma seleção de fontes da web foi utilizada para a recolha de expressões idiomáticas; a partir desta recolha, procedeu-se à construção de um banco de dados de expressões idiomáticas persas; seguidamente, usaram-se ferramentas próprias para construir máquinas de estados-finitos de referência e intercetá-las com o banco de dados e assim produzir FSTs (transdutores ) capazes de explorar corpora textuais; estes FSTs foram então usados para extrair sequências candidatas ao estatuto de expressão idiomática partir de um corpus Persa de legendas de filmes; em quinto lugar, as listas de candidatos resultantes foram avaliadas com o fim de: (a) estimar a extensão da base de dados; (b) determinar a precisão da tarefa de identificação das expressões idiomáticas quando são usadas as ferramentas de estados finitos aqui empregues; e (c) comparar estes resultados com os que podem ser obtidos usando duas medidas de associação (o Student t-teste e o qui-quadrado). Os resultados mostram que o qui-quadrado é uma medida de associação eficiente para recuperar sequências candidatas a expressões idiomáticas; no entanto, as máquinas de estados finitos permitem uma melhor precisão; Também se deve dar atenção ao verbo principal envolvido nessas expressões idiomáticas, ou seja, verbos plenos tendem a produzir resultados mais precisos do que verbos mais gramaticalizados, como os verbos-suporte. O banco de dados, no seu estado atual, contém 364 expressões idiomáticas verbais, de uma única classe formal.Baptista, JorgeSapientiaOstovar, Vahid2015-11-24T09:08:11Z201420142014-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.1/7126TID:202465071enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-24T10:18:15Zoai:sapientia.ualg.pt:10400.1/7126Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:59:36.695053Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Persian idioms: collection and identification in texts
title Persian idioms: collection and identification in texts
spellingShingle Persian idioms: collection and identification in texts
Ostovar, Vahid
Ciências da linguagem
Língua persa
Expressões idiomáticas
Linguística
Unidades lexicais multipalavra
Domínio/Área Científica::Humanidades::Línguas e Literaturas
title_short Persian idioms: collection and identification in texts
title_full Persian idioms: collection and identification in texts
title_fullStr Persian idioms: collection and identification in texts
title_full_unstemmed Persian idioms: collection and identification in texts
title_sort Persian idioms: collection and identification in texts
author Ostovar, Vahid
author_facet Ostovar, Vahid
author_role author
dc.contributor.none.fl_str_mv Baptista, Jorge
Sapientia
dc.contributor.author.fl_str_mv Ostovar, Vahid
dc.subject.por.fl_str_mv Ciências da linguagem
Língua persa
Expressões idiomáticas
Linguística
Unidades lexicais multipalavra
Domínio/Área Científica::Humanidades::Línguas e Literaturas
topic Ciências da linguagem
Língua persa
Expressões idiomáticas
Linguística
Unidades lexicais multipalavra
Domínio/Área Científica::Humanidades::Línguas e Literaturas
description Dissertação de mestrado, Ciências da Linguagem, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve, 2014
publishDate 2014
dc.date.none.fl_str_mv 2014
2014
2014-01-01T00:00:00Z
2015-11-24T09:08:11Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.1/7126
TID:202465071
url http://hdl.handle.net/10400.1/7126
identifier_str_mv TID:202465071
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133218770780160