Persian idioms: collection and identification in texts

Ostovar, Vahid

Persian idioms: collection and identification in texts

Detalhes bibliográficos
Autor(a) principal:	Ostovar, Vahid
Data de Publicação:	2014
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10400.1/7126
Resumo:	Dissertação de mestrado, Ciências da Linguagem, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve, 2014

Metadados do item

id	RCAP_0b8aacbd8f6108204ea762f05df564ce
oai_identifier_str	oai:sapientia.ualg.pt:10400.1/7126
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Persian idioms: collection and identification in textsCiências da linguagemLíngua persaExpressões idiomáticasLinguísticaUnidades lexicais multipalavraDomínio/Área Científica::Humanidades::Línguas e LiteraturasDissertação de mestrado, Ciências da Linguagem, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve, 2014An idiom is a string of words whose meaning is different from the meaning conveyed by its individual words. This project will study Persian idioms with the structure N0 C1 V, which are sentences with a free subject (N0), a frozen direct object (C1) and a verb (V). The purpose of this project is to build a database of Persian idioms in order to be used in the computational processing of this language. First, a selection of web sources was used for the collection of idioms; second, from this a database of Persian idioms was built; third, a set of finite-state tools was used to intersect the database with reference graphs and build FSTs (transducers) for corpus exploring; forth, these FSTs were then used to extract idiom candidates from a large subtitles Persian corpus; fifth, the resulting candidates lists was evaluated in order to: (a) estimate the scope of the database; (b) determine the precision of the task of identifying the idioms, using the finite-state tools; and (c) compare it with two association measures (t-test and chi-square). Results show chi-square to be an efficient association measures to retrieve idioms candidates; however, the finite state tolls allow for a better precision. Attention should also give to the idioms´ main verb; namely, full verbs tend to yield more precise result than more grammaticalized verbs such as support verbs. The database, in its current state, contains 364 verbal idioms form a single formal class.Uma expressão idiomática é uma sequência de palavras cujo significado é diferente do significado veiculado pelas suas palavras quando usadas individualmente. Este projeto estudou as expressões idiomáticas em língua Persa com a estrutura N0 V C1, que são frases com um sujeito livre (N0), um objeto direto fixo (C1) e um verbo (V). O objetivo deste projeto é construir um banco de dados (ou léxico-gramática) de expressões idiomáticas persas, a fim de ser utilizado no processamento computacional desta língua. Em primeiro lugar, uma seleção de fontes da web foi utilizada para a recolha de expressões idiomáticas; a partir desta recolha, procedeu-se à construção de um banco de dados de expressões idiomáticas persas; seguidamente, usaram-se ferramentas próprias para construir máquinas de estados-finitos de referência e intercetá-las com o banco de dados e assim produzir FSTs (transdutores ) capazes de explorar corpora textuais; estes FSTs foram então usados para extrair sequências candidatas ao estatuto de expressão idiomática partir de um corpus Persa de legendas de filmes; em quinto lugar, as listas de candidatos resultantes foram avaliadas com o fim de: (a) estimar a extensão da base de dados; (b) determinar a precisão da tarefa de identificação das expressões idiomáticas quando são usadas as ferramentas de estados finitos aqui empregues; e (c) comparar estes resultados com os que podem ser obtidos usando duas medidas de associação (o Student t-teste e o qui-quadrado). Os resultados mostram que o qui-quadrado é uma medida de associação eficiente para recuperar sequências candidatas a expressões idiomáticas; no entanto, as máquinas de estados finitos permitem uma melhor precisão; Também se deve dar atenção ao verbo principal envolvido nessas expressões idiomáticas, ou seja, verbos plenos tendem a produzir resultados mais precisos do que verbos mais gramaticalizados, como os verbos-suporte. O banco de dados, no seu estado atual, contém 364 expressões idiomáticas verbais, de uma única classe formal.Baptista, JorgeSapientiaOstovar, Vahid2015-11-24T09:08:11Z201420142014-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.1/7126TID:202465071enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-24T10:18:15Zoai:sapientia.ualg.pt:10400.1/7126Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:59:36.695053Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Persian idioms: collection and identification in texts
title	Persian idioms: collection and identification in texts
spellingShingle	Persian idioms: collection and identification in texts Ostovar, Vahid Ciências da linguagem Língua persa Expressões idiomáticas Linguística Unidades lexicais multipalavra Domínio/Área Científica::Humanidades::Línguas e Literaturas
title_short	Persian idioms: collection and identification in texts
title_full	Persian idioms: collection and identification in texts
title_fullStr	Persian idioms: collection and identification in texts
title_full_unstemmed	Persian idioms: collection and identification in texts
title_sort	Persian idioms: collection and identification in texts
author	Ostovar, Vahid
author_facet	Ostovar, Vahid
author_role	author
dc.contributor.none.fl_str_mv	Baptista, Jorge Sapientia
dc.contributor.author.fl_str_mv	Ostovar, Vahid
dc.subject.por.fl_str_mv	Ciências da linguagem Língua persa Expressões idiomáticas Linguística Unidades lexicais multipalavra Domínio/Área Científica::Humanidades::Línguas e Literaturas
topic	Ciências da linguagem Língua persa Expressões idiomáticas Linguística Unidades lexicais multipalavra Domínio/Área Científica::Humanidades::Línguas e Literaturas
description	Dissertação de mestrado, Ciências da Linguagem, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve, 2014
publishDate	2014
dc.date.none.fl_str_mv	2014 2014 2014-01-01T00:00:00Z 2015-11-24T09:08:11Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10400.1/7126 TID:202465071
url	http://hdl.handle.net/10400.1/7126
identifier_str_mv	TID:202465071
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799133218770780160

Persian idioms: collection and identification in texts

Registros relacionados