Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto

Detalhes bibliográficos
Autor(a) principal: Teles, Liliana Rita de Amorim Romão
Data de Publicação: 2015
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/24459
Resumo: Com esta dissertação pretendemos verificar em que medida uma análise combinada, quantitativa e qualitativa, pode ser a abordagem adequada para casos forenses de atribuição de autoria a textos de valor probatório. Assumindo que não é possível compreender a variedade linguística de um indivíduo sem ter previamente um conhecimento da variedade própria da comunidade em que este está inserido, partimos de um conceito de variação da língua a nível individual que não é propriamente o de idioleto, mas sim o de estilo idioletal, o conjunto das escolhas do falante individual a partir do sistema linguístico da sua própria comunidade (Labov (2006/1966):5, Turell (2010)). Reunimos um corpus de cartas variado para verificar qual a possibilidade de atribuir o autor certo a um texto questionado. O corpus incluía um conjunto de 48 cartas redigidas anonimamente por doze informantes da mesma faixa etária e do mesmo dialeto, com controlo das variáveis “formação curricular” e “género”. Para a análise quantitativa, usámos o classificador de uma Máquina de Vetores de Suporte, método usado frequentemente em estudos de atribuição de autoria, e verificámos a sua taxa de sucesso na atribuição de género, formação curricular e autoria a cada carta de ameaça, usando, como corpus textual de treino, as restantes cartas de cada autor. Numa segunda fase, repetimos o teste de classificação, mas apenas considerando uma carta de ameaça adicional, tomada como “TextoQ”. Para a análise qualitativa, recolhemos os elementos linguísticos que se afiguravam reveladores do estilo do autor no texto questionado e procurámos identificar traços coincidentes num conjunto de cartas selecionadas do corpus. Com esta experiência em ambiente controlado, conseguimos, recorrendo a uma análise combinada, atribuir a autoria de um texto hipoteticamente anónimo. Julgamos ter assim contribuído para a análise das diferenças nos enunciados escritos individuais, para a interpretação dos resultados do seu processamento computacional, e, consequentemente, para o avanço da linguística forense no contexto do estudo do português europeu.
id RCAP_e9d763dd0a33c0e24ffa93f82ba77d94
oai_identifier_str oai:repositorio.ul.pt:10451/24459
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do textoEscrita - IdentificaçãoLíngua portuguesa - Variação (Linguística)Língua portuguesa - Análise do discursoLinguística forenseTeses de mestrado - 2016LinguísticaCom esta dissertação pretendemos verificar em que medida uma análise combinada, quantitativa e qualitativa, pode ser a abordagem adequada para casos forenses de atribuição de autoria a textos de valor probatório. Assumindo que não é possível compreender a variedade linguística de um indivíduo sem ter previamente um conhecimento da variedade própria da comunidade em que este está inserido, partimos de um conceito de variação da língua a nível individual que não é propriamente o de idioleto, mas sim o de estilo idioletal, o conjunto das escolhas do falante individual a partir do sistema linguístico da sua própria comunidade (Labov (2006/1966):5, Turell (2010)). Reunimos um corpus de cartas variado para verificar qual a possibilidade de atribuir o autor certo a um texto questionado. O corpus incluía um conjunto de 48 cartas redigidas anonimamente por doze informantes da mesma faixa etária e do mesmo dialeto, com controlo das variáveis “formação curricular” e “género”. Para a análise quantitativa, usámos o classificador de uma Máquina de Vetores de Suporte, método usado frequentemente em estudos de atribuição de autoria, e verificámos a sua taxa de sucesso na atribuição de género, formação curricular e autoria a cada carta de ameaça, usando, como corpus textual de treino, as restantes cartas de cada autor. Numa segunda fase, repetimos o teste de classificação, mas apenas considerando uma carta de ameaça adicional, tomada como “TextoQ”. Para a análise qualitativa, recolhemos os elementos linguísticos que se afiguravam reveladores do estilo do autor no texto questionado e procurámos identificar traços coincidentes num conjunto de cartas selecionadas do corpus. Com esta experiência em ambiente controlado, conseguimos, recorrendo a uma análise combinada, atribuir a autoria de um texto hipoteticamente anónimo. Julgamos ter assim contribuído para a análise das diferenças nos enunciados escritos individuais, para a interpretação dos resultados do seu processamento computacional, e, consequentemente, para o avanço da linguística forense no contexto do estudo do português europeu.Abstract: With this dissertation we intend to verify in what way the combined analysis, both qualitative and quantitative, may be the suitable approach to forensic cases of authorship attribution to written texts to be used as instrumental proof. Considering that is not possible to understand the linguistic variety of an individual without previously having the knowledge of his community's variety, we assume that the most adequate concept is not the one of an idiolect but rather the concept of idiolectal style, in the sense of the set of the speaker's choices in the linguistic system of his own community. (Labov (2006/1966), Turell (2010)) In order to check if it is possible to assign the right authorship to a given text, we collected a corpus with 48 letters written anonymously by 12 informants of the same age group and sharing the same dialect. We controlled the variables “educational curriculum” and “gender”. For the quantitative analysis, we used a Support Vector Machine (SVM), as it is frequently used in the authorship attribution studies. Afterwards, we checked the success rate of the SVM classifier on the following tasks: authorship, educational curriculum and gender attribution for each of the threat letters, using the other letters from each author as a training corpus. In a second stage, we repeated the classification test, considering only an additional threat letter as a disputed text. In order to make the qualitative analysis, we gathered the features from the disputed text that could reveal the linguistic style of an unknown author. Finally, we matched those features with the selected letters from the sample corpus. By running these tests on a controlled environment it was possible to make authorship attribution to a disputed text, using a combined analysis. Thus, we consider this dissertation as a contribution not only to the analysis of individual written discourse, but also to the interpretation of the results of its computational processing, and, finally, to the progress of forensic linguistics in European Portuguese.Marquilhas, RitaRepositório da Universidade de LisboaTeles, Liliana Rita de Amorim Romão2016-07-27T13:02:37Z2016-04-222015-01-062016-04-22T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/24459TID:201217791porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:13:18Zoai:repositorio.ul.pt:10451/24459Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:41:35.932194Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto
title Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto
spellingShingle Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto
Teles, Liliana Rita de Amorim Romão
Escrita - Identificação
Língua portuguesa - Variação (Linguística)
Língua portuguesa - Análise do discurso
Linguística forense
Teses de mestrado - 2016
Linguística
title_short Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto
title_full Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto
title_fullStr Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto
title_full_unstemmed Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto
title_sort Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto
author Teles, Liliana Rita de Amorim Romão
author_facet Teles, Liliana Rita de Amorim Romão
author_role author
dc.contributor.none.fl_str_mv Marquilhas, Rita
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Teles, Liliana Rita de Amorim Romão
dc.subject.por.fl_str_mv Escrita - Identificação
Língua portuguesa - Variação (Linguística)
Língua portuguesa - Análise do discurso
Linguística forense
Teses de mestrado - 2016
Linguística
topic Escrita - Identificação
Língua portuguesa - Variação (Linguística)
Língua portuguesa - Análise do discurso
Linguística forense
Teses de mestrado - 2016
Linguística
description Com esta dissertação pretendemos verificar em que medida uma análise combinada, quantitativa e qualitativa, pode ser a abordagem adequada para casos forenses de atribuição de autoria a textos de valor probatório. Assumindo que não é possível compreender a variedade linguística de um indivíduo sem ter previamente um conhecimento da variedade própria da comunidade em que este está inserido, partimos de um conceito de variação da língua a nível individual que não é propriamente o de idioleto, mas sim o de estilo idioletal, o conjunto das escolhas do falante individual a partir do sistema linguístico da sua própria comunidade (Labov (2006/1966):5, Turell (2010)). Reunimos um corpus de cartas variado para verificar qual a possibilidade de atribuir o autor certo a um texto questionado. O corpus incluía um conjunto de 48 cartas redigidas anonimamente por doze informantes da mesma faixa etária e do mesmo dialeto, com controlo das variáveis “formação curricular” e “género”. Para a análise quantitativa, usámos o classificador de uma Máquina de Vetores de Suporte, método usado frequentemente em estudos de atribuição de autoria, e verificámos a sua taxa de sucesso na atribuição de género, formação curricular e autoria a cada carta de ameaça, usando, como corpus textual de treino, as restantes cartas de cada autor. Numa segunda fase, repetimos o teste de classificação, mas apenas considerando uma carta de ameaça adicional, tomada como “TextoQ”. Para a análise qualitativa, recolhemos os elementos linguísticos que se afiguravam reveladores do estilo do autor no texto questionado e procurámos identificar traços coincidentes num conjunto de cartas selecionadas do corpus. Com esta experiência em ambiente controlado, conseguimos, recorrendo a uma análise combinada, atribuir a autoria de um texto hipoteticamente anónimo. Julgamos ter assim contribuído para a análise das diferenças nos enunciados escritos individuais, para a interpretação dos resultados do seu processamento computacional, e, consequentemente, para o avanço da linguística forense no contexto do estudo do português europeu.
publishDate 2015
dc.date.none.fl_str_mv 2015-01-06
2016-07-27T13:02:37Z
2016-04-22
2016-04-22T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/24459
TID:201217791
url http://hdl.handle.net/10451/24459
identifier_str_mv TID:201217791
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134327726931968