Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto
Autor(a) principal: | |
---|---|
Data de Publicação: | 2015 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10451/24459 |
Resumo: | Com esta dissertação pretendemos verificar em que medida uma análise combinada, quantitativa e qualitativa, pode ser a abordagem adequada para casos forenses de atribuição de autoria a textos de valor probatório. Assumindo que não é possível compreender a variedade linguística de um indivíduo sem ter previamente um conhecimento da variedade própria da comunidade em que este está inserido, partimos de um conceito de variação da língua a nível individual que não é propriamente o de idioleto, mas sim o de estilo idioletal, o conjunto das escolhas do falante individual a partir do sistema linguístico da sua própria comunidade (Labov (2006/1966):5, Turell (2010)). Reunimos um corpus de cartas variado para verificar qual a possibilidade de atribuir o autor certo a um texto questionado. O corpus incluía um conjunto de 48 cartas redigidas anonimamente por doze informantes da mesma faixa etária e do mesmo dialeto, com controlo das variáveis “formação curricular” e “género”. Para a análise quantitativa, usámos o classificador de uma Máquina de Vetores de Suporte, método usado frequentemente em estudos de atribuição de autoria, e verificámos a sua taxa de sucesso na atribuição de género, formação curricular e autoria a cada carta de ameaça, usando, como corpus textual de treino, as restantes cartas de cada autor. Numa segunda fase, repetimos o teste de classificação, mas apenas considerando uma carta de ameaça adicional, tomada como “TextoQ”. Para a análise qualitativa, recolhemos os elementos linguísticos que se afiguravam reveladores do estilo do autor no texto questionado e procurámos identificar traços coincidentes num conjunto de cartas selecionadas do corpus. Com esta experiência em ambiente controlado, conseguimos, recorrendo a uma análise combinada, atribuir a autoria de um texto hipoteticamente anónimo. Julgamos ter assim contribuído para a análise das diferenças nos enunciados escritos individuais, para a interpretação dos resultados do seu processamento computacional, e, consequentemente, para o avanço da linguística forense no contexto do estudo do português europeu. |
id |
RCAP_e9d763dd0a33c0e24ffa93f82ba77d94 |
---|---|
oai_identifier_str |
oai:repositorio.ul.pt:10451/24459 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do textoEscrita - IdentificaçãoLíngua portuguesa - Variação (Linguística)Língua portuguesa - Análise do discursoLinguística forenseTeses de mestrado - 2016LinguísticaCom esta dissertação pretendemos verificar em que medida uma análise combinada, quantitativa e qualitativa, pode ser a abordagem adequada para casos forenses de atribuição de autoria a textos de valor probatório. Assumindo que não é possível compreender a variedade linguística de um indivíduo sem ter previamente um conhecimento da variedade própria da comunidade em que este está inserido, partimos de um conceito de variação da língua a nível individual que não é propriamente o de idioleto, mas sim o de estilo idioletal, o conjunto das escolhas do falante individual a partir do sistema linguístico da sua própria comunidade (Labov (2006/1966):5, Turell (2010)). Reunimos um corpus de cartas variado para verificar qual a possibilidade de atribuir o autor certo a um texto questionado. O corpus incluía um conjunto de 48 cartas redigidas anonimamente por doze informantes da mesma faixa etária e do mesmo dialeto, com controlo das variáveis “formação curricular” e “género”. Para a análise quantitativa, usámos o classificador de uma Máquina de Vetores de Suporte, método usado frequentemente em estudos de atribuição de autoria, e verificámos a sua taxa de sucesso na atribuição de género, formação curricular e autoria a cada carta de ameaça, usando, como corpus textual de treino, as restantes cartas de cada autor. Numa segunda fase, repetimos o teste de classificação, mas apenas considerando uma carta de ameaça adicional, tomada como “TextoQ”. Para a análise qualitativa, recolhemos os elementos linguísticos que se afiguravam reveladores do estilo do autor no texto questionado e procurámos identificar traços coincidentes num conjunto de cartas selecionadas do corpus. Com esta experiência em ambiente controlado, conseguimos, recorrendo a uma análise combinada, atribuir a autoria de um texto hipoteticamente anónimo. Julgamos ter assim contribuído para a análise das diferenças nos enunciados escritos individuais, para a interpretação dos resultados do seu processamento computacional, e, consequentemente, para o avanço da linguística forense no contexto do estudo do português europeu.Abstract: With this dissertation we intend to verify in what way the combined analysis, both qualitative and quantitative, may be the suitable approach to forensic cases of authorship attribution to written texts to be used as instrumental proof. Considering that is not possible to understand the linguistic variety of an individual without previously having the knowledge of his community's variety, we assume that the most adequate concept is not the one of an idiolect but rather the concept of idiolectal style, in the sense of the set of the speaker's choices in the linguistic system of his own community. (Labov (2006/1966), Turell (2010)) In order to check if it is possible to assign the right authorship to a given text, we collected a corpus with 48 letters written anonymously by 12 informants of the same age group and sharing the same dialect. We controlled the variables “educational curriculum” and “gender”. For the quantitative analysis, we used a Support Vector Machine (SVM), as it is frequently used in the authorship attribution studies. Afterwards, we checked the success rate of the SVM classifier on the following tasks: authorship, educational curriculum and gender attribution for each of the threat letters, using the other letters from each author as a training corpus. In a second stage, we repeated the classification test, considering only an additional threat letter as a disputed text. In order to make the qualitative analysis, we gathered the features from the disputed text that could reveal the linguistic style of an unknown author. Finally, we matched those features with the selected letters from the sample corpus. By running these tests on a controlled environment it was possible to make authorship attribution to a disputed text, using a combined analysis. Thus, we consider this dissertation as a contribution not only to the analysis of individual written discourse, but also to the interpretation of the results of its computational processing, and, finally, to the progress of forensic linguistics in European Portuguese.Marquilhas, RitaRepositório da Universidade de LisboaTeles, Liliana Rita de Amorim Romão2016-07-27T13:02:37Z2016-04-222015-01-062016-04-22T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/24459TID:201217791porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:13:18Zoai:repositorio.ul.pt:10451/24459Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:41:35.932194Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto |
title |
Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto |
spellingShingle |
Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto Teles, Liliana Rita de Amorim Romão Escrita - Identificação Língua portuguesa - Variação (Linguística) Língua portuguesa - Análise do discurso Linguística forense Teses de mestrado - 2016 Linguística |
title_short |
Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto |
title_full |
Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto |
title_fullStr |
Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto |
title_full_unstemmed |
Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto |
title_sort |
Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto |
author |
Teles, Liliana Rita de Amorim Romão |
author_facet |
Teles, Liliana Rita de Amorim Romão |
author_role |
author |
dc.contributor.none.fl_str_mv |
Marquilhas, Rita Repositório da Universidade de Lisboa |
dc.contributor.author.fl_str_mv |
Teles, Liliana Rita de Amorim Romão |
dc.subject.por.fl_str_mv |
Escrita - Identificação Língua portuguesa - Variação (Linguística) Língua portuguesa - Análise do discurso Linguística forense Teses de mestrado - 2016 Linguística |
topic |
Escrita - Identificação Língua portuguesa - Variação (Linguística) Língua portuguesa - Análise do discurso Linguística forense Teses de mestrado - 2016 Linguística |
description |
Com esta dissertação pretendemos verificar em que medida uma análise combinada, quantitativa e qualitativa, pode ser a abordagem adequada para casos forenses de atribuição de autoria a textos de valor probatório. Assumindo que não é possível compreender a variedade linguística de um indivíduo sem ter previamente um conhecimento da variedade própria da comunidade em que este está inserido, partimos de um conceito de variação da língua a nível individual que não é propriamente o de idioleto, mas sim o de estilo idioletal, o conjunto das escolhas do falante individual a partir do sistema linguístico da sua própria comunidade (Labov (2006/1966):5, Turell (2010)). Reunimos um corpus de cartas variado para verificar qual a possibilidade de atribuir o autor certo a um texto questionado. O corpus incluía um conjunto de 48 cartas redigidas anonimamente por doze informantes da mesma faixa etária e do mesmo dialeto, com controlo das variáveis “formação curricular” e “género”. Para a análise quantitativa, usámos o classificador de uma Máquina de Vetores de Suporte, método usado frequentemente em estudos de atribuição de autoria, e verificámos a sua taxa de sucesso na atribuição de género, formação curricular e autoria a cada carta de ameaça, usando, como corpus textual de treino, as restantes cartas de cada autor. Numa segunda fase, repetimos o teste de classificação, mas apenas considerando uma carta de ameaça adicional, tomada como “TextoQ”. Para a análise qualitativa, recolhemos os elementos linguísticos que se afiguravam reveladores do estilo do autor no texto questionado e procurámos identificar traços coincidentes num conjunto de cartas selecionadas do corpus. Com esta experiência em ambiente controlado, conseguimos, recorrendo a uma análise combinada, atribuir a autoria de um texto hipoteticamente anónimo. Julgamos ter assim contribuído para a análise das diferenças nos enunciados escritos individuais, para a interpretação dos resultados do seu processamento computacional, e, consequentemente, para o avanço da linguística forense no contexto do estudo do português europeu. |
publishDate |
2015 |
dc.date.none.fl_str_mv |
2015-01-06 2016-07-27T13:02:37Z 2016-04-22 2016-04-22T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10451/24459 TID:201217791 |
url |
http://hdl.handle.net/10451/24459 |
identifier_str_mv |
TID:201217791 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799134327726931968 |