Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto

Teles, Liliana Rita de Amorim Romão

Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto

Detalhes bibliográficos
Autor(a) principal:	Teles, Liliana Rita de Amorim Romão
Data de Publicação:	2015
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10451/24459
Resumo:	Com esta dissertação pretendemos verificar em que medida uma análise combinada, quantitativa e qualitativa, pode ser a abordagem adequada para casos forenses de atribuição de autoria a textos de valor probatório. Assumindo que não é possível compreender a variedade linguística de um indivíduo sem ter previamente um conhecimento da variedade própria da comunidade em que este está inserido, partimos de um conceito de variação da língua a nível individual que não é propriamente o de idioleto, mas sim o de estilo idioletal, o conjunto das escolhas do falante individual a partir do sistema linguístico da sua própria comunidade (Labov (2006/1966):5, Turell (2010)). Reunimos um corpus de cartas variado para verificar qual a possibilidade de atribuir o autor certo a um texto questionado. O corpus incluía um conjunto de 48 cartas redigidas anonimamente por doze informantes da mesma faixa etária e do mesmo dialeto, com controlo das variáveis “formação curricular” e “género”. Para a análise quantitativa, usámos o classificador de uma Máquina de Vetores de Suporte, método usado frequentemente em estudos de atribuição de autoria, e verificámos a sua taxa de sucesso na atribuição de género, formação curricular e autoria a cada carta de ameaça, usando, como corpus textual de treino, as restantes cartas de cada autor. Numa segunda fase, repetimos o teste de classificação, mas apenas considerando uma carta de ameaça adicional, tomada como “TextoQ”. Para a análise qualitativa, recolhemos os elementos linguísticos que se afiguravam reveladores do estilo do autor no texto questionado e procurámos identificar traços coincidentes num conjunto de cartas selecionadas do corpus. Com esta experiência em ambiente controlado, conseguimos, recorrendo a uma análise combinada, atribuir a autoria de um texto hipoteticamente anónimo. Julgamos ter assim contribuído para a análise das diferenças nos enunciados escritos individuais, para a interpretação dos resultados do seu processamento computacional, e, consequentemente, para o avanço da linguística forense no contexto do estudo do português europeu.

Metadados do item

id	RCAP_e9d763dd0a33c0e24ffa93f82ba77d94
oai_identifier_str	oai:repositorio.ul.pt:10451/24459
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do textoEscrita - IdentificaçãoLíngua portuguesa - Variação (Linguística)Língua portuguesa - Análise do discursoLinguística forenseTeses de mestrado - 2016LinguísticaCom esta dissertação pretendemos verificar em que medida uma análise combinada, quantitativa e qualitativa, pode ser a abordagem adequada para casos forenses de atribuição de autoria a textos de valor probatório. Assumindo que não é possível compreender a variedade linguística de um indivíduo sem ter previamente um conhecimento da variedade própria da comunidade em que este está inserido, partimos de um conceito de variação da língua a nível individual que não é propriamente o de idioleto, mas sim o de estilo idioletal, o conjunto das escolhas do falante individual a partir do sistema linguístico da sua própria comunidade (Labov (2006/1966):5, Turell (2010)). Reunimos um corpus de cartas variado para verificar qual a possibilidade de atribuir o autor certo a um texto questionado. O corpus incluía um conjunto de 48 cartas redigidas anonimamente por doze informantes da mesma faixa etária e do mesmo dialeto, com controlo das variáveis “formação curricular” e “género”. Para a análise quantitativa, usámos o classificador de uma Máquina de Vetores de Suporte, método usado frequentemente em estudos de atribuição de autoria, e verificámos a sua taxa de sucesso na atribuição de género, formação curricular e autoria a cada carta de ameaça, usando, como corpus textual de treino, as restantes cartas de cada autor. Numa segunda fase, repetimos o teste de classificação, mas apenas considerando uma carta de ameaça adicional, tomada como “TextoQ”. Para a análise qualitativa, recolhemos os elementos linguísticos que se afiguravam reveladores do estilo do autor no texto questionado e procurámos identificar traços coincidentes num conjunto de cartas selecionadas do corpus. Com esta experiência em ambiente controlado, conseguimos, recorrendo a uma análise combinada, atribuir a autoria de um texto hipoteticamente anónimo. Julgamos ter assim contribuído para a análise das diferenças nos enunciados escritos individuais, para a interpretação dos resultados do seu processamento computacional, e, consequentemente, para o avanço da linguística forense no contexto do estudo do português europeu.Abstract: With this dissertation we intend to verify in what way the combined analysis, both qualitative and quantitative, may be the suitable approach to forensic cases of authorship attribution to written texts to be used as instrumental proof. Considering that is not possible to understand the linguistic variety of an individual without previously having the knowledge of his community's variety, we assume that the most adequate concept is not the one of an idiolect but rather the concept of idiolectal style, in the sense of the set of the speaker's choices in the linguistic system of his own community. (Labov (2006/1966), Turell (2010)) In order to check if it is possible to assign the right authorship to a given text, we collected a corpus with 48 letters written anonymously by 12 informants of the same age group and sharing the same dialect. We controlled the variables “educational curriculum” and “gender”. For the quantitative analysis, we used a Support Vector Machine (SVM), as it is frequently used in the authorship attribution studies. Afterwards, we checked the success rate of the SVM classifier on the following tasks: authorship, educational curriculum and gender attribution for each of the threat letters, using the other letters from each author as a training corpus. In a second stage, we repeated the classification test, considering only an additional threat letter as a disputed text. In order to make the qualitative analysis, we gathered the features from the disputed text that could reveal the linguistic style of an unknown author. Finally, we matched those features with the selected letters from the sample corpus. By running these tests on a controlled environment it was possible to make authorship attribution to a disputed text, using a combined analysis. Thus, we consider this dissertation as a contribution not only to the analysis of individual written discourse, but also to the interpretation of the results of its computational processing, and, finally, to the progress of forensic linguistics in European Portuguese.Marquilhas, RitaRepositório da Universidade de LisboaTeles, Liliana Rita de Amorim Romão2016-07-27T13:02:37Z2016-04-222015-01-062016-04-22T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/24459TID:201217791porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:13:18Zoai:repositorio.ul.pt:10451/24459Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:41:35.932194Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto
title	Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto
spellingShingle	Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto Teles, Liliana Rita de Amorim Romão Escrita - Identificação Língua portuguesa - Variação (Linguística) Língua portuguesa - Análise do discurso Linguística forense Teses de mestrado - 2016 Linguística
title_short	Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto
title_full	Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto
title_fullStr	Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto
title_full_unstemmed	Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto
title_sort	Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto
author	Teles, Liliana Rita de Amorim Romão
author_facet	Teles, Liliana Rita de Amorim Romão
author_role	author
dc.contributor.none.fl_str_mv	Marquilhas, Rita Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv	Teles, Liliana Rita de Amorim Romão
dc.subject.por.fl_str_mv	Escrita - Identificação Língua portuguesa - Variação (Linguística) Língua portuguesa - Análise do discurso Linguística forense Teses de mestrado - 2016 Linguística
topic	Escrita - Identificação Língua portuguesa - Variação (Linguística) Língua portuguesa - Análise do discurso Linguística forense Teses de mestrado - 2016 Linguística
description	Com esta dissertação pretendemos verificar em que medida uma análise combinada, quantitativa e qualitativa, pode ser a abordagem adequada para casos forenses de atribuição de autoria a textos de valor probatório. Assumindo que não é possível compreender a variedade linguística de um indivíduo sem ter previamente um conhecimento da variedade própria da comunidade em que este está inserido, partimos de um conceito de variação da língua a nível individual que não é propriamente o de idioleto, mas sim o de estilo idioletal, o conjunto das escolhas do falante individual a partir do sistema linguístico da sua própria comunidade (Labov (2006/1966):5, Turell (2010)). Reunimos um corpus de cartas variado para verificar qual a possibilidade de atribuir o autor certo a um texto questionado. O corpus incluía um conjunto de 48 cartas redigidas anonimamente por doze informantes da mesma faixa etária e do mesmo dialeto, com controlo das variáveis “formação curricular” e “género”. Para a análise quantitativa, usámos o classificador de uma Máquina de Vetores de Suporte, método usado frequentemente em estudos de atribuição de autoria, e verificámos a sua taxa de sucesso na atribuição de género, formação curricular e autoria a cada carta de ameaça, usando, como corpus textual de treino, as restantes cartas de cada autor. Numa segunda fase, repetimos o teste de classificação, mas apenas considerando uma carta de ameaça adicional, tomada como “TextoQ”. Para a análise qualitativa, recolhemos os elementos linguísticos que se afiguravam reveladores do estilo do autor no texto questionado e procurámos identificar traços coincidentes num conjunto de cartas selecionadas do corpus. Com esta experiência em ambiente controlado, conseguimos, recorrendo a uma análise combinada, atribuir a autoria de um texto hipoteticamente anónimo. Julgamos ter assim contribuído para a análise das diferenças nos enunciados escritos individuais, para a interpretação dos resultados do seu processamento computacional, e, consequentemente, para o avanço da linguística forense no contexto do estudo do português europeu.
publishDate	2015
dc.date.none.fl_str_mv	2015-01-06 2016-07-27T13:02:37Z 2016-04-22 2016-04-22T00:00:00Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10451/24459 TID:201217791
url	http://hdl.handle.net/10451/24459
identifier_str_mv	TID:201217791
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799134327726931968

Atribuição de autoria em linguística forense: uma análise combinada para identificação de autor através do texto

Registros relacionados