Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares

Detalhes bibliográficos
Autor(a) principal: SANTOS, Daniel Cirne Vilas-Boas dos
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPE
Texto Completo: https://repositorio.ufpe.br/handle/123456789/42036
Resumo: O aumento no volume de documentos digitais associado ao seu uso em várias áreas de conhecimento demandam recursos computacionais para sua compreensão e análise. Em casos de verificação ou atribuição de autoria, é necessário confirmar ou identificar os autores do texto. A literatura propõe promissoras abordagens que associam aprendizagem de máquina e processamento de linguagem natural para distinguir os autores pelo seu estilo de escrita. Estes trabalhos envolvem majoritariamente contextos literários ou jornalísticos e textos em inglês. Por outro lado, no contexto educacional, poucos trabalhos exploram a análise de autoria como ferramenta de apoio durante a verificação de aprendizagem, especialmente na língua portuguesa. Tal cenário é desafiador, pois apresenta um baixo volume de documentos por autor, um conjunto de autores com estilo de escrita homogêneo e restrições de formato, tema e idioma. Este trabalho explora técnicas e abordagens reconhecidas na literatura, como modelos de aprendizagem de máquina, técnicas para representação de documentos e extração de características estilométricas, com propósito de apoiar a análise de autoria em uma base de dados composta por atividades pedagógicas de estudantes de graduação. Devido ao baixo volume de exemplos, utilizamos bases de dados jornalísticas mais robustas como referência. Por meio dos experimentos, foi verificado que em domínios restritos, representações baseadas em características de estilo são superiores às abordagens meramente textuais, que sofrem maior influência do tópico em corpora mais abrangentes. Este trabalho revelou que o modelo Extremelly Randomized Trees foi superior na atribuição de autoria aos demais modelos, (como Naive Bayes, SVM, Random Forest, Regressão logística e Redes neurais) em todas as bases utilizadas, alcançando uma média de 70% de taxa de acerto e AUC 0,81. Além disso, o trabalho detalha sua metodologia para extração de características de estilo por meio do processamento de linguagem natural e quais destas mais se destacaram durante os experimentos de acordo com seus valores Shapley.
id UFPE_57ca6e89de8961900c0fa026abd14297
oai_identifier_str oai:repositorio.ufpe.br:123456789/42036
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str 2221
spelling SANTOS, Daniel Cirne Vilas-Boas doshttp://lattes.cnpq.br/8742274201842447http://lattes.cnpq.br/1244195230407619ZANCHETTIN, Cleber2021-12-09T18:27:00Z2021-12-09T18:27:00Z2021-08-13SANTOS, Daniel Cirne Vilas-Boas dos. Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2021.https://repositorio.ufpe.br/handle/123456789/42036O aumento no volume de documentos digitais associado ao seu uso em várias áreas de conhecimento demandam recursos computacionais para sua compreensão e análise. Em casos de verificação ou atribuição de autoria, é necessário confirmar ou identificar os autores do texto. A literatura propõe promissoras abordagens que associam aprendizagem de máquina e processamento de linguagem natural para distinguir os autores pelo seu estilo de escrita. Estes trabalhos envolvem majoritariamente contextos literários ou jornalísticos e textos em inglês. Por outro lado, no contexto educacional, poucos trabalhos exploram a análise de autoria como ferramenta de apoio durante a verificação de aprendizagem, especialmente na língua portuguesa. Tal cenário é desafiador, pois apresenta um baixo volume de documentos por autor, um conjunto de autores com estilo de escrita homogêneo e restrições de formato, tema e idioma. Este trabalho explora técnicas e abordagens reconhecidas na literatura, como modelos de aprendizagem de máquina, técnicas para representação de documentos e extração de características estilométricas, com propósito de apoiar a análise de autoria em uma base de dados composta por atividades pedagógicas de estudantes de graduação. Devido ao baixo volume de exemplos, utilizamos bases de dados jornalísticas mais robustas como referência. Por meio dos experimentos, foi verificado que em domínios restritos, representações baseadas em características de estilo são superiores às abordagens meramente textuais, que sofrem maior influência do tópico em corpora mais abrangentes. Este trabalho revelou que o modelo Extremelly Randomized Trees foi superior na atribuição de autoria aos demais modelos, (como Naive Bayes, SVM, Random Forest, Regressão logística e Redes neurais) em todas as bases utilizadas, alcançando uma média de 70% de taxa de acerto e AUC 0,81. Além disso, o trabalho detalha sua metodologia para extração de características de estilo por meio do processamento de linguagem natural e quais destas mais se destacaram durante os experimentos de acordo com seus valores Shapley.The growth of digital documents, associated with their usage in several knowledge areas requires computational resources for its comprehension and analysis. In authorship attribution and verification cases, it is crucial to verify or identify the documents’ authors. The literature proposes promissing approaches that associate machine learning and natural language processing to distinguish the authors by their writing style. Those studies mainly involve literary and journalistic contextS, and texts in English. On the other hand, in the educational context, small amount of research explored authorship analysis to support learning checks within the Portuguese language. Such scenario is challenging, because it has a lower volume of documents per author, a set of homogeneous authors, and restrictions in the formatting, theme, and idiom. This work explored known techniques and approaches from the literature, such as ML models, document representation techniques, and stylometric feature extraction to help authorship analysis in a dataset derived from this research composed of pedagogical activities done by undergraduate students. Due to the sample volume, we used more robust journalistic datasets as references. Throughout the experiments, we verified that stylometric representations overcome merely textual representations in restricted domains, who suffer greater impacts from the document subject in broader corpora. This study reveals that Extremely Randomized Trees are superior to the others models (Naive Bayes, SVM, Random Forest, Logistic Regression, Neural networks) for all the datasets used, reaching an average of 70% of accuracy and 0.81 AUC. Furthermore, this survey describes methodological steps for stylometric feature extraction through natural language processing, and which features were highlighted during the experiments according to Shapley values.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência computacionalEstilometriaAtribuição de autoriaClassificação de atividades pedagógicasEstudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolaresinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPECC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/42036/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81908https://repositorio.ufpe.br/bitstream/123456789/42036/3/license.txtc59d330e2c454f71974f5866a0e8a96aMD53ORIGINALDISSERTAÇÃO Daniel Cirne Vilas-Boas dos Santos.pdfDISSERTAÇÃO Daniel Cirne Vilas-Boas dos Santos.pdfapplication/pdf12631952https://repositorio.ufpe.br/bitstream/123456789/42036/1/DISSERTA%c3%87%c3%83O%20Daniel%20Cirne%20Vilas-Boas%20dos%20Santos.pdf10ca5521c5946422a37652b4b4ffc424MD51TEXTDISSERTAÇÃO Daniel Cirne Vilas-Boas dos Santos.pdf.txtDISSERTAÇÃO Daniel Cirne Vilas-Boas dos Santos.pdf.txtExtracted texttext/plain304420https://repositorio.ufpe.br/bitstream/123456789/42036/4/DISSERTA%c3%87%c3%83O%20Daniel%20Cirne%20Vilas-Boas%20dos%20Santos.pdf.txtd79df46b16f9cb69fa7cb64fe8114fb8MD54THUMBNAILDISSERTAÇÃO Daniel Cirne Vilas-Boas dos Santos.pdf.jpgDISSERTAÇÃO Daniel Cirne Vilas-Boas dos Santos.pdf.jpgGenerated Thumbnailimage/jpeg1199https://repositorio.ufpe.br/bitstream/123456789/42036/5/DISSERTA%c3%87%c3%83O%20Daniel%20Cirne%20Vilas-Boas%20dos%20Santos.pdf.jpge62e86cee835926e09d1d5110809e781MD55123456789/420362021-12-10 02:10:33.455oai:repositorio.ufpe.br:123456789/42036VGVybW8gZGUgRGVww7NzaXRvIExlZ2FsIGUgQXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2HDp8OjbyBkZSBUcmFiYWxob3MgQWNhZMOqbWljb3Mgbm8gUmVwb3NpdMOzcmlvIERpZ2l0YWwgZGEgVUZQRQoKRGVjbGFybyBwYXJhIG9zIGRldmlkb3MgZmlucyBkZXN0ZSBUZXJtbyBkZSBEZXDDs3NpdG8gTGVnYWwgZSBBdXRvcml6YcOnw6NvIHBhcmEgUHVibGljYcOnw6NvIGRlIFRyYWJhbGhvcyBBY2Fkw6ptaWNvcyBubyBSZXBvc2l0w7NyaW8gRGlnaXRhbCBkYSBVRlBFIHF1ZSBlc3RvdSBjaWVudGUgcXVlOgpJIC0gbyBjb250ZcO6ZG8gZGlzcG9uaWJpbGl6YWRvIMOpIGRlIG1pbmhhIGludGVpcmEgcmVzcG9uc2FiaWxpZGFkZTsKSUkgLSBvIGNvbnRlw7pkbyDDqSBvcmlnaW5hbCwgZSBzZSBvIHRyYWJhbGhvIGUvb3UgcGFsYXZyYXMgZGUgb3V0cmFzIHBlc3NvYXMgZm9yYW0gdXRpbGl6YWRvcywgZXN0YXMgZm9yYW0gZGV2aWRhbWVudGUgcmVjb25oZWNpZGFzOwpJSUkgLSBhIGFsdGVyYcOnw6NvIGRhIG1vZGFsaWRhZGUgZGUgYWNlc3NvIGFvIHRyYWJhbGhvIGFww7NzIG8gZGVww7NzaXRvIGUgYW50ZXMgZGUgZmluZGFyIG8gcGVyw61vZG8gZGUgZW1iYXJnbywgcXVhbmRvIGZvciBlc2NvbGhpZG8gYWNlc3NvIHJlc3RyaXRvLCBzZXLDoSBwZXJtaXRpZGEgbWVkaWFudGUgc29saWNpdGHDp8OjbyBkbyAoYSkgYXV0b3IgKGEpIGFvIFNpc3RlbWEgSW50ZWdyYWRvIGRlIEJpYmxpb3RlY2FzIGRhIFVGUEUgKFNJQi9VRlBFKS4KIApQYXJhIHRyYWJhbGhvcyBlbSBBY2Vzc28gYWJlcnRvOgpOYSBxdWFsaWRhZGUgZGUgdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGUgYXV0b3IgcXVlIHJlY2FlbSBzb2JyZSBlc3RlIFRyYWJhbGhvIEFjYWTDqm1pY28sIGZ1bmRhbWVudGFkbyBuYSBMZWkgZGUgRGlyZWl0byBBdXRvcmFsIG5vIDkuMTYwIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBhcnQuIDI5LCBpbmNpc28gSUlJLCBhdXRvcml6byBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFBlcm5hbWJ1Y28gYSBkaXNwb25pYmlsaXphciBncmF0dWl0YW1lbnRlLCBzZW0gcmVzc2FyY2ltZW50byBkb3MgZGlyZWl0b3MgYXV0b3JhaXMsIHBhcmEgZmlucyBkZSBsZWl0dXJhLCBpbXByZXNzw6NvIGUvb3UgZG93bmxvYWQgKGFxdWlzacOnw6NvKSBhdHJhdsOpcyBkbyBzaXRlIGRvIFJlcG9zaXTDs3JpbyBEaWdpdGFsIGRhIFVGUEUgbm8gZW5kZXJlw6dvIGh0dHA6Ly93d3cucmVwb3NpdG9yaW8udWZwZS5iciwgYSBwYXJ0aXIgZGEgZGF0YSBkZSBkZXDDs3NpdG8uCgpQYXJhIHRyYWJhbGhvcyBlbSBBY2Vzc28gcmVzdHJpdG86Ck5hIHF1YWxpZGFkZSBkZSB0aXR1bGFyIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkZSBhdXRvciBxdWUgcmVjYWVtIHNvYnJlIGVzdGUgVHJhYmFsaG8gZGUgQ29uY2x1c8OjbyBkZSBDdXJzbywgZnVuZGFtZW50YWRvIG5hIExlaSBkZSBEaXJlaXRvIEF1dG9yYWwgbm8gOS4xNjAgZGUgMTkgZGUgZmV2ZXJlaXJvIGRlIDE5OTgsIGFydC4gMjksIGluY2lzbyBJSUksIGF1dG9yaXpvIGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgUGVybmFtYnVjbyBhIGRpc3BvbmliaWxpemFyIGdyYXR1aXRhbWVudGUsIHNlbSByZXNzYXJjaW1lbnRvIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgcGFyYSBmaW5zIGRlIGxlaXR1cmEsIGltcHJlc3PDo28gZS9vdSBkb3dubG9hZCAoYXF1aXNpw6fDo28pIGF0cmF2w6lzIGRvIHNpdGUgZG8gUmVwb3NpdMOzcmlvIERpZ2l0YWwgZGEgVUZQRSBubyBlbmRlcmXDp28gaHR0cDovL3d3dy5yZXBvc2l0b3Jpby51ZnBlLmJyLCBxdWFuZG8gZmluZGFyIG8gcGVyw61vZG8gZGUgYXTDqSAwMSBhbm8gZGUgZW1iYXJnbywgY29uZm9ybWUgaW5mb3JtYWRvIG5vIGNhbXBvIERhdGEgZGUgRW1iYXJnby4KRepositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212021-12-10T05:10:33Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares
title Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares
spellingShingle Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares
SANTOS, Daniel Cirne Vilas-Boas dos
Inteligência computacional
Estilometria
Atribuição de autoria
Classificação de atividades pedagógicas
title_short Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares
title_full Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares
title_fullStr Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares
title_full_unstemmed Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares
title_sort Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares
author SANTOS, Daniel Cirne Vilas-Boas dos
author_facet SANTOS, Daniel Cirne Vilas-Boas dos
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/8742274201842447
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/1244195230407619
dc.contributor.author.fl_str_mv SANTOS, Daniel Cirne Vilas-Boas dos
dc.contributor.advisor1.fl_str_mv ZANCHETTIN, Cleber
contributor_str_mv ZANCHETTIN, Cleber
dc.subject.por.fl_str_mv Inteligência computacional
Estilometria
Atribuição de autoria
Classificação de atividades pedagógicas
topic Inteligência computacional
Estilometria
Atribuição de autoria
Classificação de atividades pedagógicas
description O aumento no volume de documentos digitais associado ao seu uso em várias áreas de conhecimento demandam recursos computacionais para sua compreensão e análise. Em casos de verificação ou atribuição de autoria, é necessário confirmar ou identificar os autores do texto. A literatura propõe promissoras abordagens que associam aprendizagem de máquina e processamento de linguagem natural para distinguir os autores pelo seu estilo de escrita. Estes trabalhos envolvem majoritariamente contextos literários ou jornalísticos e textos em inglês. Por outro lado, no contexto educacional, poucos trabalhos exploram a análise de autoria como ferramenta de apoio durante a verificação de aprendizagem, especialmente na língua portuguesa. Tal cenário é desafiador, pois apresenta um baixo volume de documentos por autor, um conjunto de autores com estilo de escrita homogêneo e restrições de formato, tema e idioma. Este trabalho explora técnicas e abordagens reconhecidas na literatura, como modelos de aprendizagem de máquina, técnicas para representação de documentos e extração de características estilométricas, com propósito de apoiar a análise de autoria em uma base de dados composta por atividades pedagógicas de estudantes de graduação. Devido ao baixo volume de exemplos, utilizamos bases de dados jornalísticas mais robustas como referência. Por meio dos experimentos, foi verificado que em domínios restritos, representações baseadas em características de estilo são superiores às abordagens meramente textuais, que sofrem maior influência do tópico em corpora mais abrangentes. Este trabalho revelou que o modelo Extremelly Randomized Trees foi superior na atribuição de autoria aos demais modelos, (como Naive Bayes, SVM, Random Forest, Regressão logística e Redes neurais) em todas as bases utilizadas, alcançando uma média de 70% de taxa de acerto e AUC 0,81. Além disso, o trabalho detalha sua metodologia para extração de características de estilo por meio do processamento de linguagem natural e quais destas mais se destacaram durante os experimentos de acordo com seus valores Shapley.
publishDate 2021
dc.date.accessioned.fl_str_mv 2021-12-09T18:27:00Z
dc.date.available.fl_str_mv 2021-12-09T18:27:00Z
dc.date.issued.fl_str_mv 2021-08-13
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SANTOS, Daniel Cirne Vilas-Boas dos. Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2021.
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/42036
identifier_str_mv SANTOS, Daniel Cirne Vilas-Boas dos. Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2021.
url https://repositorio.ufpe.br/handle/123456789/42036
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv UFPE
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/42036/2/license_rdf
https://repositorio.ufpe.br/bitstream/123456789/42036/3/license.txt
https://repositorio.ufpe.br/bitstream/123456789/42036/1/DISSERTA%c3%87%c3%83O%20Daniel%20Cirne%20Vilas-Boas%20dos%20Santos.pdf
https://repositorio.ufpe.br/bitstream/123456789/42036/4/DISSERTA%c3%87%c3%83O%20Daniel%20Cirne%20Vilas-Boas%20dos%20Santos.pdf.txt
https://repositorio.ufpe.br/bitstream/123456789/42036/5/DISSERTA%c3%87%c3%83O%20Daniel%20Cirne%20Vilas-Boas%20dos%20Santos.pdf.jpg
bitstream.checksum.fl_str_mv e39d27027a6cc9cb039ad269a5db8e34
c59d330e2c454f71974f5866a0e8a96a
10ca5521c5946422a37652b4b4ffc424
d79df46b16f9cb69fa7cb64fe8114fb8
e62e86cee835926e09d1d5110809e781
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1802310865651761152