Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPE |
Texto Completo: | https://repositorio.ufpe.br/handle/123456789/42036 |
Resumo: | O aumento no volume de documentos digitais associado ao seu uso em várias áreas de conhecimento demandam recursos computacionais para sua compreensão e análise. Em casos de verificação ou atribuição de autoria, é necessário confirmar ou identificar os autores do texto. A literatura propõe promissoras abordagens que associam aprendizagem de máquina e processamento de linguagem natural para distinguir os autores pelo seu estilo de escrita. Estes trabalhos envolvem majoritariamente contextos literários ou jornalísticos e textos em inglês. Por outro lado, no contexto educacional, poucos trabalhos exploram a análise de autoria como ferramenta de apoio durante a verificação de aprendizagem, especialmente na língua portuguesa. Tal cenário é desafiador, pois apresenta um baixo volume de documentos por autor, um conjunto de autores com estilo de escrita homogêneo e restrições de formato, tema e idioma. Este trabalho explora técnicas e abordagens reconhecidas na literatura, como modelos de aprendizagem de máquina, técnicas para representação de documentos e extração de características estilométricas, com propósito de apoiar a análise de autoria em uma base de dados composta por atividades pedagógicas de estudantes de graduação. Devido ao baixo volume de exemplos, utilizamos bases de dados jornalísticas mais robustas como referência. Por meio dos experimentos, foi verificado que em domínios restritos, representações baseadas em características de estilo são superiores às abordagens meramente textuais, que sofrem maior influência do tópico em corpora mais abrangentes. Este trabalho revelou que o modelo Extremelly Randomized Trees foi superior na atribuição de autoria aos demais modelos, (como Naive Bayes, SVM, Random Forest, Regressão logística e Redes neurais) em todas as bases utilizadas, alcançando uma média de 70% de taxa de acerto e AUC 0,81. Além disso, o trabalho detalha sua metodologia para extração de características de estilo por meio do processamento de linguagem natural e quais destas mais se destacaram durante os experimentos de acordo com seus valores Shapley. |
id |
UFPE_57ca6e89de8961900c0fa026abd14297 |
---|---|
oai_identifier_str |
oai:repositorio.ufpe.br:123456789/42036 |
network_acronym_str |
UFPE |
network_name_str |
Repositório Institucional da UFPE |
repository_id_str |
2221 |
spelling |
SANTOS, Daniel Cirne Vilas-Boas doshttp://lattes.cnpq.br/8742274201842447http://lattes.cnpq.br/1244195230407619ZANCHETTIN, Cleber2021-12-09T18:27:00Z2021-12-09T18:27:00Z2021-08-13SANTOS, Daniel Cirne Vilas-Boas dos. Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2021.https://repositorio.ufpe.br/handle/123456789/42036O aumento no volume de documentos digitais associado ao seu uso em várias áreas de conhecimento demandam recursos computacionais para sua compreensão e análise. Em casos de verificação ou atribuição de autoria, é necessário confirmar ou identificar os autores do texto. A literatura propõe promissoras abordagens que associam aprendizagem de máquina e processamento de linguagem natural para distinguir os autores pelo seu estilo de escrita. Estes trabalhos envolvem majoritariamente contextos literários ou jornalísticos e textos em inglês. Por outro lado, no contexto educacional, poucos trabalhos exploram a análise de autoria como ferramenta de apoio durante a verificação de aprendizagem, especialmente na língua portuguesa. Tal cenário é desafiador, pois apresenta um baixo volume de documentos por autor, um conjunto de autores com estilo de escrita homogêneo e restrições de formato, tema e idioma. Este trabalho explora técnicas e abordagens reconhecidas na literatura, como modelos de aprendizagem de máquina, técnicas para representação de documentos e extração de características estilométricas, com propósito de apoiar a análise de autoria em uma base de dados composta por atividades pedagógicas de estudantes de graduação. Devido ao baixo volume de exemplos, utilizamos bases de dados jornalísticas mais robustas como referência. Por meio dos experimentos, foi verificado que em domínios restritos, representações baseadas em características de estilo são superiores às abordagens meramente textuais, que sofrem maior influência do tópico em corpora mais abrangentes. Este trabalho revelou que o modelo Extremelly Randomized Trees foi superior na atribuição de autoria aos demais modelos, (como Naive Bayes, SVM, Random Forest, Regressão logística e Redes neurais) em todas as bases utilizadas, alcançando uma média de 70% de taxa de acerto e AUC 0,81. Além disso, o trabalho detalha sua metodologia para extração de características de estilo por meio do processamento de linguagem natural e quais destas mais se destacaram durante os experimentos de acordo com seus valores Shapley.The growth of digital documents, associated with their usage in several knowledge areas requires computational resources for its comprehension and analysis. In authorship attribution and verification cases, it is crucial to verify or identify the documents’ authors. The literature proposes promissing approaches that associate machine learning and natural language processing to distinguish the authors by their writing style. Those studies mainly involve literary and journalistic contextS, and texts in English. On the other hand, in the educational context, small amount of research explored authorship analysis to support learning checks within the Portuguese language. Such scenario is challenging, because it has a lower volume of documents per author, a set of homogeneous authors, and restrictions in the formatting, theme, and idiom. This work explored known techniques and approaches from the literature, such as ML models, document representation techniques, and stylometric feature extraction to help authorship analysis in a dataset derived from this research composed of pedagogical activities done by undergraduate students. Due to the sample volume, we used more robust journalistic datasets as references. Throughout the experiments, we verified that stylometric representations overcome merely textual representations in restricted domains, who suffer greater impacts from the document subject in broader corpora. This study reveals that Extremely Randomized Trees are superior to the others models (Naive Bayes, SVM, Random Forest, Logistic Regression, Neural networks) for all the datasets used, reaching an average of 70% of accuracy and 0.81 AUC. Furthermore, this survey describes methodological steps for stylometric feature extraction through natural language processing, and which features were highlighted during the experiments according to Shapley values.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência computacionalEstilometriaAtribuição de autoriaClassificação de atividades pedagógicasEstudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolaresinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPECC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/42036/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81908https://repositorio.ufpe.br/bitstream/123456789/42036/3/license.txtc59d330e2c454f71974f5866a0e8a96aMD53ORIGINALDISSERTAÇÃO Daniel Cirne Vilas-Boas dos Santos.pdfDISSERTAÇÃO Daniel Cirne Vilas-Boas dos Santos.pdfapplication/pdf12631952https://repositorio.ufpe.br/bitstream/123456789/42036/1/DISSERTA%c3%87%c3%83O%20Daniel%20Cirne%20Vilas-Boas%20dos%20Santos.pdf10ca5521c5946422a37652b4b4ffc424MD51TEXTDISSERTAÇÃO Daniel Cirne Vilas-Boas dos Santos.pdf.txtDISSERTAÇÃO Daniel Cirne Vilas-Boas dos Santos.pdf.txtExtracted texttext/plain304420https://repositorio.ufpe.br/bitstream/123456789/42036/4/DISSERTA%c3%87%c3%83O%20Daniel%20Cirne%20Vilas-Boas%20dos%20Santos.pdf.txtd79df46b16f9cb69fa7cb64fe8114fb8MD54THUMBNAILDISSERTAÇÃO Daniel Cirne Vilas-Boas dos Santos.pdf.jpgDISSERTAÇÃO Daniel Cirne Vilas-Boas dos Santos.pdf.jpgGenerated Thumbnailimage/jpeg1199https://repositorio.ufpe.br/bitstream/123456789/42036/5/DISSERTA%c3%87%c3%83O%20Daniel%20Cirne%20Vilas-Boas%20dos%20Santos.pdf.jpge62e86cee835926e09d1d5110809e781MD55123456789/420362021-12-10 02:10:33.455oai:repositorio.ufpe.br:123456789/42036VGVybW8gZGUgRGVww7NzaXRvIExlZ2FsIGUgQXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2HDp8OjbyBkZSBUcmFiYWxob3MgQWNhZMOqbWljb3Mgbm8gUmVwb3NpdMOzcmlvIERpZ2l0YWwgZGEgVUZQRQoKRGVjbGFybyBwYXJhIG9zIGRldmlkb3MgZmlucyBkZXN0ZSBUZXJtbyBkZSBEZXDDs3NpdG8gTGVnYWwgZSBBdXRvcml6YcOnw6NvIHBhcmEgUHVibGljYcOnw6NvIGRlIFRyYWJhbGhvcyBBY2Fkw6ptaWNvcyBubyBSZXBvc2l0w7NyaW8gRGlnaXRhbCBkYSBVRlBFIHF1ZSBlc3RvdSBjaWVudGUgcXVlOgpJIC0gbyBjb250ZcO6ZG8gZGlzcG9uaWJpbGl6YWRvIMOpIGRlIG1pbmhhIGludGVpcmEgcmVzcG9uc2FiaWxpZGFkZTsKSUkgLSBvIGNvbnRlw7pkbyDDqSBvcmlnaW5hbCwgZSBzZSBvIHRyYWJhbGhvIGUvb3UgcGFsYXZyYXMgZGUgb3V0cmFzIHBlc3NvYXMgZm9yYW0gdXRpbGl6YWRvcywgZXN0YXMgZm9yYW0gZGV2aWRhbWVudGUgcmVjb25oZWNpZGFzOwpJSUkgLSBhIGFsdGVyYcOnw6NvIGRhIG1vZGFsaWRhZGUgZGUgYWNlc3NvIGFvIHRyYWJhbGhvIGFww7NzIG8gZGVww7NzaXRvIGUgYW50ZXMgZGUgZmluZGFyIG8gcGVyw61vZG8gZGUgZW1iYXJnbywgcXVhbmRvIGZvciBlc2NvbGhpZG8gYWNlc3NvIHJlc3RyaXRvLCBzZXLDoSBwZXJtaXRpZGEgbWVkaWFudGUgc29saWNpdGHDp8OjbyBkbyAoYSkgYXV0b3IgKGEpIGFvIFNpc3RlbWEgSW50ZWdyYWRvIGRlIEJpYmxpb3RlY2FzIGRhIFVGUEUgKFNJQi9VRlBFKS4KIApQYXJhIHRyYWJhbGhvcyBlbSBBY2Vzc28gYWJlcnRvOgpOYSBxdWFsaWRhZGUgZGUgdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGUgYXV0b3IgcXVlIHJlY2FlbSBzb2JyZSBlc3RlIFRyYWJhbGhvIEFjYWTDqm1pY28sIGZ1bmRhbWVudGFkbyBuYSBMZWkgZGUgRGlyZWl0byBBdXRvcmFsIG5vIDkuMTYwIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBhcnQuIDI5LCBpbmNpc28gSUlJLCBhdXRvcml6byBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFBlcm5hbWJ1Y28gYSBkaXNwb25pYmlsaXphciBncmF0dWl0YW1lbnRlLCBzZW0gcmVzc2FyY2ltZW50byBkb3MgZGlyZWl0b3MgYXV0b3JhaXMsIHBhcmEgZmlucyBkZSBsZWl0dXJhLCBpbXByZXNzw6NvIGUvb3UgZG93bmxvYWQgKGFxdWlzacOnw6NvKSBhdHJhdsOpcyBkbyBzaXRlIGRvIFJlcG9zaXTDs3JpbyBEaWdpdGFsIGRhIFVGUEUgbm8gZW5kZXJlw6dvIGh0dHA6Ly93d3cucmVwb3NpdG9yaW8udWZwZS5iciwgYSBwYXJ0aXIgZGEgZGF0YSBkZSBkZXDDs3NpdG8uCgpQYXJhIHRyYWJhbGhvcyBlbSBBY2Vzc28gcmVzdHJpdG86Ck5hIHF1YWxpZGFkZSBkZSB0aXR1bGFyIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkZSBhdXRvciBxdWUgcmVjYWVtIHNvYnJlIGVzdGUgVHJhYmFsaG8gZGUgQ29uY2x1c8OjbyBkZSBDdXJzbywgZnVuZGFtZW50YWRvIG5hIExlaSBkZSBEaXJlaXRvIEF1dG9yYWwgbm8gOS4xNjAgZGUgMTkgZGUgZmV2ZXJlaXJvIGRlIDE5OTgsIGFydC4gMjksIGluY2lzbyBJSUksIGF1dG9yaXpvIGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgUGVybmFtYnVjbyBhIGRpc3BvbmliaWxpemFyIGdyYXR1aXRhbWVudGUsIHNlbSByZXNzYXJjaW1lbnRvIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgcGFyYSBmaW5zIGRlIGxlaXR1cmEsIGltcHJlc3PDo28gZS9vdSBkb3dubG9hZCAoYXF1aXNpw6fDo28pIGF0cmF2w6lzIGRvIHNpdGUgZG8gUmVwb3NpdMOzcmlvIERpZ2l0YWwgZGEgVUZQRSBubyBlbmRlcmXDp28gaHR0cDovL3d3dy5yZXBvc2l0b3Jpby51ZnBlLmJyLCBxdWFuZG8gZmluZGFyIG8gcGVyw61vZG8gZGUgYXTDqSAwMSBhbm8gZGUgZW1iYXJnbywgY29uZm9ybWUgaW5mb3JtYWRvIG5vIGNhbXBvIERhdGEgZGUgRW1iYXJnby4KRepositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212021-12-10T05:10:33Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
dc.title.pt_BR.fl_str_mv |
Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares |
title |
Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares |
spellingShingle |
Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares SANTOS, Daniel Cirne Vilas-Boas dos Inteligência computacional Estilometria Atribuição de autoria Classificação de atividades pedagógicas |
title_short |
Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares |
title_full |
Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares |
title_fullStr |
Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares |
title_full_unstemmed |
Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares |
title_sort |
Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares |
author |
SANTOS, Daniel Cirne Vilas-Boas dos |
author_facet |
SANTOS, Daniel Cirne Vilas-Boas dos |
author_role |
author |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/8742274201842447 |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/1244195230407619 |
dc.contributor.author.fl_str_mv |
SANTOS, Daniel Cirne Vilas-Boas dos |
dc.contributor.advisor1.fl_str_mv |
ZANCHETTIN, Cleber |
contributor_str_mv |
ZANCHETTIN, Cleber |
dc.subject.por.fl_str_mv |
Inteligência computacional Estilometria Atribuição de autoria Classificação de atividades pedagógicas |
topic |
Inteligência computacional Estilometria Atribuição de autoria Classificação de atividades pedagógicas |
description |
O aumento no volume de documentos digitais associado ao seu uso em várias áreas de conhecimento demandam recursos computacionais para sua compreensão e análise. Em casos de verificação ou atribuição de autoria, é necessário confirmar ou identificar os autores do texto. A literatura propõe promissoras abordagens que associam aprendizagem de máquina e processamento de linguagem natural para distinguir os autores pelo seu estilo de escrita. Estes trabalhos envolvem majoritariamente contextos literários ou jornalísticos e textos em inglês. Por outro lado, no contexto educacional, poucos trabalhos exploram a análise de autoria como ferramenta de apoio durante a verificação de aprendizagem, especialmente na língua portuguesa. Tal cenário é desafiador, pois apresenta um baixo volume de documentos por autor, um conjunto de autores com estilo de escrita homogêneo e restrições de formato, tema e idioma. Este trabalho explora técnicas e abordagens reconhecidas na literatura, como modelos de aprendizagem de máquina, técnicas para representação de documentos e extração de características estilométricas, com propósito de apoiar a análise de autoria em uma base de dados composta por atividades pedagógicas de estudantes de graduação. Devido ao baixo volume de exemplos, utilizamos bases de dados jornalísticas mais robustas como referência. Por meio dos experimentos, foi verificado que em domínios restritos, representações baseadas em características de estilo são superiores às abordagens meramente textuais, que sofrem maior influência do tópico em corpora mais abrangentes. Este trabalho revelou que o modelo Extremelly Randomized Trees foi superior na atribuição de autoria aos demais modelos, (como Naive Bayes, SVM, Random Forest, Regressão logística e Redes neurais) em todas as bases utilizadas, alcançando uma média de 70% de taxa de acerto e AUC 0,81. Além disso, o trabalho detalha sua metodologia para extração de características de estilo por meio do processamento de linguagem natural e quais destas mais se destacaram durante os experimentos de acordo com seus valores Shapley. |
publishDate |
2021 |
dc.date.accessioned.fl_str_mv |
2021-12-09T18:27:00Z |
dc.date.available.fl_str_mv |
2021-12-09T18:27:00Z |
dc.date.issued.fl_str_mv |
2021-08-13 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
SANTOS, Daniel Cirne Vilas-Boas dos. Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2021. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufpe.br/handle/123456789/42036 |
identifier_str_mv |
SANTOS, Daniel Cirne Vilas-Boas dos. Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2021. |
url |
https://repositorio.ufpe.br/handle/123456789/42036 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.publisher.program.fl_str_mv |
Programa de Pos Graduacao em Ciencia da Computacao |
dc.publisher.initials.fl_str_mv |
UFPE |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
instname_str |
Universidade Federal de Pernambuco (UFPE) |
instacron_str |
UFPE |
institution |
UFPE |
reponame_str |
Repositório Institucional da UFPE |
collection |
Repositório Institucional da UFPE |
bitstream.url.fl_str_mv |
https://repositorio.ufpe.br/bitstream/123456789/42036/2/license_rdf https://repositorio.ufpe.br/bitstream/123456789/42036/3/license.txt https://repositorio.ufpe.br/bitstream/123456789/42036/1/DISSERTA%c3%87%c3%83O%20Daniel%20Cirne%20Vilas-Boas%20dos%20Santos.pdf https://repositorio.ufpe.br/bitstream/123456789/42036/4/DISSERTA%c3%87%c3%83O%20Daniel%20Cirne%20Vilas-Boas%20dos%20Santos.pdf.txt https://repositorio.ufpe.br/bitstream/123456789/42036/5/DISSERTA%c3%87%c3%83O%20Daniel%20Cirne%20Vilas-Boas%20dos%20Santos.pdf.jpg |
bitstream.checksum.fl_str_mv |
e39d27027a6cc9cb039ad269a5db8e34 c59d330e2c454f71974f5866a0e8a96a 10ca5521c5946422a37652b4b4ffc424 d79df46b16f9cb69fa7cb64fe8114fb8 e62e86cee835926e09d1d5110809e781 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
repository.mail.fl_str_mv |
attena@ufpe.br |
_version_ |
1802310865651761152 |