Automatic literary school assignment: Linguistic-statistical studies of lusophone literature

Detalhes bibliográficos
Autor(a) principal: Santos, Diana
Data de Publicação: 2020
Outros Autores: Pires, Emanoel, Freitas, Cláudia, Fuão, Rebeca Schumacher, Lopes, João Marques
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://doi.org/10.21814/lm.12.1.314
Resumo: In this paper we use a set of syntactic and semantic features of Portuguese to automatically classify literary works in literary periods and/or schools, and address the issue of their appropriateness, for two different literary collections. The first task attempts to replicate the work by Barufaldi and colleagues, who applied compression methods on 37 Brazilian works by 15 different authors and classified the works in 4 different literary schools. The second collection, of 192 novels published in Portugal and Brazil in the period 1840 to 1919, features many works who cannot be singly accomodated in one literary school only, and which have been (not mutually exclusively) classified as romantic, realist, naturalist, symbolist, decadent and modernist. We use classification techniques in R, such as discriminant analysis and support vector models for the first task, and correspondence analysis for the second collection. We also apply topic modeling to (distinct subsets of) the second collection in order to investigate whether this technique can provide us with recurrent topics for different literary schools.
id RCAP_98aa9173405c3260cc4cb5e0ec722629
oai_identifier_str oai:linguamatica.com:article/314
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Automatic literary school assignment: Linguistic-statistical studies of lusophone literaturePeriodização automática: Estudos linguistíco-estatísticos de literatura lusófonaPeriodização automática: Estudos linguistíco-estatísticos de literatura lusófonadistant readingcorpus linguisticsliterary schoolPortugueseBrazilian literaturePortuguese literaturelusophone literatureleitura distantelinguística com corposliteratura lusófonaescola literáriaportuguêsliteratura brasileiraliteratura portuguesaIn this paper we use a set of syntactic and semantic features of Portuguese to automatically classify literary works in literary periods and/or schools, and address the issue of their appropriateness, for two different literary collections. The first task attempts to replicate the work by Barufaldi and colleagues, who applied compression methods on 37 Brazilian works by 15 different authors and classified the works in 4 different literary schools. The second collection, of 192 novels published in Portugal and Brazil in the period 1840 to 1919, features many works who cannot be singly accomodated in one literary school only, and which have been (not mutually exclusively) classified as romantic, realist, naturalist, symbolist, decadent and modernist. We use classification techniques in R, such as discriminant analysis and support vector models for the first task, and correspondence analysis for the second collection. We also apply topic modeling to (distinct subsets of) the second collection in order to investigate whether this technique can provide us with recurrent topics for different literary schools.Neste artigo usamos um conjunto de características sintático-semânticas da língua portuguesa para classificar em períodos literários dois conjuntos de obras. Em que medida tais características são capazes de refletir distinções relevantes no âmbito dos estudos literários é uma das questões que pretendemos investigar. O primeiro grupo de obras corresponde à replicação do trabalho relatado em 2009 por Barufaldi et al., que usaram métodos de compressão de dados sobre uma série de obras brasileiras classificadas em quatro períodos literários: barroco, arcadismo, romantismo e realismo, desde o Padre António Vieira até Raul Pompéia, contabilizando 15 autores diferentes e totalizando 37 obras. O segundo grupo inclui muito mais obras (192), tanto portuguesas como brasileiras, mas apenas integra romances ou novelas publicadas no período de 1840 a 1919. As escolas literárias escolhidas foram o realismo, o romantismo, o simbolismo, o naturalismo, o decadentismo e o modernismo, mas, ao contrário da classificação anterior, permitimos que uma mesma obra pertença a várias escolas. Usamos técnicas de classificação em R para a primeira tarefa, e análise de correspondências para a segunda. Também aplicamos técnicas de modelos de tópicos à segunda coleção para ver se é possível obter tópicos representativos de escolas literárias diferentes.Neste artigo usamos um conjunto de características sintático-semânticas da língua portuguesa para classificar em períodos literários dois conjuntos de obras. Em que medida tais características são capazes de refletir distinções relevantes no âmbito dos estudos literários é uma das questões que pretendemos investigar. O primeiro grupo de obras corresponde à replicação do trabalho relatado em 2009 por Barufaldi et al., que usaram métodos de compressão de dados sobre uma série de obras brasileiras classificadas em quatro períodos literários: barroco, arcadismo, romantismo e realismo, desde o Padre António Vieira até Raul Pompéia, contabilizando 15 autores diferentes e totalizando 37 obras. O segundo grupo inclui muito mais obras (192), tanto portuguesas como brasileiras, mas apenas integra romances ou novelas publicadas no período de 1840 a 1919. As escolas literárias escolhidas foram o realismo, o romantismo, o simbolismo, o naturalismo, o decadentismo e o modernismo, mas, ao contrário da classificação anterior, permitimos que uma mesma obra pertença a várias escolas. Usamos técnicas de classificação em R para a primeira tarefa, e análise de correspondências para a segunda. Também aplicamos técnicas de modelos de tópicos à segunda coleção para ver se é possível obter tópicos representativos de escolas literárias diferentes.Universidade do Minho e Universidade de Vigo2020-06-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.12.1.314https://doi.org/10.21814/lm.12.1.314Linguamática; Vol. 12 No. 1; 81-95Linguamática; Vol. 12 Núm. 1; 81-95Linguamática; v. 12 n. 1; 81-951647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/314https://linguamatica.com/index.php/linguamatica/article/view/314/465Direitos de Autor (c) 2020 Diana Santos, Emanoel Pires, Cláudia Freitas, Rebeca Schumacher Fuão, João Marques Lopeshttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessSantos, DianaPires, EmanoelFreitas, CláudiaFuão, Rebeca SchumacherLopes, João Marques2023-09-08T13:46:42Zoai:linguamatica.com:article/314Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:39.866921Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Automatic literary school assignment: Linguistic-statistical studies of lusophone literature
Periodização automática: Estudos linguistíco-estatísticos de literatura lusófona
Periodização automática: Estudos linguistíco-estatísticos de literatura lusófona
title Automatic literary school assignment: Linguistic-statistical studies of lusophone literature
spellingShingle Automatic literary school assignment: Linguistic-statistical studies of lusophone literature
Santos, Diana
distant reading
corpus linguistics
literary school
Portuguese
Brazilian literature
Portuguese literature
lusophone literature
leitura distante
linguística com corpos
literatura lusófona
escola literária
português
literatura brasileira
literatura portuguesa
title_short Automatic literary school assignment: Linguistic-statistical studies of lusophone literature
title_full Automatic literary school assignment: Linguistic-statistical studies of lusophone literature
title_fullStr Automatic literary school assignment: Linguistic-statistical studies of lusophone literature
title_full_unstemmed Automatic literary school assignment: Linguistic-statistical studies of lusophone literature
title_sort Automatic literary school assignment: Linguistic-statistical studies of lusophone literature
author Santos, Diana
author_facet Santos, Diana
Pires, Emanoel
Freitas, Cláudia
Fuão, Rebeca Schumacher
Lopes, João Marques
author_role author
author2 Pires, Emanoel
Freitas, Cláudia
Fuão, Rebeca Schumacher
Lopes, João Marques
author2_role author
author
author
author
dc.contributor.author.fl_str_mv Santos, Diana
Pires, Emanoel
Freitas, Cláudia
Fuão, Rebeca Schumacher
Lopes, João Marques
dc.subject.por.fl_str_mv distant reading
corpus linguistics
literary school
Portuguese
Brazilian literature
Portuguese literature
lusophone literature
leitura distante
linguística com corpos
literatura lusófona
escola literária
português
literatura brasileira
literatura portuguesa
topic distant reading
corpus linguistics
literary school
Portuguese
Brazilian literature
Portuguese literature
lusophone literature
leitura distante
linguística com corpos
literatura lusófona
escola literária
português
literatura brasileira
literatura portuguesa
description In this paper we use a set of syntactic and semantic features of Portuguese to automatically classify literary works in literary periods and/or schools, and address the issue of their appropriateness, for two different literary collections. The first task attempts to replicate the work by Barufaldi and colleagues, who applied compression methods on 37 Brazilian works by 15 different authors and classified the works in 4 different literary schools. The second collection, of 192 novels published in Portugal and Brazil in the period 1840 to 1919, features many works who cannot be singly accomodated in one literary school only, and which have been (not mutually exclusively) classified as romantic, realist, naturalist, symbolist, decadent and modernist. We use classification techniques in R, such as discriminant analysis and support vector models for the first task, and correspondence analysis for the second collection. We also apply topic modeling to (distinct subsets of) the second collection in order to investigate whether this technique can provide us with recurrent topics for different literary schools.
publishDate 2020
dc.date.none.fl_str_mv 2020-06-29
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://doi.org/10.21814/lm.12.1.314
https://doi.org/10.21814/lm.12.1.314
url https://doi.org/10.21814/lm.12.1.314
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://linguamatica.com/index.php/linguamatica/article/view/314
https://linguamatica.com/index.php/linguamatica/article/view/314/465
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
dc.source.none.fl_str_mv Linguamática; Vol. 12 No. 1; 81-95
Linguamática; Vol. 12 Núm. 1; 81-95
Linguamática; v. 12 n. 1; 81-95
1647-0818
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133554047713280