Automatic literary school assignment: Linguistic-statistical studies of lusophone literature
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Outros Autores: | , , , |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://doi.org/10.21814/lm.12.1.314 |
Resumo: | In this paper we use a set of syntactic and semantic features of Portuguese to automatically classify literary works in literary periods and/or schools, and address the issue of their appropriateness, for two different literary collections. The first task attempts to replicate the work by Barufaldi and colleagues, who applied compression methods on 37 Brazilian works by 15 different authors and classified the works in 4 different literary schools. The second collection, of 192 novels published in Portugal and Brazil in the period 1840 to 1919, features many works who cannot be singly accomodated in one literary school only, and which have been (not mutually exclusively) classified as romantic, realist, naturalist, symbolist, decadent and modernist. We use classification techniques in R, such as discriminant analysis and support vector models for the first task, and correspondence analysis for the second collection. We also apply topic modeling to (distinct subsets of) the second collection in order to investigate whether this technique can provide us with recurrent topics for different literary schools. |
id |
RCAP_98aa9173405c3260cc4cb5e0ec722629 |
---|---|
oai_identifier_str |
oai:linguamatica.com:article/314 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Automatic literary school assignment: Linguistic-statistical studies of lusophone literaturePeriodização automática: Estudos linguistíco-estatísticos de literatura lusófonaPeriodização automática: Estudos linguistíco-estatísticos de literatura lusófonadistant readingcorpus linguisticsliterary schoolPortugueseBrazilian literaturePortuguese literaturelusophone literatureleitura distantelinguística com corposliteratura lusófonaescola literáriaportuguêsliteratura brasileiraliteratura portuguesaIn this paper we use a set of syntactic and semantic features of Portuguese to automatically classify literary works in literary periods and/or schools, and address the issue of their appropriateness, for two different literary collections. The first task attempts to replicate the work by Barufaldi and colleagues, who applied compression methods on 37 Brazilian works by 15 different authors and classified the works in 4 different literary schools. The second collection, of 192 novels published in Portugal and Brazil in the period 1840 to 1919, features many works who cannot be singly accomodated in one literary school only, and which have been (not mutually exclusively) classified as romantic, realist, naturalist, symbolist, decadent and modernist. We use classification techniques in R, such as discriminant analysis and support vector models for the first task, and correspondence analysis for the second collection. We also apply topic modeling to (distinct subsets of) the second collection in order to investigate whether this technique can provide us with recurrent topics for different literary schools.Neste artigo usamos um conjunto de características sintático-semânticas da língua portuguesa para classificar em períodos literários dois conjuntos de obras. Em que medida tais características são capazes de refletir distinções relevantes no âmbito dos estudos literários é uma das questões que pretendemos investigar. O primeiro grupo de obras corresponde à replicação do trabalho relatado em 2009 por Barufaldi et al., que usaram métodos de compressão de dados sobre uma série de obras brasileiras classificadas em quatro períodos literários: barroco, arcadismo, romantismo e realismo, desde o Padre António Vieira até Raul Pompéia, contabilizando 15 autores diferentes e totalizando 37 obras. O segundo grupo inclui muito mais obras (192), tanto portuguesas como brasileiras, mas apenas integra romances ou novelas publicadas no período de 1840 a 1919. As escolas literárias escolhidas foram o realismo, o romantismo, o simbolismo, o naturalismo, o decadentismo e o modernismo, mas, ao contrário da classificação anterior, permitimos que uma mesma obra pertença a várias escolas. Usamos técnicas de classificação em R para a primeira tarefa, e análise de correspondências para a segunda. Também aplicamos técnicas de modelos de tópicos à segunda coleção para ver se é possível obter tópicos representativos de escolas literárias diferentes.Neste artigo usamos um conjunto de características sintático-semânticas da língua portuguesa para classificar em períodos literários dois conjuntos de obras. Em que medida tais características são capazes de refletir distinções relevantes no âmbito dos estudos literários é uma das questões que pretendemos investigar. O primeiro grupo de obras corresponde à replicação do trabalho relatado em 2009 por Barufaldi et al., que usaram métodos de compressão de dados sobre uma série de obras brasileiras classificadas em quatro períodos literários: barroco, arcadismo, romantismo e realismo, desde o Padre António Vieira até Raul Pompéia, contabilizando 15 autores diferentes e totalizando 37 obras. O segundo grupo inclui muito mais obras (192), tanto portuguesas como brasileiras, mas apenas integra romances ou novelas publicadas no período de 1840 a 1919. As escolas literárias escolhidas foram o realismo, o romantismo, o simbolismo, o naturalismo, o decadentismo e o modernismo, mas, ao contrário da classificação anterior, permitimos que uma mesma obra pertença a várias escolas. Usamos técnicas de classificação em R para a primeira tarefa, e análise de correspondências para a segunda. Também aplicamos técnicas de modelos de tópicos à segunda coleção para ver se é possível obter tópicos representativos de escolas literárias diferentes.Universidade do Minho e Universidade de Vigo2020-06-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.12.1.314https://doi.org/10.21814/lm.12.1.314Linguamática; Vol. 12 No. 1; 81-95Linguamática; Vol. 12 Núm. 1; 81-95Linguamática; v. 12 n. 1; 81-951647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/314https://linguamatica.com/index.php/linguamatica/article/view/314/465Direitos de Autor (c) 2020 Diana Santos, Emanoel Pires, Cláudia Freitas, Rebeca Schumacher Fuão, João Marques Lopeshttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessSantos, DianaPires, EmanoelFreitas, CláudiaFuão, Rebeca SchumacherLopes, João Marques2023-09-08T13:46:42Zoai:linguamatica.com:article/314Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:39.866921Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Automatic literary school assignment: Linguistic-statistical studies of lusophone literature Periodização automática: Estudos linguistíco-estatísticos de literatura lusófona Periodização automática: Estudos linguistíco-estatísticos de literatura lusófona |
title |
Automatic literary school assignment: Linguistic-statistical studies of lusophone literature |
spellingShingle |
Automatic literary school assignment: Linguistic-statistical studies of lusophone literature Santos, Diana distant reading corpus linguistics literary school Portuguese Brazilian literature Portuguese literature lusophone literature leitura distante linguística com corpos literatura lusófona escola literária português literatura brasileira literatura portuguesa |
title_short |
Automatic literary school assignment: Linguistic-statistical studies of lusophone literature |
title_full |
Automatic literary school assignment: Linguistic-statistical studies of lusophone literature |
title_fullStr |
Automatic literary school assignment: Linguistic-statistical studies of lusophone literature |
title_full_unstemmed |
Automatic literary school assignment: Linguistic-statistical studies of lusophone literature |
title_sort |
Automatic literary school assignment: Linguistic-statistical studies of lusophone literature |
author |
Santos, Diana |
author_facet |
Santos, Diana Pires, Emanoel Freitas, Cláudia Fuão, Rebeca Schumacher Lopes, João Marques |
author_role |
author |
author2 |
Pires, Emanoel Freitas, Cláudia Fuão, Rebeca Schumacher Lopes, João Marques |
author2_role |
author author author author |
dc.contributor.author.fl_str_mv |
Santos, Diana Pires, Emanoel Freitas, Cláudia Fuão, Rebeca Schumacher Lopes, João Marques |
dc.subject.por.fl_str_mv |
distant reading corpus linguistics literary school Portuguese Brazilian literature Portuguese literature lusophone literature leitura distante linguística com corpos literatura lusófona escola literária português literatura brasileira literatura portuguesa |
topic |
distant reading corpus linguistics literary school Portuguese Brazilian literature Portuguese literature lusophone literature leitura distante linguística com corpos literatura lusófona escola literária português literatura brasileira literatura portuguesa |
description |
In this paper we use a set of syntactic and semantic features of Portuguese to automatically classify literary works in literary periods and/or schools, and address the issue of their appropriateness, for two different literary collections. The first task attempts to replicate the work by Barufaldi and colleagues, who applied compression methods on 37 Brazilian works by 15 different authors and classified the works in 4 different literary schools. The second collection, of 192 novels published in Portugal and Brazil in the period 1840 to 1919, features many works who cannot be singly accomodated in one literary school only, and which have been (not mutually exclusively) classified as romantic, realist, naturalist, symbolist, decadent and modernist. We use classification techniques in R, such as discriminant analysis and support vector models for the first task, and correspondence analysis for the second collection. We also apply topic modeling to (distinct subsets of) the second collection in order to investigate whether this technique can provide us with recurrent topics for different literary schools. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-06-29 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://doi.org/10.21814/lm.12.1.314 https://doi.org/10.21814/lm.12.1.314 |
url |
https://doi.org/10.21814/lm.12.1.314 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://linguamatica.com/index.php/linguamatica/article/view/314 https://linguamatica.com/index.php/linguamatica/article/view/314/465 |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by/4.0 info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by/4.0 |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
dc.source.none.fl_str_mv |
Linguamática; Vol. 12 No. 1; 81-95 Linguamática; Vol. 12 Núm. 1; 81-95 Linguamática; v. 12 n. 1; 81-95 1647-0818 reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133554047713280 |