Challenges and advantages of the automatic identification of character gender and professions in DIP

Detalhes bibliográficos
Autor(a) principal: Pires, Emanoel
Data de Publicação: 2023
Outros Autores: Langfeldt, Marcia Caetano, Fuão, Rebeca Schumacher
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://doi.org/10.21814/lm.15.1.401
Resumo:  The development of systems for automatic identification of characters and some of their characteristics is the central objective of the Character Identification Challenge (DIP) project developed in conjunction with Linguateca. Among these characteristics, 2 this article will focus on the identification of gender and professions of the characters. Firstly, we will justify our choice to work with these two data sets, presenting the different paths we have taken to establish guidelines for their identification. Manual identification of gender and profession is exhaustive and susceptible to errors, making the use of computer systems increasingly common for this task. The analysis of professions would allow reflection on issues such as the definition of a profession, its frequency in Brazilian and Portuguese works, and possible relationships with literary genres. We present some results from distant and close reading of a group of works, contrast these results and comment on the challenges and advantages we encountered throughout this task, which seem to reinforce our hypothesis of a preference for a combined effort of automatic systems and human interpretation in character identification.
id RCAP_f2cb41e02e1680e654f31bc7cc1fd7cf
oai_identifier_str oai:linguamatica.com:article/401
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Challenges and advantages of the automatic identification of character gender and professions in DIPDesafios e vantagens do processo de identificação automática do gênero e das profissões das personagens no DIPDesafios e vantagens do processo de identificação automática do gênero e das profissões das personagens no DIPdistant readingcharacter identificationgenderprofessionleitura distanteidentificação de personagensgéneroprofissão The development of systems for automatic identification of characters and some of their characteristics is the central objective of the Character Identification Challenge (DIP) project developed in conjunction with Linguateca. Among these characteristics, 2 this article will focus on the identification of gender and professions of the characters. Firstly, we will justify our choice to work with these two data sets, presenting the different paths we have taken to establish guidelines for their identification. Manual identification of gender and profession is exhaustive and susceptible to errors, making the use of computer systems increasingly common for this task. The analysis of professions would allow reflection on issues such as the definition of a profession, its frequency in Brazilian and Portuguese works, and possible relationships with literary genres. We present some results from distant and close reading of a group of works, contrast these results and comment on the challenges and advantages we encountered throughout this task, which seem to reinforce our hypothesis of a preference for a combined effort of automatic systems and human interpretation in character identification.O desenvolvimento de sistemas para identificação automática de personagens e de algumas de suas características é o objetivo central do projeto Desafio de Identificação de Personagens (DIP) desenvolvido junto à Linguateca. Dentre essas características, trataremos neste artigo da identificação do gênero e das profissões das personagens. Primeiramente, justificaremos a nossa escolha em trabalhar com esses dois dados, apresentando os diferentes caminhos que trilhamos para estabelecer diretrizes para a identificação dos mesmos. A identificação manual do gênero e da profissão é exaustiva e passível de falhas, sendo cada vez mais comum o uso de sistemas computacionais para essa tarefa. A análise das profissões permitiria refletir sobre questões como a definição de profissão, sua frequência em obras brasileiras e portuguesas, e possíveis relações com os gêneros literários. Em seguida, apresentaremos alguns resultados provenientes da leitura distante e da leitura próxima de um grupo de obras. Contrastaremos esses resultados e comentaremos os desafios e as vantagens que encontramos ao longo dessa tarefa e que parecem reforçar a nossa hipótese de preferência por um esforço combinado de sistemas automáticos e interpretação humana na identificação de personagens.O desenvolvimento de sistemas para identificação automática de personagens e de algumas de suas características é o objetivo central do projeto Desafio de Identificação de Personagens (DIP) desenvolvido junto à Linguateca. Dentre essas características, trataremos neste artigo da identificação do gênero e das profissões das personagens. Primeiramente, justificaremos a nossa escolha em trabalhar com esses dois dados, apresentando os diferentes caminhos que trilhamos para estabelecer diretrizes para a identificação dos mesmos. A identificação manual do gênero e da profissão é exaustiva e passível de falhas, sendo cada vez mais comum o uso de sistemas computacionais para essa tarefa. A análise das profissões permitiria refletir sobre questões como a definição de profissão, sua frequência em obras brasileiras e portuguesas, e possíveis relações com os gêneros literários. Em seguida, apresentaremos alguns resultados provenientes da leitura distante e da leitura próxima de um grupo de obras. Contrastaremos esses resultados e comentaremos os desafios e as vantagens que encontramos ao longo dessa tarefa e que parecem reforçar a nossa hipótese de preferência por um esforço combinado de sistemas automáticos e interpretação humana na identificação de personagens.Universidade do Minho e Universidade de Vigo2023-07-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.15.1.401https://doi.org/10.21814/lm.15.1.401Linguamática; Vol. 15 No. 1; 55--67Linguamática; Vol. 15 Núm. 1; 55--67Linguamática; v. 15 n. 1; 55--671647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/401https://linguamatica.com/index.php/linguamatica/article/view/401/491Direitos de Autor (c) 2023 Emanoel Pires, Marcia Caetano Langfeldt, Rebeca Schumacher Fuãohttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessPires, EmanoelLangfeldt, Marcia CaetanoFuão, Rebeca Schumacher2023-09-08T13:46:46Zoai:linguamatica.com:article/401Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:41.491949Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Challenges and advantages of the automatic identification of character gender and professions in DIP
Desafios e vantagens do processo de identificação automática do gênero e das profissões das personagens no DIP
Desafios e vantagens do processo de identificação automática do gênero e das profissões das personagens no DIP
title Challenges and advantages of the automatic identification of character gender and professions in DIP
spellingShingle Challenges and advantages of the automatic identification of character gender and professions in DIP
Pires, Emanoel
distant reading
character identification
gender
profession
leitura distante
identificação de personagens
género
profissão
title_short Challenges and advantages of the automatic identification of character gender and professions in DIP
title_full Challenges and advantages of the automatic identification of character gender and professions in DIP
title_fullStr Challenges and advantages of the automatic identification of character gender and professions in DIP
title_full_unstemmed Challenges and advantages of the automatic identification of character gender and professions in DIP
title_sort Challenges and advantages of the automatic identification of character gender and professions in DIP
author Pires, Emanoel
author_facet Pires, Emanoel
Langfeldt, Marcia Caetano
Fuão, Rebeca Schumacher
author_role author
author2 Langfeldt, Marcia Caetano
Fuão, Rebeca Schumacher
author2_role author
author
dc.contributor.author.fl_str_mv Pires, Emanoel
Langfeldt, Marcia Caetano
Fuão, Rebeca Schumacher
dc.subject.por.fl_str_mv distant reading
character identification
gender
profession
leitura distante
identificação de personagens
género
profissão
topic distant reading
character identification
gender
profession
leitura distante
identificação de personagens
género
profissão
description  The development of systems for automatic identification of characters and some of their characteristics is the central objective of the Character Identification Challenge (DIP) project developed in conjunction with Linguateca. Among these characteristics, 2 this article will focus on the identification of gender and professions of the characters. Firstly, we will justify our choice to work with these two data sets, presenting the different paths we have taken to establish guidelines for their identification. Manual identification of gender and profession is exhaustive and susceptible to errors, making the use of computer systems increasingly common for this task. The analysis of professions would allow reflection on issues such as the definition of a profession, its frequency in Brazilian and Portuguese works, and possible relationships with literary genres. We present some results from distant and close reading of a group of works, contrast these results and comment on the challenges and advantages we encountered throughout this task, which seem to reinforce our hypothesis of a preference for a combined effort of automatic systems and human interpretation in character identification.
publishDate 2023
dc.date.none.fl_str_mv 2023-07-02
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://doi.org/10.21814/lm.15.1.401
https://doi.org/10.21814/lm.15.1.401
url https://doi.org/10.21814/lm.15.1.401
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://linguamatica.com/index.php/linguamatica/article/view/401
https://linguamatica.com/index.php/linguamatica/article/view/401/491
dc.rights.driver.fl_str_mv Direitos de Autor (c) 2023 Emanoel Pires, Marcia Caetano Langfeldt, Rebeca Schumacher Fuão
http://creativecommons.org/licenses/by/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Direitos de Autor (c) 2023 Emanoel Pires, Marcia Caetano Langfeldt, Rebeca Schumacher Fuão
http://creativecommons.org/licenses/by/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
dc.source.none.fl_str_mv Linguamática; Vol. 15 No. 1; 55--67
Linguamática; Vol. 15 Núm. 1; 55--67
Linguamática; v. 15 n. 1; 55--67
1647-0818
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133554120065024