Challenges and advantages of the automatic identification of character gender and professions in DIP
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Outros Autores: | , |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://doi.org/10.21814/lm.15.1.401 |
Resumo: | The development of systems for automatic identification of characters and some of their characteristics is the central objective of the Character Identification Challenge (DIP) project developed in conjunction with Linguateca. Among these characteristics, 2 this article will focus on the identification of gender and professions of the characters. Firstly, we will justify our choice to work with these two data sets, presenting the different paths we have taken to establish guidelines for their identification. Manual identification of gender and profession is exhaustive and susceptible to errors, making the use of computer systems increasingly common for this task. The analysis of professions would allow reflection on issues such as the definition of a profession, its frequency in Brazilian and Portuguese works, and possible relationships with literary genres. We present some results from distant and close reading of a group of works, contrast these results and comment on the challenges and advantages we encountered throughout this task, which seem to reinforce our hypothesis of a preference for a combined effort of automatic systems and human interpretation in character identification. |
id |
RCAP_f2cb41e02e1680e654f31bc7cc1fd7cf |
---|---|
oai_identifier_str |
oai:linguamatica.com:article/401 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Challenges and advantages of the automatic identification of character gender and professions in DIPDesafios e vantagens do processo de identificação automática do gênero e das profissões das personagens no DIPDesafios e vantagens do processo de identificação automática do gênero e das profissões das personagens no DIPdistant readingcharacter identificationgenderprofessionleitura distanteidentificação de personagensgéneroprofissão The development of systems for automatic identification of characters and some of their characteristics is the central objective of the Character Identification Challenge (DIP) project developed in conjunction with Linguateca. Among these characteristics, 2 this article will focus on the identification of gender and professions of the characters. Firstly, we will justify our choice to work with these two data sets, presenting the different paths we have taken to establish guidelines for their identification. Manual identification of gender and profession is exhaustive and susceptible to errors, making the use of computer systems increasingly common for this task. The analysis of professions would allow reflection on issues such as the definition of a profession, its frequency in Brazilian and Portuguese works, and possible relationships with literary genres. We present some results from distant and close reading of a group of works, contrast these results and comment on the challenges and advantages we encountered throughout this task, which seem to reinforce our hypothesis of a preference for a combined effort of automatic systems and human interpretation in character identification.O desenvolvimento de sistemas para identificação automática de personagens e de algumas de suas características é o objetivo central do projeto Desafio de Identificação de Personagens (DIP) desenvolvido junto à Linguateca. Dentre essas características, trataremos neste artigo da identificação do gênero e das profissões das personagens. Primeiramente, justificaremos a nossa escolha em trabalhar com esses dois dados, apresentando os diferentes caminhos que trilhamos para estabelecer diretrizes para a identificação dos mesmos. A identificação manual do gênero e da profissão é exaustiva e passível de falhas, sendo cada vez mais comum o uso de sistemas computacionais para essa tarefa. A análise das profissões permitiria refletir sobre questões como a definição de profissão, sua frequência em obras brasileiras e portuguesas, e possíveis relações com os gêneros literários. Em seguida, apresentaremos alguns resultados provenientes da leitura distante e da leitura próxima de um grupo de obras. Contrastaremos esses resultados e comentaremos os desafios e as vantagens que encontramos ao longo dessa tarefa e que parecem reforçar a nossa hipótese de preferência por um esforço combinado de sistemas automáticos e interpretação humana na identificação de personagens.O desenvolvimento de sistemas para identificação automática de personagens e de algumas de suas características é o objetivo central do projeto Desafio de Identificação de Personagens (DIP) desenvolvido junto à Linguateca. Dentre essas características, trataremos neste artigo da identificação do gênero e das profissões das personagens. Primeiramente, justificaremos a nossa escolha em trabalhar com esses dois dados, apresentando os diferentes caminhos que trilhamos para estabelecer diretrizes para a identificação dos mesmos. A identificação manual do gênero e da profissão é exaustiva e passível de falhas, sendo cada vez mais comum o uso de sistemas computacionais para essa tarefa. A análise das profissões permitiria refletir sobre questões como a definição de profissão, sua frequência em obras brasileiras e portuguesas, e possíveis relações com os gêneros literários. Em seguida, apresentaremos alguns resultados provenientes da leitura distante e da leitura próxima de um grupo de obras. Contrastaremos esses resultados e comentaremos os desafios e as vantagens que encontramos ao longo dessa tarefa e que parecem reforçar a nossa hipótese de preferência por um esforço combinado de sistemas automáticos e interpretação humana na identificação de personagens.Universidade do Minho e Universidade de Vigo2023-07-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.15.1.401https://doi.org/10.21814/lm.15.1.401Linguamática; Vol. 15 No. 1; 55--67Linguamática; Vol. 15 Núm. 1; 55--67Linguamática; v. 15 n. 1; 55--671647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/401https://linguamatica.com/index.php/linguamatica/article/view/401/491Direitos de Autor (c) 2023 Emanoel Pires, Marcia Caetano Langfeldt, Rebeca Schumacher Fuãohttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessPires, EmanoelLangfeldt, Marcia CaetanoFuão, Rebeca Schumacher2023-09-08T13:46:46Zoai:linguamatica.com:article/401Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:41.491949Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Challenges and advantages of the automatic identification of character gender and professions in DIP Desafios e vantagens do processo de identificação automática do gênero e das profissões das personagens no DIP Desafios e vantagens do processo de identificação automática do gênero e das profissões das personagens no DIP |
title |
Challenges and advantages of the automatic identification of character gender and professions in DIP |
spellingShingle |
Challenges and advantages of the automatic identification of character gender and professions in DIP Pires, Emanoel distant reading character identification gender profession leitura distante identificação de personagens género profissão |
title_short |
Challenges and advantages of the automatic identification of character gender and professions in DIP |
title_full |
Challenges and advantages of the automatic identification of character gender and professions in DIP |
title_fullStr |
Challenges and advantages of the automatic identification of character gender and professions in DIP |
title_full_unstemmed |
Challenges and advantages of the automatic identification of character gender and professions in DIP |
title_sort |
Challenges and advantages of the automatic identification of character gender and professions in DIP |
author |
Pires, Emanoel |
author_facet |
Pires, Emanoel Langfeldt, Marcia Caetano Fuão, Rebeca Schumacher |
author_role |
author |
author2 |
Langfeldt, Marcia Caetano Fuão, Rebeca Schumacher |
author2_role |
author author |
dc.contributor.author.fl_str_mv |
Pires, Emanoel Langfeldt, Marcia Caetano Fuão, Rebeca Schumacher |
dc.subject.por.fl_str_mv |
distant reading character identification gender profession leitura distante identificação de personagens género profissão |
topic |
distant reading character identification gender profession leitura distante identificação de personagens género profissão |
description |
The development of systems for automatic identification of characters and some of their characteristics is the central objective of the Character Identification Challenge (DIP) project developed in conjunction with Linguateca. Among these characteristics, 2 this article will focus on the identification of gender and professions of the characters. Firstly, we will justify our choice to work with these two data sets, presenting the different paths we have taken to establish guidelines for their identification. Manual identification of gender and profession is exhaustive and susceptible to errors, making the use of computer systems increasingly common for this task. The analysis of professions would allow reflection on issues such as the definition of a profession, its frequency in Brazilian and Portuguese works, and possible relationships with literary genres. We present some results from distant and close reading of a group of works, contrast these results and comment on the challenges and advantages we encountered throughout this task, which seem to reinforce our hypothesis of a preference for a combined effort of automatic systems and human interpretation in character identification. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-07-02 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://doi.org/10.21814/lm.15.1.401 https://doi.org/10.21814/lm.15.1.401 |
url |
https://doi.org/10.21814/lm.15.1.401 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://linguamatica.com/index.php/linguamatica/article/view/401 https://linguamatica.com/index.php/linguamatica/article/view/401/491 |
dc.rights.driver.fl_str_mv |
Direitos de Autor (c) 2023 Emanoel Pires, Marcia Caetano Langfeldt, Rebeca Schumacher Fuão http://creativecommons.org/licenses/by/4.0 info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Direitos de Autor (c) 2023 Emanoel Pires, Marcia Caetano Langfeldt, Rebeca Schumacher Fuão http://creativecommons.org/licenses/by/4.0 |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
dc.source.none.fl_str_mv |
Linguamática; Vol. 15 No. 1; 55--67 Linguamática; Vol. 15 Núm. 1; 55--67 Linguamática; v. 15 n. 1; 55--67 1647-0818 reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133554120065024 |