Uma abordagem em cascata para predição de gênero a partir de textos em Português
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFLA |
Texto Completo: | http://repositorio.ufla.br/jspui/handle/1/49191 |
Resumo: | Author Profiling, whose objective is the analysis of a text to uncover characteristics (e.g., gen- der and age) of its author, has become an important task in different areas such as forensics, marketing, and e-commerce. Although a lot of research has been conducted on this task for some widely used lan- guages (e.g., English), there is still a lot of room for improvement in studies involving the Portuguese language. Thus, this work contributes by proposing and evaluating a cascading approach, which combi- nes a weighted lexical approach, a heuristic and a classifier, for the gender prediction problem using only textual content written in the Portuguese language. The proposed approach takes into account both spe- cificities of the Portuguese language and domain characteristics of the texts. The results obtained from the proposed approach showed that exploring the specificities of the Portuguese language and domain characteristics of the texts can positively contribute to the performance of the gender prediction task. |
id |
UFLA_58fdb8cb35b09c97a3a16e5a87e0ce38 |
---|---|
oai_identifier_str |
oai:localhost:1/49191 |
network_acronym_str |
UFLA |
network_name_str |
Repositório Institucional da UFLA |
repository_id_str |
|
spelling |
Uma abordagem em cascata para predição de gênero a partir de textos em PortuguêsA cascading approach to gender prediction from portuguese textsCaracterização autoralMineração de textoPredição de gêneroLíngua portuguesaAuthor profilingPortuguese languageText miningGender predictionCiência da ComputaçãoAuthor Profiling, whose objective is the analysis of a text to uncover characteristics (e.g., gen- der and age) of its author, has become an important task in different areas such as forensics, marketing, and e-commerce. Although a lot of research has been conducted on this task for some widely used lan- guages (e.g., English), there is still a lot of room for improvement in studies involving the Portuguese language. Thus, this work contributes by proposing and evaluating a cascading approach, which combi- nes a weighted lexical approach, a heuristic and a classifier, for the gender prediction problem using only textual content written in the Portuguese language. The proposed approach takes into account both spe- cificities of the Portuguese language and domain characteristics of the texts. The results obtained from the proposed approach showed that exploring the specificities of the Portuguese language and domain characteristics of the texts can positively contribute to the performance of the gender prediction task.Fundação de Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG)A área de estudo e pesquisa denominada Caracterização Autoral, cujo objetivo é analisar um texto para inferir informações a respeito do seu autor, vem sendo cada vez mais útil para diferentes se- tores, tais como o forense, marketing e comércio eletrônico. Apesar do crescente interesse em pesquisas nessa área, a quantidade de técnicas e ferramentas apresentadas na literatura com foco na língua portu- guesa é relativamente escassa quando comparada àquela disponível para outros idiomas. Desse modo, este trabalho contribui nessa área de estudo propondo e avaliando uma abordagem em cascata, que com- bina um módulo que utiliza um dicionário, uma heurística de gênero e um classificador, para a predição do gênero do autor de um texto escrito em português utilizando somente o conteúdo textual. A aborda- gem proposta leva em consideração tanto especificidades da língua portuguesa como características de domínio dos textos. Os resultados obtidos a partir da abordagem proposta mostraram que explorar as es- pecificidades da língua portuguesa e características de domínio dos textos pode contribuir positivamente no desempenho da tarefa de predição de gênero.Universidade Federal de LavrasPrograma de Pós-Graduação em Ciência da ComputaçãoUFLAbrasilDepartamento de Ciência da ComputaçãoMerschmann, Luiz Henrique de CamposPereira, Denilson AlvesPaiva, Elaine Ribeiro de FariaMorais, João Pedro Moreira de2022-02-07T19:32:40Z2022-02-07T19:32:40Z2022-02-072021-12-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfMORAIS, J. P. M. de. Uma abordagem em cascata para predição de gênero a partir de textos em Português. 2021. 48 p. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Lavras, Lavras, 2022.http://repositorio.ufla.br/jspui/handle/1/49191porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFLAinstname:Universidade Federal de Lavras (UFLA)instacron:UFLA2023-04-13T17:40:22Zoai:localhost:1/49191Repositório InstitucionalPUBhttp://repositorio.ufla.br/oai/requestnivaldo@ufla.br || repositorio.biblioteca@ufla.bropendoar:2023-04-13T17:40:22Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)false |
dc.title.none.fl_str_mv |
Uma abordagem em cascata para predição de gênero a partir de textos em Português A cascading approach to gender prediction from portuguese texts |
title |
Uma abordagem em cascata para predição de gênero a partir de textos em Português |
spellingShingle |
Uma abordagem em cascata para predição de gênero a partir de textos em Português Morais, João Pedro Moreira de Caracterização autoral Mineração de texto Predição de gênero Língua portuguesa Author profiling Portuguese language Text mining Gender prediction Ciência da Computação |
title_short |
Uma abordagem em cascata para predição de gênero a partir de textos em Português |
title_full |
Uma abordagem em cascata para predição de gênero a partir de textos em Português |
title_fullStr |
Uma abordagem em cascata para predição de gênero a partir de textos em Português |
title_full_unstemmed |
Uma abordagem em cascata para predição de gênero a partir de textos em Português |
title_sort |
Uma abordagem em cascata para predição de gênero a partir de textos em Português |
author |
Morais, João Pedro Moreira de |
author_facet |
Morais, João Pedro Moreira de |
author_role |
author |
dc.contributor.none.fl_str_mv |
Merschmann, Luiz Henrique de Campos Pereira, Denilson Alves Paiva, Elaine Ribeiro de Faria |
dc.contributor.author.fl_str_mv |
Morais, João Pedro Moreira de |
dc.subject.por.fl_str_mv |
Caracterização autoral Mineração de texto Predição de gênero Língua portuguesa Author profiling Portuguese language Text mining Gender prediction Ciência da Computação |
topic |
Caracterização autoral Mineração de texto Predição de gênero Língua portuguesa Author profiling Portuguese language Text mining Gender prediction Ciência da Computação |
description |
Author Profiling, whose objective is the analysis of a text to uncover characteristics (e.g., gen- der and age) of its author, has become an important task in different areas such as forensics, marketing, and e-commerce. Although a lot of research has been conducted on this task for some widely used lan- guages (e.g., English), there is still a lot of room for improvement in studies involving the Portuguese language. Thus, this work contributes by proposing and evaluating a cascading approach, which combi- nes a weighted lexical approach, a heuristic and a classifier, for the gender prediction problem using only textual content written in the Portuguese language. The proposed approach takes into account both spe- cificities of the Portuguese language and domain characteristics of the texts. The results obtained from the proposed approach showed that exploring the specificities of the Portuguese language and domain characteristics of the texts can positively contribute to the performance of the gender prediction task. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-12-10 2022-02-07T19:32:40Z 2022-02-07T19:32:40Z 2022-02-07 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
MORAIS, J. P. M. de. Uma abordagem em cascata para predição de gênero a partir de textos em Português. 2021. 48 p. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Lavras, Lavras, 2022. http://repositorio.ufla.br/jspui/handle/1/49191 |
identifier_str_mv |
MORAIS, J. P. M. de. Uma abordagem em cascata para predição de gênero a partir de textos em Português. 2021. 48 p. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Lavras, Lavras, 2022. |
url |
http://repositorio.ufla.br/jspui/handle/1/49191 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de Lavras Programa de Pós-Graduação em Ciência da Computação UFLA brasil Departamento de Ciência da Computação |
publisher.none.fl_str_mv |
Universidade Federal de Lavras Programa de Pós-Graduação em Ciência da Computação UFLA brasil Departamento de Ciência da Computação |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFLA instname:Universidade Federal de Lavras (UFLA) instacron:UFLA |
instname_str |
Universidade Federal de Lavras (UFLA) |
instacron_str |
UFLA |
institution |
UFLA |
reponame_str |
Repositório Institucional da UFLA |
collection |
Repositório Institucional da UFLA |
repository.name.fl_str_mv |
Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA) |
repository.mail.fl_str_mv |
nivaldo@ufla.br || repositorio.biblioteca@ufla.br |
_version_ |
1815439159361273856 |