Uma abordagem em cascata para predição de gênero a partir de textos em Português

Detalhes bibliográficos
Autor(a) principal: Morais, João Pedro Moreira de
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFLA
Texto Completo: http://repositorio.ufla.br/jspui/handle/1/49191
Resumo: Author Profiling, whose objective is the analysis of a text to uncover characteristics (e.g., gen- der and age) of its author, has become an important task in different areas such as forensics, marketing, and e-commerce. Although a lot of research has been conducted on this task for some widely used lan- guages (e.g., English), there is still a lot of room for improvement in studies involving the Portuguese language. Thus, this work contributes by proposing and evaluating a cascading approach, which combi- nes a weighted lexical approach, a heuristic and a classifier, for the gender prediction problem using only textual content written in the Portuguese language. The proposed approach takes into account both spe- cificities of the Portuguese language and domain characteristics of the texts. The results obtained from the proposed approach showed that exploring the specificities of the Portuguese language and domain characteristics of the texts can positively contribute to the performance of the gender prediction task.
id UFLA_58fdb8cb35b09c97a3a16e5a87e0ce38
oai_identifier_str oai:localhost:1/49191
network_acronym_str UFLA
network_name_str Repositório Institucional da UFLA
repository_id_str
spelling Uma abordagem em cascata para predição de gênero a partir de textos em PortuguêsA cascading approach to gender prediction from portuguese textsCaracterização autoralMineração de textoPredição de gêneroLíngua portuguesaAuthor profilingPortuguese languageText miningGender predictionCiência da ComputaçãoAuthor Profiling, whose objective is the analysis of a text to uncover characteristics (e.g., gen- der and age) of its author, has become an important task in different areas such as forensics, marketing, and e-commerce. Although a lot of research has been conducted on this task for some widely used lan- guages (e.g., English), there is still a lot of room for improvement in studies involving the Portuguese language. Thus, this work contributes by proposing and evaluating a cascading approach, which combi- nes a weighted lexical approach, a heuristic and a classifier, for the gender prediction problem using only textual content written in the Portuguese language. The proposed approach takes into account both spe- cificities of the Portuguese language and domain characteristics of the texts. The results obtained from the proposed approach showed that exploring the specificities of the Portuguese language and domain characteristics of the texts can positively contribute to the performance of the gender prediction task.Fundação de Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG)A área de estudo e pesquisa denominada Caracterização Autoral, cujo objetivo é analisar um texto para inferir informações a respeito do seu autor, vem sendo cada vez mais útil para diferentes se- tores, tais como o forense, marketing e comércio eletrônico. Apesar do crescente interesse em pesquisas nessa área, a quantidade de técnicas e ferramentas apresentadas na literatura com foco na língua portu- guesa é relativamente escassa quando comparada àquela disponível para outros idiomas. Desse modo, este trabalho contribui nessa área de estudo propondo e avaliando uma abordagem em cascata, que com- bina um módulo que utiliza um dicionário, uma heurística de gênero e um classificador, para a predição do gênero do autor de um texto escrito em português utilizando somente o conteúdo textual. A aborda- gem proposta leva em consideração tanto especificidades da língua portuguesa como características de domínio dos textos. Os resultados obtidos a partir da abordagem proposta mostraram que explorar as es- pecificidades da língua portuguesa e características de domínio dos textos pode contribuir positivamente no desempenho da tarefa de predição de gênero.Universidade Federal de LavrasPrograma de Pós-Graduação em Ciência da ComputaçãoUFLAbrasilDepartamento de Ciência da ComputaçãoMerschmann, Luiz Henrique de CamposPereira, Denilson AlvesPaiva, Elaine Ribeiro de FariaMorais, João Pedro Moreira de2022-02-07T19:32:40Z2022-02-07T19:32:40Z2022-02-072021-12-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfMORAIS, J. P. M. de. Uma abordagem em cascata para predição de gênero a partir de textos em Português. 2021. 48 p. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Lavras, Lavras, 2022.http://repositorio.ufla.br/jspui/handle/1/49191porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFLAinstname:Universidade Federal de Lavras (UFLA)instacron:UFLA2023-04-13T17:40:22Zoai:localhost:1/49191Repositório InstitucionalPUBhttp://repositorio.ufla.br/oai/requestnivaldo@ufla.br || repositorio.biblioteca@ufla.bropendoar:2023-04-13T17:40:22Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)false
dc.title.none.fl_str_mv Uma abordagem em cascata para predição de gênero a partir de textos em Português
A cascading approach to gender prediction from portuguese texts
title Uma abordagem em cascata para predição de gênero a partir de textos em Português
spellingShingle Uma abordagem em cascata para predição de gênero a partir de textos em Português
Morais, João Pedro Moreira de
Caracterização autoral
Mineração de texto
Predição de gênero
Língua portuguesa
Author profiling
Portuguese language
Text mining
Gender prediction
Ciência da Computação
title_short Uma abordagem em cascata para predição de gênero a partir de textos em Português
title_full Uma abordagem em cascata para predição de gênero a partir de textos em Português
title_fullStr Uma abordagem em cascata para predição de gênero a partir de textos em Português
title_full_unstemmed Uma abordagem em cascata para predição de gênero a partir de textos em Português
title_sort Uma abordagem em cascata para predição de gênero a partir de textos em Português
author Morais, João Pedro Moreira de
author_facet Morais, João Pedro Moreira de
author_role author
dc.contributor.none.fl_str_mv Merschmann, Luiz Henrique de Campos
Pereira, Denilson Alves
Paiva, Elaine Ribeiro de Faria
dc.contributor.author.fl_str_mv Morais, João Pedro Moreira de
dc.subject.por.fl_str_mv Caracterização autoral
Mineração de texto
Predição de gênero
Língua portuguesa
Author profiling
Portuguese language
Text mining
Gender prediction
Ciência da Computação
topic Caracterização autoral
Mineração de texto
Predição de gênero
Língua portuguesa
Author profiling
Portuguese language
Text mining
Gender prediction
Ciência da Computação
description Author Profiling, whose objective is the analysis of a text to uncover characteristics (e.g., gen- der and age) of its author, has become an important task in different areas such as forensics, marketing, and e-commerce. Although a lot of research has been conducted on this task for some widely used lan- guages (e.g., English), there is still a lot of room for improvement in studies involving the Portuguese language. Thus, this work contributes by proposing and evaluating a cascading approach, which combi- nes a weighted lexical approach, a heuristic and a classifier, for the gender prediction problem using only textual content written in the Portuguese language. The proposed approach takes into account both spe- cificities of the Portuguese language and domain characteristics of the texts. The results obtained from the proposed approach showed that exploring the specificities of the Portuguese language and domain characteristics of the texts can positively contribute to the performance of the gender prediction task.
publishDate 2021
dc.date.none.fl_str_mv 2021-12-10
2022-02-07T19:32:40Z
2022-02-07T19:32:40Z
2022-02-07
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv MORAIS, J. P. M. de. Uma abordagem em cascata para predição de gênero a partir de textos em Português. 2021. 48 p. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Lavras, Lavras, 2022.
http://repositorio.ufla.br/jspui/handle/1/49191
identifier_str_mv MORAIS, J. P. M. de. Uma abordagem em cascata para predição de gênero a partir de textos em Português. 2021. 48 p. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Lavras, Lavras, 2022.
url http://repositorio.ufla.br/jspui/handle/1/49191
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Lavras
Programa de Pós-Graduação em Ciência da Computação
UFLA
brasil
Departamento de Ciência da Computação
publisher.none.fl_str_mv Universidade Federal de Lavras
Programa de Pós-Graduação em Ciência da Computação
UFLA
brasil
Departamento de Ciência da Computação
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFLA
instname:Universidade Federal de Lavras (UFLA)
instacron:UFLA
instname_str Universidade Federal de Lavras (UFLA)
instacron_str UFLA
institution UFLA
reponame_str Repositório Institucional da UFLA
collection Repositório Institucional da UFLA
repository.name.fl_str_mv Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)
repository.mail.fl_str_mv nivaldo@ufla.br || repositorio.biblioteca@ufla.br
_version_ 1807835140549771264