Caracterização autoral interdomínio a partir de textos

Detalhes bibliográficos
Autor(a) principal: Delmondes Neto, José Pereira
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/100/100131/tde-06092021-142746/
Resumo: Na área de processamento de língua natural, entende-se por caracterização autoral uma tarefa computacional que tem por objetivo extrair informações sociais e psicológicas dos indivíduos, como gênero e faixa etária, por meio de suas produções textuais. Modelos computacionais de caracterização autoral são comumente empregados em áreas como marketing e segurança, dentre outras. Estes modelos geralmente são de domínio único, i.e., são treinados e validados no mesmo gênero textual, o que faz com que sua portabilidade para outros gêneros seja limitada. Em contrapartida aos modelos de domínio único, modelos interdomínio, que são validados em gêneros textuais diferentes dos que foram treinados, podem ser uma alternativa para casos em que não há dados suficientes para o treinamento de um modelo computacional. Um exemplo seria a utilização de dados do Twitter (domínio que dispõem de grande volume de dados) para o desenvolvimento de modelos de caracterização autoral a serem utilizados em e-mails, domínio onde é mais difícil obter um volume de dados suficiente para o treinamento dos modelos. O presente trabalho apresenta uma proposta de pesquisa em nível de mestrado na área de processamento de língua natural, com ênfase em caracterização autoral, com o objetivo geral de desenvolver modelos de aprendizagem de máquina supervisionada baseados em redes neurais artificiais para a tarefa de caracterização autoral interdomínio, de modo a se obter uma alternativa robusta aos modelos de domínio único, com perda de acurácia reduzida se comparada a modelos equivalentes baseados em domínio único
id USP_5628b1637aef7791c2c78b39de45ed8f
oai_identifier_str oai:teses.usp.br:tde-06092021-142746
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Caracterização autoral interdomínio a partir de textosCross domain author profiling from textsArtificial Neural NetwokCaracterização Autoral InterdomínioCross-Genre Author ProfilingNatural Language ProcessingProcessamento de Língua NaturalRedes Neurais ArtificiaisNa área de processamento de língua natural, entende-se por caracterização autoral uma tarefa computacional que tem por objetivo extrair informações sociais e psicológicas dos indivíduos, como gênero e faixa etária, por meio de suas produções textuais. Modelos computacionais de caracterização autoral são comumente empregados em áreas como marketing e segurança, dentre outras. Estes modelos geralmente são de domínio único, i.e., são treinados e validados no mesmo gênero textual, o que faz com que sua portabilidade para outros gêneros seja limitada. Em contrapartida aos modelos de domínio único, modelos interdomínio, que são validados em gêneros textuais diferentes dos que foram treinados, podem ser uma alternativa para casos em que não há dados suficientes para o treinamento de um modelo computacional. Um exemplo seria a utilização de dados do Twitter (domínio que dispõem de grande volume de dados) para o desenvolvimento de modelos de caracterização autoral a serem utilizados em e-mails, domínio onde é mais difícil obter um volume de dados suficiente para o treinamento dos modelos. O presente trabalho apresenta uma proposta de pesquisa em nível de mestrado na área de processamento de língua natural, com ênfase em caracterização autoral, com o objetivo geral de desenvolver modelos de aprendizagem de máquina supervisionada baseados em redes neurais artificiais para a tarefa de caracterização autoral interdomínio, de modo a se obter uma alternativa robusta aos modelos de domínio único, com perda de acurácia reduzida se comparada a modelos equivalentes baseados em domínio únicoIn the area of natural language processing, author profiling is a computational task that aims to extract social and psychological information from individuals, such as gender and age group, through their textual productions. Computational models of author profiling are commonly used in areas such as marketing and security, among others. These models are usually based on a single domain, i.e., they are trained and validated in the same domain, which makes their portability to other domains limited. In contrast to single domain models, cross-genre models, which are validated in different domains than those on which they were trained, may be an alternative for cases in which there is not enough data for training a computational model. An example would be the use of Twitter data (a domain that has a large amount of data) for the development of author profiling models to be used in e-mails, a domain in which it is more difficult to obtain a sufficient amount of data for the training of the models. The present work introduces a proposal for a MSc research in the area of natural language processing, focused on author profiling, with the general objective of developing supervised machine learning models based on artificial neural networks for the task of cross-genre author profiling, in order to obtain a robust alternative to single domain models, with reduced loss of precision compared to equivalent cross-genre modelsBiblioteca Digitais de Teses e Dissertações da USPParaboni, IvandreDelmondes Neto, José Pereira2021-08-04info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/100/100131/tde-06092021-142746/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-10-09T13:16:04Zoai:teses.usp.br:tde-06092021-142746Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-10-09T13:16:04Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Caracterização autoral interdomínio a partir de textos
Cross domain author profiling from texts
title Caracterização autoral interdomínio a partir de textos
spellingShingle Caracterização autoral interdomínio a partir de textos
Delmondes Neto, José Pereira
Artificial Neural Netwok
Caracterização Autoral Interdomínio
Cross-Genre Author Profiling
Natural Language Processing
Processamento de Língua Natural
Redes Neurais Artificiais
title_short Caracterização autoral interdomínio a partir de textos
title_full Caracterização autoral interdomínio a partir de textos
title_fullStr Caracterização autoral interdomínio a partir de textos
title_full_unstemmed Caracterização autoral interdomínio a partir de textos
title_sort Caracterização autoral interdomínio a partir de textos
author Delmondes Neto, José Pereira
author_facet Delmondes Neto, José Pereira
author_role author
dc.contributor.none.fl_str_mv Paraboni, Ivandre
dc.contributor.author.fl_str_mv Delmondes Neto, José Pereira
dc.subject.por.fl_str_mv Artificial Neural Netwok
Caracterização Autoral Interdomínio
Cross-Genre Author Profiling
Natural Language Processing
Processamento de Língua Natural
Redes Neurais Artificiais
topic Artificial Neural Netwok
Caracterização Autoral Interdomínio
Cross-Genre Author Profiling
Natural Language Processing
Processamento de Língua Natural
Redes Neurais Artificiais
description Na área de processamento de língua natural, entende-se por caracterização autoral uma tarefa computacional que tem por objetivo extrair informações sociais e psicológicas dos indivíduos, como gênero e faixa etária, por meio de suas produções textuais. Modelos computacionais de caracterização autoral são comumente empregados em áreas como marketing e segurança, dentre outras. Estes modelos geralmente são de domínio único, i.e., são treinados e validados no mesmo gênero textual, o que faz com que sua portabilidade para outros gêneros seja limitada. Em contrapartida aos modelos de domínio único, modelos interdomínio, que são validados em gêneros textuais diferentes dos que foram treinados, podem ser uma alternativa para casos em que não há dados suficientes para o treinamento de um modelo computacional. Um exemplo seria a utilização de dados do Twitter (domínio que dispõem de grande volume de dados) para o desenvolvimento de modelos de caracterização autoral a serem utilizados em e-mails, domínio onde é mais difícil obter um volume de dados suficiente para o treinamento dos modelos. O presente trabalho apresenta uma proposta de pesquisa em nível de mestrado na área de processamento de língua natural, com ênfase em caracterização autoral, com o objetivo geral de desenvolver modelos de aprendizagem de máquina supervisionada baseados em redes neurais artificiais para a tarefa de caracterização autoral interdomínio, de modo a se obter uma alternativa robusta aos modelos de domínio único, com perda de acurácia reduzida se comparada a modelos equivalentes baseados em domínio único
publishDate 2021
dc.date.none.fl_str_mv 2021-08-04
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/100/100131/tde-06092021-142746/
url https://www.teses.usp.br/teses/disponiveis/100/100131/tde-06092021-142746/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815256491327750144