Caracterização autoral interdomínio a partir de textos

Detalhes bibliográficos
Autor(a) principal: José Pereira Delmondes Neto
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://doi.org/10.11606/D.100.2021.tde-06092021-142746
Resumo: Na área de processamento de língua natural, entende-se por caracterização autoral uma tarefa computacional que tem por objetivo extrair informações sociais e psicológicas dos indivíduos, como gênero e faixa etária, por meio de suas produções textuais. Modelos computacionais de caracterização autoral são comumente empregados em áreas como marketing e segurança, dentre outras. Estes modelos geralmente são de domínio único, i.e., são treinados e validados no mesmo gênero textual, o que faz com que sua portabilidade para outros gêneros seja limitada. Em contrapartida aos modelos de domínio único, modelos interdomínio, que são validados em gêneros textuais diferentes dos que foram treinados, podem ser uma alternativa para casos em que não há dados suficientes para o treinamento de um modelo computacional. Um exemplo seria a utilização de dados do Twitter (domínio que dispõem de grande volume de dados) para o desenvolvimento de modelos de caracterização autoral a serem utilizados em e-mails, domínio onde é mais difícil obter um volume de dados suficiente para o treinamento dos modelos. O presente trabalho apresenta uma proposta de pesquisa em nível de mestrado na área de processamento de língua natural, com ênfase em caracterização autoral, com o objetivo geral de desenvolver modelos de aprendizagem de máquina supervisionada baseados em redes neurais artificiais para a tarefa de caracterização autoral interdomínio, de modo a se obter uma alternativa robusta aos modelos de domínio único, com perda de acurácia reduzida se comparada a modelos equivalentes baseados em domínio único
id USP_5628b1637aef7791c2c78b39de45ed8f
oai_identifier_str oai:teses.usp.br:tde-06092021-142746
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis Caracterização autoral interdomínio a partir de textos Cross domain author profiling from texts 2021-08-04Ivandre ParaboniHelena de Medeiros CaseliJosé de Jesus Pérez AlcazárJosé Pereira Delmondes NetoUniversidade de São PauloSistemas de InformaçãoUSPBR Artificial Neural Netwok Caracterização Autoral Interdomínio Cross-Genre Author Profiling Natural Language Processing Processamento de Língua Natural Redes Neurais Artificiais Na área de processamento de língua natural, entende-se por caracterização autoral uma tarefa computacional que tem por objetivo extrair informações sociais e psicológicas dos indivíduos, como gênero e faixa etária, por meio de suas produções textuais. Modelos computacionais de caracterização autoral são comumente empregados em áreas como marketing e segurança, dentre outras. Estes modelos geralmente são de domínio único, i.e., são treinados e validados no mesmo gênero textual, o que faz com que sua portabilidade para outros gêneros seja limitada. Em contrapartida aos modelos de domínio único, modelos interdomínio, que são validados em gêneros textuais diferentes dos que foram treinados, podem ser uma alternativa para casos em que não há dados suficientes para o treinamento de um modelo computacional. Um exemplo seria a utilização de dados do Twitter (domínio que dispõem de grande volume de dados) para o desenvolvimento de modelos de caracterização autoral a serem utilizados em e-mails, domínio onde é mais difícil obter um volume de dados suficiente para o treinamento dos modelos. O presente trabalho apresenta uma proposta de pesquisa em nível de mestrado na área de processamento de língua natural, com ênfase em caracterização autoral, com o objetivo geral de desenvolver modelos de aprendizagem de máquina supervisionada baseados em redes neurais artificiais para a tarefa de caracterização autoral interdomínio, de modo a se obter uma alternativa robusta aos modelos de domínio único, com perda de acurácia reduzida se comparada a modelos equivalentes baseados em domínio único In the area of natural language processing, author profiling is a computational task that aims to extract social and psychological information from individuals, such as gender and age group, through their textual productions. Computational models of author profiling are commonly used in areas such as marketing and security, among others. These models are usually based on a single domain, i.e., they are trained and validated in the same domain, which makes their portability to other domains limited. In contrast to single domain models, cross-genre models, which are validated in different domains than those on which they were trained, may be an alternative for cases in which there is not enough data for training a computational model. An example would be the use of Twitter data (a domain that has a large amount of data) for the development of author profiling models to be used in e-mails, a domain in which it is more difficult to obtain a sufficient amount of data for the training of the models. The present work introduces a proposal for a MSc research in the area of natural language processing, focused on author profiling, with the general objective of developing supervised machine learning models based on artificial neural networks for the task of cross-genre author profiling, in order to obtain a robust alternative to single domain models, with reduced loss of precision compared to equivalent cross-genre models https://doi.org/10.11606/D.100.2021.tde-06092021-142746info:eu-repo/semantics/openAccessporreponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USP2023-12-21T18:20:33Zoai:teses.usp.br:tde-06092021-142746Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-12-22T12:14:17.334898Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.pt.fl_str_mv Caracterização autoral interdomínio a partir de textos
dc.title.alternative.en.fl_str_mv Cross domain author profiling from texts
title Caracterização autoral interdomínio a partir de textos
spellingShingle Caracterização autoral interdomínio a partir de textos
José Pereira Delmondes Neto
title_short Caracterização autoral interdomínio a partir de textos
title_full Caracterização autoral interdomínio a partir de textos
title_fullStr Caracterização autoral interdomínio a partir de textos
title_full_unstemmed Caracterização autoral interdomínio a partir de textos
title_sort Caracterização autoral interdomínio a partir de textos
author José Pereira Delmondes Neto
author_facet José Pereira Delmondes Neto
author_role author
dc.contributor.advisor1.fl_str_mv Ivandre Paraboni
dc.contributor.referee1.fl_str_mv Helena de Medeiros Caseli
dc.contributor.referee2.fl_str_mv José de Jesus Pérez Alcazár
dc.contributor.author.fl_str_mv José Pereira Delmondes Neto
contributor_str_mv Ivandre Paraboni
Helena de Medeiros Caseli
José de Jesus Pérez Alcazár
description Na área de processamento de língua natural, entende-se por caracterização autoral uma tarefa computacional que tem por objetivo extrair informações sociais e psicológicas dos indivíduos, como gênero e faixa etária, por meio de suas produções textuais. Modelos computacionais de caracterização autoral são comumente empregados em áreas como marketing e segurança, dentre outras. Estes modelos geralmente são de domínio único, i.e., são treinados e validados no mesmo gênero textual, o que faz com que sua portabilidade para outros gêneros seja limitada. Em contrapartida aos modelos de domínio único, modelos interdomínio, que são validados em gêneros textuais diferentes dos que foram treinados, podem ser uma alternativa para casos em que não há dados suficientes para o treinamento de um modelo computacional. Um exemplo seria a utilização de dados do Twitter (domínio que dispõem de grande volume de dados) para o desenvolvimento de modelos de caracterização autoral a serem utilizados em e-mails, domínio onde é mais difícil obter um volume de dados suficiente para o treinamento dos modelos. O presente trabalho apresenta uma proposta de pesquisa em nível de mestrado na área de processamento de língua natural, com ênfase em caracterização autoral, com o objetivo geral de desenvolver modelos de aprendizagem de máquina supervisionada baseados em redes neurais artificiais para a tarefa de caracterização autoral interdomínio, de modo a se obter uma alternativa robusta aos modelos de domínio único, com perda de acurácia reduzida se comparada a modelos equivalentes baseados em domínio único
publishDate 2021
dc.date.issued.fl_str_mv 2021-08-04
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://doi.org/10.11606/D.100.2021.tde-06092021-142746
url https://doi.org/10.11606/D.100.2021.tde-06092021-142746
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade de São Paulo
dc.publisher.program.fl_str_mv Sistemas de Informação
dc.publisher.initials.fl_str_mv USP
dc.publisher.country.fl_str_mv BR
publisher.none.fl_str_mv Universidade de São Paulo
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1794502521545293824