Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales

Detalhes bibliográficos
Autor(a) principal: González-Gallardo, Carlos-Emiliano
Data de Publicação: 2016
Outros Autores: Torres-Moreno, Juan-Manuel, Montes Rendón, Azucena, Sierra, Gerardo
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://linguamatica.com/index.php/linguamatica/article/view/v8n1-2
Resumo: En este artículo presentamos un algoritmo que combina las características estilísticas representadas por los n-gramas de caracteres y los n-gramas de etiquetas gramaticales (POS) para clasificar documentos multilengua de redes sociales. En ambos grupos de n-gramas se aplicó una normalización dinámica dependiente del contexto para extraer la mayor cantidad de información estilística posible codificada en los documentos (emoticonos, inundamiento de caracteres, uso de letras mayúsculas, referencias a usuarios, ligas a sitios externos, hashtags, etc.). El algoritmo fue aplicado sobre dos corpus diferentes: los tweets del corpus de entrenamiento de la tarea Author Profiling de PAN-CLEF 2015 y el corpus de "Comentarios de la Ciudad de México en el tiempo" (CCDMX). Los resultados presentan una exactitud muy alta, cercana al 90%.
id RCAP_bc331a359449db7fd83227b5b3f2c88a
oai_identifier_str oai:linguamatica.com:article/227
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticalesPerfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticalesSocial Network Multilingual Author Profiling using character and POS n-gramsMinería de textosAprendizaje automáticoClasificaciónn-gramasBlogsTweetsRedes socialesEn este artículo presentamos un algoritmo que combina las características estilísticas representadas por los n-gramas de caracteres y los n-gramas de etiquetas gramaticales (POS) para clasificar documentos multilengua de redes sociales. En ambos grupos de n-gramas se aplicó una normalización dinámica dependiente del contexto para extraer la mayor cantidad de información estilística posible codificada en los documentos (emoticonos, inundamiento de caracteres, uso de letras mayúsculas, referencias a usuarios, ligas a sitios externos, hashtags, etc.). El algoritmo fue aplicado sobre dos corpus diferentes: los tweets del corpus de entrenamiento de la tarea Author Profiling de PAN-CLEF 2015 y el corpus de "Comentarios de la Ciudad de México en el tiempo" (CCDMX). Los resultados presentan una exactitud muy alta, cercana al 90%.En este artículo presentamos un algoritmo que combina las características estilísticas representadas por los n-gramas de caracteres y los n-gramas de etiquetas gramaticales (POS) para clasificar documentos multilengua de redes sociales. En ambos grupos de n-gramas se aplicó una normalización dinámica dependiente del contexto para extraer la mayor cantidad de información estilística posible codificada en los documentos (emoticonos, inundamiento de caracteres, uso de letras mayúsculas, referencias a usuarios, ligas a sitios externos, hashtags, etc.). El algoritmo fue aplicado sobre dos corpus diferentes: los tweets del corpus de entrenamiento de la tarea Author Profiling de PAN-CLEF 2015 y el corpus de "Comentarios de la Ciudad de México en el tiempo" (CCDMX). Los resultados presentan una exactitud muy alta, cercana al 90%.In this paper we present an algorithm that combines the stylistic features represented by characters and POS n-grams to classify social network multilingual documents. In both n-gram groups a dynamic normalization by context was applied to extract all the possible stylistic information encoded in the documents (emoticons, character flooding, capital letters, references to other users, hyperlinks, hashtags, etc.). The algorithm was applied to two different corpus; Author Profiling of PAN-CLEF 2015 training tweets and the corpus of "Comments of Mexico City in time" (CCDMX). Results shows up to 90% of accuracy.Universidade do Minho e Universidade de Vigo2016-07-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://linguamatica.com/index.php/linguamatica/article/view/v8n1-2Linguamática; Vol. 8 No. 1; 21-29Linguamática; Vol. 8 Núm. 1; 21-29Linguamática; v. 8 n. 1; 21-291647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/v8n1-2https://linguamatica.com/index.php/linguamatica/article/view/v8n1-2/355González-Gallardo, Carlos-EmilianoTorres-Moreno, Juan-ManuelMontes Rendón, AzucenaSierra, Gerardoinfo:eu-repo/semantics/openAccess2023-09-08T13:46:35Zoai:linguamatica.com:article/227Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:37.569514Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales
Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales
Social Network Multilingual Author Profiling using character and POS n-grams
title Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales
spellingShingle Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales
González-Gallardo, Carlos-Emiliano
Minería de textos
Aprendizaje automático
Clasificación
n-gramas
Blogs
Tweets
Redes sociales
title_short Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales
title_full Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales
title_fullStr Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales
title_full_unstemmed Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales
title_sort Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales
author González-Gallardo, Carlos-Emiliano
author_facet González-Gallardo, Carlos-Emiliano
Torres-Moreno, Juan-Manuel
Montes Rendón, Azucena
Sierra, Gerardo
author_role author
author2 Torres-Moreno, Juan-Manuel
Montes Rendón, Azucena
Sierra, Gerardo
author2_role author
author
author
dc.contributor.author.fl_str_mv González-Gallardo, Carlos-Emiliano
Torres-Moreno, Juan-Manuel
Montes Rendón, Azucena
Sierra, Gerardo
dc.subject.por.fl_str_mv Minería de textos
Aprendizaje automático
Clasificación
n-gramas
Blogs
Tweets
Redes sociales
topic Minería de textos
Aprendizaje automático
Clasificación
n-gramas
Blogs
Tweets
Redes sociales
description En este artículo presentamos un algoritmo que combina las características estilísticas representadas por los n-gramas de caracteres y los n-gramas de etiquetas gramaticales (POS) para clasificar documentos multilengua de redes sociales. En ambos grupos de n-gramas se aplicó una normalización dinámica dependiente del contexto para extraer la mayor cantidad de información estilística posible codificada en los documentos (emoticonos, inundamiento de caracteres, uso de letras mayúsculas, referencias a usuarios, ligas a sitios externos, hashtags, etc.). El algoritmo fue aplicado sobre dos corpus diferentes: los tweets del corpus de entrenamiento de la tarea Author Profiling de PAN-CLEF 2015 y el corpus de "Comentarios de la Ciudad de México en el tiempo" (CCDMX). Los resultados presentan una exactitud muy alta, cercana al 90%.
publishDate 2016
dc.date.none.fl_str_mv 2016-07-22
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://linguamatica.com/index.php/linguamatica/article/view/v8n1-2
url https://linguamatica.com/index.php/linguamatica/article/view/v8n1-2
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://linguamatica.com/index.php/linguamatica/article/view/v8n1-2
https://linguamatica.com/index.php/linguamatica/article/view/v8n1-2/355
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
dc.source.none.fl_str_mv Linguamática; Vol. 8 No. 1; 21-29
Linguamática; Vol. 8 Núm. 1; 21-29
Linguamática; v. 8 n. 1; 21-29
1647-0818
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133553939709952