Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales

González-Gallardo, Carlos-Emiliano; Torres-Moreno, Juan-Manuel; Montes Rendón, Azucena; Sierra, Gerardo

Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales

Detalhes bibliográficos
Autor(a) principal:	González-Gallardo, Carlos-Emiliano
Data de Publicação:	2016
Outros Autores:	Torres-Moreno, Juan-Manuel, Montes Rendón, Azucena, Sierra, Gerardo
Tipo de documento:	Artigo
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	https://linguamatica.com/index.php/linguamatica/article/view/v8n1-2
Resumo:	En este artículo presentamos un algoritmo que combina las características estilísticas representadas por los n-gramas de caracteres y los n-gramas de etiquetas gramaticales (POS) para clasificar documentos multilengua de redes sociales. En ambos grupos de n-gramas se aplicó una normalización dinámica dependiente del contexto para extraer la mayor cantidad de información estilística posible codificada en los documentos (emoticonos, inundamiento de caracteres, uso de letras mayúsculas, referencias a usuarios, ligas a sitios externos, hashtags, etc.). El algoritmo fue aplicado sobre dos corpus diferentes: los tweets del corpus de entrenamiento de la tarea Author Profiling de PAN-CLEF 2015 y el corpus de "Comentarios de la Ciudad de México en el tiempo" (CCDMX). Los resultados presentan una exactitud muy alta, cercana al 90%.

Metadados do item

id	RCAP_bc331a359449db7fd83227b5b3f2c88a
oai_identifier_str	oai:linguamatica.com:article/227
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticalesPerfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticalesSocial Network Multilingual Author Profiling using character and POS n-gramsMinería de textosAprendizaje automáticoClasificaciónn-gramasBlogsTweetsRedes socialesEn este artículo presentamos un algoritmo que combina las características estilísticas representadas por los n-gramas de caracteres y los n-gramas de etiquetas gramaticales (POS) para clasificar documentos multilengua de redes sociales. En ambos grupos de n-gramas se aplicó una normalización dinámica dependiente del contexto para extraer la mayor cantidad de información estilística posible codificada en los documentos (emoticonos, inundamiento de caracteres, uso de letras mayúsculas, referencias a usuarios, ligas a sitios externos, hashtags, etc.). El algoritmo fue aplicado sobre dos corpus diferentes: los tweets del corpus de entrenamiento de la tarea Author Profiling de PAN-CLEF 2015 y el corpus de "Comentarios de la Ciudad de México en el tiempo" (CCDMX). Los resultados presentan una exactitud muy alta, cercana al 90%.En este artículo presentamos un algoritmo que combina las características estilísticas representadas por los n-gramas de caracteres y los n-gramas de etiquetas gramaticales (POS) para clasificar documentos multilengua de redes sociales. En ambos grupos de n-gramas se aplicó una normalización dinámica dependiente del contexto para extraer la mayor cantidad de información estilística posible codificada en los documentos (emoticonos, inundamiento de caracteres, uso de letras mayúsculas, referencias a usuarios, ligas a sitios externos, hashtags, etc.). El algoritmo fue aplicado sobre dos corpus diferentes: los tweets del corpus de entrenamiento de la tarea Author Profiling de PAN-CLEF 2015 y el corpus de "Comentarios de la Ciudad de México en el tiempo" (CCDMX). Los resultados presentan una exactitud muy alta, cercana al 90%.In this paper we present an algorithm that combines the stylistic features represented by characters and POS n-grams to classify social network multilingual documents. In both n-gram groups a dynamic normalization by context was applied to extract all the possible stylistic information encoded in the documents (emoticons, character flooding, capital letters, references to other users, hyperlinks, hashtags, etc.). The algorithm was applied to two different corpus; Author Profiling of PAN-CLEF 2015 training tweets and the corpus of "Comments of Mexico City in time" (CCDMX). Results shows up to 90% of accuracy.Universidade do Minho e Universidade de Vigo2016-07-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://linguamatica.com/index.php/linguamatica/article/view/v8n1-2Linguamática; Vol. 8 No. 1; 21-29Linguamática; Vol. 8 Núm. 1; 21-29Linguamática; v. 8 n. 1; 21-291647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/v8n1-2https://linguamatica.com/index.php/linguamatica/article/view/v8n1-2/355González-Gallardo, Carlos-EmilianoTorres-Moreno, Juan-ManuelMontes Rendón, AzucenaSierra, Gerardoinfo:eu-repo/semantics/openAccess2023-09-08T13:46:35Zoai:linguamatica.com:article/227Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:37.569514Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales Social Network Multilingual Author Profiling using character and POS n-grams
title	Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales
spellingShingle	Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales González-Gallardo, Carlos-Emiliano Minería de textos Aprendizaje automático Clasificación n-gramas Blogs Tweets Redes sociales
title_short	Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales
title_full	Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales
title_fullStr	Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales
title_full_unstemmed	Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales
title_sort	Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales
author	González-Gallardo, Carlos-Emiliano
author_facet	González-Gallardo, Carlos-Emiliano Torres-Moreno, Juan-Manuel Montes Rendón, Azucena Sierra, Gerardo
author_role	author
author2	Torres-Moreno, Juan-Manuel Montes Rendón, Azucena Sierra, Gerardo
author2_role	author author author
dc.contributor.author.fl_str_mv	González-Gallardo, Carlos-Emiliano Torres-Moreno, Juan-Manuel Montes Rendón, Azucena Sierra, Gerardo
dc.subject.por.fl_str_mv	Minería de textos Aprendizaje automático Clasificación n-gramas Blogs Tweets Redes sociales
topic	Minería de textos Aprendizaje automático Clasificación n-gramas Blogs Tweets Redes sociales
description	En este artículo presentamos un algoritmo que combina las características estilísticas representadas por los n-gramas de caracteres y los n-gramas de etiquetas gramaticales (POS) para clasificar documentos multilengua de redes sociales. En ambos grupos de n-gramas se aplicó una normalización dinámica dependiente del contexto para extraer la mayor cantidad de información estilística posible codificada en los documentos (emoticonos, inundamiento de caracteres, uso de letras mayúsculas, referencias a usuarios, ligas a sitios externos, hashtags, etc.). El algoritmo fue aplicado sobre dos corpus diferentes: los tweets del corpus de entrenamiento de la tarea Author Profiling de PAN-CLEF 2015 y el corpus de "Comentarios de la Ciudad de México en el tiempo" (CCDMX). Los resultados presentan una exactitud muy alta, cercana al 90%.
publishDate	2016
dc.date.none.fl_str_mv	2016-07-22
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/article
format	article
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://linguamatica.com/index.php/linguamatica/article/view/v8n1-2
url	https://linguamatica.com/index.php/linguamatica/article/view/v8n1-2
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	https://linguamatica.com/index.php/linguamatica/article/view/v8n1-2 https://linguamatica.com/index.php/linguamatica/article/view/v8n1-2/355
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade do Minho e Universidade de Vigo
publisher.none.fl_str_mv	Universidade do Minho e Universidade de Vigo
dc.source.none.fl_str_mv	Linguamática; Vol. 8 No. 1; 21-29 Linguamática; Vol. 8 Núm. 1; 21-29 Linguamática; v. 8 n. 1; 21-29 1647-0818 reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799133553939709952

Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales

Registros relacionados