Estratégias Lexicométricas para Detetar Especificidades Textuais

Detalhes bibliográficos
Autor(a) principal: Iriarte Sanromán, Álvaro
Data de Publicação: 2018
Outros Autores: Gamallo Otero, Pablo, Simões, Alberto
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://doi.org/10.21814/lm.10.1.263
Resumo: Neste artigo propomo-nos a definir e desenvolver uma estratégia automática para procurar especificidades lexicais dentro de conjuntos de textos utilizando unidades lexicais simples e expressões com várias palavras, ou termos multipalavra (MWE, a sua sigla em inglês). Propomos uma metodologia para o cálculo da divergência de distribuições de lemas e de MWE que permitirá encontrar, automaticamente, diferenças e semelhanças entre textos não anotados. Esta metodologia poderá ser utilizada para posteriormente identificar grupos de textos sobre os quais se procederá a análises quantitativas e qualitativas semiautomáticas e/ou com intervenção humana. Num primeiro teste, utilizamos dois textos de especialidade (da área da pediatria) e um texto literário, presumindo que os textos de especialidade deveriam apresentar maiores divergências relativamente ao texto literário do que entre eles próprios. Como os testes feitos mostraram a tendência esperada, decidimos aplicar a mesma metodologia a um segundo grupo de textos (três conjuntos de entrevistas a visitantes da cidade de Santiago de Compostela).
id RCAP_330e48b2b6185cd6cde574c5aa5f1953
oai_identifier_str oai:linguamatica.com:article/263
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Estratégias Lexicométricas para Detetar Especificidades TextuaisLexicometric strategies to detect textual specificitiesEstratégias Lexicométricas para Detetar Especificidades TextuaisKullback–Leibler divergencelexical divergencelexicometrydivergência de Kullback-Leiblerdivergência lexicallexicometriadivergencia de Kullback-Leiblerdivergência lexicallexicometriaNeste artigo propomo-nos a definir e desenvolver uma estratégia automática para procurar especificidades lexicais dentro de conjuntos de textos utilizando unidades lexicais simples e expressões com várias palavras, ou termos multipalavra (MWE, a sua sigla em inglês). Propomos uma metodologia para o cálculo da divergência de distribuições de lemas e de MWE que permitirá encontrar, automaticamente, diferenças e semelhanças entre textos não anotados. Esta metodologia poderá ser utilizada para posteriormente identificar grupos de textos sobre os quais se procederá a análises quantitativas e qualitativas semiautomáticas e/ou com intervenção humana. Num primeiro teste, utilizamos dois textos de especialidade (da área da pediatria) e um texto literário, presumindo que os textos de especialidade deveriam apresentar maiores divergências relativamente ao texto literário do que entre eles próprios. Como os testes feitos mostraram a tendência esperada, decidimos aplicar a mesma metodologia a um segundo grupo de textos (três conjuntos de entrevistas a visitantes da cidade de Santiago de Compostela).In this article we propose to to define and develop an automatic strategy to search for lexical specificities within sets of texts using simple lexical units and multiword expressions (MWE). We propose a methodology for calculating the divergence of lemma and MWE distributions that will automatically find differences and similarities between unlabeled texts. This methodology can be used to subsequently identify groups of texts to which quantitative and qualitative analyzes will be applied (semiautomatically and/or with human intervention). In a first test, we used two specialized texts (from the area of Paediatrics) and a literary text, assuming that the texts of specialty should present greater divergences with respect to the literary text than among themselves. As the tests that were done showed the expected trend, we decided to apply the same methodology to a second set of texts (three sets of interviews done to visitors in the city of Santiago de Compostela).Neste artigo propomo-nos a definir e desenvolver uma estratégia automática para procurar especificidades lexicais dentro de conjuntos de textos utilizando unidades lexicais simples e expressões com várias palavras, ou termos multipalavra (MWE, a sua sigla em inglês). Propomos uma metodologia para o cálculo da divergência de distribuições de lemas e de MWE que permitirá encontrar, automaticamente, diferenças e semelhanças entre textos não anotados. Esta metodologia poderá ser utilizada para posteriormente identificar grupos de textos sobre os quais se procederá a análises quantitativas e qualitativas semiautomáticas e/ou com intervenção humana. Num primeiro teste, utilizamos dois textos de especialidade (da área da pediatria) e um texto literário, presumindo que os textos de especialidade deveriam apresentar maiores divergências relativamente ao texto literário do que entre eles próprios. Como os testes feitos mostraram a tendência esperada, decidimos aplicar a mesma metodologia a um segundo grupo de textos (três conjuntos de entrevistas a visitantes da cidade de Santiago de Compostela).Universidade do Minho e Universidade de Vigo2018-08-04info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.10.1.263https://doi.org/10.21814/lm.10.1.263Linguamática; Vol. 10 No. 1; 19-26Linguamática; Vol. 10 Núm. 1; 19-26Linguamática; v. 10 n. 1; 19-261647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/263https://linguamatica.com/index.php/linguamatica/article/view/263/439Direitos de Autor (c) 2018 Álvaro Iriarte Sanromán, Pablo Gamallo Otero, Alberto Simõeshttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessIriarte Sanromán, ÁlvaroGamallo Otero, PabloSimões, Alberto2023-09-08T13:46:37Zoai:linguamatica.com:article/263Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:38.455966Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Estratégias Lexicométricas para Detetar Especificidades Textuais
Lexicometric strategies to detect textual specificities
Estratégias Lexicométricas para Detetar Especificidades Textuais
title Estratégias Lexicométricas para Detetar Especificidades Textuais
spellingShingle Estratégias Lexicométricas para Detetar Especificidades Textuais
Iriarte Sanromán, Álvaro
Kullback–Leibler divergence
lexical divergence
lexicometry
divergência de Kullback-Leibler
divergência lexical
lexicometria
divergencia de Kullback-Leibler
divergência lexical
lexicometria
title_short Estratégias Lexicométricas para Detetar Especificidades Textuais
title_full Estratégias Lexicométricas para Detetar Especificidades Textuais
title_fullStr Estratégias Lexicométricas para Detetar Especificidades Textuais
title_full_unstemmed Estratégias Lexicométricas para Detetar Especificidades Textuais
title_sort Estratégias Lexicométricas para Detetar Especificidades Textuais
author Iriarte Sanromán, Álvaro
author_facet Iriarte Sanromán, Álvaro
Gamallo Otero, Pablo
Simões, Alberto
author_role author
author2 Gamallo Otero, Pablo
Simões, Alberto
author2_role author
author
dc.contributor.author.fl_str_mv Iriarte Sanromán, Álvaro
Gamallo Otero, Pablo
Simões, Alberto
dc.subject.por.fl_str_mv Kullback–Leibler divergence
lexical divergence
lexicometry
divergência de Kullback-Leibler
divergência lexical
lexicometria
divergencia de Kullback-Leibler
divergência lexical
lexicometria
topic Kullback–Leibler divergence
lexical divergence
lexicometry
divergência de Kullback-Leibler
divergência lexical
lexicometria
divergencia de Kullback-Leibler
divergência lexical
lexicometria
description Neste artigo propomo-nos a definir e desenvolver uma estratégia automática para procurar especificidades lexicais dentro de conjuntos de textos utilizando unidades lexicais simples e expressões com várias palavras, ou termos multipalavra (MWE, a sua sigla em inglês). Propomos uma metodologia para o cálculo da divergência de distribuições de lemas e de MWE que permitirá encontrar, automaticamente, diferenças e semelhanças entre textos não anotados. Esta metodologia poderá ser utilizada para posteriormente identificar grupos de textos sobre os quais se procederá a análises quantitativas e qualitativas semiautomáticas e/ou com intervenção humana. Num primeiro teste, utilizamos dois textos de especialidade (da área da pediatria) e um texto literário, presumindo que os textos de especialidade deveriam apresentar maiores divergências relativamente ao texto literário do que entre eles próprios. Como os testes feitos mostraram a tendência esperada, decidimos aplicar a mesma metodologia a um segundo grupo de textos (três conjuntos de entrevistas a visitantes da cidade de Santiago de Compostela).
publishDate 2018
dc.date.none.fl_str_mv 2018-08-04
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://doi.org/10.21814/lm.10.1.263
https://doi.org/10.21814/lm.10.1.263
url https://doi.org/10.21814/lm.10.1.263
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://linguamatica.com/index.php/linguamatica/article/view/263
https://linguamatica.com/index.php/linguamatica/article/view/263/439
dc.rights.driver.fl_str_mv Direitos de Autor (c) 2018 Álvaro Iriarte Sanromán, Pablo Gamallo Otero, Alberto Simões
http://creativecommons.org/licenses/by/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Direitos de Autor (c) 2018 Álvaro Iriarte Sanromán, Pablo Gamallo Otero, Alberto Simões
http://creativecommons.org/licenses/by/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
dc.source.none.fl_str_mv Linguamática; Vol. 10 No. 1; 19-26
Linguamática; Vol. 10 Núm. 1; 19-26
Linguamática; v. 10 n. 1; 19-26
1647-0818
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133553978507264