Estratégias Lexicométricas para Detetar Especificidades Textuais
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Outros Autores: | , |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
DOI: | 10.21814/lm.10.1.263 |
Texto Completo: | https://doi.org/10.21814/lm.10.1.263 |
Resumo: | Neste artigo propomo-nos a definir e desenvolver uma estratégia automática para procurar especificidades lexicais dentro de conjuntos de textos utilizando unidades lexicais simples e expressões com várias palavras, ou termos multipalavra (MWE, a sua sigla em inglês). Propomos uma metodologia para o cálculo da divergência de distribuições de lemas e de MWE que permitirá encontrar, automaticamente, diferenças e semelhanças entre textos não anotados. Esta metodologia poderá ser utilizada para posteriormente identificar grupos de textos sobre os quais se procederá a análises quantitativas e qualitativas semiautomáticas e/ou com intervenção humana. Num primeiro teste, utilizamos dois textos de especialidade (da área da pediatria) e um texto literário, presumindo que os textos de especialidade deveriam apresentar maiores divergências relativamente ao texto literário do que entre eles próprios. Como os testes feitos mostraram a tendência esperada, decidimos aplicar a mesma metodologia a um segundo grupo de textos (três conjuntos de entrevistas a visitantes da cidade de Santiago de Compostela). |
id |
RCAP_330e48b2b6185cd6cde574c5aa5f1953 |
---|---|
oai_identifier_str |
oai:linguamatica.com:article/263 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Estratégias Lexicométricas para Detetar Especificidades TextuaisLexicometric strategies to detect textual specificitiesEstratégias Lexicométricas para Detetar Especificidades TextuaisKullback–Leibler divergencelexical divergencelexicometrydivergência de Kullback-Leiblerdivergência lexicallexicometriadivergencia de Kullback-Leiblerdivergência lexicallexicometriaNeste artigo propomo-nos a definir e desenvolver uma estratégia automática para procurar especificidades lexicais dentro de conjuntos de textos utilizando unidades lexicais simples e expressões com várias palavras, ou termos multipalavra (MWE, a sua sigla em inglês). Propomos uma metodologia para o cálculo da divergência de distribuições de lemas e de MWE que permitirá encontrar, automaticamente, diferenças e semelhanças entre textos não anotados. Esta metodologia poderá ser utilizada para posteriormente identificar grupos de textos sobre os quais se procederá a análises quantitativas e qualitativas semiautomáticas e/ou com intervenção humana. Num primeiro teste, utilizamos dois textos de especialidade (da área da pediatria) e um texto literário, presumindo que os textos de especialidade deveriam apresentar maiores divergências relativamente ao texto literário do que entre eles próprios. Como os testes feitos mostraram a tendência esperada, decidimos aplicar a mesma metodologia a um segundo grupo de textos (três conjuntos de entrevistas a visitantes da cidade de Santiago de Compostela).In this article we propose to to define and develop an automatic strategy to search for lexical specificities within sets of texts using simple lexical units and multiword expressions (MWE). We propose a methodology for calculating the divergence of lemma and MWE distributions that will automatically find differences and similarities between unlabeled texts. This methodology can be used to subsequently identify groups of texts to which quantitative and qualitative analyzes will be applied (semiautomatically and/or with human intervention). In a first test, we used two specialized texts (from the area of Paediatrics) and a literary text, assuming that the texts of specialty should present greater divergences with respect to the literary text than among themselves. As the tests that were done showed the expected trend, we decided to apply the same methodology to a second set of texts (three sets of interviews done to visitors in the city of Santiago de Compostela).Neste artigo propomo-nos a definir e desenvolver uma estratégia automática para procurar especificidades lexicais dentro de conjuntos de textos utilizando unidades lexicais simples e expressões com várias palavras, ou termos multipalavra (MWE, a sua sigla em inglês). Propomos uma metodologia para o cálculo da divergência de distribuições de lemas e de MWE que permitirá encontrar, automaticamente, diferenças e semelhanças entre textos não anotados. Esta metodologia poderá ser utilizada para posteriormente identificar grupos de textos sobre os quais se procederá a análises quantitativas e qualitativas semiautomáticas e/ou com intervenção humana. Num primeiro teste, utilizamos dois textos de especialidade (da área da pediatria) e um texto literário, presumindo que os textos de especialidade deveriam apresentar maiores divergências relativamente ao texto literário do que entre eles próprios. Como os testes feitos mostraram a tendência esperada, decidimos aplicar a mesma metodologia a um segundo grupo de textos (três conjuntos de entrevistas a visitantes da cidade de Santiago de Compostela).Universidade do Minho e Universidade de Vigo2018-08-04info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.10.1.263https://doi.org/10.21814/lm.10.1.263Linguamática; Vol. 10 No. 1; 19-26Linguamática; Vol. 10 Núm. 1; 19-26Linguamática; v. 10 n. 1; 19-261647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/263https://linguamatica.com/index.php/linguamatica/article/view/263/439Direitos de Autor (c) 2018 Álvaro Iriarte Sanromán, Pablo Gamallo Otero, Alberto Simõeshttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessIriarte Sanromán, ÁlvaroGamallo Otero, PabloSimões, Alberto2023-09-08T13:46:37Zoai:linguamatica.com:article/263Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:38.455966Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Estratégias Lexicométricas para Detetar Especificidades Textuais Lexicometric strategies to detect textual specificities Estratégias Lexicométricas para Detetar Especificidades Textuais |
title |
Estratégias Lexicométricas para Detetar Especificidades Textuais |
spellingShingle |
Estratégias Lexicométricas para Detetar Especificidades Textuais Estratégias Lexicométricas para Detetar Especificidades Textuais Iriarte Sanromán, Álvaro Kullback–Leibler divergence lexical divergence lexicometry divergência de Kullback-Leibler divergência lexical lexicometria divergencia de Kullback-Leibler divergência lexical lexicometria Iriarte Sanromán, Álvaro Kullback–Leibler divergence lexical divergence lexicometry divergência de Kullback-Leibler divergência lexical lexicometria divergencia de Kullback-Leibler divergência lexical lexicometria |
title_short |
Estratégias Lexicométricas para Detetar Especificidades Textuais |
title_full |
Estratégias Lexicométricas para Detetar Especificidades Textuais |
title_fullStr |
Estratégias Lexicométricas para Detetar Especificidades Textuais Estratégias Lexicométricas para Detetar Especificidades Textuais |
title_full_unstemmed |
Estratégias Lexicométricas para Detetar Especificidades Textuais Estratégias Lexicométricas para Detetar Especificidades Textuais |
title_sort |
Estratégias Lexicométricas para Detetar Especificidades Textuais |
author |
Iriarte Sanromán, Álvaro |
author_facet |
Iriarte Sanromán, Álvaro Iriarte Sanromán, Álvaro Gamallo Otero, Pablo Simões, Alberto Gamallo Otero, Pablo Simões, Alberto |
author_role |
author |
author2 |
Gamallo Otero, Pablo Simões, Alberto |
author2_role |
author author |
dc.contributor.author.fl_str_mv |
Iriarte Sanromán, Álvaro Gamallo Otero, Pablo Simões, Alberto |
dc.subject.por.fl_str_mv |
Kullback–Leibler divergence lexical divergence lexicometry divergência de Kullback-Leibler divergência lexical lexicometria divergencia de Kullback-Leibler divergência lexical lexicometria |
topic |
Kullback–Leibler divergence lexical divergence lexicometry divergência de Kullback-Leibler divergência lexical lexicometria divergencia de Kullback-Leibler divergência lexical lexicometria |
description |
Neste artigo propomo-nos a definir e desenvolver uma estratégia automática para procurar especificidades lexicais dentro de conjuntos de textos utilizando unidades lexicais simples e expressões com várias palavras, ou termos multipalavra (MWE, a sua sigla em inglês). Propomos uma metodologia para o cálculo da divergência de distribuições de lemas e de MWE que permitirá encontrar, automaticamente, diferenças e semelhanças entre textos não anotados. Esta metodologia poderá ser utilizada para posteriormente identificar grupos de textos sobre os quais se procederá a análises quantitativas e qualitativas semiautomáticas e/ou com intervenção humana. Num primeiro teste, utilizamos dois textos de especialidade (da área da pediatria) e um texto literário, presumindo que os textos de especialidade deveriam apresentar maiores divergências relativamente ao texto literário do que entre eles próprios. Como os testes feitos mostraram a tendência esperada, decidimos aplicar a mesma metodologia a um segundo grupo de textos (três conjuntos de entrevistas a visitantes da cidade de Santiago de Compostela). |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018-08-04 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://doi.org/10.21814/lm.10.1.263 https://doi.org/10.21814/lm.10.1.263 |
url |
https://doi.org/10.21814/lm.10.1.263 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://linguamatica.com/index.php/linguamatica/article/view/263 https://linguamatica.com/index.php/linguamatica/article/view/263/439 |
dc.rights.driver.fl_str_mv |
Direitos de Autor (c) 2018 Álvaro Iriarte Sanromán, Pablo Gamallo Otero, Alberto Simões http://creativecommons.org/licenses/by/4.0 info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Direitos de Autor (c) 2018 Álvaro Iriarte Sanromán, Pablo Gamallo Otero, Alberto Simões http://creativecommons.org/licenses/by/4.0 |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
dc.source.none.fl_str_mv |
Linguamática; Vol. 10 No. 1; 19-26 Linguamática; Vol. 10 Núm. 1; 19-26 Linguamática; v. 10 n. 1; 19-26 1647-0818 reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1822244362083368960 |
dc.identifier.doi.none.fl_str_mv |
10.21814/lm.10.1.263 |