Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Outros Autores: | |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://doi.org/10.21814/lm.11.2.304 |
Resumo: | Os diagnósticos da Doença de Alzheimer (DA) e do Comprometimento Cognitivo Leve (CCL) baseiam-se na análise das funções cognitivas do paciente pela administração de baterias de avaliação cognitiva e neuropsicológica. O emprego do reconto de narrativas é comum para auxiliar a identificação e quantificação do grau de demência: é atribuído um ponto para cada unidade recordada, e o escore final representa a quantidade de unidades recordadas. Avaliamos duas tarefas da área clínica: a identificação automática de quais elementos de uma narrativa recontada foram recordados; e a classificação binária da narrativa produzida por um paciente, tendo as unidades identificadas como atributos, visando uma triagem automática dos pacientes com comprometimentos cognitivos. Utilizamos dois conjuntos de dados de reconto transcritos que possuem as sentenças divididas e anotadas manualmente com as unidades de informação e os disponibilizamos publicamente. São eles: a Bateria Arizona para Desordens de Comunicação e Demência (ABCD) com narrativas de pacientes com CCL e Controles Saudáveis e a Bateria de Avaliação da Linguagem no Envelhecimento (BALE), com narrativas de pacientes com DA e CCLs, e Controles Saudáveis. Avaliamos dois métodos baseados em similaridade semântica, chamados de STS e Chunking, e transformamos o problema multirrótulo de identificação de elementos de uma narrativa recontada em problemas de classificação binária, encontrando um ponto de corte para o valor de similaridade de cada unidade de informação. Dessa forma, conseguimos superar dois baselines para os dois conjuntos de dados na métrica SubsetAccuracy, que é a mais punitiva para o cenário multirrótulo. Na classificação binária nem todos os seis métodos de aprendizado de máquina avaliados tiveram melhor desempenho do que os baselines de identificação de unidades de informação. Para a ABCD, os melhores métodos foram Árvores de Decisão e KNN, e para a BALE, o SVM com kernel RBF. |
id |
RCAP_5f91e433392d4450a24902d1d5e27033 |
---|---|
oai_identifier_str |
oai:linguamatica.com:article/304 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semânticaAutomatic identification of information units in tests based on narrative retelling using semantic similarity methods: evaluating semantic similarity methodsIdentificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semânticaneuropsychological tests, narrative retellings, semantic similarity methodstestes neuropsicológicos, reconto de narrativas, métodos de similaridade semânticaOs diagnósticos da Doença de Alzheimer (DA) e do Comprometimento Cognitivo Leve (CCL) baseiam-se na análise das funções cognitivas do paciente pela administração de baterias de avaliação cognitiva e neuropsicológica. O emprego do reconto de narrativas é comum para auxiliar a identificação e quantificação do grau de demência: é atribuído um ponto para cada unidade recordada, e o escore final representa a quantidade de unidades recordadas. Avaliamos duas tarefas da área clínica: a identificação automática de quais elementos de uma narrativa recontada foram recordados; e a classificação binária da narrativa produzida por um paciente, tendo as unidades identificadas como atributos, visando uma triagem automática dos pacientes com comprometimentos cognitivos. Utilizamos dois conjuntos de dados de reconto transcritos que possuem as sentenças divididas e anotadas manualmente com as unidades de informação e os disponibilizamos publicamente. São eles: a Bateria Arizona para Desordens de Comunicação e Demência (ABCD) com narrativas de pacientes com CCL e Controles Saudáveis e a Bateria de Avaliação da Linguagem no Envelhecimento (BALE), com narrativas de pacientes com DA e CCLs, e Controles Saudáveis. Avaliamos dois métodos baseados em similaridade semântica, chamados de STS e Chunking, e transformamos o problema multirrótulo de identificação de elementos de uma narrativa recontada em problemas de classificação binária, encontrando um ponto de corte para o valor de similaridade de cada unidade de informação. Dessa forma, conseguimos superar dois baselines para os dois conjuntos de dados na métrica SubsetAccuracy, que é a mais punitiva para o cenário multirrótulo. Na classificação binária nem todos os seis métodos de aprendizado de máquina avaliados tiveram melhor desempenho do que os baselines de identificação de unidades de informação. Para a ABCD, os melhores métodos foram Árvores de Decisão e KNN, e para a BALE, o SVM com kernel RBF.Diagnoses of Alzheimer's Disease (AD) and Mild Cognitive Impairment (CCL) are based on the analysis of the patient's cognitive functions by administering cognitive and neuropsychological assessment batteries. The use of retelling narratives is common to help identify and quantify the degree of dementia. In general, one point is awarded for each unit recalled, and the final score represents the number of units recalled. In this paper, we evaluated two clinical tasks: the automatic identification of which elements of a retold narrative were recalled; and the binary classification of the narrative produced by a patient, having the units identified as attributes, aiming at an automatic screening of patients with cognitive impairment. We used two transcribed retelling data sets in which sentences were divided and manually annotated with the information units. These data sets were then made publicly available. They are: the Arizona Battery for Communication and Dementia Disorders (ABCD) that contains narratives of patients with CCL and Healthy Controls and the Avaliação da Linguagem no Envelhecimento (BALE), which includes narratives of patients with AD and CCLs as well as Healthy Controls. We evaluated two methods based on semantic similarity, referred to here as STS and Chunking, and transformed the multi-label problem of identifying elements of a retold narrative into binary classification problems, finding a cutoff point for the similarity value of each information unit. In this way, we were able to overcome two baselines for the two datasets in the SubsetAccuracy metric, which is the most punitive for the multi-label scenario. In binary classification, however, not all six machine learning methods evaluated performed better than the baselines methods. For ABCD, the best methods were Decision Trees and KNN, and for BALE, SVM with RBF kernel stood out.Os diagnósticos da Doença de Alzheimer (DA) e do Comprometimento Cognitivo Leve (CCL) baseiam-se na análise das funções cognitivas do paciente pela administração de baterias de avaliação cognitiva e neuropsicológica. O emprego do reconto de narrativas é comum para auxiliar a identificação e quantificação do grau de demência: é atribuído um ponto para cada unidade recordada, e o escore final representa a quantidade de unidades recordadas. Avaliamos duas tarefas da área clínica: a identificação automática de quais elementos de uma narrativa recontada foram recordados; e a classificação binária da narrativa produzida por um paciente, tendo as unidades identificadas como atributos, visando uma triagem automática dos pacientes com comprometimentos cognitivos. Utilizamos dois conjuntos de dados de reconto transcritos que possuem as sentenças divididas e anotadas manualmente com as unidades de informação e os disponibilizamos publicamente. São eles: a Bateria Arizona para Desordens de Comunicação e Demência (ABCD) com narrativas de pacientes com CCL e Controles Saudáveis e a Bateria de Avaliação da Linguagem no Envelhecimento (BALE), com narrativas de pacientes com DA e CCLs, e Controles Saudáveis. Avaliamos dois métodos baseados em similaridade semântica, chamados de STS e Chunking, e transformamos o problema multirrótulo de identificação de elementos de uma narrativa recontada em problemas de classificação binária, encontrando um ponto de corte para o valor de similaridade de cada unidade de informação. Dessa forma, conseguimos superar dois baselines para os dois conjuntos de dados na métrica SubsetAccuracy, que é a mais punitiva para o cenário multirrótulo. Na classificação binária nem todos os seis métodos de aprendizado de máquina avaliados tiveram melhor desempenho do que os baselines de identificação de unidades de informação. Para a ABCD, os melhores métodos foram Árvores de Decisão e KNN, e para a BALE, o SVM com kernel RBF.Universidade do Minho e Universidade de Vigo2020-01-04info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.11.2.304https://doi.org/10.21814/lm.11.2.304Linguamática; Vol. 11 No. 2; 47-63Linguamática; Vol. 11 Núm. 2; 47-63Linguamática; v. 11 n. 2; 47-631647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/304https://linguamatica.com/index.php/linguamatica/article/view/304/459Direitos de Autor (c) 2019 Leandro dos Borges dos Santos, Sandra Maria Aluísiohttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessBorges dos Santos, Leandro dosAluísio, Sandra Maria2023-09-08T13:46:42Zoai:linguamatica.com:article/304Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:39.648014Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica Automatic identification of information units in tests based on narrative retelling using semantic similarity methods: evaluating semantic similarity methods Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica |
title |
Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica |
spellingShingle |
Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica Borges dos Santos, Leandro dos neuropsychological tests, narrative retellings, semantic similarity methods testes neuropsicológicos, reconto de narrativas, métodos de similaridade semântica |
title_short |
Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica |
title_full |
Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica |
title_fullStr |
Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica |
title_full_unstemmed |
Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica |
title_sort |
Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica |
author |
Borges dos Santos, Leandro dos |
author_facet |
Borges dos Santos, Leandro dos Aluísio, Sandra Maria |
author_role |
author |
author2 |
Aluísio, Sandra Maria |
author2_role |
author |
dc.contributor.author.fl_str_mv |
Borges dos Santos, Leandro dos Aluísio, Sandra Maria |
dc.subject.por.fl_str_mv |
neuropsychological tests, narrative retellings, semantic similarity methods testes neuropsicológicos, reconto de narrativas, métodos de similaridade semântica |
topic |
neuropsychological tests, narrative retellings, semantic similarity methods testes neuropsicológicos, reconto de narrativas, métodos de similaridade semântica |
description |
Os diagnósticos da Doença de Alzheimer (DA) e do Comprometimento Cognitivo Leve (CCL) baseiam-se na análise das funções cognitivas do paciente pela administração de baterias de avaliação cognitiva e neuropsicológica. O emprego do reconto de narrativas é comum para auxiliar a identificação e quantificação do grau de demência: é atribuído um ponto para cada unidade recordada, e o escore final representa a quantidade de unidades recordadas. Avaliamos duas tarefas da área clínica: a identificação automática de quais elementos de uma narrativa recontada foram recordados; e a classificação binária da narrativa produzida por um paciente, tendo as unidades identificadas como atributos, visando uma triagem automática dos pacientes com comprometimentos cognitivos. Utilizamos dois conjuntos de dados de reconto transcritos que possuem as sentenças divididas e anotadas manualmente com as unidades de informação e os disponibilizamos publicamente. São eles: a Bateria Arizona para Desordens de Comunicação e Demência (ABCD) com narrativas de pacientes com CCL e Controles Saudáveis e a Bateria de Avaliação da Linguagem no Envelhecimento (BALE), com narrativas de pacientes com DA e CCLs, e Controles Saudáveis. Avaliamos dois métodos baseados em similaridade semântica, chamados de STS e Chunking, e transformamos o problema multirrótulo de identificação de elementos de uma narrativa recontada em problemas de classificação binária, encontrando um ponto de corte para o valor de similaridade de cada unidade de informação. Dessa forma, conseguimos superar dois baselines para os dois conjuntos de dados na métrica SubsetAccuracy, que é a mais punitiva para o cenário multirrótulo. Na classificação binária nem todos os seis métodos de aprendizado de máquina avaliados tiveram melhor desempenho do que os baselines de identificação de unidades de informação. Para a ABCD, os melhores métodos foram Árvores de Decisão e KNN, e para a BALE, o SVM com kernel RBF. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-01-04 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://doi.org/10.21814/lm.11.2.304 https://doi.org/10.21814/lm.11.2.304 |
url |
https://doi.org/10.21814/lm.11.2.304 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://linguamatica.com/index.php/linguamatica/article/view/304 https://linguamatica.com/index.php/linguamatica/article/view/304/459 |
dc.rights.driver.fl_str_mv |
Direitos de Autor (c) 2019 Leandro dos Borges dos Santos, Sandra Maria Aluísio http://creativecommons.org/licenses/by/4.0 info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Direitos de Autor (c) 2019 Leandro dos Borges dos Santos, Sandra Maria Aluísio http://creativecommons.org/licenses/by/4.0 |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
dc.source.none.fl_str_mv |
Linguamática; Vol. 11 No. 2; 47-63 Linguamática; Vol. 11 Núm. 2; 47-63 Linguamática; v. 11 n. 2; 47-63 1647-0818 reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133554036178944 |