Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica

Detalhes bibliográficos
Autor(a) principal: Borges dos Santos, Leandro dos
Data de Publicação: 2020
Outros Autores: Aluísio, Sandra Maria
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://doi.org/10.21814/lm.11.2.304
Resumo: Os diagnósticos da Doença de Alzheimer (DA) e do Comprometimento Cognitivo Leve (CCL) baseiam-se na análise das funções cognitivas do paciente pela administração de baterias de avaliação cognitiva e neuropsicológica. O emprego do reconto de narrativas é comum para auxiliar a identificação e quantificação do grau de demência: é atribuído um ponto para cada unidade recordada, e o escore final representa a quantidade de unidades recordadas. Avaliamos duas tarefas da área clínica: a identificação automática de quais elementos de uma narrativa recontada foram recordados; e a classificação binária da narrativa produzida por um paciente, tendo as unidades identificadas como atributos, visando uma triagem automática dos pacientes com comprometimentos cognitivos. Utilizamos dois conjuntos de dados de reconto transcritos que possuem as sentenças divididas e anotadas manualmente com as unidades de informação e os disponibilizamos publicamente. São eles: a Bateria Arizona para Desordens de Comunicação e Demência (ABCD) com narrativas de pacientes com CCL e Controles Saudáveis e a Bateria de Avaliação da Linguagem no Envelhecimento (BALE), com narrativas de pacientes com DA e CCLs, e Controles Saudáveis. Avaliamos dois métodos baseados em similaridade semântica, chamados de STS e Chunking, e transformamos o problema multirrótulo de identificação de elementos de uma narrativa recontada em problemas de classificação binária, encontrando um ponto de corte para o valor de similaridade de cada unidade de informação. Dessa forma, conseguimos superar dois baselines para os dois conjuntos de dados na métrica SubsetAccuracy, que é a mais punitiva para o cenário multirrótulo. Na classificação binária nem todos os seis métodos de aprendizado de máquina avaliados tiveram melhor desempenho do que os baselines de identificação de unidades de informação. Para a ABCD, os melhores métodos foram Árvores de Decisão e KNN, e para a BALE, o SVM com kernel RBF.
id RCAP_5f91e433392d4450a24902d1d5e27033
oai_identifier_str oai:linguamatica.com:article/304
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semânticaAutomatic identification of information units in tests based on narrative retelling using semantic similarity methods: evaluating semantic similarity methodsIdentificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semânticaneuropsychological tests, narrative retellings, semantic similarity methodstestes neuropsicológicos, reconto de narrativas, métodos de similaridade semânticaOs diagnósticos da Doença de Alzheimer (DA) e do Comprometimento Cognitivo Leve (CCL) baseiam-se na análise das funções cognitivas do paciente pela administração de baterias de avaliação cognitiva e neuropsicológica. O emprego do reconto de narrativas é comum para auxiliar a identificação e quantificação do grau de demência: é atribuído um ponto para cada unidade recordada, e o escore final representa a quantidade de unidades recordadas. Avaliamos duas tarefas da área clínica: a identificação automática de quais elementos de uma narrativa recontada foram recordados; e a classificação binária da narrativa produzida por um paciente, tendo as unidades identificadas como atributos, visando uma triagem automática dos pacientes com comprometimentos cognitivos. Utilizamos dois conjuntos de dados de reconto transcritos que possuem as sentenças divididas e anotadas manualmente com as unidades de informação e os disponibilizamos publicamente. São eles: a Bateria Arizona para Desordens de Comunicação e Demência (ABCD) com narrativas de pacientes com CCL e Controles Saudáveis e a Bateria de Avaliação da Linguagem no Envelhecimento (BALE), com narrativas de pacientes com DA e CCLs, e Controles Saudáveis. Avaliamos dois métodos baseados em similaridade semântica, chamados de STS e Chunking, e transformamos o problema multirrótulo de identificação de elementos de uma narrativa recontada em problemas de classificação binária, encontrando um ponto de corte para o valor de similaridade de cada unidade de informação. Dessa forma, conseguimos superar dois baselines para os dois conjuntos de dados na métrica SubsetAccuracy, que é a mais punitiva para o cenário multirrótulo. Na classificação binária nem todos os seis métodos de aprendizado de máquina avaliados tiveram melhor desempenho do que os baselines de identificação de unidades de informação. Para a ABCD, os melhores métodos foram Árvores de Decisão e KNN, e para a BALE, o SVM com kernel RBF.Diagnoses of Alzheimer's Disease (AD) and Mild Cognitive Impairment (CCL) are based on the analysis of the patient's cognitive functions by administering cognitive and neuropsychological assessment batteries. The use of retelling narratives is common to help identify and quantify the degree of dementia. In general, one point is awarded for each unit recalled, and the final score represents the number of units recalled. In this paper, we evaluated two clinical tasks: the automatic identification of which elements of a retold narrative were recalled; and the binary classification of the narrative produced by a patient, having the units identified as attributes, aiming at an automatic screening of patients with cognitive impairment. We used two transcribed retelling data sets in which sentences were divided and manually annotated with the information units. These data sets were then made publicly available. They are: the Arizona Battery for Communication and Dementia Disorders (ABCD) that contains narratives of patients with CCL and Healthy Controls and the Avaliação da Linguagem no Envelhecimento (BALE), which includes narratives of patients with AD and CCLs as well as Healthy Controls. We evaluated two methods based on semantic similarity, referred to here as STS and Chunking, and transformed the multi-label problem of identifying elements of a retold narrative into binary classification problems, finding a cutoff point for the similarity value of each information unit. In this way, we were able to overcome two baselines for the two datasets in the SubsetAccuracy metric, which is the most punitive for the multi-label scenario. In binary classification, however, not all six machine learning methods evaluated performed better than the baselines methods. For ABCD, the best methods were Decision Trees and KNN, and for BALE, SVM with RBF kernel stood out.Os diagnósticos da Doença de Alzheimer (DA) e do Comprometimento Cognitivo Leve (CCL) baseiam-se na análise das funções cognitivas do paciente pela administração de baterias de avaliação cognitiva e neuropsicológica. O emprego do reconto de narrativas é comum para auxiliar a identificação e quantificação do grau de demência: é atribuído um ponto para cada unidade recordada, e o escore final representa a quantidade de unidades recordadas. Avaliamos duas tarefas da área clínica: a identificação automática de quais elementos de uma narrativa recontada foram recordados; e a classificação binária da narrativa produzida por um paciente, tendo as unidades identificadas como atributos, visando uma triagem automática dos pacientes com comprometimentos cognitivos. Utilizamos dois conjuntos de dados de reconto transcritos que possuem as sentenças divididas e anotadas manualmente com as unidades de informação e os disponibilizamos publicamente. São eles: a Bateria Arizona para Desordens de Comunicação e Demência (ABCD) com narrativas de pacientes com CCL e Controles Saudáveis e a Bateria de Avaliação da Linguagem no Envelhecimento (BALE), com narrativas de pacientes com DA e CCLs, e Controles Saudáveis. Avaliamos dois métodos baseados em similaridade semântica, chamados de STS e Chunking, e transformamos o problema multirrótulo de identificação de elementos de uma narrativa recontada em problemas de classificação binária, encontrando um ponto de corte para o valor de similaridade de cada unidade de informação. Dessa forma, conseguimos superar dois baselines para os dois conjuntos de dados na métrica SubsetAccuracy, que é a mais punitiva para o cenário multirrótulo. Na classificação binária nem todos os seis métodos de aprendizado de máquina avaliados tiveram melhor desempenho do que os baselines de identificação de unidades de informação. Para a ABCD, os melhores métodos foram Árvores de Decisão e KNN, e para a BALE, o SVM com kernel RBF.Universidade do Minho e Universidade de Vigo2020-01-04info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.11.2.304https://doi.org/10.21814/lm.11.2.304Linguamática; Vol. 11 No. 2; 47-63Linguamática; Vol. 11 Núm. 2; 47-63Linguamática; v. 11 n. 2; 47-631647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/304https://linguamatica.com/index.php/linguamatica/article/view/304/459Direitos de Autor (c) 2019 Leandro dos Borges dos Santos, Sandra Maria Aluísiohttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessBorges dos Santos, Leandro dosAluísio, Sandra Maria2023-09-08T13:46:42Zoai:linguamatica.com:article/304Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:39.648014Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica
Automatic identification of information units in tests based on narrative retelling using semantic similarity methods: evaluating semantic similarity methods
Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica
title Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica
spellingShingle Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica
Borges dos Santos, Leandro dos
neuropsychological tests, narrative retellings, semantic similarity methods
testes neuropsicológicos, reconto de narrativas, métodos de similaridade semântica
title_short Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica
title_full Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica
title_fullStr Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica
title_full_unstemmed Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica
title_sort Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica
author Borges dos Santos, Leandro dos
author_facet Borges dos Santos, Leandro dos
Aluísio, Sandra Maria
author_role author
author2 Aluísio, Sandra Maria
author2_role author
dc.contributor.author.fl_str_mv Borges dos Santos, Leandro dos
Aluísio, Sandra Maria
dc.subject.por.fl_str_mv neuropsychological tests, narrative retellings, semantic similarity methods
testes neuropsicológicos, reconto de narrativas, métodos de similaridade semântica
topic neuropsychological tests, narrative retellings, semantic similarity methods
testes neuropsicológicos, reconto de narrativas, métodos de similaridade semântica
description Os diagnósticos da Doença de Alzheimer (DA) e do Comprometimento Cognitivo Leve (CCL) baseiam-se na análise das funções cognitivas do paciente pela administração de baterias de avaliação cognitiva e neuropsicológica. O emprego do reconto de narrativas é comum para auxiliar a identificação e quantificação do grau de demência: é atribuído um ponto para cada unidade recordada, e o escore final representa a quantidade de unidades recordadas. Avaliamos duas tarefas da área clínica: a identificação automática de quais elementos de uma narrativa recontada foram recordados; e a classificação binária da narrativa produzida por um paciente, tendo as unidades identificadas como atributos, visando uma triagem automática dos pacientes com comprometimentos cognitivos. Utilizamos dois conjuntos de dados de reconto transcritos que possuem as sentenças divididas e anotadas manualmente com as unidades de informação e os disponibilizamos publicamente. São eles: a Bateria Arizona para Desordens de Comunicação e Demência (ABCD) com narrativas de pacientes com CCL e Controles Saudáveis e a Bateria de Avaliação da Linguagem no Envelhecimento (BALE), com narrativas de pacientes com DA e CCLs, e Controles Saudáveis. Avaliamos dois métodos baseados em similaridade semântica, chamados de STS e Chunking, e transformamos o problema multirrótulo de identificação de elementos de uma narrativa recontada em problemas de classificação binária, encontrando um ponto de corte para o valor de similaridade de cada unidade de informação. Dessa forma, conseguimos superar dois baselines para os dois conjuntos de dados na métrica SubsetAccuracy, que é a mais punitiva para o cenário multirrótulo. Na classificação binária nem todos os seis métodos de aprendizado de máquina avaliados tiveram melhor desempenho do que os baselines de identificação de unidades de informação. Para a ABCD, os melhores métodos foram Árvores de Decisão e KNN, e para a BALE, o SVM com kernel RBF.
publishDate 2020
dc.date.none.fl_str_mv 2020-01-04
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://doi.org/10.21814/lm.11.2.304
https://doi.org/10.21814/lm.11.2.304
url https://doi.org/10.21814/lm.11.2.304
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://linguamatica.com/index.php/linguamatica/article/view/304
https://linguamatica.com/index.php/linguamatica/article/view/304/459
dc.rights.driver.fl_str_mv Direitos de Autor (c) 2019 Leandro dos Borges dos Santos, Sandra Maria Aluísio
http://creativecommons.org/licenses/by/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Direitos de Autor (c) 2019 Leandro dos Borges dos Santos, Sandra Maria Aluísio
http://creativecommons.org/licenses/by/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
dc.source.none.fl_str_mv Linguamática; Vol. 11 No. 2; 47-63
Linguamática; Vol. 11 Núm. 2; 47-63
Linguamática; v. 11 n. 2; 47-63
1647-0818
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133554036178944