Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica

Borges dos Santos, Leandro dos; Aluísio, Sandra Maria

Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica

Detalhes bibliográficos
Autor(a) principal:	Borges dos Santos, Leandro dos
Data de Publicação:	2020
Outros Autores:	Aluísio, Sandra Maria
Tipo de documento:	Artigo
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	https://doi.org/10.21814/lm.11.2.304
Resumo:	Os diagnósticos da Doença de Alzheimer (DA) e do Comprometimento Cognitivo Leve (CCL) baseiam-se na análise das funções cognitivas do paciente pela administração de baterias de avaliação cognitiva e neuropsicológica. O emprego do reconto de narrativas é comum para auxiliar a identificação e quantificação do grau de demência: é atribuído um ponto para cada unidade recordada, e o escore final representa a quantidade de unidades recordadas. Avaliamos duas tarefas da área clínica: a identificação automática de quais elementos de uma narrativa recontada foram recordados; e a classificação binária da narrativa produzida por um paciente, tendo as unidades identificadas como atributos, visando uma triagem automática dos pacientes com comprometimentos cognitivos. Utilizamos dois conjuntos de dados de reconto transcritos que possuem as sentenças divididas e anotadas manualmente com as unidades de informação e os disponibilizamos publicamente. São eles: a Bateria Arizona para Desordens de Comunicação e Demência (ABCD) com narrativas de pacientes com CCL e Controles Saudáveis e a Bateria de Avaliação da Linguagem no Envelhecimento (BALE), com narrativas de pacientes com DA e CCLs, e Controles Saudáveis. Avaliamos dois métodos baseados em similaridade semântica, chamados de STS e Chunking, e transformamos o problema multirrótulo de identificação de elementos de uma narrativa recontada em problemas de classificação binária, encontrando um ponto de corte para o valor de similaridade de cada unidade de informação. Dessa forma, conseguimos superar dois baselines para os dois conjuntos de dados na métrica SubsetAccuracy, que é a mais punitiva para o cenário multirrótulo. Na classificação binária nem todos os seis métodos de aprendizado de máquina avaliados tiveram melhor desempenho do que os baselines de identificação de unidades de informação. Para a ABCD, os melhores métodos foram Árvores de Decisão e KNN, e para a BALE, o SVM com kernel RBF.

Metadados do item

id	RCAP_5f91e433392d4450a24902d1d5e27033
oai_identifier_str	oai:linguamatica.com:article/304
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semânticaAutomatic identification of information units in tests based on narrative retelling using semantic similarity methods: evaluating semantic similarity methodsIdentificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semânticaneuropsychological tests, narrative retellings, semantic similarity methodstestes neuropsicológicos, reconto de narrativas, métodos de similaridade semânticaOs diagnósticos da Doença de Alzheimer (DA) e do Comprometimento Cognitivo Leve (CCL) baseiam-se na análise das funções cognitivas do paciente pela administração de baterias de avaliação cognitiva e neuropsicológica. O emprego do reconto de narrativas é comum para auxiliar a identificação e quantificação do grau de demência: é atribuído um ponto para cada unidade recordada, e o escore final representa a quantidade de unidades recordadas. Avaliamos duas tarefas da área clínica: a identificação automática de quais elementos de uma narrativa recontada foram recordados; e a classificação binária da narrativa produzida por um paciente, tendo as unidades identificadas como atributos, visando uma triagem automática dos pacientes com comprometimentos cognitivos. Utilizamos dois conjuntos de dados de reconto transcritos que possuem as sentenças divididas e anotadas manualmente com as unidades de informação e os disponibilizamos publicamente. São eles: a Bateria Arizona para Desordens de Comunicação e Demência (ABCD) com narrativas de pacientes com CCL e Controles Saudáveis e a Bateria de Avaliação da Linguagem no Envelhecimento (BALE), com narrativas de pacientes com DA e CCLs, e Controles Saudáveis. Avaliamos dois métodos baseados em similaridade semântica, chamados de STS e Chunking, e transformamos o problema multirrótulo de identificação de elementos de uma narrativa recontada em problemas de classificação binária, encontrando um ponto de corte para o valor de similaridade de cada unidade de informação. Dessa forma, conseguimos superar dois baselines para os dois conjuntos de dados na métrica SubsetAccuracy, que é a mais punitiva para o cenário multirrótulo. Na classificação binária nem todos os seis métodos de aprendizado de máquina avaliados tiveram melhor desempenho do que os baselines de identificação de unidades de informação. Para a ABCD, os melhores métodos foram Árvores de Decisão e KNN, e para a BALE, o SVM com kernel RBF.Diagnoses of Alzheimer's Disease (AD) and Mild Cognitive Impairment (CCL) are based on the analysis of the patient's cognitive functions by administering cognitive and neuropsychological assessment batteries. The use of retelling narratives is common to help identify and quantify the degree of dementia. In general, one point is awarded for each unit recalled, and the final score represents the number of units recalled. In this paper, we evaluated two clinical tasks: the automatic identification of which elements of a retold narrative were recalled; and the binary classification of the narrative produced by a patient, having the units identified as attributes, aiming at an automatic screening of patients with cognitive impairment. We used two transcribed retelling data sets in which sentences were divided and manually annotated with the information units. These data sets were then made publicly available. They are: the Arizona Battery for Communication and Dementia Disorders (ABCD) that contains narratives of patients with CCL and Healthy Controls and the Avaliação da Linguagem no Envelhecimento (BALE), which includes narratives of patients with AD and CCLs as well as Healthy Controls. We evaluated two methods based on semantic similarity, referred to here as STS and Chunking, and transformed the multi-label problem of identifying elements of a retold narrative into binary classification problems, finding a cutoff point for the similarity value of each information unit. In this way, we were able to overcome two baselines for the two datasets in the SubsetAccuracy metric, which is the most punitive for the multi-label scenario. In binary classification, however, not all six machine learning methods evaluated performed better than the baselines methods. For ABCD, the best methods were Decision Trees and KNN, and for BALE, SVM with RBF kernel stood out.Os diagnósticos da Doença de Alzheimer (DA) e do Comprometimento Cognitivo Leve (CCL) baseiam-se na análise das funções cognitivas do paciente pela administração de baterias de avaliação cognitiva e neuropsicológica. O emprego do reconto de narrativas é comum para auxiliar a identificação e quantificação do grau de demência: é atribuído um ponto para cada unidade recordada, e o escore final representa a quantidade de unidades recordadas. Avaliamos duas tarefas da área clínica: a identificação automática de quais elementos de uma narrativa recontada foram recordados; e a classificação binária da narrativa produzida por um paciente, tendo as unidades identificadas como atributos, visando uma triagem automática dos pacientes com comprometimentos cognitivos. Utilizamos dois conjuntos de dados de reconto transcritos que possuem as sentenças divididas e anotadas manualmente com as unidades de informação e os disponibilizamos publicamente. São eles: a Bateria Arizona para Desordens de Comunicação e Demência (ABCD) com narrativas de pacientes com CCL e Controles Saudáveis e a Bateria de Avaliação da Linguagem no Envelhecimento (BALE), com narrativas de pacientes com DA e CCLs, e Controles Saudáveis. Avaliamos dois métodos baseados em similaridade semântica, chamados de STS e Chunking, e transformamos o problema multirrótulo de identificação de elementos de uma narrativa recontada em problemas de classificação binária, encontrando um ponto de corte para o valor de similaridade de cada unidade de informação. Dessa forma, conseguimos superar dois baselines para os dois conjuntos de dados na métrica SubsetAccuracy, que é a mais punitiva para o cenário multirrótulo. Na classificação binária nem todos os seis métodos de aprendizado de máquina avaliados tiveram melhor desempenho do que os baselines de identificação de unidades de informação. Para a ABCD, os melhores métodos foram Árvores de Decisão e KNN, e para a BALE, o SVM com kernel RBF.Universidade do Minho e Universidade de Vigo2020-01-04info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.11.2.304https://doi.org/10.21814/lm.11.2.304Linguamática; Vol. 11 No. 2; 47-63Linguamática; Vol. 11 Núm. 2; 47-63Linguamática; v. 11 n. 2; 47-631647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/304https://linguamatica.com/index.php/linguamatica/article/view/304/459Direitos de Autor (c) 2019 Leandro dos Borges dos Santos, Sandra Maria Aluísiohttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessBorges dos Santos, Leandro dosAluísio, Sandra Maria2023-09-08T13:46:42Zoai:linguamatica.com:article/304Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:39.648014Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica Automatic identification of information units in tests based on narrative retelling using semantic similarity methods: evaluating semantic similarity methods Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica
title	Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica
spellingShingle	Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica Borges dos Santos, Leandro dos neuropsychological tests, narrative retellings, semantic similarity methods testes neuropsicológicos, reconto de narrativas, métodos de similaridade semântica
title_short	Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica
title_full	Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica
title_fullStr	Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica
title_full_unstemmed	Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica
title_sort	Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica
author	Borges dos Santos, Leandro dos
author_facet	Borges dos Santos, Leandro dos Aluísio, Sandra Maria
author_role	author
author2	Aluísio, Sandra Maria
author2_role	author
dc.contributor.author.fl_str_mv	Borges dos Santos, Leandro dos Aluísio, Sandra Maria
dc.subject.por.fl_str_mv	neuropsychological tests, narrative retellings, semantic similarity methods testes neuropsicológicos, reconto de narrativas, métodos de similaridade semântica
topic	neuropsychological tests, narrative retellings, semantic similarity methods testes neuropsicológicos, reconto de narrativas, métodos de similaridade semântica
description	Os diagnósticos da Doença de Alzheimer (DA) e do Comprometimento Cognitivo Leve (CCL) baseiam-se na análise das funções cognitivas do paciente pela administração de baterias de avaliação cognitiva e neuropsicológica. O emprego do reconto de narrativas é comum para auxiliar a identificação e quantificação do grau de demência: é atribuído um ponto para cada unidade recordada, e o escore final representa a quantidade de unidades recordadas. Avaliamos duas tarefas da área clínica: a identificação automática de quais elementos de uma narrativa recontada foram recordados; e a classificação binária da narrativa produzida por um paciente, tendo as unidades identificadas como atributos, visando uma triagem automática dos pacientes com comprometimentos cognitivos. Utilizamos dois conjuntos de dados de reconto transcritos que possuem as sentenças divididas e anotadas manualmente com as unidades de informação e os disponibilizamos publicamente. São eles: a Bateria Arizona para Desordens de Comunicação e Demência (ABCD) com narrativas de pacientes com CCL e Controles Saudáveis e a Bateria de Avaliação da Linguagem no Envelhecimento (BALE), com narrativas de pacientes com DA e CCLs, e Controles Saudáveis. Avaliamos dois métodos baseados em similaridade semântica, chamados de STS e Chunking, e transformamos o problema multirrótulo de identificação de elementos de uma narrativa recontada em problemas de classificação binária, encontrando um ponto de corte para o valor de similaridade de cada unidade de informação. Dessa forma, conseguimos superar dois baselines para os dois conjuntos de dados na métrica SubsetAccuracy, que é a mais punitiva para o cenário multirrótulo. Na classificação binária nem todos os seis métodos de aprendizado de máquina avaliados tiveram melhor desempenho do que os baselines de identificação de unidades de informação. Para a ABCD, os melhores métodos foram Árvores de Decisão e KNN, e para a BALE, o SVM com kernel RBF.
publishDate	2020
dc.date.none.fl_str_mv	2020-01-04
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/article
format	article
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://doi.org/10.21814/lm.11.2.304 https://doi.org/10.21814/lm.11.2.304
url	https://doi.org/10.21814/lm.11.2.304
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	https://linguamatica.com/index.php/linguamatica/article/view/304 https://linguamatica.com/index.php/linguamatica/article/view/304/459
dc.rights.driver.fl_str_mv	Direitos de Autor (c) 2019 Leandro dos Borges dos Santos, Sandra Maria Aluísio http://creativecommons.org/licenses/by/4.0 info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Direitos de Autor (c) 2019 Leandro dos Borges dos Santos, Sandra Maria Aluísio http://creativecommons.org/licenses/by/4.0
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade do Minho e Universidade de Vigo
publisher.none.fl_str_mv	Universidade do Minho e Universidade de Vigo
dc.source.none.fl_str_mv	Linguamática; Vol. 11 No. 2; 47-63 Linguamática; Vol. 11 Núm. 2; 47-63 Linguamática; v. 11 n. 2; 47-63 1647-0818 reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799133554036178944

Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica: avaliação de métodos de similaridade semântica

Registros relacionados