Representação de narrativas e extração de suas unidades de informação para automatização de testes neuropsicológicos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-05022020-155847/ |
Resumo: | O aumento da expectativa de vida tem ocasionado um aumento nas taxas de doenças neurodegenarativas na população idosa. Entre os vários tipos de demências, a principal é a Doença de Alzheimer (DA), correspondendo a 5075% dos casos. Outra enfermidade que tem recebido atenção nos últimos anos é o Comprometimento Cognitivo Leve (CCL), sendo considerado uma condição pré-clínica da DA, sendo assim importante o seu diagnóstico precoce. Para a identificação de demências e outras doenças relacionadas, são utilizados testes que avaliam a função cognitiva e aspectos linguísticos. Alguns desses exames utilizam como subtestes o reconto de narrativas. Nessa avaliação, a narrativa é dividida em partes, chamadas de unidades de informação, podendo ser palavras ou orações. O escore final do teste representa a quantidade de unidades recordadas. Em geral, é atribuído um ponto para cada unidade. Entretanto, as principais dificuldades no uso de tarefas de reconto são a demanda de tempo e a subjetividade da análise humana. Assim, aplicação de métodos computacionais que automatizem a avaliação é bem-vinda tanto para a larga utilização da tarefa de reconto como para a manutenção da uniformidade na correção, em uma análise longitudinal, por exemplo. O objetivo deste projeto de doutorado, na área de Processamento de Línguas Naturais (PLN) aplicado à área médica, é a avaliação de métodos para automatizar o exame de reconto de narrativas em Português, utilizado na Bateria Arizona para Desordens de Comunicação em Demências (ABCD) e na Bateria de Avaliação da Linguagem no Envelhecimento (BALE). Neste trabalho, avaliamos um método de similaridade semântica que se destacou na Avaliação de Similaridade Semântica e Inferência Textual (ASSIN), e desenvolvemos um método baseado na similaridade de word embeddings. Transformamos o problema multirrótulo de identificação de elementos de uma narrativa recontada em problemas de classificação binária, e encontramos um ponto de corte para o valor de similaridade de cada unidade de informação. Visando uma triagem automática, esses elementos são usados como atributos para os algoritmos de classificação binária (idosos saudáveis versus idosos com comprometimentos cognitivos). Além desses atributos, utilizamos métricas linguísticas, e desenvolvemos um léxico com propriedades psicolinguísticas. Também, propusemos uma abordagem para enriquecer as redes de adjacências, permitindo extrair métricas das propriedades topológicas de redes complexas. Por fim, combinamos todos os atributos para identificar automaticamente em um cenário binário (idosos saudáveis versus idosos com comprometimentos cognitivos). Os métodos de identificação de unidades superaram os baselines em ambas as baterias clínicas avaliadas. Na classificação binária, os resultados foram semelhantes aos da anotação manual, demostrando a adequação dos métodos desenvolvidos. Em geral, os resultados experimentais das métricas psicolinguísticas e de redes de adjacência enriquecidas ficaram acima de 50% de acurácia. Entretanto a combinação de todos os atributos investigados ou desenvolvidos não apresentou ganhos; acreditamos que a grande quantidade de atributos e o baixo número de exemplos causou esse resultado negativo. |
id |
USP_2e3fcb0fbea7907150becffc81fef9e6 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-05022020-155847 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Representação de narrativas e extração de suas unidades de informação para automatização de testes neuropsicológicosNarratives representation and extraction of their information units for automation of neuropsychological testsAvaliação de similaridade semânticaIdentificação de unidades de informaçãoIdentification of information unitsNarrative retellingNeuropsychological testsReconto de narrativasSemantic textual similarityTestes neuropsicológicosO aumento da expectativa de vida tem ocasionado um aumento nas taxas de doenças neurodegenarativas na população idosa. Entre os vários tipos de demências, a principal é a Doença de Alzheimer (DA), correspondendo a 5075% dos casos. Outra enfermidade que tem recebido atenção nos últimos anos é o Comprometimento Cognitivo Leve (CCL), sendo considerado uma condição pré-clínica da DA, sendo assim importante o seu diagnóstico precoce. Para a identificação de demências e outras doenças relacionadas, são utilizados testes que avaliam a função cognitiva e aspectos linguísticos. Alguns desses exames utilizam como subtestes o reconto de narrativas. Nessa avaliação, a narrativa é dividida em partes, chamadas de unidades de informação, podendo ser palavras ou orações. O escore final do teste representa a quantidade de unidades recordadas. Em geral, é atribuído um ponto para cada unidade. Entretanto, as principais dificuldades no uso de tarefas de reconto são a demanda de tempo e a subjetividade da análise humana. Assim, aplicação de métodos computacionais que automatizem a avaliação é bem-vinda tanto para a larga utilização da tarefa de reconto como para a manutenção da uniformidade na correção, em uma análise longitudinal, por exemplo. O objetivo deste projeto de doutorado, na área de Processamento de Línguas Naturais (PLN) aplicado à área médica, é a avaliação de métodos para automatizar o exame de reconto de narrativas em Português, utilizado na Bateria Arizona para Desordens de Comunicação em Demências (ABCD) e na Bateria de Avaliação da Linguagem no Envelhecimento (BALE). Neste trabalho, avaliamos um método de similaridade semântica que se destacou na Avaliação de Similaridade Semântica e Inferência Textual (ASSIN), e desenvolvemos um método baseado na similaridade de word embeddings. Transformamos o problema multirrótulo de identificação de elementos de uma narrativa recontada em problemas de classificação binária, e encontramos um ponto de corte para o valor de similaridade de cada unidade de informação. Visando uma triagem automática, esses elementos são usados como atributos para os algoritmos de classificação binária (idosos saudáveis versus idosos com comprometimentos cognitivos). Além desses atributos, utilizamos métricas linguísticas, e desenvolvemos um léxico com propriedades psicolinguísticas. Também, propusemos uma abordagem para enriquecer as redes de adjacências, permitindo extrair métricas das propriedades topológicas de redes complexas. Por fim, combinamos todos os atributos para identificar automaticamente em um cenário binário (idosos saudáveis versus idosos com comprometimentos cognitivos). Os métodos de identificação de unidades superaram os baselines em ambas as baterias clínicas avaliadas. Na classificação binária, os resultados foram semelhantes aos da anotação manual, demostrando a adequação dos métodos desenvolvidos. Em geral, os resultados experimentais das métricas psicolinguísticas e de redes de adjacência enriquecidas ficaram acima de 50% de acurácia. Entretanto a combinação de todos os atributos investigados ou desenvolvidos não apresentou ganhos; acreditamos que a grande quantidade de atributos e o baixo número de exemplos causou esse resultado negativo.Increased life expectancy can be accompanied by neurodegenerative diseases. Among the various types of dementia, the main one is Alzheimers Disease (AD), corresponding to 50-75% of cases. Another disease that has received increased attention over the last few years is Mild Cognitive Impairment (MCI), which is considered a preclinical stages of AD, and therefore important to diagnose early. Diagnosis of dementia and related syndromes are commonly based on the analysis of a patients cognitive functions and linguistic aspects by applying neuropsychological batteries. Some of these batteries use a narrative retelling as a subtest, and are divided into chunks, called units of information, which can be words or phrases. The final score represents the number of units recalled. In general, one point being awarded for each unit recalled. However, the main difficulties of using narratives are the time required and the subjectivity of the manual analysis. Thus, the application of computational methods to automate the assessment is welcome both for the wide use of the task of retelling and to maintain assessment consistency, in a longitudinal analysis, for example. The purpose of this research project in Natural Language Processing (NLP) applied to the medical domain, is the evaluation of methods to automate specifically the retelling of narratives in Portuguese, using the Arizona Battery of Communication Disorders in Dementia (ABCD), and the Bateria de Avaliação da Linguagem no Envelhecimento (BALE). We evaluated the best ranked semantic similarity method in the Avaliação de Similaridade Semântica e Inferência Textual (ASSIN shared task), and we also developed a method based on the similarity of word embeddings. We transformed the multilabel problem of element identification of a narrative into binary classification problems, finding a cutoff point for the similarity value of each information unit. For automatic screening, these elements are then used as features for classification algorithms. In addition to these features, we used linguistic metrics and we also developed a lexicon with psycholinguistic properties. Moreover, we proposed an approach to enrich adjacency networks, allowing the extraction of metrics from topological properties of complex networks. Finally, we combined all of these features to automatically identify narratives in a binary classification task (healthy versus impaired elderly groups). The methods of units identification outperformed the baselines in both clinical batteries; for the binary classification task, the results were similar to manual annotation, demonstrating the adequacy of the methods. In general, the experimental results of the psycholinguistic metrics and enriched adjacency networks were above 50% accuracy. However, as combination of all features, investigated or developed, showed no gains, we believe that the large number of attributes and the low number of examples impacted this evaluation.Biblioteca Digitais de Teses e Dissertações da USPAluisio, Sandra MariaSantos, Leandro Borges dos2019-12-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-05022020-155847/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2020-02-05T21:04:02Zoai:teses.usp.br:tde-05022020-155847Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212020-02-05T21:04:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Representação de narrativas e extração de suas unidades de informação para automatização de testes neuropsicológicos Narratives representation and extraction of their information units for automation of neuropsychological tests |
title |
Representação de narrativas e extração de suas unidades de informação para automatização de testes neuropsicológicos |
spellingShingle |
Representação de narrativas e extração de suas unidades de informação para automatização de testes neuropsicológicos Santos, Leandro Borges dos Avaliação de similaridade semântica Identificação de unidades de informação Identification of information units Narrative retelling Neuropsychological tests Reconto de narrativas Semantic textual similarity Testes neuropsicológicos |
title_short |
Representação de narrativas e extração de suas unidades de informação para automatização de testes neuropsicológicos |
title_full |
Representação de narrativas e extração de suas unidades de informação para automatização de testes neuropsicológicos |
title_fullStr |
Representação de narrativas e extração de suas unidades de informação para automatização de testes neuropsicológicos |
title_full_unstemmed |
Representação de narrativas e extração de suas unidades de informação para automatização de testes neuropsicológicos |
title_sort |
Representação de narrativas e extração de suas unidades de informação para automatização de testes neuropsicológicos |
author |
Santos, Leandro Borges dos |
author_facet |
Santos, Leandro Borges dos |
author_role |
author |
dc.contributor.none.fl_str_mv |
Aluisio, Sandra Maria |
dc.contributor.author.fl_str_mv |
Santos, Leandro Borges dos |
dc.subject.por.fl_str_mv |
Avaliação de similaridade semântica Identificação de unidades de informação Identification of information units Narrative retelling Neuropsychological tests Reconto de narrativas Semantic textual similarity Testes neuropsicológicos |
topic |
Avaliação de similaridade semântica Identificação de unidades de informação Identification of information units Narrative retelling Neuropsychological tests Reconto de narrativas Semantic textual similarity Testes neuropsicológicos |
description |
O aumento da expectativa de vida tem ocasionado um aumento nas taxas de doenças neurodegenarativas na população idosa. Entre os vários tipos de demências, a principal é a Doença de Alzheimer (DA), correspondendo a 5075% dos casos. Outra enfermidade que tem recebido atenção nos últimos anos é o Comprometimento Cognitivo Leve (CCL), sendo considerado uma condição pré-clínica da DA, sendo assim importante o seu diagnóstico precoce. Para a identificação de demências e outras doenças relacionadas, são utilizados testes que avaliam a função cognitiva e aspectos linguísticos. Alguns desses exames utilizam como subtestes o reconto de narrativas. Nessa avaliação, a narrativa é dividida em partes, chamadas de unidades de informação, podendo ser palavras ou orações. O escore final do teste representa a quantidade de unidades recordadas. Em geral, é atribuído um ponto para cada unidade. Entretanto, as principais dificuldades no uso de tarefas de reconto são a demanda de tempo e a subjetividade da análise humana. Assim, aplicação de métodos computacionais que automatizem a avaliação é bem-vinda tanto para a larga utilização da tarefa de reconto como para a manutenção da uniformidade na correção, em uma análise longitudinal, por exemplo. O objetivo deste projeto de doutorado, na área de Processamento de Línguas Naturais (PLN) aplicado à área médica, é a avaliação de métodos para automatizar o exame de reconto de narrativas em Português, utilizado na Bateria Arizona para Desordens de Comunicação em Demências (ABCD) e na Bateria de Avaliação da Linguagem no Envelhecimento (BALE). Neste trabalho, avaliamos um método de similaridade semântica que se destacou na Avaliação de Similaridade Semântica e Inferência Textual (ASSIN), e desenvolvemos um método baseado na similaridade de word embeddings. Transformamos o problema multirrótulo de identificação de elementos de uma narrativa recontada em problemas de classificação binária, e encontramos um ponto de corte para o valor de similaridade de cada unidade de informação. Visando uma triagem automática, esses elementos são usados como atributos para os algoritmos de classificação binária (idosos saudáveis versus idosos com comprometimentos cognitivos). Além desses atributos, utilizamos métricas linguísticas, e desenvolvemos um léxico com propriedades psicolinguísticas. Também, propusemos uma abordagem para enriquecer as redes de adjacências, permitindo extrair métricas das propriedades topológicas de redes complexas. Por fim, combinamos todos os atributos para identificar automaticamente em um cenário binário (idosos saudáveis versus idosos com comprometimentos cognitivos). Os métodos de identificação de unidades superaram os baselines em ambas as baterias clínicas avaliadas. Na classificação binária, os resultados foram semelhantes aos da anotação manual, demostrando a adequação dos métodos desenvolvidos. Em geral, os resultados experimentais das métricas psicolinguísticas e de redes de adjacência enriquecidas ficaram acima de 50% de acurácia. Entretanto a combinação de todos os atributos investigados ou desenvolvidos não apresentou ganhos; acreditamos que a grande quantidade de atributos e o baixo número de exemplos causou esse resultado negativo. |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-12-09 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-05022020-155847/ |
url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-05022020-155847/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256684578209792 |