Representação de narrativas e extração de suas unidades de informação para automatização de testes neuropsicológicos

Detalhes bibliográficos
Autor(a) principal: Santos, Leandro Borges dos
Data de Publicação: 2019
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-05022020-155847/
Resumo: O aumento da expectativa de vida tem ocasionado um aumento nas taxas de doenças neurodegenarativas na população idosa. Entre os vários tipos de demências, a principal é a Doença de Alzheimer (DA), correspondendo a 5075% dos casos. Outra enfermidade que tem recebido atenção nos últimos anos é o Comprometimento Cognitivo Leve (CCL), sendo considerado uma condição pré-clínica da DA, sendo assim importante o seu diagnóstico precoce. Para a identificação de demências e outras doenças relacionadas, são utilizados testes que avaliam a função cognitiva e aspectos linguísticos. Alguns desses exames utilizam como subtestes o reconto de narrativas. Nessa avaliação, a narrativa é dividida em partes, chamadas de unidades de informação, podendo ser palavras ou orações. O escore final do teste representa a quantidade de unidades recordadas. Em geral, é atribuído um ponto para cada unidade. Entretanto, as principais dificuldades no uso de tarefas de reconto são a demanda de tempo e a subjetividade da análise humana. Assim, aplicação de métodos computacionais que automatizem a avaliação é bem-vinda tanto para a larga utilização da tarefa de reconto como para a manutenção da uniformidade na correção, em uma análise longitudinal, por exemplo. O objetivo deste projeto de doutorado, na área de Processamento de Línguas Naturais (PLN) aplicado à área médica, é a avaliação de métodos para automatizar o exame de reconto de narrativas em Português, utilizado na Bateria Arizona para Desordens de Comunicação em Demências (ABCD) e na Bateria de Avaliação da Linguagem no Envelhecimento (BALE). Neste trabalho, avaliamos um método de similaridade semântica que se destacou na Avaliação de Similaridade Semântica e Inferência Textual (ASSIN), e desenvolvemos um método baseado na similaridade de word embeddings. Transformamos o problema multirrótulo de identificação de elementos de uma narrativa recontada em problemas de classificação binária, e encontramos um ponto de corte para o valor de similaridade de cada unidade de informação. Visando uma triagem automática, esses elementos são usados como atributos para os algoritmos de classificação binária (idosos saudáveis versus idosos com comprometimentos cognitivos). Além desses atributos, utilizamos métricas linguísticas, e desenvolvemos um léxico com propriedades psicolinguísticas. Também, propusemos uma abordagem para enriquecer as redes de adjacências, permitindo extrair métricas das propriedades topológicas de redes complexas. Por fim, combinamos todos os atributos para identificar automaticamente em um cenário binário (idosos saudáveis versus idosos com comprometimentos cognitivos). Os métodos de identificação de unidades superaram os baselines em ambas as baterias clínicas avaliadas. Na classificação binária, os resultados foram semelhantes aos da anotação manual, demostrando a adequação dos métodos desenvolvidos. Em geral, os resultados experimentais das métricas psicolinguísticas e de redes de adjacência enriquecidas ficaram acima de 50% de acurácia. Entretanto a combinação de todos os atributos investigados ou desenvolvidos não apresentou ganhos; acreditamos que a grande quantidade de atributos e o baixo número de exemplos causou esse resultado negativo.
id USP_2e3fcb0fbea7907150becffc81fef9e6
oai_identifier_str oai:teses.usp.br:tde-05022020-155847
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Representação de narrativas e extração de suas unidades de informação para automatização de testes neuropsicológicosNarratives representation and extraction of their information units for automation of neuropsychological testsAvaliação de similaridade semânticaIdentificação de unidades de informaçãoIdentification of information unitsNarrative retellingNeuropsychological testsReconto de narrativasSemantic textual similarityTestes neuropsicológicosO aumento da expectativa de vida tem ocasionado um aumento nas taxas de doenças neurodegenarativas na população idosa. Entre os vários tipos de demências, a principal é a Doença de Alzheimer (DA), correspondendo a 5075% dos casos. Outra enfermidade que tem recebido atenção nos últimos anos é o Comprometimento Cognitivo Leve (CCL), sendo considerado uma condição pré-clínica da DA, sendo assim importante o seu diagnóstico precoce. Para a identificação de demências e outras doenças relacionadas, são utilizados testes que avaliam a função cognitiva e aspectos linguísticos. Alguns desses exames utilizam como subtestes o reconto de narrativas. Nessa avaliação, a narrativa é dividida em partes, chamadas de unidades de informação, podendo ser palavras ou orações. O escore final do teste representa a quantidade de unidades recordadas. Em geral, é atribuído um ponto para cada unidade. Entretanto, as principais dificuldades no uso de tarefas de reconto são a demanda de tempo e a subjetividade da análise humana. Assim, aplicação de métodos computacionais que automatizem a avaliação é bem-vinda tanto para a larga utilização da tarefa de reconto como para a manutenção da uniformidade na correção, em uma análise longitudinal, por exemplo. O objetivo deste projeto de doutorado, na área de Processamento de Línguas Naturais (PLN) aplicado à área médica, é a avaliação de métodos para automatizar o exame de reconto de narrativas em Português, utilizado na Bateria Arizona para Desordens de Comunicação em Demências (ABCD) e na Bateria de Avaliação da Linguagem no Envelhecimento (BALE). Neste trabalho, avaliamos um método de similaridade semântica que se destacou na Avaliação de Similaridade Semântica e Inferência Textual (ASSIN), e desenvolvemos um método baseado na similaridade de word embeddings. Transformamos o problema multirrótulo de identificação de elementos de uma narrativa recontada em problemas de classificação binária, e encontramos um ponto de corte para o valor de similaridade de cada unidade de informação. Visando uma triagem automática, esses elementos são usados como atributos para os algoritmos de classificação binária (idosos saudáveis versus idosos com comprometimentos cognitivos). Além desses atributos, utilizamos métricas linguísticas, e desenvolvemos um léxico com propriedades psicolinguísticas. Também, propusemos uma abordagem para enriquecer as redes de adjacências, permitindo extrair métricas das propriedades topológicas de redes complexas. Por fim, combinamos todos os atributos para identificar automaticamente em um cenário binário (idosos saudáveis versus idosos com comprometimentos cognitivos). Os métodos de identificação de unidades superaram os baselines em ambas as baterias clínicas avaliadas. Na classificação binária, os resultados foram semelhantes aos da anotação manual, demostrando a adequação dos métodos desenvolvidos. Em geral, os resultados experimentais das métricas psicolinguísticas e de redes de adjacência enriquecidas ficaram acima de 50% de acurácia. Entretanto a combinação de todos os atributos investigados ou desenvolvidos não apresentou ganhos; acreditamos que a grande quantidade de atributos e o baixo número de exemplos causou esse resultado negativo.Increased life expectancy can be accompanied by neurodegenerative diseases. Among the various types of dementia, the main one is Alzheimers Disease (AD), corresponding to 50-75% of cases. Another disease that has received increased attention over the last few years is Mild Cognitive Impairment (MCI), which is considered a preclinical stages of AD, and therefore important to diagnose early. Diagnosis of dementia and related syndromes are commonly based on the analysis of a patients cognitive functions and linguistic aspects by applying neuropsychological batteries. Some of these batteries use a narrative retelling as a subtest, and are divided into chunks, called units of information, which can be words or phrases. The final score represents the number of units recalled. In general, one point being awarded for each unit recalled. However, the main difficulties of using narratives are the time required and the subjectivity of the manual analysis. Thus, the application of computational methods to automate the assessment is welcome both for the wide use of the task of retelling and to maintain assessment consistency, in a longitudinal analysis, for example. The purpose of this research project in Natural Language Processing (NLP) applied to the medical domain, is the evaluation of methods to automate specifically the retelling of narratives in Portuguese, using the Arizona Battery of Communication Disorders in Dementia (ABCD), and the Bateria de Avaliação da Linguagem no Envelhecimento (BALE). We evaluated the best ranked semantic similarity method in the Avaliação de Similaridade Semântica e Inferência Textual (ASSIN shared task), and we also developed a method based on the similarity of word embeddings. We transformed the multilabel problem of element identification of a narrative into binary classification problems, finding a cutoff point for the similarity value of each information unit. For automatic screening, these elements are then used as features for classification algorithms. In addition to these features, we used linguistic metrics and we also developed a lexicon with psycholinguistic properties. Moreover, we proposed an approach to enrich adjacency networks, allowing the extraction of metrics from topological properties of complex networks. Finally, we combined all of these features to automatically identify narratives in a binary classification task (healthy versus impaired elderly groups). The methods of units identification outperformed the baselines in both clinical batteries; for the binary classification task, the results were similar to manual annotation, demonstrating the adequacy of the methods. In general, the experimental results of the psycholinguistic metrics and enriched adjacency networks were above 50% accuracy. However, as combination of all features, investigated or developed, showed no gains, we believe that the large number of attributes and the low number of examples impacted this evaluation.Biblioteca Digitais de Teses e Dissertações da USPAluisio, Sandra MariaSantos, Leandro Borges dos2019-12-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-05022020-155847/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2020-02-05T21:04:02Zoai:teses.usp.br:tde-05022020-155847Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212020-02-05T21:04:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Representação de narrativas e extração de suas unidades de informação para automatização de testes neuropsicológicos
Narratives representation and extraction of their information units for automation of neuropsychological tests
title Representação de narrativas e extração de suas unidades de informação para automatização de testes neuropsicológicos
spellingShingle Representação de narrativas e extração de suas unidades de informação para automatização de testes neuropsicológicos
Santos, Leandro Borges dos
Avaliação de similaridade semântica
Identificação de unidades de informação
Identification of information units
Narrative retelling
Neuropsychological tests
Reconto de narrativas
Semantic textual similarity
Testes neuropsicológicos
title_short Representação de narrativas e extração de suas unidades de informação para automatização de testes neuropsicológicos
title_full Representação de narrativas e extração de suas unidades de informação para automatização de testes neuropsicológicos
title_fullStr Representação de narrativas e extração de suas unidades de informação para automatização de testes neuropsicológicos
title_full_unstemmed Representação de narrativas e extração de suas unidades de informação para automatização de testes neuropsicológicos
title_sort Representação de narrativas e extração de suas unidades de informação para automatização de testes neuropsicológicos
author Santos, Leandro Borges dos
author_facet Santos, Leandro Borges dos
author_role author
dc.contributor.none.fl_str_mv Aluisio, Sandra Maria
dc.contributor.author.fl_str_mv Santos, Leandro Borges dos
dc.subject.por.fl_str_mv Avaliação de similaridade semântica
Identificação de unidades de informação
Identification of information units
Narrative retelling
Neuropsychological tests
Reconto de narrativas
Semantic textual similarity
Testes neuropsicológicos
topic Avaliação de similaridade semântica
Identificação de unidades de informação
Identification of information units
Narrative retelling
Neuropsychological tests
Reconto de narrativas
Semantic textual similarity
Testes neuropsicológicos
description O aumento da expectativa de vida tem ocasionado um aumento nas taxas de doenças neurodegenarativas na população idosa. Entre os vários tipos de demências, a principal é a Doença de Alzheimer (DA), correspondendo a 5075% dos casos. Outra enfermidade que tem recebido atenção nos últimos anos é o Comprometimento Cognitivo Leve (CCL), sendo considerado uma condição pré-clínica da DA, sendo assim importante o seu diagnóstico precoce. Para a identificação de demências e outras doenças relacionadas, são utilizados testes que avaliam a função cognitiva e aspectos linguísticos. Alguns desses exames utilizam como subtestes o reconto de narrativas. Nessa avaliação, a narrativa é dividida em partes, chamadas de unidades de informação, podendo ser palavras ou orações. O escore final do teste representa a quantidade de unidades recordadas. Em geral, é atribuído um ponto para cada unidade. Entretanto, as principais dificuldades no uso de tarefas de reconto são a demanda de tempo e a subjetividade da análise humana. Assim, aplicação de métodos computacionais que automatizem a avaliação é bem-vinda tanto para a larga utilização da tarefa de reconto como para a manutenção da uniformidade na correção, em uma análise longitudinal, por exemplo. O objetivo deste projeto de doutorado, na área de Processamento de Línguas Naturais (PLN) aplicado à área médica, é a avaliação de métodos para automatizar o exame de reconto de narrativas em Português, utilizado na Bateria Arizona para Desordens de Comunicação em Demências (ABCD) e na Bateria de Avaliação da Linguagem no Envelhecimento (BALE). Neste trabalho, avaliamos um método de similaridade semântica que se destacou na Avaliação de Similaridade Semântica e Inferência Textual (ASSIN), e desenvolvemos um método baseado na similaridade de word embeddings. Transformamos o problema multirrótulo de identificação de elementos de uma narrativa recontada em problemas de classificação binária, e encontramos um ponto de corte para o valor de similaridade de cada unidade de informação. Visando uma triagem automática, esses elementos são usados como atributos para os algoritmos de classificação binária (idosos saudáveis versus idosos com comprometimentos cognitivos). Além desses atributos, utilizamos métricas linguísticas, e desenvolvemos um léxico com propriedades psicolinguísticas. Também, propusemos uma abordagem para enriquecer as redes de adjacências, permitindo extrair métricas das propriedades topológicas de redes complexas. Por fim, combinamos todos os atributos para identificar automaticamente em um cenário binário (idosos saudáveis versus idosos com comprometimentos cognitivos). Os métodos de identificação de unidades superaram os baselines em ambas as baterias clínicas avaliadas. Na classificação binária, os resultados foram semelhantes aos da anotação manual, demostrando a adequação dos métodos desenvolvidos. Em geral, os resultados experimentais das métricas psicolinguísticas e de redes de adjacência enriquecidas ficaram acima de 50% de acurácia. Entretanto a combinação de todos os atributos investigados ou desenvolvidos não apresentou ganhos; acreditamos que a grande quantidade de atributos e o baixo número de exemplos causou esse resultado negativo.
publishDate 2019
dc.date.none.fl_str_mv 2019-12-09
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-05022020-155847/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-05022020-155847/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815256684578209792