Contributions to Clinical Information Extraction in Portuguese: Corpora, Named Entity Recognition, Word Embeddings

Detalhes bibliográficos
Autor(a) principal: Lopes, Fábio André da Costa
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10316/87863
Resumo: Trabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia
id RCAP_e56483dc92d6439de56f66d93dafd454
oai_identifier_str oai:estudogeral.uc.pt:10316/87863
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Contributions to Clinical Information Extraction in Portuguese: Corpora, Named Entity Recognition, Word EmbeddingsContribuições para Extração de Informações Clínicas em Português: Corpora, Reconhecimento de Entidade Nomeada, Encaminhamentos de PalavrasProcessamento de Linguagem NaturalAprendizagem MáquinaReconhecimento de Entidades MencionadasTexto Clínico PortuguêsNatural Language ProcessingMachine LearningNamed Entity RecognitionPortuguese Clinical TextTrabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e TecnologiaO grande aumento do uso de Registos Médicos Eletrónicos, por todo o mundo, levou a um crescimento exponencial da informação clínica. Só no sistema de saúde português, o uso destes nos hospitais aumentou de 42% para 83% entre 2004 e 2014. Contudo, tal informação é escrita em formatos não estruturados o que torna difícil o seu processamento. Apesar da solução para extrair dados seria fazê-lo manualmente, isto não só requer treinar técnicos de saúde, para efetuar tal tarefa, como também é uma solução intensiva que exige muito tempo. É nisto que a inteligência artificial pode ser útil permitindo construir modelos que permitem extrair informação automaticamente. Uma importante parte deste processo envolve o reconhecimento de entidades significativas no texto e, portanto, o desenvolvimento de modelos de reconhecimento de entidades mencionadas.Para tal, o trabalho descrito nesta tese compreende seis tarefas principais: anotação de entidades mencionadas em texto clínico português; criação de um modelo de Word Embeddings (WEs) treinado com textos clínicos portugueses e comparar a sua performance com um modelo de WEs treinado com um grande conjunto de textos gerais que não são focados no domínio clínico; estudar as melhores características para reconhecimento de entidades mencionadas em texto clínico; analisar a performance de um modelo treinado em textos de casos clínicos recolhidos de uma revista médica quando testado em um conjunto de teste independente do anterior de textos recolhidos do serviço de Neurologia do Centro Hospitalar da Universidade de Coimbra.Os modelos de reconhecimento de entidades mencionadas obtiveram medidas F1 de aproximadamente 83% e 75% para avaliação relaxada e e rigorosa, respetivamente, nos textos extraídos da revista médica. Para os textos de teste, as medidas F1 para a avaliação relaxada e rigorosa foram 71.21% e 62.71%, respetivamente. Concluímos também que os modelos de aprendizagem profunda obtém melhores resultados que os modelos de aprendizagem superficial e que, os modelos de WEs treinados com texto clínico obtêm melhores resultados que os que são treinados com texto geral, mesmo que o último tenha sido treinados com muito mais textos que o primeiro. Além disso, os nossos reusltados mostram que é possível extrair informação de textos clínicos do Hospital com modelos treinados com casos clínicos extraídos de revistas clínicas públicas. Contudo, tais resultados ainda requerem um técnico de saúde para analisar se a informação é extraída corretamente.The great increase of using Electronic Medical Records (EMRs) in all world lead to an exponential growth of clinical information. Considering Portugal healthcare system, the use of EMRs in the hospitals rose from 42% to 83% from 2004 to 2014. However, such information is written in an unstructured way which is difficult to process. Although a solution for extracting such data would be doing it manually, it does not only require training healthcare technicians for doing so, but it is also a time consuming and intensive task. This is where Artificial Intelligence (AI) can be useful by making models that are able to perform Information Extraction (IE) automatically. An important part of this process involves recognizing meaningful entities in text, and thus the development of Named Entity Recognition (NER) models.Towards the previous, the work described in this thesis comprised six main tasks: annotation of Named Entity (NE) in Portuguese clinical texts; creation of a Word Embedding (WE) model trained with Portuguese clinical texts and comparison of its performance with a WE model trained in a large set of general-language texts; study of the best features for clinical NER; comparison between shallow machine learning classifiers with deep learning models; analyse the performance of a model trained on clinical case texts extracted from a medical journal in a independent test set of texts from the Coimbra Hospital and Universitary Centre (CHUC) Neurology Service.Models for NER achieved F1-Scores of nearly 83% and 75%, respectively for relaxed and strict evaluation, on texts extracted from the medical journal. For texts collected from the Hospital, the same F1-Scores were 71.21% and 62.71%. We also conclude that deep learning models outperform the shallow models and that in-domain WEs get better results that out-of-domain ones, even when the latter were trained with much more texts than the former. Furthermore, our results show that it is possible to extract information from Hospital clinical texts with models trained with clinical cases extracted from journals, and thus openly available. However, such results still require a healthcare technician to check if the information is well extracted.2019-07-16info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/87863http://hdl.handle.net/10316/87863TID:202308731engLopes, Fábio André da Costainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2021-06-16T10:40:04Zoai:estudogeral.uc.pt:10316/87863Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:08:41.573946Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Contributions to Clinical Information Extraction in Portuguese: Corpora, Named Entity Recognition, Word Embeddings
Contribuições para Extração de Informações Clínicas em Português: Corpora, Reconhecimento de Entidade Nomeada, Encaminhamentos de Palavras
title Contributions to Clinical Information Extraction in Portuguese: Corpora, Named Entity Recognition, Word Embeddings
spellingShingle Contributions to Clinical Information Extraction in Portuguese: Corpora, Named Entity Recognition, Word Embeddings
Lopes, Fábio André da Costa
Processamento de Linguagem Natural
Aprendizagem Máquina
Reconhecimento de Entidades Mencionadas
Texto Clínico Português
Natural Language Processing
Machine Learning
Named Entity Recognition
Portuguese Clinical Text
title_short Contributions to Clinical Information Extraction in Portuguese: Corpora, Named Entity Recognition, Word Embeddings
title_full Contributions to Clinical Information Extraction in Portuguese: Corpora, Named Entity Recognition, Word Embeddings
title_fullStr Contributions to Clinical Information Extraction in Portuguese: Corpora, Named Entity Recognition, Word Embeddings
title_full_unstemmed Contributions to Clinical Information Extraction in Portuguese: Corpora, Named Entity Recognition, Word Embeddings
title_sort Contributions to Clinical Information Extraction in Portuguese: Corpora, Named Entity Recognition, Word Embeddings
author Lopes, Fábio André da Costa
author_facet Lopes, Fábio André da Costa
author_role author
dc.contributor.author.fl_str_mv Lopes, Fábio André da Costa
dc.subject.por.fl_str_mv Processamento de Linguagem Natural
Aprendizagem Máquina
Reconhecimento de Entidades Mencionadas
Texto Clínico Português
Natural Language Processing
Machine Learning
Named Entity Recognition
Portuguese Clinical Text
topic Processamento de Linguagem Natural
Aprendizagem Máquina
Reconhecimento de Entidades Mencionadas
Texto Clínico Português
Natural Language Processing
Machine Learning
Named Entity Recognition
Portuguese Clinical Text
description Trabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia
publishDate 2019
dc.date.none.fl_str_mv 2019-07-16
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/87863
http://hdl.handle.net/10316/87863
TID:202308731
url http://hdl.handle.net/10316/87863
identifier_str_mv TID:202308731
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133980225699840