Contributions to Clinical Information Extraction in Portuguese: Corpora, Named Entity Recognition, Word Embeddings

Lopes, Fábio André da Costa

Contributions to Clinical Information Extraction in Portuguese: Corpora, Named Entity Recognition, Word Embeddings

Detalhes bibliográficos
Autor(a) principal:	Lopes, Fábio André da Costa
Data de Publicação:	2019
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10316/87863
Resumo:	Trabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia

Metadados do item

id	RCAP_e56483dc92d6439de56f66d93dafd454
oai_identifier_str	oai:estudogeral.uc.pt:10316/87863
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Contributions to Clinical Information Extraction in Portuguese: Corpora, Named Entity Recognition, Word EmbeddingsContribuições para Extração de Informações Clínicas em Português: Corpora, Reconhecimento de Entidade Nomeada, Encaminhamentos de PalavrasProcessamento de Linguagem NaturalAprendizagem MáquinaReconhecimento de Entidades MencionadasTexto Clínico PortuguêsNatural Language ProcessingMachine LearningNamed Entity RecognitionPortuguese Clinical TextTrabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e TecnologiaO grande aumento do uso de Registos Médicos Eletrónicos, por todo o mundo, levou a um crescimento exponencial da informação clínica. Só no sistema de saúde português, o uso destes nos hospitais aumentou de 42% para 83% entre 2004 e 2014. Contudo, tal informação é escrita em formatos não estruturados o que torna difícil o seu processamento. Apesar da solução para extrair dados seria fazê-lo manualmente, isto não só requer treinar técnicos de saúde, para efetuar tal tarefa, como também é uma solução intensiva que exige muito tempo. É nisto que a inteligência artificial pode ser útil permitindo construir modelos que permitem extrair informação automaticamente. Uma importante parte deste processo envolve o reconhecimento de entidades significativas no texto e, portanto, o desenvolvimento de modelos de reconhecimento de entidades mencionadas.Para tal, o trabalho descrito nesta tese compreende seis tarefas principais: anotação de entidades mencionadas em texto clínico português; criação de um modelo de Word Embeddings (WEs) treinado com textos clínicos portugueses e comparar a sua performance com um modelo de WEs treinado com um grande conjunto de textos gerais que não são focados no domínio clínico; estudar as melhores características para reconhecimento de entidades mencionadas em texto clínico; analisar a performance de um modelo treinado em textos de casos clínicos recolhidos de uma revista médica quando testado em um conjunto de teste independente do anterior de textos recolhidos do serviço de Neurologia do Centro Hospitalar da Universidade de Coimbra.Os modelos de reconhecimento de entidades mencionadas obtiveram medidas F1 de aproximadamente 83% e 75% para avaliação relaxada e e rigorosa, respetivamente, nos textos extraídos da revista médica. Para os textos de teste, as medidas F1 para a avaliação relaxada e rigorosa foram 71.21% e 62.71%, respetivamente. Concluímos também que os modelos de aprendizagem profunda obtém melhores resultados que os modelos de aprendizagem superficial e que, os modelos de WEs treinados com texto clínico obtêm melhores resultados que os que são treinados com texto geral, mesmo que o último tenha sido treinados com muito mais textos que o primeiro. Além disso, os nossos reusltados mostram que é possível extrair informação de textos clínicos do Hospital com modelos treinados com casos clínicos extraídos de revistas clínicas públicas. Contudo, tais resultados ainda requerem um técnico de saúde para analisar se a informação é extraída corretamente.The great increase of using Electronic Medical Records (EMRs) in all world lead to an exponential growth of clinical information. Considering Portugal healthcare system, the use of EMRs in the hospitals rose from 42% to 83% from 2004 to 2014. However, such information is written in an unstructured way which is difficult to process. Although a solution for extracting such data would be doing it manually, it does not only require training healthcare technicians for doing so, but it is also a time consuming and intensive task. This is where Artificial Intelligence (AI) can be useful by making models that are able to perform Information Extraction (IE) automatically. An important part of this process involves recognizing meaningful entities in text, and thus the development of Named Entity Recognition (NER) models.Towards the previous, the work described in this thesis comprised six main tasks: annotation of Named Entity (NE) in Portuguese clinical texts; creation of a Word Embedding (WE) model trained with Portuguese clinical texts and comparison of its performance with a WE model trained in a large set of general-language texts; study of the best features for clinical NER; comparison between shallow machine learning classifiers with deep learning models; analyse the performance of a model trained on clinical case texts extracted from a medical journal in a independent test set of texts from the Coimbra Hospital and Universitary Centre (CHUC) Neurology Service.Models for NER achieved F1-Scores of nearly 83% and 75%, respectively for relaxed and strict evaluation, on texts extracted from the medical journal. For texts collected from the Hospital, the same F1-Scores were 71.21% and 62.71%. We also conclude that deep learning models outperform the shallow models and that in-domain WEs get better results that out-of-domain ones, even when the latter were trained with much more texts than the former. Furthermore, our results show that it is possible to extract information from Hospital clinical texts with models trained with clinical cases extracted from journals, and thus openly available. However, such results still require a healthcare technician to check if the information is well extracted.2019-07-16info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/87863http://hdl.handle.net/10316/87863TID:202308731engLopes, Fábio André da Costainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2021-06-16T10:40:04Zoai:estudogeral.uc.pt:10316/87863Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:08:41.573946Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Contributions to Clinical Information Extraction in Portuguese: Corpora, Named Entity Recognition, Word Embeddings Contribuições para Extração de Informações Clínicas em Português: Corpora, Reconhecimento de Entidade Nomeada, Encaminhamentos de Palavras
title	Contributions to Clinical Information Extraction in Portuguese: Corpora, Named Entity Recognition, Word Embeddings
spellingShingle	Contributions to Clinical Information Extraction in Portuguese: Corpora, Named Entity Recognition, Word Embeddings Lopes, Fábio André da Costa Processamento de Linguagem Natural Aprendizagem Máquina Reconhecimento de Entidades Mencionadas Texto Clínico Português Natural Language Processing Machine Learning Named Entity Recognition Portuguese Clinical Text
title_short	Contributions to Clinical Information Extraction in Portuguese: Corpora, Named Entity Recognition, Word Embeddings
title_full	Contributions to Clinical Information Extraction in Portuguese: Corpora, Named Entity Recognition, Word Embeddings
title_fullStr	Contributions to Clinical Information Extraction in Portuguese: Corpora, Named Entity Recognition, Word Embeddings
title_full_unstemmed	Contributions to Clinical Information Extraction in Portuguese: Corpora, Named Entity Recognition, Word Embeddings
title_sort	Contributions to Clinical Information Extraction in Portuguese: Corpora, Named Entity Recognition, Word Embeddings
author	Lopes, Fábio André da Costa
author_facet	Lopes, Fábio André da Costa
author_role	author
dc.contributor.author.fl_str_mv	Lopes, Fábio André da Costa
dc.subject.por.fl_str_mv	Processamento de Linguagem Natural Aprendizagem Máquina Reconhecimento de Entidades Mencionadas Texto Clínico Português Natural Language Processing Machine Learning Named Entity Recognition Portuguese Clinical Text
topic	Processamento de Linguagem Natural Aprendizagem Máquina Reconhecimento de Entidades Mencionadas Texto Clínico Português Natural Language Processing Machine Learning Named Entity Recognition Portuguese Clinical Text
description	Trabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia
publishDate	2019
dc.date.none.fl_str_mv	2019-07-16
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10316/87863 http://hdl.handle.net/10316/87863 TID:202308731
url	http://hdl.handle.net/10316/87863
identifier_str_mv	TID:202308731
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799133980225699840

Contributions to Clinical Information Extraction in Portuguese: Corpora, Named Entity Recognition, Word Embeddings

Registros relacionados