Reconhecimento de entidades nomeadas em prontuários de Psiquiatria: anotação de corpus e extração de entidades clínicas

Niero, Luiz Henrique Pereira

Reconhecimento de entidades nomeadas em prontuários de Psiquiatria: anotação de corpus e extração de entidades clínicas

Detalhes bibliográficos
Autor(a) principal:	Niero, Luiz Henrique Pereira
Data de Publicação:	2023
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UNESP
Texto Completo:	http://hdl.handle.net/11449/250392
Resumo:	Grande parte das informações dos dados de pacientes presentes nos sistemas de prontuários eletrônicos encontram-se em formato de texto. Esses dados dizem respeito às informações diversas do paciente e são de extrema importância para acompanhar o tratamento dele. Porém, dados que estão no formato puramente textual não estão passíveis à aplicação de algoritmos computacionais para a extração de informações. Para resolver tal problema, existe uma área chamada Processamento de Linguagem Natural e uma subárea chamada de Reconhecimento de Entidade Nomeadas (REN), que tem por objetivo reconhecer unidades que representam algum sentido no texto – chamadas de Entidades. Os métodos mais atuais de REN utilizam-se de métodos de aprendizado de máquina em corpus de documentos anotados para atingir bons resultados, porém, de acordo com o levantamento realizado no presente trabalho, não foram encontrados corpus anotados para a língua portuguesa que pudessem ser treinados para o domínio da psiquiatria, que é o domínio explorado no presente trabalho. Portanto, neste trabalho foi realizada a anotação de um corpus de prontuários médicos de psiquiatria, o PSYclinBR. O corpus é composto por 300 prontuários de notas de admissão de um serviço de emergência psiquiatra e anotado em 9 categorias semânticas: comportamento autodestrutivo, diagnóstico, droga, fármaco, função psíquica, histórico familiar, histórico do paciente, observação e sintoma e queixa psíquica. Ao todo, são 2.480 sentenças e 5.822 entidades, com IAA de 0.6. O treinamento do modelo de REN baseado na arquitetura BERT, o psyBERTpt, foi feito com a utilização do corpus anotado e atingiu os valores médios de precisão 0,65, revocação 0,69 e f1-score 0,67, valores que estão próximos ao estado da arte para REN em dados clínicos da língua portuguesa. Tanto o Corpus como o modelo de REN foram disponibilizados publicamente.

Metadados do item

id	UNSP_815a5d98042b58899054f740626706c9
oai_identifier_str	oai:repositorio.unesp.br:11449/250392
network_acronym_str	UNSP
network_name_str	Repositório Institucional da UNESP
repository_id_str	2946
spelling	Reconhecimento de entidades nomeadas em prontuários de Psiquiatria: anotação de corpus e extração de entidades clínicasNamed entities recognition in medical records Psychiatry: corpus annotation and clinical entity extractionCiência da computaçãoPLNExtração de informaçãoAprendizado de máquinaAnotação de corpusClinical entity extractionNatural language processingGrande parte das informações dos dados de pacientes presentes nos sistemas de prontuários eletrônicos encontram-se em formato de texto. Esses dados dizem respeito às informações diversas do paciente e são de extrema importância para acompanhar o tratamento dele. Porém, dados que estão no formato puramente textual não estão passíveis à aplicação de algoritmos computacionais para a extração de informações. Para resolver tal problema, existe uma área chamada Processamento de Linguagem Natural e uma subárea chamada de Reconhecimento de Entidade Nomeadas (REN), que tem por objetivo reconhecer unidades que representam algum sentido no texto – chamadas de Entidades. Os métodos mais atuais de REN utilizam-se de métodos de aprendizado de máquina em corpus de documentos anotados para atingir bons resultados, porém, de acordo com o levantamento realizado no presente trabalho, não foram encontrados corpus anotados para a língua portuguesa que pudessem ser treinados para o domínio da psiquiatria, que é o domínio explorado no presente trabalho. Portanto, neste trabalho foi realizada a anotação de um corpus de prontuários médicos de psiquiatria, o PSYclinBR. O corpus é composto por 300 prontuários de notas de admissão de um serviço de emergência psiquiatra e anotado em 9 categorias semânticas: comportamento autodestrutivo, diagnóstico, droga, fármaco, função psíquica, histórico familiar, histórico do paciente, observação e sintoma e queixa psíquica. Ao todo, são 2.480 sentenças e 5.822 entidades, com IAA de 0.6. O treinamento do modelo de REN baseado na arquitetura BERT, o psyBERTpt, foi feito com a utilização do corpus anotado e atingiu os valores médios de precisão 0,65, revocação 0,69 e f1-score 0,67, valores que estão próximos ao estado da arte para REN em dados clínicos da língua portuguesa. Tanto o Corpus como o modelo de REN foram disponibilizados publicamente.A significant portion of patient data within electronic medical record systems is represented in textual format. These data encompass diverse patient information and hold utmost importance in monitoring their treatment progress. However, data presented purely as text pose limitations in terms of applicability to computational algorithms for information extraction. To address this issue, a field known as Natural Language Processing (NLP) emerges, encompassing a subfield called Named Entity Recognition (NER). The primary goal of NER is to identify units within text that convey meaningful context, referred to as Entities. Contemporary NER methods employ machine learning techniques on annotated document corpora to achieve robust outcomes. Nonetheless, according to the investigation undertaken in this study, no annotated corpora for the Portuguese language, suitable for training in the domain of psychiatry, the domain explored in the present study, were found. As a result, this study undertook the annotation of a corpus derived from psychiatric medical records, termed as PSYclinBR. This corpus comprises 300 admission notes from a psychiatric emergency service, annotated across 9 semantic categories: self-destructive behavior, diagnosis, drug, medication, psychic function, family history, patient history, observation, and psychological symptom and complaint. The corpus encompasses a total of 2,480 sentences and 5,822 entities, yielding an Inter-Annotator Agreement (IAA) of 0.6. The training of the Named Entity Recognition model, psyBERTpt, which is based on the BERT architecture, was executed using the annotated corpus. This model attained average precision, recall, and f1-score values of 0.65, 0.69, and 0.67 respectively. These values are in proximity to the state-of-the-art results for NER on clinical data in the Portuguese language. Both the annotated corpus and the NER model have been made publicly available.Universidade Estadual Paulista (Unesp)Guilherme, Ivan Rizzo [UNESP]Oliveira, Lucas Emanuel Silva eUniversidade Estadual Paulista (Unesp)Niero, Luiz Henrique Pereira2023-08-22T12:08:52Z2023-08-22T12:08:52Z2023-06-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/11449/25039233004153073P2porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2023-10-08T06:06:15Zoai:repositorio.unesp.br:11449/250392Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T14:20:31.503944Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv	Reconhecimento de entidades nomeadas em prontuários de Psiquiatria: anotação de corpus e extração de entidades clínicas Named entities recognition in medical records Psychiatry: corpus annotation and clinical entity extraction
title	Reconhecimento de entidades nomeadas em prontuários de Psiquiatria: anotação de corpus e extração de entidades clínicas
spellingShingle	Reconhecimento de entidades nomeadas em prontuários de Psiquiatria: anotação de corpus e extração de entidades clínicas Niero, Luiz Henrique Pereira Ciência da computação PLN Extração de informação Aprendizado de máquina Anotação de corpus Clinical entity extraction Natural language processing
title_short	Reconhecimento de entidades nomeadas em prontuários de Psiquiatria: anotação de corpus e extração de entidades clínicas
title_full	Reconhecimento de entidades nomeadas em prontuários de Psiquiatria: anotação de corpus e extração de entidades clínicas
title_fullStr	Reconhecimento de entidades nomeadas em prontuários de Psiquiatria: anotação de corpus e extração de entidades clínicas
title_full_unstemmed	Reconhecimento de entidades nomeadas em prontuários de Psiquiatria: anotação de corpus e extração de entidades clínicas
title_sort	Reconhecimento de entidades nomeadas em prontuários de Psiquiatria: anotação de corpus e extração de entidades clínicas
author	Niero, Luiz Henrique Pereira
author_facet	Niero, Luiz Henrique Pereira
author_role	author
dc.contributor.none.fl_str_mv	Guilherme, Ivan Rizzo [UNESP] Oliveira, Lucas Emanuel Silva e Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv	Niero, Luiz Henrique Pereira
dc.subject.por.fl_str_mv	Ciência da computação PLN Extração de informação Aprendizado de máquina Anotação de corpus Clinical entity extraction Natural language processing
topic	Ciência da computação PLN Extração de informação Aprendizado de máquina Anotação de corpus Clinical entity extraction Natural language processing
description	Grande parte das informações dos dados de pacientes presentes nos sistemas de prontuários eletrônicos encontram-se em formato de texto. Esses dados dizem respeito às informações diversas do paciente e são de extrema importância para acompanhar o tratamento dele. Porém, dados que estão no formato puramente textual não estão passíveis à aplicação de algoritmos computacionais para a extração de informações. Para resolver tal problema, existe uma área chamada Processamento de Linguagem Natural e uma subárea chamada de Reconhecimento de Entidade Nomeadas (REN), que tem por objetivo reconhecer unidades que representam algum sentido no texto – chamadas de Entidades. Os métodos mais atuais de REN utilizam-se de métodos de aprendizado de máquina em corpus de documentos anotados para atingir bons resultados, porém, de acordo com o levantamento realizado no presente trabalho, não foram encontrados corpus anotados para a língua portuguesa que pudessem ser treinados para o domínio da psiquiatria, que é o domínio explorado no presente trabalho. Portanto, neste trabalho foi realizada a anotação de um corpus de prontuários médicos de psiquiatria, o PSYclinBR. O corpus é composto por 300 prontuários de notas de admissão de um serviço de emergência psiquiatra e anotado em 9 categorias semânticas: comportamento autodestrutivo, diagnóstico, droga, fármaco, função psíquica, histórico familiar, histórico do paciente, observação e sintoma e queixa psíquica. Ao todo, são 2.480 sentenças e 5.822 entidades, com IAA de 0.6. O treinamento do modelo de REN baseado na arquitetura BERT, o psyBERTpt, foi feito com a utilização do corpus anotado e atingiu os valores médios de precisão 0,65, revocação 0,69 e f1-score 0,67, valores que estão próximos ao estado da arte para REN em dados clínicos da língua portuguesa. Tanto o Corpus como o modelo de REN foram disponibilizados publicamente.
publishDate	2023
dc.date.none.fl_str_mv	2023-08-22T12:08:52Z 2023-08-22T12:08:52Z 2023-06-30
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/11449/250392 33004153073P2
url	http://hdl.handle.net/11449/250392
identifier_str_mv	33004153073P2
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP
instname_str	Universidade Estadual Paulista (UNESP)
instacron_str	UNESP
institution	UNESP
reponame_str	Repositório Institucional da UNESP
collection	Repositório Institucional da UNESP
repository.name.fl_str_mv	Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_	1808128349722116096

Reconhecimento de entidades nomeadas em prontuários de Psiquiatria: anotação de corpus e extração de entidades clínicas

Registros relacionados