Mineração de padrões morfo-semânticos em textos clínicos

Cardoso, Nathan Cezar

Mineração de padrões morfo-semânticos em textos clínicos

Detalhes bibliográficos
Autor(a) principal:	Cardoso, Nathan Cezar
Data de Publicação:	2022
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UFSC
Texto Completo:	https://repositorio.ufsc.br/handle/123456789/243398
Resumo:	TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Ciências da Computação.

Metadados do item

id	UFSC_f3b1ff57a67f98a1ee8dd548c2606c44
oai_identifier_str	oai:repositorio.ufsc.br:123456789/243398
network_acronym_str	UFSC
network_name_str	Repositório Institucional da UFSC
repository_id_str	2373
spelling	Mineração de padrões morfo-semânticos em textos clínicosMineração de textosProcessamento de linguagem naturalEmbeddingsReconhecimento de entidadesTextos clínicosTCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Ciências da Computação.Atualmente, enormes volumes de textos de diversos domínios (microblogs, notícias, artigos, prontuários médicos, etc.) têm sido coletados diariamente em plataformas digitais. Várias fer- ramentas para Processamento de Linguagem Natural (PLN), mineração de textos e ciência de dados permitem extrair informação, analisar e classificar certos textos conforme os seus conteú- dos. Recentemente, técnicas de embedding de texto, principalmente embeddings contextualiza- dos, têm possibilitado ganhos de desempenho em diversas tarefas de Processamento de Lingua- gem Natural (PLN). Nosso grupo de pesquisa tem investigado a aplicação de tais recursos na mineração de padrões morfo-semânticos em textos, visando extração e análise de informação. Tais padrões têm se mostrado úteis em tarefas como análise de discurso, desambiguação do sentido de palavras e classificação de textos, usando métodos não-supervisionados, que dispen- sam grandes volumes de dados rotulados para treinamento, possibilitam certa explicabilidade e flexibilidade, por exemplo no detalhamento de categorias de classificação. Este trabalho desen- volveu e avaliou métodos e algoritmos baseados em PLN e embeddings contextualizados para minerar eficientemente padrões morfo-semânticos em textos clínicos (inseridos por profissio- nais de saúde, como médicos, nos prontuários de pacientes em atendimentos), com o intuito de automatizar a classificação e a triagem desses textos e possibilitar análises de seus conteúdos com métodos inovadores. Os textos clínicos e exemplos dos padrões a serem minerados foram fornecidos por uma empresa que presta serviços a operadoras de planos de saúde, com interme- diação de um mestrando a ela ligado. Foram gerados embeddings do BERT pré-treinados para a língua portuguesa (BERTimbau), assim como classes morfossintáticas e reconhecimento de entidades (e.g., medicamentos, doenças, especialidades médicas) de acordo com terminologia específica da área médica para calcular similaridade e/ou determinar casamento na mineração dos padrões nos documentos. Os embeddings gerados foram utilizados em experimentos de visualização e agrupamento a fim de selecionar conjuntos de dados ao redor das entidades re- conhecidas mencionadas nos textos clínicos. Com o uso dos algoritmos desenvolvidos e as visualizações geradas foi possível concluir que o modelo do BERT utilizado usa o contexto dos documentos para gerar os embeddings dos medicamentos próximos aos embeddings de outras palavras mencionadas nos mesmos contextos textuais, tais como doenças tratadas com os res- pectivos medicamentos. Isso não permite discriminar medicamentos e doenças, por exemplo, em grupos distintos de embeddings.Currently, huge volumes of texts from different domains (microblogs, news, articles, medical records, etc.) have been collected daily on digital platforms. Various tools for Natural Language Processing (NLP), text mining, and data science allow extracting information and analyzing and classifying certain texts according to their contents. Recently, text embedding techniques, mainly contextualized embeddings, have enabled performance gains in several NLP tasks. Our research group has investigated the application of such resources in the mining of morpho- semantic patterns in texts, aiming at extracting and analyzing information. Such patterns are useful in tasks such as discourse analysis, disambiguation of the meaning of words, and clas- sification of texts, using unsupervised methods, which do not require large volumes of labeled data for training, allowing some explainability, and flexibility, for example in detailing classi- fication categories. This work aims to develop and evaluate methods based on contextualized NLP and embeddings to efficiently mine morpho-semantic patterns in clinical texts (inserted by health professionals, such as doctors, in the records of patients in attendance), intending to automate the classification and sorting of these texts and enable an analysis of their contents with innovative methods. The clinical texts and examples of the standards to be mined have been provided by a company that provides services to health plan operators, with the interme- diation of a master’s student linked to it. It is intended to use pre-trained BERT embeddings for the Portuguese language, as well as morphosyntactic classes and entity recognition (e.g., drugs, diseases, medical specialties) according to specific medical terminology to calculate similarity and/or determine matching by mining the patterns in the documents. The generated embed- dings were used in visualization and clustering experiments in order to select datasets around recognized entities mentioned in clinical texts. With the use of the developed algorithms and the generated visualizations, it was possible to conclude that the BERT model used uses the context of the documents to generate the embeddings of the drugs close to the embeddings of other words mentioned in the same textual contexts, such as diseases treated with the respective drugs . This does not allow discriminating drugs and diseases, for example, in distinct groups of embeddings.Florianópolis, SC.Braz Junior, Osmar de OliveiraFileto, RenatoUniversidade Federal de Santa Catarina.Cardoso, Nathan Cezar2022-12-22T14:13:45Z2022-12-22T14:13:45Z2022-12-14info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis99 f.application/pdfhttps://repositorio.ufsc.br/handle/123456789/243398Open Access.info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSC2022-12-22T14:13:45Zoai:repositorio.ufsc.br:123456789/243398Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732022-12-22T14:13:45Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv	Mineração de padrões morfo-semânticos em textos clínicos
title	Mineração de padrões morfo-semânticos em textos clínicos
spellingShingle	Mineração de padrões morfo-semânticos em textos clínicos Cardoso, Nathan Cezar Mineração de textos Processamento de linguagem natural Embeddings Reconhecimento de entidades Textos clínicos
title_short	Mineração de padrões morfo-semânticos em textos clínicos
title_full	Mineração de padrões morfo-semânticos em textos clínicos
title_fullStr	Mineração de padrões morfo-semânticos em textos clínicos
title_full_unstemmed	Mineração de padrões morfo-semânticos em textos clínicos
title_sort	Mineração de padrões morfo-semânticos em textos clínicos
author	Cardoso, Nathan Cezar
author_facet	Cardoso, Nathan Cezar
author_role	author
dc.contributor.none.fl_str_mv	Braz Junior, Osmar de Oliveira Fileto, Renato Universidade Federal de Santa Catarina.
dc.contributor.author.fl_str_mv	Cardoso, Nathan Cezar
dc.subject.por.fl_str_mv	Mineração de textos Processamento de linguagem natural Embeddings Reconhecimento de entidades Textos clínicos
topic	Mineração de textos Processamento de linguagem natural Embeddings Reconhecimento de entidades Textos clínicos
description	TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Ciências da Computação.
publishDate	2022
dc.date.none.fl_str_mv	2022-12-22T14:13:45Z 2022-12-22T14:13:45Z 2022-12-14
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://repositorio.ufsc.br/handle/123456789/243398
url	https://repositorio.ufsc.br/handle/123456789/243398
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	Open Access. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Open Access.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	99 f. application/pdf
dc.publisher.none.fl_str_mv	Florianópolis, SC.
publisher.none.fl_str_mv	Florianópolis, SC.
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFSC instname:Universidade Federal de Santa Catarina (UFSC) instacron:UFSC
instname_str	Universidade Federal de Santa Catarina (UFSC)
instacron_str	UFSC
institution	UFSC
reponame_str	Repositório Institucional da UFSC
collection	Repositório Institucional da UFSC
repository.name.fl_str_mv	Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_	1808652316755099648

Mineração de padrões morfo-semânticos em textos clínicos

Registros relacionados