Text mining de relatórios clínicos

Gonçalves, Ana Catarina Martins

Text mining de relatórios clínicos

Detalhes bibliográficos
Autor(a) principal:	Gonçalves, Ana Catarina Martins
Data de Publicação:	2023
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10071/31005
Resumo:	No âmbito do projeto de investigação em Inteligência Artificial AIM Health, foram obtidos ficheiros de texto, em português europeu, com relatórios de procedimentos e exames médicos, para explorar a possibilidade de extrair variáveis para melhorar algoritmos de Aprendizagem Automática. Uma análise inicial revelou que os textos incluíam dados pessoais, como nomes de médicos e pacientes ou datas. A recolha, tratamento e armazenamento de dados são estritamente regulamentados na Europa e, sem consentimento explícito, dados pessoais não podem ser partilhados. A remoção de dados pessoais em grandes volumes de textos não é uma tarefa simples. Identificar os dados manualmente é uma solução onerosa e propensa a erros. Existem soluções automáticas para apoiar esta identificação, mas surgem inúmeras dúvidas ao avaliar o desempenho e a equidade destes mecanismos. Este trabalho visa proporcionar uma melhor compreensão dos textos, dos possíveis dados pessoais neles contidos e dar apoio sobre como geri-los. O objetivo final e fornecer um solido ponto de partida para trabalhos futuros e promover o uso responsável dos dados. Foram analisados cerca de 2.000 notas de admissão e relatórios de procedimentos e exames, e identificados quase 4.000 blocos de texto com eventual informação identificável, em 12 categorias distintas. Para apoiar a anotação manual, foi desenvolvida uma ferramenta customizada, e cerca de 12.000 abreviaturas registadas, resultando num dicionário auxiliar com 967 abreviaturas distintas, a sua forma completa e tipo semântico. Finalmente, com base no relatório anterior, algumas experiências com identificação automática provaram que estes métodos, com supervisão responsável, podem ser um recurso valioso.

Metadados do item

id	RCAP_a0f931b334cce13c24b31d920acaec65
oai_identifier_str	oai:repositorio.iscte-iul.pt:10071/31005
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Text mining de relatórios clínicosProcessamento de linguagem natural - -- NLP Natural language processingTexto clínicoAnonimização de textoClinical textText anonymizationNo âmbito do projeto de investigação em Inteligência Artificial AIM Health, foram obtidos ficheiros de texto, em português europeu, com relatórios de procedimentos e exames médicos, para explorar a possibilidade de extrair variáveis para melhorar algoritmos de Aprendizagem Automática. Uma análise inicial revelou que os textos incluíam dados pessoais, como nomes de médicos e pacientes ou datas. A recolha, tratamento e armazenamento de dados são estritamente regulamentados na Europa e, sem consentimento explícito, dados pessoais não podem ser partilhados. A remoção de dados pessoais em grandes volumes de textos não é uma tarefa simples. Identificar os dados manualmente é uma solução onerosa e propensa a erros. Existem soluções automáticas para apoiar esta identificação, mas surgem inúmeras dúvidas ao avaliar o desempenho e a equidade destes mecanismos. Este trabalho visa proporcionar uma melhor compreensão dos textos, dos possíveis dados pessoais neles contidos e dar apoio sobre como geri-los. O objetivo final e fornecer um solido ponto de partida para trabalhos futuros e promover o uso responsável dos dados. Foram analisados cerca de 2.000 notas de admissão e relatórios de procedimentos e exames, e identificados quase 4.000 blocos de texto com eventual informação identificável, em 12 categorias distintas. Para apoiar a anotação manual, foi desenvolvida uma ferramenta customizada, e cerca de 12.000 abreviaturas registadas, resultando num dicionário auxiliar com 967 abreviaturas distintas, a sua forma completa e tipo semântico. Finalmente, com base no relatório anterior, algumas experiências com identificação automática provaram que estes métodos, com supervisão responsável, podem ser um recurso valioso.In the context of the Artificial Intelligence scientific research project AIM Health, text files, in European Portuguese, with reports of medical procedures and exams were made available, to explore the possibility of extracting features to improve Machine Learning algorithms. An initial analysis revealed that the texts included Personally Identifiable Information, such as full names of physicians and patients or dates. Data collection, treatment, and storage are strictly regulated in Europe and without explicit consent, personal data cannot be shared. Removing Personally Identifiable Information from large amounts of text is not a simple endeavor. Manually identifying data is a very costly solution and prone to error. Automatic solutions can support the identification of sensitive data, but questions arise when assessing these mechanisms’ performance and fairness. This work aims to provide a better understanding of the texts, possible personal information in them, and support on how to govern them. The end goal is to provide a solid stepping stone for following works and promote responsible use of the data. Around 2,000 admission notes and procedure reports were read and almost 4,000 possible Personally Identifiable Information were identified, in 12 distinct categories. To support manual annotation, a custom tool was developed, and nearly 12,000 abbreviations were registered, resulting in an auxiliary dictionary with 967 unique abbreviations, their complete form, and corresponding semantic types. Finally, based on the previous report, some experiments with automatic identification proved that these methods, with responsible supervision, can be a valuable resource.2024-02-14T14:57:33Z2023-12-04T00:00:00Z2023-12-042023-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10071/31005TID:203483081porGonçalves, Ana Catarina Martinsinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-02-18T01:17:24Zoai:repositorio.iscte-iul.pt:10071/31005Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T02:38:40.699977Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Text mining de relatórios clínicos
title	Text mining de relatórios clínicos
spellingShingle	Text mining de relatórios clínicos Gonçalves, Ana Catarina Martins Processamento de linguagem natural - -- NLP Natural language processing Texto clínico Anonimização de texto Clinical text Text anonymization
title_short	Text mining de relatórios clínicos
title_full	Text mining de relatórios clínicos
title_fullStr	Text mining de relatórios clínicos
title_full_unstemmed	Text mining de relatórios clínicos
title_sort	Text mining de relatórios clínicos
author	Gonçalves, Ana Catarina Martins
author_facet	Gonçalves, Ana Catarina Martins
author_role	author
dc.contributor.author.fl_str_mv	Gonçalves, Ana Catarina Martins
dc.subject.por.fl_str_mv	Processamento de linguagem natural - -- NLP Natural language processing Texto clínico Anonimização de texto Clinical text Text anonymization
topic	Processamento de linguagem natural - -- NLP Natural language processing Texto clínico Anonimização de texto Clinical text Text anonymization
description	No âmbito do projeto de investigação em Inteligência Artificial AIM Health, foram obtidos ficheiros de texto, em português europeu, com relatórios de procedimentos e exames médicos, para explorar a possibilidade de extrair variáveis para melhorar algoritmos de Aprendizagem Automática. Uma análise inicial revelou que os textos incluíam dados pessoais, como nomes de médicos e pacientes ou datas. A recolha, tratamento e armazenamento de dados são estritamente regulamentados na Europa e, sem consentimento explícito, dados pessoais não podem ser partilhados. A remoção de dados pessoais em grandes volumes de textos não é uma tarefa simples. Identificar os dados manualmente é uma solução onerosa e propensa a erros. Existem soluções automáticas para apoiar esta identificação, mas surgem inúmeras dúvidas ao avaliar o desempenho e a equidade destes mecanismos. Este trabalho visa proporcionar uma melhor compreensão dos textos, dos possíveis dados pessoais neles contidos e dar apoio sobre como geri-los. O objetivo final e fornecer um solido ponto de partida para trabalhos futuros e promover o uso responsável dos dados. Foram analisados cerca de 2.000 notas de admissão e relatórios de procedimentos e exames, e identificados quase 4.000 blocos de texto com eventual informação identificável, em 12 categorias distintas. Para apoiar a anotação manual, foi desenvolvida uma ferramenta customizada, e cerca de 12.000 abreviaturas registadas, resultando num dicionário auxiliar com 967 abreviaturas distintas, a sua forma completa e tipo semântico. Finalmente, com base no relatório anterior, algumas experiências com identificação automática provaram que estes métodos, com supervisão responsável, podem ser um recurso valioso.
publishDate	2023
dc.date.none.fl_str_mv	2023-12-04T00:00:00Z 2023-12-04 2023-10 2024-02-14T14:57:33Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10071/31005 TID:203483081
url	http://hdl.handle.net/10071/31005
identifier_str_mv	TID:203483081
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799137437593632768

Text mining de relatórios clínicos

Registros relacionados