Semantic annotation of electronic health records in a multilingual environment
Autor(a) principal: | |
---|---|
Data de Publicação: | 2017 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10451/31289 |
Resumo: | Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática), Universidade de Lisboa, Faculdade de Ciências, 2017 |
id |
RCAP_6123f4218e040ff60428186415127b39 |
---|---|
oai_identifier_str |
oai:repositorio.ul.pt:10451/31289 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Semantic annotation of electronic health records in a multilingual environmentTraduçãoReconhecimento de entidadesCorpus paraleloRadiologyRadLexTeses de mestrado - 2017Departamento de Biologia VegetalTese de mestrado, Bioinformática e Biologia Computacional (Bioinformática), Universidade de Lisboa, Faculdade de Ciências, 2017Os relatórios de Radiologia descrevem os resultados dos procedimentos de radiografia e têm o potencial de ser uma fonte de informação útil que pode trazer benefícios para os sistemas de saúde ao redor do mundo. No entanto, estes relatórios são geralmente escritos em texto livre e, portanto, é difícil extrair automaticamente informação a partir deles. Contudo, o fato de que a maioria dos relatórios estão agora digitalmente disponíveis torna-os passíveis de utilização de ferramentas de Prospeção de Texto (Text Mining). Outra vantagem dos relatórios de Radiologia, que os torna mais suscetíveis à utilização destas ferramentas, é que mesmo se escritos em texto livre, eles são geralmente bem estruturados. O problema é que estas ferramentas são principalmente desenvolvidas para Inglês e os relatórios são geralmente escritos na língua nativa do radiologista, que não é necessariamente o Inglês. Isso cria um obstáculo para a partilha de informação de Radiologia entre diferentes comunidades, partilha esta importante para compreender e tratar eficazmente problemas de saúde. Existem basicamente duas soluções possíveis para este problema. Uma solução é traduzir o próprio léxico que é utilizado pela ferramenta de Prospeção de Texto que se pretende utilizar. A outra é traduzir os próprios relatórios. Traduzir o léxico tem a vantagem de não necessitar de tradução contínua, ou seja, depois de traduzir um léxico para, por exemplo, Espanhol, podemos usá-lo para processar tantos relatórios Espanhóis não traduzidas conforme necessário. No entanto, quando uma nova versão do léxico é lançada as mudanças também precisam de ser traduzidas, caso contrário, o léxico traduzido ficaria desatualizado. Dada a crescente evolução de serviços de tradução hoje disponíveis, neste trabalho é avaliada a opção alternativa de traduzir os relatórios e verificar a sua viabilidade. Esta abordagem tem a vantagem de que os relatórios traduzidos seriam acessíveis a qualquer médico que entenda Inglês e as ferramentas estado da arte de Prospeção de Texto focadas em texto em Inglês podem ser aplicadas sem qualquer necessidade de adaptação. Se a tradução for feita por profissionais treinados em tradução de textos médicos, provavelmente pode-se assumir que informação não se perde no processo de tradução. Chamamos a este tipo de tradução Tradução Humana (Human Translation). Mas a utilização de tradutores especializados é cara e não escalável. Outra opção é usar Tradução Automática (Machine Translation). Não obstante a menor qualidade da tradução, é mais barata e mais viável em grande escala. Finalmente, uma opção que tenta obter o melhor dos dois mundos é usar Tradução Automática seguida de Pós-Edição (Post-Edition) por humanos. Nesta abordagem, o texto é automaticamente traduzido e, em seguida, a tradução é corrigida por um humano. Mais barata do que a opção de Tradução Humana e com melhor qualidade do que a de Tradução Automática. A escolha de abordagem de tradução é importante porque vai afetar a qualidade dos resultados das ferramentas de Prospeção de Texto. Atualmente não há nenhum estudo disponível publicamente que tenha fornecido evidência quantitativa que auxilie a fazer esta escolha. Isto pode ser explicado pela falta de um corpus paralelo que poderia ser usado para estudar este problema. Este trabalho explora a solução de traduzir os relatórios para Inglês antes de aplicar as ferramentas de Prospeção de Texto, analisando a questão de qual a abordagem de tradução que deve ser usada. Com este fim, criei MRRAD (Multilingual Radiology Research Articles Dataset), um corpus paralelo de 51 artigos portugueses de investiga ção relacionados com Radiologia, e uma série de traduções alternativas (humanas, automáticas e semi-automáticas) para Inglês. As versões originais dos artigos, em Português, e as traduções humanas foram extraídas automaticamente da biblioteca online SciELO. As traduções automáticas foram obtidas utilizando os serviços da Yandex e da Google e traduções semi-automáticas através dos serviços da Unbabel. Este é um corpus original que pode ser usado no avanço da investigação sobre este tema. Usando o MRRAD estudei que tipo de abordagem de tradução autom ática ou semi-automática é mais eficaz na tarefa de Reconhecimento de Entidades (Named-Entity Recognition ) relacionados com Radiologia mencionadas na versão em Inglês dos artigos. Estas entidades correspondem aos termos presentes no RadLex, que é uma ontologia que se foca em termos relacionados com Radiologia. A tarefa de Reconhecimento de Entidades é relevante uma vez que os seus resultados podem ser usadas em sistemas de Recuperação de Imagens (Image Retrieval ) e de Recuperação de Informação (Information Retrieval) e podem ser úteis para melhorar Sistemas de Respostas a Perguntas (Question Answering). Para realizar o Reconhecimento de termos do RadLex utilizei a API do Open Biomedical Annotator e duas diferentes configurações do software NOBLE Coder. Assim, ao todo utilizei três diferentes abordagens para identificar termos RadLex nos textos. A diferença entre as abordagens está em quão flexíveis ou estritas estas são em identificar os termos. Considerando os termos identificados nas traduções humanas como o padrão ouro (gold-standard ), calculei o quão semelhante a este padrão foram os termos identificados usando outras abordagens de tradução. Descobri que uma abordagem completamente automática de tradução utilizando o Google leva a micro F-Scores (entre 0,861 e 0,868, dependendo da abordagem de reconhecimento) semelhantes aos obtidos através de uma abordagem mais cara, tradução semi-automática usando Unbabel (entre 0,862 e 0,870). A abordagem de tradução utilizando os serviços da Yandex obteve micro F-Scores mais baixos (entre 0,829 e 0,831). Os resultados foram semelhantes mesmo no caso onde se consideraram apenas termos de RadLex pertences às sub-árvores correspondentes a entidades anatómicas e achados clínicos. Para entender melhor os resultados, também realizei uma análise qualitativa do tipo de erros encontrados nas traduções automáticas e semiautom áticas. A análise foi feita sobre os Falsos Positivos (FPs) e Falsos Negativos (FNs) cometidos pelas traduções utilizando Yandex, Google e Unbabel em 9 documentos aleatórios e cada erro foi classificado por tipo. A maioria dos FPs e FNs são explicados não por uma tradução errada mas por outras causas, por exemplo, uma tradução alternativa que leva a uma diferença nos termos identificados. Poderia ser esperado que as traduções Unbabel tivessem muitos menos erros, visto que têm o envolvimento de humanos, do que as da Google, mas isso nem sempre acontece. Há situações em que erros são até adicionados mesmo durante a etapa de Pós-Edição. Uma revisão dos erros faz-me propor que isso poderá ser devido à falta de conhecimento médico dos editores (utilizadores responsáveis por fazer a Pós-Edição) atuais da Unbabel. Por exemplo, um stroke (acidente vascular cerebral) é algo que ocorre no cérebro, mas num caso foi usado como algo que acontece no coração - alguém com algum conhecimento sobre a medicina não faria este erro. Mas a verdade é que a Unbabel atualmente não se foca em conteúdo médico. Prevejo que se eles o fizessem e investissem em crescer uma comunidade de utilizadores especialistas com melhor conhecimento da linguagem médica, isso levaria a melhores resultados. Dito isto, os resultados deste trabalho corroboram a conclusão de que se engenheiros de software tiverem recursos financeiros limitados para pagar por Tradução Humana, ficarão melhor servidos se usarem um serviço de tradução automática como a Google em vez de um serviço que implementa Pós-Edição, como a Unbabel. É claro que talvez haja melhores serviços de Tradução Automática do que a Google ou melhores serviços de Tradução Automática + Pós-Edição do que a Unbabel oferece atualmente para o campo médico, e isso é algo que poderia ser explorado em trabalhos futuros. O corpus MRRAD e as anotações utilizadas neste trabalho podem ser encontradas em https://github.com/lasigeBioTM/MRRAD.Radiology reports describe the results of radiography procedures and have the potential of being an useful source of information which can bring benefits to health care systems around the world. One way to automatically extract information from the reports is by using Text Mining tools. The problem is that these tools are mostly developed for English and reports are usually written in the native language of the radiologist, which is not necessarily English. This creates an obstacle to the sharing of Radiology information between different communities. This work explores the solution of translating the reports to English before applying the Text Mining tools, probing the question of what translation approach should be used. Having this goal, I created MRRAD (Multilingual Radiology Research Articles Dataset), a parallel corpus of Portuguese research articles related to Radiology and a number of alternative translations (human, automatic and semiautomatic) to English. This is a novel corpus which can be used to move forward the research on this topic. Using MRRAD, I studied which kind of automatic or semi-automatic translation approach is more effective on the Named-entity recognition task of finding RadLex terms in the English version of the articles. Considering the terms identified in human translations as the gold standard, I calculated how similar to this standard were the terms identified using other translation approaches (Yandex, Google and Unbabel). I found that a completely automatic translation approach using Google leads to micro F-Scores (between 0.861 and 0.868, depending on the identification approach) similar to the ones obtained through a more expensive semi-automatic translation approach using Unbabel (between 0.862 and 0.870). To better understand the results I also performed a qualitative analysis of the type of errors found in the automatic and semi-automatic translations. The MRRAD corpus and annotations used in this work can be found at https://github.com/lasigeBioTM/MRRAD.Couto, Francisco José MoreiraPedro, Vasco CalaisRepositório da Universidade de LisboaCampos, Luís Filipe Leal2018-01-31T12:00:22Z201720172017-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/31289TID:201853779enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:24:48Zoai:repositorio.ul.pt:10451/31289Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:46:50.725489Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Semantic annotation of electronic health records in a multilingual environment |
title |
Semantic annotation of electronic health records in a multilingual environment |
spellingShingle |
Semantic annotation of electronic health records in a multilingual environment Campos, Luís Filipe Leal Tradução Reconhecimento de entidades Corpus paralelo Radiology RadLex Teses de mestrado - 2017 Departamento de Biologia Vegetal |
title_short |
Semantic annotation of electronic health records in a multilingual environment |
title_full |
Semantic annotation of electronic health records in a multilingual environment |
title_fullStr |
Semantic annotation of electronic health records in a multilingual environment |
title_full_unstemmed |
Semantic annotation of electronic health records in a multilingual environment |
title_sort |
Semantic annotation of electronic health records in a multilingual environment |
author |
Campos, Luís Filipe Leal |
author_facet |
Campos, Luís Filipe Leal |
author_role |
author |
dc.contributor.none.fl_str_mv |
Couto, Francisco José Moreira Pedro, Vasco Calais Repositório da Universidade de Lisboa |
dc.contributor.author.fl_str_mv |
Campos, Luís Filipe Leal |
dc.subject.por.fl_str_mv |
Tradução Reconhecimento de entidades Corpus paralelo Radiology RadLex Teses de mestrado - 2017 Departamento de Biologia Vegetal |
topic |
Tradução Reconhecimento de entidades Corpus paralelo Radiology RadLex Teses de mestrado - 2017 Departamento de Biologia Vegetal |
description |
Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática), Universidade de Lisboa, Faculdade de Ciências, 2017 |
publishDate |
2017 |
dc.date.none.fl_str_mv |
2017 2017 2017-01-01T00:00:00Z 2018-01-31T12:00:22Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10451/31289 TID:201853779 |
url |
http://hdl.handle.net/10451/31289 |
identifier_str_mv |
TID:201853779 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799134393050071040 |