Development of a tool based on deep learning able to classify biomedical literature

Alves, Nuno Miguel Caetano

Development of a tool based on deep learning able to classify biomedical literature

Detalhes bibliográficos
Autor(a) principal:	Alves, Nuno Miguel Caetano
Data de Publicação:	2020
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	https://hdl.handle.net/1822/84102
Resumo:	Dissertação de mestrado em Bioinformatics

Metadados do item

id	RCAP_ad51e5c1b055670678162b8183ca6ddd
oai_identifier_str	oai:repositorium.sdum.uminho.pt:1822/84102
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Development of a tool based on deep learning able to classify biomedical literatureDeep learningMachine learningDocument classificationText miningAprendizagem máquinaClassificação de documentosMineração de textoCiências Naturais::Ciências da Computação e da InformaçãoDissertação de mestrado em BioinformaticsIn the last decades, the scientific community has produced huge amounts of publications about the most varied biomedical topics, making the search for relevant information a really difficult task for every researcher. Some approaches have been followed to develop tools that can facilitate this process. For instance, PubMed implemented in 2017 a Machine Learning model to sort documents by their relevance. Nevertheless, even the authors consider that their system would benefit from the implementation of a Deep Learning model, which for now needs more studies. In this context, a package called BioTMPy1 was developed in this work, to perform document classification of biomedical literature using the Python programming language. The package is divided into different modules to provide to the user functions to read documents in different formats, perform preprocessing and data analysis and to train, optimize and evaluate Machine and Deep learning models. Our package also provides intuitive pipelines that can be easily adapted for the user needs, illustrating how to implement complex deep learning models. The developed package was applied to a dataset from a challenge of the BioCreative forum, from 2019, about protein-protein interactions altered by mutations, an important topic for the advances related to precision medicine. Using this dataset, it was possible to observe a slightly better performance of BioWordVec pre-trained embeddings over GloVe, ”pubmed pmc” and ”pubmed ncbi” embeddings. Also, with the evaluation of the developed models on the test set, we managed to overcome the challenge’s best submission, by using a model with BioBERT and a bidirectional LSTM on top, resulting in a difference of 7.25% for average precision, 3.22% for precision, 2.99% for recall and 3.15% for the f1-score. Also, a web server was developed to provide access to the best Deep Learning model trained in this work. The overall pipeline here developed can be applied to other case studies in different topics, provided there is a set of documents annotated as relevant and non-relevant, allowing to train the models.Nas últimas décadas, a comunidade científica tem produzido uma enorme quantidade de publicações sobre os mais variados tópicos biomédicos, tornando a procura de informação relevante num processo complicado para qualquer investigador. Alguma abordagem tem sido seguidas para desenvolver ferramentas que possam facilitar este processo. Por exemplo, o PubMed implementou em 2017 um modelo de aprendizagem máquina para ordenar documentos pela sua relevância. Contudo, os autores consideram que o seu sistema pode beneficiar com a implementação de um modelo de Deep Learning, o que para já necessita de mais estudos. Neste projeto, foi desenvolvida um package chamado BioTMPy para classificar documentos da literatura biomédica através da linguagem de programação Python. Este package é dividido em diferentes módulos para fornecer ao utilizador funções para ler documentos de formatos diferentes, realizar pré-processamento e análise de dados, e para treinar, otimizar e avaliar modelos de aprendizagem máquina. A plataforma também fornece pipelines intuitivas que podem ser facilmente adaptadas de acordo com as necessidades do utilizador, demonstrando como implementar modelos complexos de Deep Learning. O package desenvolvido foi aplicado a um conjunto de dados de um desafio do fórum BioCreative, de 2019, acerca de interações proteína-proteína alteradas por mutações, um tópico importante para a área da medicina de precisão. Usando este conjunto de dados, consegue-se observar um melhor desempenho dos BioWordVec embeddings pré-treinados em relação a embeddings como GloVe, ”pubmed pmc” e ”pubmed ncbi”. Com os modelos desenvolvidos, foi possível ultrapassar a melhor submissão do challenge, usando um modelo com BioBERT e uma LSTM bidirecional acima, obtendo-se diferenças de 7.25% na precisão média, 3.22% na precisão, 2.99% no recall e 3.15% para o f1 -score. Foi ainda desenvolvido um servidor web de forma a fornecer acesso ao nosso melhor modelo. A plataforma desenvolvida neste trabalho poderá ser aplicável a outros casos de estudo em diferentes tópicos, desde que exista um conjunto de documentos anotado como relevante ou não relevante, que permita treinar os modelos.Rocha, MiguelUniversidade do MinhoAlves, Nuno Miguel Caetano2020-11-162020-11-16T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/84102eng203254023info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:05:04Zoai:repositorium.sdum.uminho.pt:1822/84102Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T18:55:26.978954Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Development of a tool based on deep learning able to classify biomedical literature
title	Development of a tool based on deep learning able to classify biomedical literature
spellingShingle	Development of a tool based on deep learning able to classify biomedical literature Alves, Nuno Miguel Caetano Deep learning Machine learning Document classification Text mining Aprendizagem máquina Classificação de documentos Mineração de texto Ciências Naturais::Ciências da Computação e da Informação
title_short	Development of a tool based on deep learning able to classify biomedical literature
title_full	Development of a tool based on deep learning able to classify biomedical literature
title_fullStr	Development of a tool based on deep learning able to classify biomedical literature
title_full_unstemmed	Development of a tool based on deep learning able to classify biomedical literature
title_sort	Development of a tool based on deep learning able to classify biomedical literature
author	Alves, Nuno Miguel Caetano
author_facet	Alves, Nuno Miguel Caetano
author_role	author
dc.contributor.none.fl_str_mv	Rocha, Miguel Universidade do Minho
dc.contributor.author.fl_str_mv	Alves, Nuno Miguel Caetano
dc.subject.por.fl_str_mv	Deep learning Machine learning Document classification Text mining Aprendizagem máquina Classificação de documentos Mineração de texto Ciências Naturais::Ciências da Computação e da Informação
topic	Deep learning Machine learning Document classification Text mining Aprendizagem máquina Classificação de documentos Mineração de texto Ciências Naturais::Ciências da Computação e da Informação
description	Dissertação de mestrado em Bioinformatics
publishDate	2020
dc.date.none.fl_str_mv	2020-11-16 2020-11-16T00:00:00Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://hdl.handle.net/1822/84102
url	https://hdl.handle.net/1822/84102
dc.language.iso.fl_str_mv	eng
language	eng
dc.relation.none.fl_str_mv	203254023
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799132340009566208

Development of a tool based on deep learning able to classify biomedical literature

Registros relacionados