Development of text mining tools for information retrieval and extraction from patents

Alves, Tiago Alexandre Pinto

Development of text mining tools for information retrieval and extraction from patents

Detalhes bibliográficos
Autor(a) principal:	Alves, Tiago Alexandre Pinto
Data de Publicação:	2016
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/1822/47441
Resumo:	Dissertação de mestrado em Bioinformática

Metadados do item

id	RCAP_8f5524449521688d2141778c66dc0ca2
oai_identifier_str	oai:repositorium.sdum.uminho.pt:1822/47441
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Development of text mining tools for information retrieval and extraction from patentsDesenvolvimento de ferramentas de mineração de texto para obtenção e extração de informação de patentesBiomedical text miningPatentsInformation retrieval taskOptical character recognition@note2Mineração de textos biomédicosPatentesObtenção de informaçãoReconhecimento ótico de caracteresEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em BioinformáticaBiomedical literature is composed of a large and ever increasing number of publications, written in natural language. Patents are a relevant fraction of these publications, considered important sources of information due to all the curated information available in the documents, from the granting process. Although being real technological libraries, their unstructured data turns the search of information within these documents a challenging task. Biomedical text mining is a scientific field that explores this task, creating methodologies to search and structure the information in the biomedical literature. Information retrieval is one of the biomedical text mining tasks, in which the relevant information is obtained from an extensive collection of documents using several text retrieval methodologies. Getting all the information available on a patent document requires the download of the respective PDF document, that is then converted into a machine-readable text by technologies as Optical Character Recognition (OCR). In this project, an information retrieval, and a PDF to text conversion system were developed building a “patent pipeline” which was integrated into @note2, an open-source computational framework for biomedical text mining. The patent pipeline can be disintegrated into four different tasks: the patent search, the retrieval of patent metadata, the retrieval of their PDF files, and the extraction of all the information from these documents. A set of patents from the BioCreative V CHEMDNER task was used to test the developed pipeline, evaluating the framework performance and the real capacity to retrieve the requested patents and extract their unstructured information. The results were promising, bringing to the scientific community the published patent information and allowing the posterior implementation of other biomedical text mining processes over these documents.A literatura biomédica é constituída por um número alargado e em crescimento de publicações escritas em linguagem natural. As patentes, uma fração integrante das referidas publicações, têm vindo a ser consideradas importantes fontes de informação, uma vez que possuem informação curada resultante do seu processo de atribuição. Apesar de serem consideradas verdadeiras bibliotecas tecnológicas, a sua informação não estruturada transforma a procura de informação nesses textos uma tarefa deveras desafiante. A mineração de textos biomédicos é um campo científico que explora esta tarefa, criando metodologias para a pesquisa de informação estruturada em literatura biomédica. A obtenção de informação é uma tarefa integrante do processo de mineração de textos biomédicos, na qual a informação relevante é obtida de uma extensa coleção de documentos usando diversas metodologias. O processo de obtenção de toda a informação contida numa patente requer o download do respetivo ficheiro PDF que posteriormente é convertido em texto passível de ser lido por máquinas recorrendo a tecnologias de processamento tais como o reconhecimento ótico de carateres (OCR). Neste projeto, um sistema de obtenção de informação e um sistema de conversão de PDF em texto foram desenvolvidos dando origem a uma ferramenta de tratamento de patentes que foi integrada no @note2, uma plataforma computacional de código aberto usada para a mineração de textos biomédicos. A pipeline elaborada pode ser desintegrada em quatro diferentes funções: pesquisa de patentes, obtenção de meta-informação das mesmas, obtenção dos seus ficheiros em formato PDF e a extração de todo o texto desses documentos. Um conjunto de patentes do desafio BioCreative V CHEMDNER foi usado para testar a ferramenta desenvolvida, avaliando o seu desempenho e a sua real capacidade de obtenção das patentes e todo o processo de extração de informação das mesmas. Os resultados são promissores, aproximando a comunidade científica da informação disponibilizada nas patentes publicadas, permitindo a posterior implementação de outros processos da mineração de textos biomédicos a esses documentos.Rocha, MiguelCosta, Hugo Samuel OliveiraUniversidade do MinhoAlves, Tiago Alexandre Pinto20162016-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/47441eng201600951info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-05-11T04:13:19Zoai:repositorium.sdum.uminho.pt:1822/47441Portal AgregadorONGhttps://www.rcaap.pt/oai/openairemluisa.alvim@gmail.comopendoar:71602024-05-11T04:13:19Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Development of text mining tools for information retrieval and extraction from patents Desenvolvimento de ferramentas de mineração de texto para obtenção e extração de informação de patentes
title	Development of text mining tools for information retrieval and extraction from patents
spellingShingle	Development of text mining tools for information retrieval and extraction from patents Alves, Tiago Alexandre Pinto Biomedical text mining Patents Information retrieval task Optical character recognition @note2 Mineração de textos biomédicos Patentes Obtenção de informação Reconhecimento ótico de caracteres Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short	Development of text mining tools for information retrieval and extraction from patents
title_full	Development of text mining tools for information retrieval and extraction from patents
title_fullStr	Development of text mining tools for information retrieval and extraction from patents
title_full_unstemmed	Development of text mining tools for information retrieval and extraction from patents
title_sort	Development of text mining tools for information retrieval and extraction from patents
author	Alves, Tiago Alexandre Pinto
author_facet	Alves, Tiago Alexandre Pinto
author_role	author
dc.contributor.none.fl_str_mv	Rocha, Miguel Costa, Hugo Samuel Oliveira Universidade do Minho
dc.contributor.author.fl_str_mv	Alves, Tiago Alexandre Pinto
dc.subject.por.fl_str_mv	Biomedical text mining Patents Information retrieval task Optical character recognition @note2 Mineração de textos biomédicos Patentes Obtenção de informação Reconhecimento ótico de caracteres Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic	Biomedical text mining Patents Information retrieval task Optical character recognition @note2 Mineração de textos biomédicos Patentes Obtenção de informação Reconhecimento ótico de caracteres Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description	Dissertação de mestrado em Bioinformática
publishDate	2016
dc.date.none.fl_str_mv	2016 2016-01-01T00:00:00Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1822/47441
url	http://hdl.handle.net/1822/47441
dc.language.iso.fl_str_mv	eng
language	eng
dc.relation.none.fl_str_mv	201600951
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv	mluisa.alvim@gmail.com
_version_	1817544245840445440

Development of text mining tools for information retrieval and extraction from patents

Registros relacionados