Development of text mining tools for information retrieval and extraction from patents

Detalhes bibliográficos
Autor(a) principal: Alves, Tiago Alexandre Pinto
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/1822/47441
Resumo: Dissertação de mestrado em Bioinformática
id RCAP_8f5524449521688d2141778c66dc0ca2
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/47441
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Development of text mining tools for information retrieval and extraction from patentsDesenvolvimento de ferramentas de mineração de texto para obtenção e extração de informação de patentesBiomedical text miningPatentsInformation retrieval taskOptical character recognition@note2Mineração de textos biomédicosPatentesObtenção de informaçãoReconhecimento ótico de caracteresEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em BioinformáticaBiomedical literature is composed of a large and ever increasing number of publications, written in natural language. Patents are a relevant fraction of these publications, considered important sources of information due to all the curated information available in the documents, from the granting process. Although being real technological libraries, their unstructured data turns the search of information within these documents a challenging task. Biomedical text mining is a scientific field that explores this task, creating methodologies to search and structure the information in the biomedical literature. Information retrieval is one of the biomedical text mining tasks, in which the relevant information is obtained from an extensive collection of documents using several text retrieval methodologies. Getting all the information available on a patent document requires the download of the respective PDF document, that is then converted into a machine-readable text by technologies as Optical Character Recognition (OCR). In this project, an information retrieval, and a PDF to text conversion system were developed building a “patent pipeline” which was integrated into @note2, an open-source computational framework for biomedical text mining. The patent pipeline can be disintegrated into four different tasks: the patent search, the retrieval of patent metadata, the retrieval of their PDF files, and the extraction of all the information from these documents. A set of patents from the BioCreative V CHEMDNER task was used to test the developed pipeline, evaluating the framework performance and the real capacity to retrieve the requested patents and extract their unstructured information. The results were promising, bringing to the scientific community the published patent information and allowing the posterior implementation of other biomedical text mining processes over these documents.A literatura biomédica é constituída por um número alargado e em crescimento de publicações escritas em linguagem natural. As patentes, uma fração integrante das referidas publicações, têm vindo a ser consideradas importantes fontes de informação, uma vez que possuem informação curada resultante do seu processo de atribuição. Apesar de serem consideradas verdadeiras bibliotecas tecnológicas, a sua informação não estruturada transforma a procura de informação nesses textos uma tarefa deveras desafiante. A mineração de textos biomédicos é um campo científico que explora esta tarefa, criando metodologias para a pesquisa de informação estruturada em literatura biomédica. A obtenção de informação é uma tarefa integrante do processo de mineração de textos biomédicos, na qual a informação relevante é obtida de uma extensa coleção de documentos usando diversas metodologias. O processo de obtenção de toda a informação contida numa patente requer o download do respetivo ficheiro PDF que posteriormente é convertido em texto passível de ser lido por máquinas recorrendo a tecnologias de processamento tais como o reconhecimento ótico de carateres (OCR). Neste projeto, um sistema de obtenção de informação e um sistema de conversão de PDF em texto foram desenvolvidos dando origem a uma ferramenta de tratamento de patentes que foi integrada no @note2, uma plataforma computacional de código aberto usada para a mineração de textos biomédicos. A pipeline elaborada pode ser desintegrada em quatro diferentes funções: pesquisa de patentes, obtenção de meta-informação das mesmas, obtenção dos seus ficheiros em formato PDF e a extração de todo o texto desses documentos. Um conjunto de patentes do desafio BioCreative V CHEMDNER foi usado para testar a ferramenta desenvolvida, avaliando o seu desempenho e a sua real capacidade de obtenção das patentes e todo o processo de extração de informação das mesmas. Os resultados são promissores, aproximando a comunidade científica da informação disponibilizada nas patentes publicadas, permitindo a posterior implementação de outros processos da mineração de textos biomédicos a esses documentos.Rocha, MiguelCosta, Hugo Samuel OliveiraUniversidade do MinhoAlves, Tiago Alexandre Pinto20162016-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/47441eng201600951info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T11:55:03Zoai:repositorium.sdum.uminho.pt:1822/47441Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T18:44:32.799564Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Development of text mining tools for information retrieval and extraction from patents
Desenvolvimento de ferramentas de mineração de texto para obtenção e extração de informação de patentes
title Development of text mining tools for information retrieval and extraction from patents
spellingShingle Development of text mining tools for information retrieval and extraction from patents
Alves, Tiago Alexandre Pinto
Biomedical text mining
Patents
Information retrieval task
Optical character recognition
@note2
Mineração de textos biomédicos
Patentes
Obtenção de informação
Reconhecimento ótico de caracteres
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Development of text mining tools for information retrieval and extraction from patents
title_full Development of text mining tools for information retrieval and extraction from patents
title_fullStr Development of text mining tools for information retrieval and extraction from patents
title_full_unstemmed Development of text mining tools for information retrieval and extraction from patents
title_sort Development of text mining tools for information retrieval and extraction from patents
author Alves, Tiago Alexandre Pinto
author_facet Alves, Tiago Alexandre Pinto
author_role author
dc.contributor.none.fl_str_mv Rocha, Miguel
Costa, Hugo Samuel Oliveira
Universidade do Minho
dc.contributor.author.fl_str_mv Alves, Tiago Alexandre Pinto
dc.subject.por.fl_str_mv Biomedical text mining
Patents
Information retrieval task
Optical character recognition
@note2
Mineração de textos biomédicos
Patentes
Obtenção de informação
Reconhecimento ótico de caracteres
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Biomedical text mining
Patents
Information retrieval task
Optical character recognition
@note2
Mineração de textos biomédicos
Patentes
Obtenção de informação
Reconhecimento ótico de caracteres
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Dissertação de mestrado em Bioinformática
publishDate 2016
dc.date.none.fl_str_mv 2016
2016-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1822/47441
url http://hdl.handle.net/1822/47441
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 201600951
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132195368992768