Classificação de Literatura Biomédica

Detalhes bibliográficos
Autor(a) principal: Oliveira, João Pedro dos Santos
Data de Publicação: 2014
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.26/13142
Resumo: Atualmente existe uma enorme quantidade de informação online de literatura biomédica. A PubMed, o repositório de dados líder nesta área, destaca-se, à data atual, com mais de 23 milhões de citações a partir da Medline. Devido a esta quantidade de informação disponível torna-se difícil, para os utilizadores da área, a pesquisa, análise e organização da informação relevante. Para apoiar estas tarefas, foi desenvolvida uma aplicação web, designada DoCluster 2.0, onde os utilizadores podem extrair informação relevante e classificar documentos em repositórios locais ou documentos obtidos através de uma pesquisa ao Web service da PubMed. Na extração de informação, para além da segmentação de documentos, normalmente realizada em qualquer processo de text mining, foram introduzidas duas ontologias que permitem uma extração de informação adequada a áreas específicas. As ontologias usadas foram a Gene Ontology que se foca na área de genes e produtos resultantes desses genes, adaptada neste caso ao domínio das peptidases e a Merops que se centra também na área das peptidases. Para a classificação dos documentos recorreu-se a técnicas de aprendizagem não supervisionada, através dos algoritmos k-means, fuzzy c-means e subtractive clustering e a uma técnica de aprendizagem supervisionada baseada em máquinas de vectores de suporte. Para averiguar quais os melhores métodos de aprendizagem e de extração de caraterísticas do problema, foram realizados vários testes sobre datasets no domínio das peptidases. curados pela Merops. A medição dos resultados teve incidência em diferentes métricas, sendo elas a precisão e recall do classificador, o número de características extraídas no pré-processamento de documentos e o custo computacional de todo o processo de text mining. Da análise dos resultados obtidos concluiu-se que as máquinas de vectores de suporte conseguem um melhor desempenho em relação aos algoritmos de aprendizagem não supervisionada, contudo exigindo um treino prévio dos classificadores. No pré-processamento de documentos, através do uso de ontologias, foi possível melhorar o desempenho de todo o processo e obter informação com um menor número de características sem que a qualidade do classificador diminua. Constatou-se também que o algoritmo subtractive clustering, por não necessitar da definição a priori do número de clusters é ideal para o tratamento de um conjunto de documentos em relação ao qual não existe um conhecimento prévio do seu conteúdo, como é o caso de documentos obtidos através da PubMed.
id RCAP_c7bbae842c032749ba075ec8663b8903
oai_identifier_str oai:comum.rcaap.pt:10400.26/13142
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Classificação de Literatura BiomédicaPeptidasesCategorização automáticaMáquinas de vetores de suporteAtualmente existe uma enorme quantidade de informação online de literatura biomédica. A PubMed, o repositório de dados líder nesta área, destaca-se, à data atual, com mais de 23 milhões de citações a partir da Medline. Devido a esta quantidade de informação disponível torna-se difícil, para os utilizadores da área, a pesquisa, análise e organização da informação relevante. Para apoiar estas tarefas, foi desenvolvida uma aplicação web, designada DoCluster 2.0, onde os utilizadores podem extrair informação relevante e classificar documentos em repositórios locais ou documentos obtidos através de uma pesquisa ao Web service da PubMed. Na extração de informação, para além da segmentação de documentos, normalmente realizada em qualquer processo de text mining, foram introduzidas duas ontologias que permitem uma extração de informação adequada a áreas específicas. As ontologias usadas foram a Gene Ontology que se foca na área de genes e produtos resultantes desses genes, adaptada neste caso ao domínio das peptidases e a Merops que se centra também na área das peptidases. Para a classificação dos documentos recorreu-se a técnicas de aprendizagem não supervisionada, através dos algoritmos k-means, fuzzy c-means e subtractive clustering e a uma técnica de aprendizagem supervisionada baseada em máquinas de vectores de suporte. Para averiguar quais os melhores métodos de aprendizagem e de extração de caraterísticas do problema, foram realizados vários testes sobre datasets no domínio das peptidases. curados pela Merops. A medição dos resultados teve incidência em diferentes métricas, sendo elas a precisão e recall do classificador, o número de características extraídas no pré-processamento de documentos e o custo computacional de todo o processo de text mining. Da análise dos resultados obtidos concluiu-se que as máquinas de vectores de suporte conseguem um melhor desempenho em relação aos algoritmos de aprendizagem não supervisionada, contudo exigindo um treino prévio dos classificadores. No pré-processamento de documentos, através do uso de ontologias, foi possível melhorar o desempenho de todo o processo e obter informação com um menor número de características sem que a qualidade do classificador diminua. Constatou-se também que o algoritmo subtractive clustering, por não necessitar da definição a priori do número de clusters é ideal para o tratamento de um conjunto de documentos em relação ao qual não existe um conhecimento prévio do seu conteúdo, como é o caso de documentos obtidos através da PubMed.Pereira, Carlos Manuel Jorge da SilvaRepositório ComumOliveira, João Pedro dos Santos2016-04-13T14:06:33Z2014-01-01T00:00:00Z2014-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.26/13142201198789porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-09-05T15:38:56Zoai:comum.rcaap.pt:10400.26/13142Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T15:14:59.555278Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Classificação de Literatura Biomédica
title Classificação de Literatura Biomédica
spellingShingle Classificação de Literatura Biomédica
Oliveira, João Pedro dos Santos
Peptidases
Categorização automática
Máquinas de vetores de suporte
title_short Classificação de Literatura Biomédica
title_full Classificação de Literatura Biomédica
title_fullStr Classificação de Literatura Biomédica
title_full_unstemmed Classificação de Literatura Biomédica
title_sort Classificação de Literatura Biomédica
author Oliveira, João Pedro dos Santos
author_facet Oliveira, João Pedro dos Santos
author_role author
dc.contributor.none.fl_str_mv Pereira, Carlos Manuel Jorge da Silva
Repositório Comum
dc.contributor.author.fl_str_mv Oliveira, João Pedro dos Santos
dc.subject.por.fl_str_mv Peptidases
Categorização automática
Máquinas de vetores de suporte
topic Peptidases
Categorização automática
Máquinas de vetores de suporte
description Atualmente existe uma enorme quantidade de informação online de literatura biomédica. A PubMed, o repositório de dados líder nesta área, destaca-se, à data atual, com mais de 23 milhões de citações a partir da Medline. Devido a esta quantidade de informação disponível torna-se difícil, para os utilizadores da área, a pesquisa, análise e organização da informação relevante. Para apoiar estas tarefas, foi desenvolvida uma aplicação web, designada DoCluster 2.0, onde os utilizadores podem extrair informação relevante e classificar documentos em repositórios locais ou documentos obtidos através de uma pesquisa ao Web service da PubMed. Na extração de informação, para além da segmentação de documentos, normalmente realizada em qualquer processo de text mining, foram introduzidas duas ontologias que permitem uma extração de informação adequada a áreas específicas. As ontologias usadas foram a Gene Ontology que se foca na área de genes e produtos resultantes desses genes, adaptada neste caso ao domínio das peptidases e a Merops que se centra também na área das peptidases. Para a classificação dos documentos recorreu-se a técnicas de aprendizagem não supervisionada, através dos algoritmos k-means, fuzzy c-means e subtractive clustering e a uma técnica de aprendizagem supervisionada baseada em máquinas de vectores de suporte. Para averiguar quais os melhores métodos de aprendizagem e de extração de caraterísticas do problema, foram realizados vários testes sobre datasets no domínio das peptidases. curados pela Merops. A medição dos resultados teve incidência em diferentes métricas, sendo elas a precisão e recall do classificador, o número de características extraídas no pré-processamento de documentos e o custo computacional de todo o processo de text mining. Da análise dos resultados obtidos concluiu-se que as máquinas de vectores de suporte conseguem um melhor desempenho em relação aos algoritmos de aprendizagem não supervisionada, contudo exigindo um treino prévio dos classificadores. No pré-processamento de documentos, através do uso de ontologias, foi possível melhorar o desempenho de todo o processo e obter informação com um menor número de características sem que a qualidade do classificador diminua. Constatou-se também que o algoritmo subtractive clustering, por não necessitar da definição a priori do número de clusters é ideal para o tratamento de um conjunto de documentos em relação ao qual não existe um conhecimento prévio do seu conteúdo, como é o caso de documentos obtidos através da PubMed.
publishDate 2014
dc.date.none.fl_str_mv 2014-01-01T00:00:00Z
2014-01-01T00:00:00Z
2016-04-13T14:06:33Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.26/13142
201198789
url http://hdl.handle.net/10400.26/13142
identifier_str_mv 201198789
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799130015078547456