Identificação de coocorrência de termos em textos científicos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2012 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10773/11036 |
Resumo: | Nos ultimos anos tem-se veri cado um aumento acelerado de conte udos em formato digital, seja na Internet (blogs, wikis, redes sociais, etc.) seja a n vel institucional ou empresarial. Contudo, grande parte destes dados est a apenas dispon vel de forma n~ao-estruturada, limitando o acesso a informa c~ao util. Apesar da evolu c~ao veri cada nos motores de busca de informa c~ao (e.g., Google e BING) e da utiliza c~ao de metodologias avan cadas para a extra c~ao e recolha de conte udo orientados ao utilizador, a sua aplica c~ao em areas especi cas est a ainda longe de ser plenamente concretizada. A biomedicina e uma destas areas, exigindo a aplica c~ao de algoritmos pr oprios para o reconhecimento de entidades nomeadas e das rela c~oes entre si. Neste contexto, pretende-se desenvolver um sistema capaz de reconhecer nomes de entidades biom edicas (e.g., doen cas, drogas) e pares de coocorr^ encia em texto cient cos. Este objetivo ser a atingido atrav es da utiliza c~ao de um conjunto de bases de dados (e.g., UMLS e LexEBI) do dom nio, requerendo-se a aplica c~ao de t ecnicas para estabelecer uma correspond^ encia entre conceitos contidos nas bases de dados e os encontrados nos textos. No entanto, dada a complexidade do dom nio biom edico, esta correspond^encia nem sempre e direta. Consequentemente, tamb em ser a necess ario desenvolver uma solu c~ao para resolver casos amb guos, escolhendo apenas uma entidade para um trecho de texto. No nal, o sistema ser a avaliado contra texto devidamente anotados por humanos, visando a sua an alise de desempenho. |
id |
RCAP_fb996856aec52771a05841e078c038c0 |
---|---|
oai_identifier_str |
oai:ria.ua.pt:10773/11036 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Identificação de coocorrência de termos em textos científicosEngenharia de computadoresRecuperação da informaçãoBiomedicinaNos ultimos anos tem-se veri cado um aumento acelerado de conte udos em formato digital, seja na Internet (blogs, wikis, redes sociais, etc.) seja a n vel institucional ou empresarial. Contudo, grande parte destes dados est a apenas dispon vel de forma n~ao-estruturada, limitando o acesso a informa c~ao util. Apesar da evolu c~ao veri cada nos motores de busca de informa c~ao (e.g., Google e BING) e da utiliza c~ao de metodologias avan cadas para a extra c~ao e recolha de conte udo orientados ao utilizador, a sua aplica c~ao em areas especi cas est a ainda longe de ser plenamente concretizada. A biomedicina e uma destas areas, exigindo a aplica c~ao de algoritmos pr oprios para o reconhecimento de entidades nomeadas e das rela c~oes entre si. Neste contexto, pretende-se desenvolver um sistema capaz de reconhecer nomes de entidades biom edicas (e.g., doen cas, drogas) e pares de coocorr^ encia em texto cient cos. Este objetivo ser a atingido atrav es da utiliza c~ao de um conjunto de bases de dados (e.g., UMLS e LexEBI) do dom nio, requerendo-se a aplica c~ao de t ecnicas para estabelecer uma correspond^ encia entre conceitos contidos nas bases de dados e os encontrados nos textos. No entanto, dada a complexidade do dom nio biom edico, esta correspond^encia nem sempre e direta. Consequentemente, tamb em ser a necess ario desenvolver uma solu c~ao para resolver casos amb guos, escolhendo apenas uma entidade para um trecho de texto. No nal, o sistema ser a avaliado contra texto devidamente anotados por humanos, visando a sua an alise de desempenho.In recent years there has been an accelerated growth of content in digital format, whether on the Internet (blogs, wikis, social networks, etc.), either institutionally or business. However, largely of this data is only available in a non-structured format, limiting access to useful information. Despite the developments in information search engines (eg, Google and BING) and use of advanced methodologies for extraction and collect of user-oriented content, their application in speci c areas is still far from being fully realized. Biomedicine is one of these areas, requiring the appliance of suitable algorithms for the recognition of named entities and relations between them. In this context, we intend to develop a system able to recognizing biomedical entity names (eg, diseases, drugs) and pairs of co-occurrence in scienti c text. This will be achieved by using a set of domain databases (eg, UMLS and LexEBI), requiring the appliance of techniques to establish the matching between concepts contained in the databases and found in the texts. However, given the complexity of the biomedical domain, this matching is not always straightforward. Consequently, we also need to develop a solution to solve ambiguous cases, choosing only an entity to a piece of text. In the end, the system will be evaluated against text duly annotated by humans, aiming at its performance analysis.Universidade de Aveiro2013-09-24T14:42:43Z2012-01-01T00:00:00Z2012info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10773/11036porFernandes, Ineias Silvainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-02-22T11:20:03Zoai:ria.ua.pt:10773/11036Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T02:47:41.297531Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Identificação de coocorrência de termos em textos científicos |
title |
Identificação de coocorrência de termos em textos científicos |
spellingShingle |
Identificação de coocorrência de termos em textos científicos Fernandes, Ineias Silva Engenharia de computadores Recuperação da informação Biomedicina |
title_short |
Identificação de coocorrência de termos em textos científicos |
title_full |
Identificação de coocorrência de termos em textos científicos |
title_fullStr |
Identificação de coocorrência de termos em textos científicos |
title_full_unstemmed |
Identificação de coocorrência de termos em textos científicos |
title_sort |
Identificação de coocorrência de termos em textos científicos |
author |
Fernandes, Ineias Silva |
author_facet |
Fernandes, Ineias Silva |
author_role |
author |
dc.contributor.author.fl_str_mv |
Fernandes, Ineias Silva |
dc.subject.por.fl_str_mv |
Engenharia de computadores Recuperação da informação Biomedicina |
topic |
Engenharia de computadores Recuperação da informação Biomedicina |
description |
Nos ultimos anos tem-se veri cado um aumento acelerado de conte udos em formato digital, seja na Internet (blogs, wikis, redes sociais, etc.) seja a n vel institucional ou empresarial. Contudo, grande parte destes dados est a apenas dispon vel de forma n~ao-estruturada, limitando o acesso a informa c~ao util. Apesar da evolu c~ao veri cada nos motores de busca de informa c~ao (e.g., Google e BING) e da utiliza c~ao de metodologias avan cadas para a extra c~ao e recolha de conte udo orientados ao utilizador, a sua aplica c~ao em areas especi cas est a ainda longe de ser plenamente concretizada. A biomedicina e uma destas areas, exigindo a aplica c~ao de algoritmos pr oprios para o reconhecimento de entidades nomeadas e das rela c~oes entre si. Neste contexto, pretende-se desenvolver um sistema capaz de reconhecer nomes de entidades biom edicas (e.g., doen cas, drogas) e pares de coocorr^ encia em texto cient cos. Este objetivo ser a atingido atrav es da utiliza c~ao de um conjunto de bases de dados (e.g., UMLS e LexEBI) do dom nio, requerendo-se a aplica c~ao de t ecnicas para estabelecer uma correspond^ encia entre conceitos contidos nas bases de dados e os encontrados nos textos. No entanto, dada a complexidade do dom nio biom edico, esta correspond^encia nem sempre e direta. Consequentemente, tamb em ser a necess ario desenvolver uma solu c~ao para resolver casos amb guos, escolhendo apenas uma entidade para um trecho de texto. No nal, o sistema ser a avaliado contra texto devidamente anotados por humanos, visando a sua an alise de desempenho. |
publishDate |
2012 |
dc.date.none.fl_str_mv |
2012-01-01T00:00:00Z 2012 2013-09-24T14:42:43Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10773/11036 |
url |
http://hdl.handle.net/10773/11036 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade de Aveiro |
publisher.none.fl_str_mv |
Universidade de Aveiro |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799137528309088256 |