Extracção de relações entre entidades mencionadas

Detalhes bibliográficos
Autor(a) principal: Sequeira, João Manuel dos Santos
Data de Publicação: 2011
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10174/11851
Resumo: Actualmente existe uma grande quantidade de conteúdos digitais de cariz académico, pessoal e noticioso, entre outros, disponvéis para consulta na Internet. A obtenção de informação estruturada a partir destes conteúdos de forma manual tornou-se praticamente impossível. Assim, nos últimos anos tem-se registado um aumento na investigação de sistemas para análise e extracção de informação de forma automática. A classicação dos documentos por temas ou categorias constitui uma forma de relacionar conteúdos. No entanto, os documentos poderão, de igual forma, ser relacionados a partir das entidades que neles figuram, sejam elas Pessoas, Locais ou Organizações; mais ainda, ao extrair informação sobre as relações existentes entre as entidades, as formas de interacção entre documentos tornam-se muito mais ricas já que será possivel, por exemplo, relacionar os documentos que referem que determinada entidade praticou determinada acção e quais as entidades que a sofreram. Este trabalho propõe um sistema para identificação e extracção de relações entre entidades presentes num documento. As relações são obtidas a partir de um classicador de argumentos sintácticos utilizado em conjunto com um reconhecedor de entidades. Tratando-se de um sistema aplicado a língua Portuguesa foi necessário desenvolvimento de alguns recursos específicos para a língua : um etiquetador de categorias gramaticais e dois corpora: um para ser utilizado pelo etiquetador e outro com informação sintáctica a nível das palavras, sintagmas e orações para ser utilizado na tarefa de classicação de argumentos sintácticos. Embora utilizando um classicador de argumentos sintácticos preliminar, a experimentação mostra que o sistema desenvolvido consegue atingir o objectivo proposto e identificar relações entre entidades. Por outro lado, a criação dos recursos referidos vem enriquecer o conjunto de ferramentas disponveís para a língua Portuguesa passíveis de serem utilizados em futuros trabalhos; ### Abstract: Currently there is a large amount of digital content, being personal, academic and news, among others, available on the Internet. Obtaining structured information from these contents by hand has become virtually impossible. So, in recent years there has been an increase in the investigation of systems for automatic analysis and information extraction. Classi cation of documents by themes or categories is a way of relating content. However, documents can, likewise, be related by the entities they contain, being they people, places or organizations; moreover, extracting information on relations between the entities, the forms of interaction between documents become much richer as it will enable, for example, to list the documents that refer to a particular entity having practiced a speci c action and which entities have su ered that action. This paper proposes a system for identifying and extracting relations between entities present in a document. Relations are obtained from a semantic role labeller used in conjunction with named entity recognizer. Being applied to the Portuguese language, it was necessary to develop speci c resources for the language: a part-of-speech tagger and two corpora: one to be used with the POS-tagger and other with syntactic information for words, phrases and sentences to be used by the semantic role labeller. Although a preliminary semantic role labeller, experimentation shows that the system can achieve the proposed objective and identify relationships between entities. On the other hand, the creation of the refered resources will enrich the available Portuguese language set of tools that can be used in future work
id RCAP_572e3c05276cd47b6cbf963f8ca9147b
oai_identifier_str oai:dspace.uevora.pt:10174/11851
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Extracção de relações entre entidades mencionadasProcessamento de linguagem naturalClassificação de argumentos sintácticosReconhecimento de entidadesEtiquetador de categorias gramaticaisCorpora para língua portuguesaNatural language processingSemantic role labellingNamed entity recognizerPart-of-speech taggerCorpora for the portuguese languageActualmente existe uma grande quantidade de conteúdos digitais de cariz académico, pessoal e noticioso, entre outros, disponvéis para consulta na Internet. A obtenção de informação estruturada a partir destes conteúdos de forma manual tornou-se praticamente impossível. Assim, nos últimos anos tem-se registado um aumento na investigação de sistemas para análise e extracção de informação de forma automática. A classicação dos documentos por temas ou categorias constitui uma forma de relacionar conteúdos. No entanto, os documentos poderão, de igual forma, ser relacionados a partir das entidades que neles figuram, sejam elas Pessoas, Locais ou Organizações; mais ainda, ao extrair informação sobre as relações existentes entre as entidades, as formas de interacção entre documentos tornam-se muito mais ricas já que será possivel, por exemplo, relacionar os documentos que referem que determinada entidade praticou determinada acção e quais as entidades que a sofreram. Este trabalho propõe um sistema para identificação e extracção de relações entre entidades presentes num documento. As relações são obtidas a partir de um classicador de argumentos sintácticos utilizado em conjunto com um reconhecedor de entidades. Tratando-se de um sistema aplicado a língua Portuguesa foi necessário desenvolvimento de alguns recursos específicos para a língua : um etiquetador de categorias gramaticais e dois corpora: um para ser utilizado pelo etiquetador e outro com informação sintáctica a nível das palavras, sintagmas e orações para ser utilizado na tarefa de classicação de argumentos sintácticos. Embora utilizando um classicador de argumentos sintácticos preliminar, a experimentação mostra que o sistema desenvolvido consegue atingir o objectivo proposto e identificar relações entre entidades. Por outro lado, a criação dos recursos referidos vem enriquecer o conjunto de ferramentas disponveís para a língua Portuguesa passíveis de serem utilizados em futuros trabalhos; ### Abstract: Currently there is a large amount of digital content, being personal, academic and news, among others, available on the Internet. Obtaining structured information from these contents by hand has become virtually impossible. So, in recent years there has been an increase in the investigation of systems for automatic analysis and information extraction. Classi cation of documents by themes or categories is a way of relating content. However, documents can, likewise, be related by the entities they contain, being they people, places or organizations; moreover, extracting information on relations between the entities, the forms of interaction between documents become much richer as it will enable, for example, to list the documents that refer to a particular entity having practiced a speci c action and which entities have su ered that action. This paper proposes a system for identifying and extracting relations between entities present in a document. Relations are obtained from a semantic role labeller used in conjunction with named entity recognizer. Being applied to the Portuguese language, it was necessary to develop speci c resources for the language: a part-of-speech tagger and two corpora: one to be used with the POS-tagger and other with syntactic information for words, phrases and sentences to be used by the semantic role labeller. Although a preliminary semantic role labeller, experimentation shows that the system can achieve the proposed objective and identify relationships between entities. On the other hand, the creation of the refered resources will enrich the available Portuguese language set of tools that can be used in future workUniversidade de Évora2014-11-20T17:51:51Z2014-11-202011-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10174/11851http://hdl.handle.net/10174/11851porDepartamento de informáticateses@bib.uevora.pt283Sequeira, João Manuel dos Santosinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-01-03T18:55:43Zoai:dspace.uevora.pt:10174/11851Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T01:05:25.661944Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Extracção de relações entre entidades mencionadas
title Extracção de relações entre entidades mencionadas
spellingShingle Extracção de relações entre entidades mencionadas
Sequeira, João Manuel dos Santos
Processamento de linguagem natural
Classificação de argumentos sintácticos
Reconhecimento de entidades
Etiquetador de categorias gramaticais
Corpora para língua portuguesa
Natural language processing
Semantic role labelling
Named entity recognizer
Part-of-speech tagger
Corpora for the portuguese language
title_short Extracção de relações entre entidades mencionadas
title_full Extracção de relações entre entidades mencionadas
title_fullStr Extracção de relações entre entidades mencionadas
title_full_unstemmed Extracção de relações entre entidades mencionadas
title_sort Extracção de relações entre entidades mencionadas
author Sequeira, João Manuel dos Santos
author_facet Sequeira, João Manuel dos Santos
author_role author
dc.contributor.author.fl_str_mv Sequeira, João Manuel dos Santos
dc.subject.por.fl_str_mv Processamento de linguagem natural
Classificação de argumentos sintácticos
Reconhecimento de entidades
Etiquetador de categorias gramaticais
Corpora para língua portuguesa
Natural language processing
Semantic role labelling
Named entity recognizer
Part-of-speech tagger
Corpora for the portuguese language
topic Processamento de linguagem natural
Classificação de argumentos sintácticos
Reconhecimento de entidades
Etiquetador de categorias gramaticais
Corpora para língua portuguesa
Natural language processing
Semantic role labelling
Named entity recognizer
Part-of-speech tagger
Corpora for the portuguese language
description Actualmente existe uma grande quantidade de conteúdos digitais de cariz académico, pessoal e noticioso, entre outros, disponvéis para consulta na Internet. A obtenção de informação estruturada a partir destes conteúdos de forma manual tornou-se praticamente impossível. Assim, nos últimos anos tem-se registado um aumento na investigação de sistemas para análise e extracção de informação de forma automática. A classicação dos documentos por temas ou categorias constitui uma forma de relacionar conteúdos. No entanto, os documentos poderão, de igual forma, ser relacionados a partir das entidades que neles figuram, sejam elas Pessoas, Locais ou Organizações; mais ainda, ao extrair informação sobre as relações existentes entre as entidades, as formas de interacção entre documentos tornam-se muito mais ricas já que será possivel, por exemplo, relacionar os documentos que referem que determinada entidade praticou determinada acção e quais as entidades que a sofreram. Este trabalho propõe um sistema para identificação e extracção de relações entre entidades presentes num documento. As relações são obtidas a partir de um classicador de argumentos sintácticos utilizado em conjunto com um reconhecedor de entidades. Tratando-se de um sistema aplicado a língua Portuguesa foi necessário desenvolvimento de alguns recursos específicos para a língua : um etiquetador de categorias gramaticais e dois corpora: um para ser utilizado pelo etiquetador e outro com informação sintáctica a nível das palavras, sintagmas e orações para ser utilizado na tarefa de classicação de argumentos sintácticos. Embora utilizando um classicador de argumentos sintácticos preliminar, a experimentação mostra que o sistema desenvolvido consegue atingir o objectivo proposto e identificar relações entre entidades. Por outro lado, a criação dos recursos referidos vem enriquecer o conjunto de ferramentas disponveís para a língua Portuguesa passíveis de serem utilizados em futuros trabalhos; ### Abstract: Currently there is a large amount of digital content, being personal, academic and news, among others, available on the Internet. Obtaining structured information from these contents by hand has become virtually impossible. So, in recent years there has been an increase in the investigation of systems for automatic analysis and information extraction. Classi cation of documents by themes or categories is a way of relating content. However, documents can, likewise, be related by the entities they contain, being they people, places or organizations; moreover, extracting information on relations between the entities, the forms of interaction between documents become much richer as it will enable, for example, to list the documents that refer to a particular entity having practiced a speci c action and which entities have su ered that action. This paper proposes a system for identifying and extracting relations between entities present in a document. Relations are obtained from a semantic role labeller used in conjunction with named entity recognizer. Being applied to the Portuguese language, it was necessary to develop speci c resources for the language: a part-of-speech tagger and two corpora: one to be used with the POS-tagger and other with syntactic information for words, phrases and sentences to be used by the semantic role labeller. Although a preliminary semantic role labeller, experimentation shows that the system can achieve the proposed objective and identify relationships between entities. On the other hand, the creation of the refered resources will enrich the available Portuguese language set of tools that can be used in future work
publishDate 2011
dc.date.none.fl_str_mv 2011-01-01T00:00:00Z
2014-11-20T17:51:51Z
2014-11-20
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10174/11851
http://hdl.handle.net/10174/11851
url http://hdl.handle.net/10174/11851
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv Departamento de informática
teses@bib.uevora.pt
283
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade de Évora
publisher.none.fl_str_mv Universidade de Évora
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799136539350925312