Extracção de relações entre entidades mencionadas
Autor(a) principal: | |
---|---|
Data de Publicação: | 2011 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10174/11851 |
Resumo: | Actualmente existe uma grande quantidade de conteúdos digitais de cariz académico, pessoal e noticioso, entre outros, disponvéis para consulta na Internet. A obtenção de informação estruturada a partir destes conteúdos de forma manual tornou-se praticamente impossível. Assim, nos últimos anos tem-se registado um aumento na investigação de sistemas para análise e extracção de informação de forma automática. A classicação dos documentos por temas ou categorias constitui uma forma de relacionar conteúdos. No entanto, os documentos poderão, de igual forma, ser relacionados a partir das entidades que neles figuram, sejam elas Pessoas, Locais ou Organizações; mais ainda, ao extrair informação sobre as relações existentes entre as entidades, as formas de interacção entre documentos tornam-se muito mais ricas já que será possivel, por exemplo, relacionar os documentos que referem que determinada entidade praticou determinada acção e quais as entidades que a sofreram. Este trabalho propõe um sistema para identificação e extracção de relações entre entidades presentes num documento. As relações são obtidas a partir de um classicador de argumentos sintácticos utilizado em conjunto com um reconhecedor de entidades. Tratando-se de um sistema aplicado a língua Portuguesa foi necessário desenvolvimento de alguns recursos específicos para a língua : um etiquetador de categorias gramaticais e dois corpora: um para ser utilizado pelo etiquetador e outro com informação sintáctica a nível das palavras, sintagmas e orações para ser utilizado na tarefa de classicação de argumentos sintácticos. Embora utilizando um classicador de argumentos sintácticos preliminar, a experimentação mostra que o sistema desenvolvido consegue atingir o objectivo proposto e identificar relações entre entidades. Por outro lado, a criação dos recursos referidos vem enriquecer o conjunto de ferramentas disponveís para a língua Portuguesa passíveis de serem utilizados em futuros trabalhos; ### Abstract: Currently there is a large amount of digital content, being personal, academic and news, among others, available on the Internet. Obtaining structured information from these contents by hand has become virtually impossible. So, in recent years there has been an increase in the investigation of systems for automatic analysis and information extraction. Classi cation of documents by themes or categories is a way of relating content. However, documents can, likewise, be related by the entities they contain, being they people, places or organizations; moreover, extracting information on relations between the entities, the forms of interaction between documents become much richer as it will enable, for example, to list the documents that refer to a particular entity having practiced a speci c action and which entities have su ered that action. This paper proposes a system for identifying and extracting relations between entities present in a document. Relations are obtained from a semantic role labeller used in conjunction with named entity recognizer. Being applied to the Portuguese language, it was necessary to develop speci c resources for the language: a part-of-speech tagger and two corpora: one to be used with the POS-tagger and other with syntactic information for words, phrases and sentences to be used by the semantic role labeller. Although a preliminary semantic role labeller, experimentation shows that the system can achieve the proposed objective and identify relationships between entities. On the other hand, the creation of the refered resources will enrich the available Portuguese language set of tools that can be used in future work |
id |
RCAP_572e3c05276cd47b6cbf963f8ca9147b |
---|---|
oai_identifier_str |
oai:dspace.uevora.pt:10174/11851 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Extracção de relações entre entidades mencionadasProcessamento de linguagem naturalClassificação de argumentos sintácticosReconhecimento de entidadesEtiquetador de categorias gramaticaisCorpora para língua portuguesaNatural language processingSemantic role labellingNamed entity recognizerPart-of-speech taggerCorpora for the portuguese languageActualmente existe uma grande quantidade de conteúdos digitais de cariz académico, pessoal e noticioso, entre outros, disponvéis para consulta na Internet. A obtenção de informação estruturada a partir destes conteúdos de forma manual tornou-se praticamente impossível. Assim, nos últimos anos tem-se registado um aumento na investigação de sistemas para análise e extracção de informação de forma automática. A classicação dos documentos por temas ou categorias constitui uma forma de relacionar conteúdos. No entanto, os documentos poderão, de igual forma, ser relacionados a partir das entidades que neles figuram, sejam elas Pessoas, Locais ou Organizações; mais ainda, ao extrair informação sobre as relações existentes entre as entidades, as formas de interacção entre documentos tornam-se muito mais ricas já que será possivel, por exemplo, relacionar os documentos que referem que determinada entidade praticou determinada acção e quais as entidades que a sofreram. Este trabalho propõe um sistema para identificação e extracção de relações entre entidades presentes num documento. As relações são obtidas a partir de um classicador de argumentos sintácticos utilizado em conjunto com um reconhecedor de entidades. Tratando-se de um sistema aplicado a língua Portuguesa foi necessário desenvolvimento de alguns recursos específicos para a língua : um etiquetador de categorias gramaticais e dois corpora: um para ser utilizado pelo etiquetador e outro com informação sintáctica a nível das palavras, sintagmas e orações para ser utilizado na tarefa de classicação de argumentos sintácticos. Embora utilizando um classicador de argumentos sintácticos preliminar, a experimentação mostra que o sistema desenvolvido consegue atingir o objectivo proposto e identificar relações entre entidades. Por outro lado, a criação dos recursos referidos vem enriquecer o conjunto de ferramentas disponveís para a língua Portuguesa passíveis de serem utilizados em futuros trabalhos; ### Abstract: Currently there is a large amount of digital content, being personal, academic and news, among others, available on the Internet. Obtaining structured information from these contents by hand has become virtually impossible. So, in recent years there has been an increase in the investigation of systems for automatic analysis and information extraction. Classi cation of documents by themes or categories is a way of relating content. However, documents can, likewise, be related by the entities they contain, being they people, places or organizations; moreover, extracting information on relations between the entities, the forms of interaction between documents become much richer as it will enable, for example, to list the documents that refer to a particular entity having practiced a speci c action and which entities have su ered that action. This paper proposes a system for identifying and extracting relations between entities present in a document. Relations are obtained from a semantic role labeller used in conjunction with named entity recognizer. Being applied to the Portuguese language, it was necessary to develop speci c resources for the language: a part-of-speech tagger and two corpora: one to be used with the POS-tagger and other with syntactic information for words, phrases and sentences to be used by the semantic role labeller. Although a preliminary semantic role labeller, experimentation shows that the system can achieve the proposed objective and identify relationships between entities. On the other hand, the creation of the refered resources will enrich the available Portuguese language set of tools that can be used in future workUniversidade de Évora2014-11-20T17:51:51Z2014-11-202011-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10174/11851http://hdl.handle.net/10174/11851porDepartamento de informáticateses@bib.uevora.pt283Sequeira, João Manuel dos Santosinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-01-03T18:55:43Zoai:dspace.uevora.pt:10174/11851Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T01:05:25.661944Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Extracção de relações entre entidades mencionadas |
title |
Extracção de relações entre entidades mencionadas |
spellingShingle |
Extracção de relações entre entidades mencionadas Sequeira, João Manuel dos Santos Processamento de linguagem natural Classificação de argumentos sintácticos Reconhecimento de entidades Etiquetador de categorias gramaticais Corpora para língua portuguesa Natural language processing Semantic role labelling Named entity recognizer Part-of-speech tagger Corpora for the portuguese language |
title_short |
Extracção de relações entre entidades mencionadas |
title_full |
Extracção de relações entre entidades mencionadas |
title_fullStr |
Extracção de relações entre entidades mencionadas |
title_full_unstemmed |
Extracção de relações entre entidades mencionadas |
title_sort |
Extracção de relações entre entidades mencionadas |
author |
Sequeira, João Manuel dos Santos |
author_facet |
Sequeira, João Manuel dos Santos |
author_role |
author |
dc.contributor.author.fl_str_mv |
Sequeira, João Manuel dos Santos |
dc.subject.por.fl_str_mv |
Processamento de linguagem natural Classificação de argumentos sintácticos Reconhecimento de entidades Etiquetador de categorias gramaticais Corpora para língua portuguesa Natural language processing Semantic role labelling Named entity recognizer Part-of-speech tagger Corpora for the portuguese language |
topic |
Processamento de linguagem natural Classificação de argumentos sintácticos Reconhecimento de entidades Etiquetador de categorias gramaticais Corpora para língua portuguesa Natural language processing Semantic role labelling Named entity recognizer Part-of-speech tagger Corpora for the portuguese language |
description |
Actualmente existe uma grande quantidade de conteúdos digitais de cariz académico, pessoal e noticioso, entre outros, disponvéis para consulta na Internet. A obtenção de informação estruturada a partir destes conteúdos de forma manual tornou-se praticamente impossível. Assim, nos últimos anos tem-se registado um aumento na investigação de sistemas para análise e extracção de informação de forma automática. A classicação dos documentos por temas ou categorias constitui uma forma de relacionar conteúdos. No entanto, os documentos poderão, de igual forma, ser relacionados a partir das entidades que neles figuram, sejam elas Pessoas, Locais ou Organizações; mais ainda, ao extrair informação sobre as relações existentes entre as entidades, as formas de interacção entre documentos tornam-se muito mais ricas já que será possivel, por exemplo, relacionar os documentos que referem que determinada entidade praticou determinada acção e quais as entidades que a sofreram. Este trabalho propõe um sistema para identificação e extracção de relações entre entidades presentes num documento. As relações são obtidas a partir de um classicador de argumentos sintácticos utilizado em conjunto com um reconhecedor de entidades. Tratando-se de um sistema aplicado a língua Portuguesa foi necessário desenvolvimento de alguns recursos específicos para a língua : um etiquetador de categorias gramaticais e dois corpora: um para ser utilizado pelo etiquetador e outro com informação sintáctica a nível das palavras, sintagmas e orações para ser utilizado na tarefa de classicação de argumentos sintácticos. Embora utilizando um classicador de argumentos sintácticos preliminar, a experimentação mostra que o sistema desenvolvido consegue atingir o objectivo proposto e identificar relações entre entidades. Por outro lado, a criação dos recursos referidos vem enriquecer o conjunto de ferramentas disponveís para a língua Portuguesa passíveis de serem utilizados em futuros trabalhos; ### Abstract: Currently there is a large amount of digital content, being personal, academic and news, among others, available on the Internet. Obtaining structured information from these contents by hand has become virtually impossible. So, in recent years there has been an increase in the investigation of systems for automatic analysis and information extraction. Classi cation of documents by themes or categories is a way of relating content. However, documents can, likewise, be related by the entities they contain, being they people, places or organizations; moreover, extracting information on relations between the entities, the forms of interaction between documents become much richer as it will enable, for example, to list the documents that refer to a particular entity having practiced a speci c action and which entities have su ered that action. This paper proposes a system for identifying and extracting relations between entities present in a document. Relations are obtained from a semantic role labeller used in conjunction with named entity recognizer. Being applied to the Portuguese language, it was necessary to develop speci c resources for the language: a part-of-speech tagger and two corpora: one to be used with the POS-tagger and other with syntactic information for words, phrases and sentences to be used by the semantic role labeller. Although a preliminary semantic role labeller, experimentation shows that the system can achieve the proposed objective and identify relationships between entities. On the other hand, the creation of the refered resources will enrich the available Portuguese language set of tools that can be used in future work |
publishDate |
2011 |
dc.date.none.fl_str_mv |
2011-01-01T00:00:00Z 2014-11-20T17:51:51Z 2014-11-20 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10174/11851 http://hdl.handle.net/10174/11851 |
url |
http://hdl.handle.net/10174/11851 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
Departamento de informática teses@bib.uevora.pt 283 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade de Évora |
publisher.none.fl_str_mv |
Universidade de Évora |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799136539350925312 |