Ensepro: engenho semântico de pergunta e resposta baseado em ontologia

Detalhes bibliográficos
Autor(a) principal: Araujo, Denis Andrei de
Data de Publicação: 2019
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
Texto Completo: http://www.repositorio.jesuita.org.br/handle/UNISINOS/9080
Resumo: Há uma grande expectativa em relação ao uso da linguagem natural como interface de comunicação com as máquinas. Dentre as várias aplicações que implementam tal interface, despontam os sistemas de Pergunta e Resposta Semânticos, os quais possibilitam localização de informações em bases de conhecimento a partir de perguntas formuladas em linguagem natural. Percebe-se nos trabalhos em andamento uma tendência à implementação de soluções baseadas nas informações léxicas e morfológicas das perguntas, desprezando-se as informações abstratas de nível mais elevado do processamento linguístico. Esta tese apresenta uma abordagem que explora de forma aprofundada as informações sintáticas e estruturais das perguntas, fundamentando-se nestes níveis mais elevados da linguística para depreender o significado de frases e assim localizar respostas nas bases de conhecimentos semânticas. A abordagem propõem um modelo que faz uso das informações linguísticas da pergunta para determinar o seu tipo e selecionar as palavras chaves que serão utilizadas para a busca de respostas na base de conhecimento. Ao contrário de outros trabalhos, o modelo propõem uma solução baseada em linguística integrada a outras duas diferentes técnicas de implementação, visando apresentar uma solução que explore as vantagens que cada técnica oferece. A abordagem usa as informações morfossintáticas e estruturais da frase para determinar o tipo da pergunta e para selecionar as suas palavras chaves. Posteriormente, utiliza novamente as informações linguísticas para otimizar o desempenho do algoritmo baseado em grafo para geração e ranqueamento de candidatas a resposta. Por fim, caso o uso integrado das informações linguísticas com a técnica baseada em grafos não seja suficiente para a seleção inequívoca das respostas, a abordagem busca apoio na semântica latente do word embedding para validar as respostas. Os experimentos de avaliação da abordagem mostraram um desempenho acima dos demais concorrentes, apresentando Escore F1 micro de 0,56 e Escore F1 macro de 0,593.
id USIN_ec33c37a5c3043f4c6938be0878ecb6b
oai_identifier_str oai:www.repositorio.jesuita.org.br:UNISINOS/9080
network_acronym_str USIN
network_name_str Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
repository_id_str
spelling 2020-02-21T16:41:54Z2020-02-21T16:41:54Z2019-09-13Submitted by JOSIANE SANTOS DE OLIVEIRA (josianeso) on 2020-02-21T16:41:54Z No. of bitstreams: 1 Denis Andrei de Araújo_.pdf: 1147327 bytes, checksum: b7bc38ba672c5f9e3edaa478a3b9da81 (MD5)Made available in DSpace on 2020-02-21T16:41:54Z (GMT). No. of bitstreams: 1 Denis Andrei de Araújo_.pdf: 1147327 bytes, checksum: b7bc38ba672c5f9e3edaa478a3b9da81 (MD5) Previous issue date: 2019-09-13Há uma grande expectativa em relação ao uso da linguagem natural como interface de comunicação com as máquinas. Dentre as várias aplicações que implementam tal interface, despontam os sistemas de Pergunta e Resposta Semânticos, os quais possibilitam localização de informações em bases de conhecimento a partir de perguntas formuladas em linguagem natural. Percebe-se nos trabalhos em andamento uma tendência à implementação de soluções baseadas nas informações léxicas e morfológicas das perguntas, desprezando-se as informações abstratas de nível mais elevado do processamento linguístico. Esta tese apresenta uma abordagem que explora de forma aprofundada as informações sintáticas e estruturais das perguntas, fundamentando-se nestes níveis mais elevados da linguística para depreender o significado de frases e assim localizar respostas nas bases de conhecimentos semânticas. A abordagem propõem um modelo que faz uso das informações linguísticas da pergunta para determinar o seu tipo e selecionar as palavras chaves que serão utilizadas para a busca de respostas na base de conhecimento. Ao contrário de outros trabalhos, o modelo propõem uma solução baseada em linguística integrada a outras duas diferentes técnicas de implementação, visando apresentar uma solução que explore as vantagens que cada técnica oferece. A abordagem usa as informações morfossintáticas e estruturais da frase para determinar o tipo da pergunta e para selecionar as suas palavras chaves. Posteriormente, utiliza novamente as informações linguísticas para otimizar o desempenho do algoritmo baseado em grafo para geração e ranqueamento de candidatas a resposta. Por fim, caso o uso integrado das informações linguísticas com a técnica baseada em grafos não seja suficiente para a seleção inequívoca das respostas, a abordagem busca apoio na semântica latente do word embedding para validar as respostas. Os experimentos de avaliação da abordagem mostraram um desempenho acima dos demais concorrentes, apresentando Escore F1 micro de 0,56 e Escore F1 macro de 0,593.There is great expectation regarding the use of natural language as an interface of communication with machines. Among the several applications that implement such an interface, the Semantic Question Answering systems arises, enabling the localization of information in knowledge bases from questions formulated in natural language. It is possible to notice in the work in progress a tendency to implement solutions based on the lexical and morphological information of the questions, ignoring the higher level abstract information of the linguistic processing. This thesis presents an approach that explores in depth the syntactic and structural information of the questions, based on these higher levels of linguistics to understand the meaning of the words and to find answers in semantic knowledge bases. This approach proposes a model that makes use of the linguistic information of the question to determine its type and select the keywords that will be used to search answers in the knowledge base. Unlike other works, the model proposes a solution based on linguistics integrated with two different implementation techniques, aiming to present a solution that exploits the advantages that each technique offers. The approach uses the morphosyntactic and structural informations of the sentence to determine the type of the question and to select its key words. Later, it uses linguistic information to optimize the performance of the algorithm of generation and ranking of candidates for the response based on graph. Finally, if the integrated use of linguistic information with the graph-based technique is not enough for the unequivocal selection of the answer, our approach look for support in the latent semantics of word embedding to validate the answers. The experiments of evaluation of the approach showed a performance above the other competitors, with a score F1 micro of 0.56 and F1 score Macro of 0.593.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorAraujo, Denis Andrei dehttp://lattes.cnpq.br/0653508226724589http://lattes.cnpq.br/3914159735707328Rigo, Sandro JoséUniversidade do Vale do Rio dos SinosPrograma de Pós-Graduação em Computação AplicadaUnisinosBrasilEscola PolitécnicaEnsepro: engenho semântico de pergunta e resposta baseado em ontologiaACCNPQ::Ciências Exatas e da Terra::Ciência da ComputaçãoSistema de Pergunta e Resposta SemânticoProcessamento da Linguagem NaturalGrafosWord EmbeddingSemantic Question AnsweringNatural Language ProcessingGraphsWord Embeddinginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttp://www.repositorio.jesuita.org.br/handle/UNISINOS/9080info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)instname:Universidade do Vale do Rio dos Sinos (UNISINOS)instacron:UNISINOSORIGINALDenis Andrei de Araújo_.pdfDenis Andrei de Araújo_.pdfapplication/pdf1147327http://repositorio.jesuita.org.br/bitstream/UNISINOS/9080/1/Denis+Andrei+de+Ara%C3%BAjo_.pdfb7bc38ba672c5f9e3edaa478a3b9da81MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82175http://repositorio.jesuita.org.br/bitstream/UNISINOS/9080/2/license.txt320e21f23402402ac4988605e1edd177MD52UNISINOS/90802020-02-21 13:44:11.844oai:www.repositorio.jesuita.org.br:UNISINOS/9080Ck5PVEE6IENPTE9RVUUgQVFVSSBBIFNVQSBQUsOTUFJJQSBMSUNFTsOHQQoKRXN0YSBsaWNlbsOnYSBkZSBleGVtcGxvIMOpIGZvcm5lY2lkYSBhcGVuYXMgcGFyYSBmaW5zIGluZm9ybWF0aXZvcy4KCkxpY2Vuw6dhIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCgpDb20gYSBhcHJlc2VudGHDp8OjbyBkZXN0YSBsaWNlbsOnYSwgdm9jw6ogKG8gYXV0b3IgKGVzKSBvdSBvIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yKSBjb25jZWRlIMOgIApVbml2ZXJzaWRhZGUgZG8gVmFsZSBkbyBSaW8gZG9zIFNpbm9zIChVTklTSU5PUykgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdSAKZGlzdHJpYnVpciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gKGluY2x1aW5kbyBvIHJlc3VtbykgcG9yIHRvZG8gbyBtdW5kbyBubyBmb3JtYXRvIGltcHJlc3NvIGUgZWxldHLDtG5pY28gZSAKZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBjb25jb3JkYSBxdWUgYSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAKcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgYSBzdWEgdGVzZSBvdSAKZGlzc2VydGHDp8OjbyBwYXJhIGZpbnMgZGUgc2VndXJhbsOnYSwgYmFjay11cCBlIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgCm5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IApjb25oZWNpbWVudG8sIGluZnJpbmdlIGRpcmVpdG9zIGF1dG9yYWlzIGRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogCmRlY2xhcmEgcXVlIG9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciDDoCBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgCm9zIGRpcmVpdG9zIGFwcmVzZW50YWRvcyBuZXN0YSBsaWNlbsOnYSwgZSBxdWUgZXNzZSBtYXRlcmlhbCBkZSBwcm9wcmllZGFkZSBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSAKaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBURVNFIE9VIERJU1NFUlRBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgCkFQT0lPIERFIFVNQSBBR8OKTkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIE9SR0FOSVNNTyBRVUUgTsODTyBTRUpBIEEgU0lHTEEgREUgClVOSVZFUlNJREFERSwgVk9Dw4ogREVDTEFSQSBRVUUgUkVTUEVJVE9VIFRPRE9TIEUgUVVBSVNRVUVSIERJUkVJVE9TIERFIFJFVklTw4NPIENPTU8gClRBTULDiU0gQVMgREVNQUlTIE9CUklHQcOHw5VFUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKQSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIApkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbywgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyAKY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KBiblioteca Digital de Teses e Dissertaçõeshttp://www.repositorio.jesuita.org.br/oai/requestopendoar:2020-02-21T16:44:11Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS)false
dc.title.pt_BR.fl_str_mv Ensepro: engenho semântico de pergunta e resposta baseado em ontologia
title Ensepro: engenho semântico de pergunta e resposta baseado em ontologia
spellingShingle Ensepro: engenho semântico de pergunta e resposta baseado em ontologia
Araujo, Denis Andrei de
ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
Sistema de Pergunta e Resposta Semântico
Processamento da Linguagem Natural
Grafos
Word Embedding
Semantic Question Answering
Natural Language Processing
Graphs
Word Embedding
title_short Ensepro: engenho semântico de pergunta e resposta baseado em ontologia
title_full Ensepro: engenho semântico de pergunta e resposta baseado em ontologia
title_fullStr Ensepro: engenho semântico de pergunta e resposta baseado em ontologia
title_full_unstemmed Ensepro: engenho semântico de pergunta e resposta baseado em ontologia
title_sort Ensepro: engenho semântico de pergunta e resposta baseado em ontologia
author Araujo, Denis Andrei de
author_facet Araujo, Denis Andrei de
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/0653508226724589
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/3914159735707328
dc.contributor.author.fl_str_mv Araujo, Denis Andrei de
dc.contributor.advisor1.fl_str_mv Rigo, Sandro José
contributor_str_mv Rigo, Sandro José
dc.subject.cnpq.fl_str_mv ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
topic ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
Sistema de Pergunta e Resposta Semântico
Processamento da Linguagem Natural
Grafos
Word Embedding
Semantic Question Answering
Natural Language Processing
Graphs
Word Embedding
dc.subject.por.fl_str_mv Sistema de Pergunta e Resposta Semântico
Processamento da Linguagem Natural
Grafos
dc.subject.eng.fl_str_mv Word Embedding
Semantic Question Answering
Natural Language Processing
Graphs
Word Embedding
description Há uma grande expectativa em relação ao uso da linguagem natural como interface de comunicação com as máquinas. Dentre as várias aplicações que implementam tal interface, despontam os sistemas de Pergunta e Resposta Semânticos, os quais possibilitam localização de informações em bases de conhecimento a partir de perguntas formuladas em linguagem natural. Percebe-se nos trabalhos em andamento uma tendência à implementação de soluções baseadas nas informações léxicas e morfológicas das perguntas, desprezando-se as informações abstratas de nível mais elevado do processamento linguístico. Esta tese apresenta uma abordagem que explora de forma aprofundada as informações sintáticas e estruturais das perguntas, fundamentando-se nestes níveis mais elevados da linguística para depreender o significado de frases e assim localizar respostas nas bases de conhecimentos semânticas. A abordagem propõem um modelo que faz uso das informações linguísticas da pergunta para determinar o seu tipo e selecionar as palavras chaves que serão utilizadas para a busca de respostas na base de conhecimento. Ao contrário de outros trabalhos, o modelo propõem uma solução baseada em linguística integrada a outras duas diferentes técnicas de implementação, visando apresentar uma solução que explore as vantagens que cada técnica oferece. A abordagem usa as informações morfossintáticas e estruturais da frase para determinar o tipo da pergunta e para selecionar as suas palavras chaves. Posteriormente, utiliza novamente as informações linguísticas para otimizar o desempenho do algoritmo baseado em grafo para geração e ranqueamento de candidatas a resposta. Por fim, caso o uso integrado das informações linguísticas com a técnica baseada em grafos não seja suficiente para a seleção inequívoca das respostas, a abordagem busca apoio na semântica latente do word embedding para validar as respostas. Os experimentos de avaliação da abordagem mostraram um desempenho acima dos demais concorrentes, apresentando Escore F1 micro de 0,56 e Escore F1 macro de 0,593.
publishDate 2019
dc.date.issued.fl_str_mv 2019-09-13
dc.date.accessioned.fl_str_mv 2020-02-21T16:41:54Z
dc.date.available.fl_str_mv 2020-02-21T16:41:54Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.repositorio.jesuita.org.br/handle/UNISINOS/9080
url http://www.repositorio.jesuita.org.br/handle/UNISINOS/9080
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade do Vale do Rio dos Sinos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Computação Aplicada
dc.publisher.initials.fl_str_mv Unisinos
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Escola Politécnica
publisher.none.fl_str_mv Universidade do Vale do Rio dos Sinos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
instname:Universidade do Vale do Rio dos Sinos (UNISINOS)
instacron:UNISINOS
instname_str Universidade do Vale do Rio dos Sinos (UNISINOS)
instacron_str UNISINOS
institution UNISINOS
reponame_str Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
collection Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
bitstream.url.fl_str_mv http://repositorio.jesuita.org.br/bitstream/UNISINOS/9080/1/Denis+Andrei+de+Ara%C3%BAjo_.pdf
http://repositorio.jesuita.org.br/bitstream/UNISINOS/9080/2/license.txt
bitstream.checksum.fl_str_mv b7bc38ba672c5f9e3edaa478a3b9da81
320e21f23402402ac4988605e1edd177
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS)
repository.mail.fl_str_mv
_version_ 1801845038623227904