Quando, Onde, Quem, O que ou Por que? Um Modelo Híbrido de Classificação de Perguntas para Sistemas de Question Answering

Detalhes bibliográficos
Autor(a) principal: Côrtes, Eduardo Gabriel
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/194555
Resumo: Sistemas de Question Answering é um campo de pesquisa das áreas de Recuperação de Informações e Processamento de Linguagem Natural que propõe, de forma autônoma, responder perguntas feitas por humanos em linguagem natural. Uma das principais etapas desses sistemas é a classificação de perguntas, em que o sistema busca identificar o tipo de resposta que a pergunta se refere, facilitando a localização de informações específicas em sua base de dados. Comumente, modelos supervisionados de aprendizado de máquina são empregados nesta tarefa, em que o texto da pergunta é representado através de um vetor de características, como Bag-of-words, Term Frequency-Inverse Document Frequency (TF-IDF) ou word embeddings. Entretanto, a qualidade dos resultados produzidos por esses modelos são dependentes da existência de um grande conjunto de dados anotados para o treinamento, como também recursos computacionais e linguísticos externos. Esses recursos muitas vezes não estão acessíveis, devido a intensos esforços manuais na anotação de conjunto de dados ou pela falta de disponibilidade de recursos de qualidade para línguas não inglesa. Assim, este trabalho propõe uma abordagem híbrida para representação de texto que combina TF-IDF e Word2vec na tarefa de classificação de perguntas para sistemas de QA. Essa abordagem busca prover o tipo de resposta para perguntas em texto, utilizando diferentes tamanhos de conjuntos de treinamento com também sem a utilização de recursos computacionais e linguísticos complexos de serem adquiridos. Os experimentos realizados utilizando as coleções Chave e UIUC traduzida para o português, e variando o tamanho do conjunto de dados para treinamento, mostram estatisticamente que o modelo proposto atinge resultados satisfatório aplicado em diferentes modelos supervisionados.
id URGS_38397276e784d2a92dedcee43c909946
oai_identifier_str oai:www.lume.ufrgs.br:10183/194555
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Côrtes, Eduardo GabrielBarone, Dante Augusto Couto2019-05-24T02:36:38Z2019http://hdl.handle.net/10183/194555001093827Sistemas de Question Answering é um campo de pesquisa das áreas de Recuperação de Informações e Processamento de Linguagem Natural que propõe, de forma autônoma, responder perguntas feitas por humanos em linguagem natural. Uma das principais etapas desses sistemas é a classificação de perguntas, em que o sistema busca identificar o tipo de resposta que a pergunta se refere, facilitando a localização de informações específicas em sua base de dados. Comumente, modelos supervisionados de aprendizado de máquina são empregados nesta tarefa, em que o texto da pergunta é representado através de um vetor de características, como Bag-of-words, Term Frequency-Inverse Document Frequency (TF-IDF) ou word embeddings. Entretanto, a qualidade dos resultados produzidos por esses modelos são dependentes da existência de um grande conjunto de dados anotados para o treinamento, como também recursos computacionais e linguísticos externos. Esses recursos muitas vezes não estão acessíveis, devido a intensos esforços manuais na anotação de conjunto de dados ou pela falta de disponibilidade de recursos de qualidade para línguas não inglesa. Assim, este trabalho propõe uma abordagem híbrida para representação de texto que combina TF-IDF e Word2vec na tarefa de classificação de perguntas para sistemas de QA. Essa abordagem busca prover o tipo de resposta para perguntas em texto, utilizando diferentes tamanhos de conjuntos de treinamento com também sem a utilização de recursos computacionais e linguísticos complexos de serem adquiridos. Os experimentos realizados utilizando as coleções Chave e UIUC traduzida para o português, e variando o tamanho do conjunto de dados para treinamento, mostram estatisticamente que o modelo proposto atinge resultados satisfatório aplicado em diferentes modelos supervisionados.Question Answering Systems is a field of Information Retrieval and Natural Language Processing that automatically answers questions posed by humans in a natural language. One of the main steps of these systems is the Question Classification, where the system tries to identify the type of question (i.e. if it is related to a person, time or a location) facilitate the generation of a precise answer. Machine learning techniques are commonly employed in tasks where the text is represented as a vector of features, such as Bag-of-words, Term Frequency-Inverse Document Frequency (TF-IDF) or word embeddings. However, the quality of results produced by supervised algorithms is dependent on the existence of a large, domain-dependent training dataset which sometimes is unavailable due to laborintense of manual annotation of datasets or lack of availability of quality resources for non-English languages. In this work, we propose a hybrid model that combines TF-IDF and word embedding to provide the answer type to text questions using small and large training sets. Our experiments using the Chaves and UIUC translated for Portuguese datasets, using several different sizes of training sets, showed statistically that the proposed hybrid model reached promising results applied in different supervised models.application/pdfengInteligência artificialAprendizado : máquinaProcessamento : Linguagem naturalQuando, Onde, Quem, O que ou Por que? Um Modelo Híbrido de Classificação de Perguntas para Sistemas de Question Answeringinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2019mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001093827.pdf.txt001093827.pdf.txtExtracted Texttext/plain199244http://www.lume.ufrgs.br/bitstream/10183/194555/2/001093827.pdf.txtc62517e6fbb787b91662482fd1013dcdMD52ORIGINAL001093827.pdfTexto completoapplication/pdf1021411http://www.lume.ufrgs.br/bitstream/10183/194555/1/001093827.pdfa090544b8b5e80f09b8198fc904d7350MD5110183/1945552024-10-20 06:55:34.449592oai:www.lume.ufrgs.br:10183/194555Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532024-10-20T09:55:34Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Quando, Onde, Quem, O que ou Por que? Um Modelo Híbrido de Classificação de Perguntas para Sistemas de Question Answering
title Quando, Onde, Quem, O que ou Por que? Um Modelo Híbrido de Classificação de Perguntas para Sistemas de Question Answering
spellingShingle Quando, Onde, Quem, O que ou Por que? Um Modelo Híbrido de Classificação de Perguntas para Sistemas de Question Answering
Côrtes, Eduardo Gabriel
Inteligência artificial
Aprendizado : máquina
Processamento : Linguagem natural
title_short Quando, Onde, Quem, O que ou Por que? Um Modelo Híbrido de Classificação de Perguntas para Sistemas de Question Answering
title_full Quando, Onde, Quem, O que ou Por que? Um Modelo Híbrido de Classificação de Perguntas para Sistemas de Question Answering
title_fullStr Quando, Onde, Quem, O que ou Por que? Um Modelo Híbrido de Classificação de Perguntas para Sistemas de Question Answering
title_full_unstemmed Quando, Onde, Quem, O que ou Por que? Um Modelo Híbrido de Classificação de Perguntas para Sistemas de Question Answering
title_sort Quando, Onde, Quem, O que ou Por que? Um Modelo Híbrido de Classificação de Perguntas para Sistemas de Question Answering
author Côrtes, Eduardo Gabriel
author_facet Côrtes, Eduardo Gabriel
author_role author
dc.contributor.author.fl_str_mv Côrtes, Eduardo Gabriel
dc.contributor.advisor1.fl_str_mv Barone, Dante Augusto Couto
contributor_str_mv Barone, Dante Augusto Couto
dc.subject.por.fl_str_mv Inteligência artificial
Aprendizado : máquina
Processamento : Linguagem natural
topic Inteligência artificial
Aprendizado : máquina
Processamento : Linguagem natural
description Sistemas de Question Answering é um campo de pesquisa das áreas de Recuperação de Informações e Processamento de Linguagem Natural que propõe, de forma autônoma, responder perguntas feitas por humanos em linguagem natural. Uma das principais etapas desses sistemas é a classificação de perguntas, em que o sistema busca identificar o tipo de resposta que a pergunta se refere, facilitando a localização de informações específicas em sua base de dados. Comumente, modelos supervisionados de aprendizado de máquina são empregados nesta tarefa, em que o texto da pergunta é representado através de um vetor de características, como Bag-of-words, Term Frequency-Inverse Document Frequency (TF-IDF) ou word embeddings. Entretanto, a qualidade dos resultados produzidos por esses modelos são dependentes da existência de um grande conjunto de dados anotados para o treinamento, como também recursos computacionais e linguísticos externos. Esses recursos muitas vezes não estão acessíveis, devido a intensos esforços manuais na anotação de conjunto de dados ou pela falta de disponibilidade de recursos de qualidade para línguas não inglesa. Assim, este trabalho propõe uma abordagem híbrida para representação de texto que combina TF-IDF e Word2vec na tarefa de classificação de perguntas para sistemas de QA. Essa abordagem busca prover o tipo de resposta para perguntas em texto, utilizando diferentes tamanhos de conjuntos de treinamento com também sem a utilização de recursos computacionais e linguísticos complexos de serem adquiridos. Os experimentos realizados utilizando as coleções Chave e UIUC traduzida para o português, e variando o tamanho do conjunto de dados para treinamento, mostram estatisticamente que o modelo proposto atinge resultados satisfatório aplicado em diferentes modelos supervisionados.
publishDate 2019
dc.date.accessioned.fl_str_mv 2019-05-24T02:36:38Z
dc.date.issued.fl_str_mv 2019
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/194555
dc.identifier.nrb.pt_BR.fl_str_mv 001093827
url http://hdl.handle.net/10183/194555
identifier_str_mv 001093827
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/194555/2/001093827.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/194555/1/001093827.pdf
bitstream.checksum.fl_str_mv c62517e6fbb787b91662482fd1013dcd
a090544b8b5e80f09b8198fc904d7350
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1816736720767418368