Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas

Detalhes bibliográficos
Autor(a) principal: Souza, Wesley Willy Oliveira de
Data de Publicação: 2021
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFSCAR
Texto Completo: https://repositorio.ufscar.br/handle/ufscar/14366
Resumo: In recent years, ontologies have been used in information systems to index large corpora of documents or collections of facts and directly support user interaction with the system through functionalities such as navigation and searches. Both structure and content of ontologies must come with these changes, over time, without losing coherence. Expansion of ontologies is primarily an organizational process and there must be rules for the processes of updating, inserting and exclusion from the ontology. After learning millions of facts extracted from the web, NELL (Never-ending Language Learning), the first never-ending machine learning system described in the literature that continuously extracts facts (reading the web) to increase its knowledge base and learn to read better than the previous day, began to learn beyond the knowledge extracted and to infer new beliefs that it had not yet read before, becoming able to expand its initial ontology through some contributions. In this way, the present thesis proposes a sequential modular computational model that allows the expansion of the ontology of the NELL knowledge base, identifying and classifying subcategories of the categories already known by the NELL ontology. The proposed component receives as inputs question texts in English from the Yahoo Answers forum, a set of English Wikipedia articles, the NELL knowledge base and a set of seed examples. From this, preprocessing tasks were done to extract labelled and unlabeled examples, which were classified by a machine learning algorithm that define the new candidates to subcategories. A second module performs a validation procedure based on conditional probability. The results showed that the component, in addition to achieve adequate performances in terms of subcategories learning, maintains a relatively low rate of false positives.
id SCAR_59fdd78fefd25f868a305c545101c900
oai_identifier_str oai:repositorio.ufscar.br:ufscar/14366
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Souza, Wesley Willy Oliveira deFernandes, Ricardo Augusto Souzahttp://lattes.cnpq.br/0880243208789454http://lattes.cnpq.br/83118565335328721cacbd9f-ac75-4425-98a7-5e8440a4332c2021-06-11T09:07:18Z2021-06-11T09:07:18Z2021-01-08SOUZA, Wesley Willy Oliveira de. Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas. 2021. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/14366.https://repositorio.ufscar.br/handle/ufscar/14366In recent years, ontologies have been used in information systems to index large corpora of documents or collections of facts and directly support user interaction with the system through functionalities such as navigation and searches. Both structure and content of ontologies must come with these changes, over time, without losing coherence. Expansion of ontologies is primarily an organizational process and there must be rules for the processes of updating, inserting and exclusion from the ontology. After learning millions of facts extracted from the web, NELL (Never-ending Language Learning), the first never-ending machine learning system described in the literature that continuously extracts facts (reading the web) to increase its knowledge base and learn to read better than the previous day, began to learn beyond the knowledge extracted and to infer new beliefs that it had not yet read before, becoming able to expand its initial ontology through some contributions. In this way, the present thesis proposes a sequential modular computational model that allows the expansion of the ontology of the NELL knowledge base, identifying and classifying subcategories of the categories already known by the NELL ontology. The proposed component receives as inputs question texts in English from the Yahoo Answers forum, a set of English Wikipedia articles, the NELL knowledge base and a set of seed examples. From this, preprocessing tasks were done to extract labelled and unlabeled examples, which were classified by a machine learning algorithm that define the new candidates to subcategories. A second module performs a validation procedure based on conditional probability. The results showed that the component, in addition to achieve adequate performances in terms of subcategories learning, maintains a relatively low rate of false positives.Nos últimos anos, ontologias são utilizadas em sistemas de informação para indexar grandes corpora de documentos ou coleções de fatos, bem como apoiar diretamente na interação do usuário com o sistema através de funcionalidades como navegação e consultas. Assim, nota-se que tanto a estrutura quanto o conteúdo das ontologias devem acompanhar essas mudanças, temporalmente, sem perder coerência. A expansão de ontologias é a princípio um processo organizacional portanto, deve haver regras para a realização dos processos de atualizações, inserções e remoções da ontologia. Após aprender milhões de fatos extraídos da web, a NELL (Never-ending Language Learning), o primeiro sistema de aprendizado de máquina sem fim descrito na literatura que ininterruptamente extrai fatos (lendo a web) para aumentar sua base de conhecimento e aprender a ler melhor que o dia anterior, passou a adquirir além do conhecimento extraído e a inferir em novas crenças que ainda não havia lido anteriormente, tornando-se capaz de expandir sua ontologia inicial através de várias contribuições. Ainda assim, notou-se uma limitação no conhecimento da NELL, quanto a aprender novas subcategorias a partir das categorias já conhecidas em sua base de conhecimento. Neste sentido, a presente tese tem o objetivo de propor um componente modular sequencial que possibilite a expansão da ontologia da base de conhecimento da NELL, identificando e classificando subcategorias das categorias já conhecidas pela ontologia da NELL. O componente proposto recebe como entrada textos de perguntas em inglês do fórum de perguntas e respostas Yahoo Answers, um conjunto de artigos da Wikipédia em inglês, a base de conhecimento da NELL e um conjunto de exemplos sementes. Com isso, foram realizadas tarefas de pré-processamento dos dados com o intuito de extrair exemplos rotulados e não rotulados, os quais foram classificados por um algoritmo de aprendizado de máquina para definir exemplos candidatos a subcategorias. Um segundo módulo realiza um procedimento de validação baseado em probabilidade condicional. Os resultados mostraram que o componente, além de alcançar desempenhos adequados em termos do aprendizado de subcategorias, manteve uma taxa de falsos positivos relativamente baixa.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: Código de Financiamento 001porUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência artificialAprendizado de máquinaAprendizado sem fimExpansão de ontologiaArtificial intelligenceMachine LearningNever-ending Language LearningOntology evolutionCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOAprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostasSubcategory Learning for Never-ending Language Learning: a question-and-answer-based approachinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis600600bb8d173a-edce-4320-a3d9-7d30ffae1cf9reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALtese_doutorado_wesley_final_fa.pdftese_doutorado_wesley_final_fa.pdfTese de Doutorado com ficha de aprovaçãoapplication/pdf2649078https://repositorio.ufscar.br/bitstream/ufscar/14366/3/tese_doutorado_wesley_final_fa.pdf6e6126180db929e75bc23e4487a066f9MD53carta_de_autorizacao_wesley_assinado.pdfcarta_de_autorizacao_wesley_assinado.pdfCarta comprovante assinada pelo orientadorapplication/pdf133190https://repositorio.ufscar.br/bitstream/ufscar/14366/4/carta_de_autorizacao_wesley_assinado.pdf105592f4885fcedca06a00256d7bc0e2MD54CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstream/ufscar/14366/5/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD55TEXTtese_doutorado_wesley_final_fa.pdf.txttese_doutorado_wesley_final_fa.pdf.txtExtracted texttext/plain134878https://repositorio.ufscar.br/bitstream/ufscar/14366/6/tese_doutorado_wesley_final_fa.pdf.txt252f594ad639b0d35e5f81de9239fc5fMD56carta_de_autorizacao_wesley_assinado.pdf.txtcarta_de_autorizacao_wesley_assinado.pdf.txtExtracted texttext/plain1520https://repositorio.ufscar.br/bitstream/ufscar/14366/8/carta_de_autorizacao_wesley_assinado.pdf.txt1cfb0564e3a23137ba095621f7262502MD58THUMBNAILtese_doutorado_wesley_final_fa.pdf.jpgtese_doutorado_wesley_final_fa.pdf.jpgIM Thumbnailimage/jpeg8883https://repositorio.ufscar.br/bitstream/ufscar/14366/7/tese_doutorado_wesley_final_fa.pdf.jpg623045a0321cdc3bc09f3fc33f9cbf5dMD57carta_de_autorizacao_wesley_assinado.pdf.jpgcarta_de_autorizacao_wesley_assinado.pdf.jpgIM Thumbnailimage/jpeg12383https://repositorio.ufscar.br/bitstream/ufscar/14366/9/carta_de_autorizacao_wesley_assinado.pdf.jpg93cffc129804f6517141c2a1220f3fb7MD59ufscar/143662023-09-18 18:32:11.616oai:repositorio.ufscar.br:ufscar/14366Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:32:11Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas
dc.title.alternative.eng.fl_str_mv Subcategory Learning for Never-ending Language Learning: a question-and-answer-based approach
title Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas
spellingShingle Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas
Souza, Wesley Willy Oliveira de
Inteligência artificial
Aprendizado de máquina
Aprendizado sem fim
Expansão de ontologia
Artificial intelligence
Machine Learning
Never-ending Language Learning
Ontology evolution
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
title_short Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas
title_full Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas
title_fullStr Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas
title_full_unstemmed Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas
title_sort Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas
author Souza, Wesley Willy Oliveira de
author_facet Souza, Wesley Willy Oliveira de
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/8311856533532872
dc.contributor.author.fl_str_mv Souza, Wesley Willy Oliveira de
dc.contributor.advisor1.fl_str_mv Fernandes, Ricardo Augusto Souza
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/0880243208789454
dc.contributor.authorID.fl_str_mv 1cacbd9f-ac75-4425-98a7-5e8440a4332c
contributor_str_mv Fernandes, Ricardo Augusto Souza
dc.subject.por.fl_str_mv Inteligência artificial
Aprendizado de máquina
Aprendizado sem fim
Expansão de ontologia
topic Inteligência artificial
Aprendizado de máquina
Aprendizado sem fim
Expansão de ontologia
Artificial intelligence
Machine Learning
Never-ending Language Learning
Ontology evolution
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.eng.fl_str_mv Artificial intelligence
Machine Learning
Never-ending Language Learning
Ontology evolution
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
description In recent years, ontologies have been used in information systems to index large corpora of documents or collections of facts and directly support user interaction with the system through functionalities such as navigation and searches. Both structure and content of ontologies must come with these changes, over time, without losing coherence. Expansion of ontologies is primarily an organizational process and there must be rules for the processes of updating, inserting and exclusion from the ontology. After learning millions of facts extracted from the web, NELL (Never-ending Language Learning), the first never-ending machine learning system described in the literature that continuously extracts facts (reading the web) to increase its knowledge base and learn to read better than the previous day, began to learn beyond the knowledge extracted and to infer new beliefs that it had not yet read before, becoming able to expand its initial ontology through some contributions. In this way, the present thesis proposes a sequential modular computational model that allows the expansion of the ontology of the NELL knowledge base, identifying and classifying subcategories of the categories already known by the NELL ontology. The proposed component receives as inputs question texts in English from the Yahoo Answers forum, a set of English Wikipedia articles, the NELL knowledge base and a set of seed examples. From this, preprocessing tasks were done to extract labelled and unlabeled examples, which were classified by a machine learning algorithm that define the new candidates to subcategories. A second module performs a validation procedure based on conditional probability. The results showed that the component, in addition to achieve adequate performances in terms of subcategories learning, maintains a relatively low rate of false positives.
publishDate 2021
dc.date.accessioned.fl_str_mv 2021-06-11T09:07:18Z
dc.date.available.fl_str_mv 2021-06-11T09:07:18Z
dc.date.issued.fl_str_mv 2021-01-08
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SOUZA, Wesley Willy Oliveira de. Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas. 2021. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/14366.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/ufscar/14366
identifier_str_mv SOUZA, Wesley Willy Oliveira de. Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas. 2021. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/14366.
url https://repositorio.ufscar.br/handle/ufscar/14366
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
600
dc.relation.authority.fl_str_mv bb8d173a-edce-4320-a3d9-7d30ffae1cf9
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstream/ufscar/14366/3/tese_doutorado_wesley_final_fa.pdf
https://repositorio.ufscar.br/bitstream/ufscar/14366/4/carta_de_autorizacao_wesley_assinado.pdf
https://repositorio.ufscar.br/bitstream/ufscar/14366/5/license_rdf
https://repositorio.ufscar.br/bitstream/ufscar/14366/6/tese_doutorado_wesley_final_fa.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/14366/8/carta_de_autorizacao_wesley_assinado.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/14366/7/tese_doutorado_wesley_final_fa.pdf.jpg
https://repositorio.ufscar.br/bitstream/ufscar/14366/9/carta_de_autorizacao_wesley_assinado.pdf.jpg
bitstream.checksum.fl_str_mv 6e6126180db929e75bc23e4487a066f9
105592f4885fcedca06a00256d7bc0e2
e39d27027a6cc9cb039ad269a5db8e34
252f594ad639b0d35e5f81de9239fc5f
1cfb0564e3a23137ba095621f7262502
623045a0321cdc3bc09f3fc33f9cbf5d
93cffc129804f6517141c2a1220f3fb7
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_ 1802136390921617408