Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFSCAR |
Texto Completo: | https://repositorio.ufscar.br/handle/ufscar/14366 |
Resumo: | In recent years, ontologies have been used in information systems to index large corpora of documents or collections of facts and directly support user interaction with the system through functionalities such as navigation and searches. Both structure and content of ontologies must come with these changes, over time, without losing coherence. Expansion of ontologies is primarily an organizational process and there must be rules for the processes of updating, inserting and exclusion from the ontology. After learning millions of facts extracted from the web, NELL (Never-ending Language Learning), the first never-ending machine learning system described in the literature that continuously extracts facts (reading the web) to increase its knowledge base and learn to read better than the previous day, began to learn beyond the knowledge extracted and to infer new beliefs that it had not yet read before, becoming able to expand its initial ontology through some contributions. In this way, the present thesis proposes a sequential modular computational model that allows the expansion of the ontology of the NELL knowledge base, identifying and classifying subcategories of the categories already known by the NELL ontology. The proposed component receives as inputs question texts in English from the Yahoo Answers forum, a set of English Wikipedia articles, the NELL knowledge base and a set of seed examples. From this, preprocessing tasks were done to extract labelled and unlabeled examples, which were classified by a machine learning algorithm that define the new candidates to subcategories. A second module performs a validation procedure based on conditional probability. The results showed that the component, in addition to achieve adequate performances in terms of subcategories learning, maintains a relatively low rate of false positives. |
id |
SCAR_59fdd78fefd25f868a305c545101c900 |
---|---|
oai_identifier_str |
oai:repositorio.ufscar.br:ufscar/14366 |
network_acronym_str |
SCAR |
network_name_str |
Repositório Institucional da UFSCAR |
repository_id_str |
4322 |
spelling |
Souza, Wesley Willy Oliveira deFernandes, Ricardo Augusto Souzahttp://lattes.cnpq.br/0880243208789454http://lattes.cnpq.br/83118565335328721cacbd9f-ac75-4425-98a7-5e8440a4332c2021-06-11T09:07:18Z2021-06-11T09:07:18Z2021-01-08SOUZA, Wesley Willy Oliveira de. Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas. 2021. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/14366.https://repositorio.ufscar.br/handle/ufscar/14366In recent years, ontologies have been used in information systems to index large corpora of documents or collections of facts and directly support user interaction with the system through functionalities such as navigation and searches. Both structure and content of ontologies must come with these changes, over time, without losing coherence. Expansion of ontologies is primarily an organizational process and there must be rules for the processes of updating, inserting and exclusion from the ontology. After learning millions of facts extracted from the web, NELL (Never-ending Language Learning), the first never-ending machine learning system described in the literature that continuously extracts facts (reading the web) to increase its knowledge base and learn to read better than the previous day, began to learn beyond the knowledge extracted and to infer new beliefs that it had not yet read before, becoming able to expand its initial ontology through some contributions. In this way, the present thesis proposes a sequential modular computational model that allows the expansion of the ontology of the NELL knowledge base, identifying and classifying subcategories of the categories already known by the NELL ontology. The proposed component receives as inputs question texts in English from the Yahoo Answers forum, a set of English Wikipedia articles, the NELL knowledge base and a set of seed examples. From this, preprocessing tasks were done to extract labelled and unlabeled examples, which were classified by a machine learning algorithm that define the new candidates to subcategories. A second module performs a validation procedure based on conditional probability. The results showed that the component, in addition to achieve adequate performances in terms of subcategories learning, maintains a relatively low rate of false positives.Nos últimos anos, ontologias são utilizadas em sistemas de informação para indexar grandes corpora de documentos ou coleções de fatos, bem como apoiar diretamente na interação do usuário com o sistema através de funcionalidades como navegação e consultas. Assim, nota-se que tanto a estrutura quanto o conteúdo das ontologias devem acompanhar essas mudanças, temporalmente, sem perder coerência. A expansão de ontologias é a princípio um processo organizacional portanto, deve haver regras para a realização dos processos de atualizações, inserções e remoções da ontologia. Após aprender milhões de fatos extraídos da web, a NELL (Never-ending Language Learning), o primeiro sistema de aprendizado de máquina sem fim descrito na literatura que ininterruptamente extrai fatos (lendo a web) para aumentar sua base de conhecimento e aprender a ler melhor que o dia anterior, passou a adquirir além do conhecimento extraído e a inferir em novas crenças que ainda não havia lido anteriormente, tornando-se capaz de expandir sua ontologia inicial através de várias contribuições. Ainda assim, notou-se uma limitação no conhecimento da NELL, quanto a aprender novas subcategorias a partir das categorias já conhecidas em sua base de conhecimento. Neste sentido, a presente tese tem o objetivo de propor um componente modular sequencial que possibilite a expansão da ontologia da base de conhecimento da NELL, identificando e classificando subcategorias das categorias já conhecidas pela ontologia da NELL. O componente proposto recebe como entrada textos de perguntas em inglês do fórum de perguntas e respostas Yahoo Answers, um conjunto de artigos da Wikipédia em inglês, a base de conhecimento da NELL e um conjunto de exemplos sementes. Com isso, foram realizadas tarefas de pré-processamento dos dados com o intuito de extrair exemplos rotulados e não rotulados, os quais foram classificados por um algoritmo de aprendizado de máquina para definir exemplos candidatos a subcategorias. Um segundo módulo realiza um procedimento de validação baseado em probabilidade condicional. Os resultados mostraram que o componente, além de alcançar desempenhos adequados em termos do aprendizado de subcategorias, manteve uma taxa de falsos positivos relativamente baixa.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: Código de Financiamento 001porUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência artificialAprendizado de máquinaAprendizado sem fimExpansão de ontologiaArtificial intelligenceMachine LearningNever-ending Language LearningOntology evolutionCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOAprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostasSubcategory Learning for Never-ending Language Learning: a question-and-answer-based approachinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis600600bb8d173a-edce-4320-a3d9-7d30ffae1cf9reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALtese_doutorado_wesley_final_fa.pdftese_doutorado_wesley_final_fa.pdfTese de Doutorado com ficha de aprovaçãoapplication/pdf2649078https://repositorio.ufscar.br/bitstream/ufscar/14366/3/tese_doutorado_wesley_final_fa.pdf6e6126180db929e75bc23e4487a066f9MD53carta_de_autorizacao_wesley_assinado.pdfcarta_de_autorizacao_wesley_assinado.pdfCarta comprovante assinada pelo orientadorapplication/pdf133190https://repositorio.ufscar.br/bitstream/ufscar/14366/4/carta_de_autorizacao_wesley_assinado.pdf105592f4885fcedca06a00256d7bc0e2MD54CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstream/ufscar/14366/5/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD55TEXTtese_doutorado_wesley_final_fa.pdf.txttese_doutorado_wesley_final_fa.pdf.txtExtracted texttext/plain134878https://repositorio.ufscar.br/bitstream/ufscar/14366/6/tese_doutorado_wesley_final_fa.pdf.txt252f594ad639b0d35e5f81de9239fc5fMD56carta_de_autorizacao_wesley_assinado.pdf.txtcarta_de_autorizacao_wesley_assinado.pdf.txtExtracted texttext/plain1520https://repositorio.ufscar.br/bitstream/ufscar/14366/8/carta_de_autorizacao_wesley_assinado.pdf.txt1cfb0564e3a23137ba095621f7262502MD58THUMBNAILtese_doutorado_wesley_final_fa.pdf.jpgtese_doutorado_wesley_final_fa.pdf.jpgIM Thumbnailimage/jpeg8883https://repositorio.ufscar.br/bitstream/ufscar/14366/7/tese_doutorado_wesley_final_fa.pdf.jpg623045a0321cdc3bc09f3fc33f9cbf5dMD57carta_de_autorizacao_wesley_assinado.pdf.jpgcarta_de_autorizacao_wesley_assinado.pdf.jpgIM Thumbnailimage/jpeg12383https://repositorio.ufscar.br/bitstream/ufscar/14366/9/carta_de_autorizacao_wesley_assinado.pdf.jpg93cffc129804f6517141c2a1220f3fb7MD59ufscar/143662023-09-18 18:32:11.616oai:repositorio.ufscar.br:ufscar/14366Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:32:11Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
dc.title.por.fl_str_mv |
Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas |
dc.title.alternative.eng.fl_str_mv |
Subcategory Learning for Never-ending Language Learning: a question-and-answer-based approach |
title |
Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas |
spellingShingle |
Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas Souza, Wesley Willy Oliveira de Inteligência artificial Aprendizado de máquina Aprendizado sem fim Expansão de ontologia Artificial intelligence Machine Learning Never-ending Language Learning Ontology evolution CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
title_short |
Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas |
title_full |
Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas |
title_fullStr |
Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas |
title_full_unstemmed |
Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas |
title_sort |
Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas |
author |
Souza, Wesley Willy Oliveira de |
author_facet |
Souza, Wesley Willy Oliveira de |
author_role |
author |
dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/8311856533532872 |
dc.contributor.author.fl_str_mv |
Souza, Wesley Willy Oliveira de |
dc.contributor.advisor1.fl_str_mv |
Fernandes, Ricardo Augusto Souza |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/0880243208789454 |
dc.contributor.authorID.fl_str_mv |
1cacbd9f-ac75-4425-98a7-5e8440a4332c |
contributor_str_mv |
Fernandes, Ricardo Augusto Souza |
dc.subject.por.fl_str_mv |
Inteligência artificial Aprendizado de máquina Aprendizado sem fim Expansão de ontologia |
topic |
Inteligência artificial Aprendizado de máquina Aprendizado sem fim Expansão de ontologia Artificial intelligence Machine Learning Never-ending Language Learning Ontology evolution CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
dc.subject.eng.fl_str_mv |
Artificial intelligence Machine Learning Never-ending Language Learning Ontology evolution |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
description |
In recent years, ontologies have been used in information systems to index large corpora of documents or collections of facts and directly support user interaction with the system through functionalities such as navigation and searches. Both structure and content of ontologies must come with these changes, over time, without losing coherence. Expansion of ontologies is primarily an organizational process and there must be rules for the processes of updating, inserting and exclusion from the ontology. After learning millions of facts extracted from the web, NELL (Never-ending Language Learning), the first never-ending machine learning system described in the literature that continuously extracts facts (reading the web) to increase its knowledge base and learn to read better than the previous day, began to learn beyond the knowledge extracted and to infer new beliefs that it had not yet read before, becoming able to expand its initial ontology through some contributions. In this way, the present thesis proposes a sequential modular computational model that allows the expansion of the ontology of the NELL knowledge base, identifying and classifying subcategories of the categories already known by the NELL ontology. The proposed component receives as inputs question texts in English from the Yahoo Answers forum, a set of English Wikipedia articles, the NELL knowledge base and a set of seed examples. From this, preprocessing tasks were done to extract labelled and unlabeled examples, which were classified by a machine learning algorithm that define the new candidates to subcategories. A second module performs a validation procedure based on conditional probability. The results showed that the component, in addition to achieve adequate performances in terms of subcategories learning, maintains a relatively low rate of false positives. |
publishDate |
2021 |
dc.date.accessioned.fl_str_mv |
2021-06-11T09:07:18Z |
dc.date.available.fl_str_mv |
2021-06-11T09:07:18Z |
dc.date.issued.fl_str_mv |
2021-01-08 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
SOUZA, Wesley Willy Oliveira de. Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas. 2021. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/14366. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/ufscar/14366 |
identifier_str_mv |
SOUZA, Wesley Willy Oliveira de. Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas. 2021. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/14366. |
url |
https://repositorio.ufscar.br/handle/ufscar/14366 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.confidence.fl_str_mv |
600 600 |
dc.relation.authority.fl_str_mv |
bb8d173a-edce-4320-a3d9-7d30ffae1cf9 |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC |
dc.publisher.initials.fl_str_mv |
UFSCar |
publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
instname_str |
Universidade Federal de São Carlos (UFSCAR) |
instacron_str |
UFSCAR |
institution |
UFSCAR |
reponame_str |
Repositório Institucional da UFSCAR |
collection |
Repositório Institucional da UFSCAR |
bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstream/ufscar/14366/3/tese_doutorado_wesley_final_fa.pdf https://repositorio.ufscar.br/bitstream/ufscar/14366/4/carta_de_autorizacao_wesley_assinado.pdf https://repositorio.ufscar.br/bitstream/ufscar/14366/5/license_rdf https://repositorio.ufscar.br/bitstream/ufscar/14366/6/tese_doutorado_wesley_final_fa.pdf.txt https://repositorio.ufscar.br/bitstream/ufscar/14366/8/carta_de_autorizacao_wesley_assinado.pdf.txt https://repositorio.ufscar.br/bitstream/ufscar/14366/7/tese_doutorado_wesley_final_fa.pdf.jpg https://repositorio.ufscar.br/bitstream/ufscar/14366/9/carta_de_autorizacao_wesley_assinado.pdf.jpg |
bitstream.checksum.fl_str_mv |
6e6126180db929e75bc23e4487a066f9 105592f4885fcedca06a00256d7bc0e2 e39d27027a6cc9cb039ad269a5db8e34 252f594ad639b0d35e5f81de9239fc5f 1cfb0564e3a23137ba095621f7262502 623045a0321cdc3bc09f3fc33f9cbf5d 93cffc129804f6517141c2a1220f3fb7 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
repository.mail.fl_str_mv |
|
_version_ |
1802136390921617408 |