A Study of Commonsense Reasoning with Language Models

Detalhes bibliográficos
Autor(a) principal: Branco, Ruben Miguel Rosa
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/51357
Resumo: Tese de mestrado, Ciência de Dados, Universidade de Lisboa, Faculdade de Ciências, 2021
id RCAP_586be282c67de6308d116c49c69a7d7c
oai_identifier_str oai:repositorio.ul.pt:10451/51357
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling A Study of Commonsense Reasoning with Language ModelsInteligência ArtificialProcessamento de Linguagem NaturalAprendizagem ProfundaRaciocínio de Senso ComumAprendizagem por AtalhosTeses de mestrado - 2021Departamento de InformáticaTese de mestrado, Ciência de Dados, Universidade de Lisboa, Faculdade de Ciências, 2021Artificial Intelligence (AI) has gone through an increasing growth in the past decades, which in the present day translates to its usage in almost every sector of society. From its inception, AI pursues the reproduction of human intelligence. Currently, AI¬equipped devices are capable of solving particular problems within specific domains with varying degrees of success. The goal and hope is that the combination of these systems will eventually approximate human intelligence. This dissertation addresses a problem in Natural Language Processing (NLP), a central subfield of AI that aims to produce devices capable of handling human language for problems such as translation, parsing, commonsense reasoning, and others. Deep learning has fueled state¬of¬the¬art NLP research. The current most prominent methodology leverages large scale neural networks and large amounts of data to achieve outstanding performances. Recent research has started to uncover how these neural networks obtain state¬of¬the¬art results. In some cases the models appear to latch on to so called data artifacts, whether they sustain valid generalizations or not, which happen to minimize loss w.r.t. the training dataset distribution. Although this is generally the rationale behind a machine learning approach, it can be error inducing, as models can fail miserably when the distribution of the input data differs from the training data. Our work reported in this dissertation investigates whether models learn to perform commonsense reasoning, a cognitively demanding task inherent to the human experience, by resorting to such shortcuts. Five state¬of¬the¬art models of different major types are trained to perform four most prominent commonsense reasoning tasks. Models undergo stress testing with five additional tasks devised to provide hints of possible shortcut learning and of memorization. The results indicate that the models seem to be resorting to shortcut learning in three of the four commonsense reasoning tasks; they seem to be learning a different task from the one the data is meant to convey by relying on spurious patterns present in the dataset. For example, the trained models can pick the answer from a set of options without even being supplied with the question they are meant to answer. Further experimentation confirmed that this behavior could not be attributed to memorization. This behavior is worrisome, as the field measures progress by the capabilities of these models to perform these tasks, and show that their cognitive abilities are disappointingly still low, susceptible to simple deceptions in spite of the overwhelming good scores obtained under mainstream performance metrics. Parts of this work have passed peer review and were accepted for publication (Branco et al., 2021a,b).A Inteligência Artificial (IA) teve um enorme crescimento nas últimas décadas, que se traduziu hoje em dia na sua utilização em quase todos os setores da sociedade. Por exemplo, está presente no sector financeiro, onde modelos neuronais são utilizados para fazer previsões em mercados financeiros; está presente na nossa vida social através das redes sociais, que utilizam modelos de IA para todo o tipo de tarefas e análises; esta dissertação aborda um problema de Processamento de Linguagem Natural (PLN), uma subárea da IA que visa produzir dispositivos capazes de usar e compreender a linguagem humana. Desde o início, a IA visa reproduzir a inteligência humana. Atualmente, produzimos dispositivos capazes de resolver problemas específicos, em domínios específicos, com algum grau de sucesso. A esperança para o futuro é que, através da combinação desses sistemas, as suas capacidades cognitivas conjuntas se aproximem da inteligência humana. Em PLN, os modelos são aplicados a vários problemas, como tradução, análise sintática, argumentação, raciocínio de senso comum, entre outros. Esta dissertação apresenta um estudo sobre consequências negativas da metodologia mais proeminente em PLN na sua aplicação ao raciocínio de senso comum, um desafio/tarefa central em IA. Essa metodologia consiste em utilizar redes neuronais de grande escala, geralmente modelos Transformer, e pré treiná¬los com grandes quantidades de texto através de modelação de linguagem. Dado este pré¬treino, onde as redes aprendem as nuances da linguagem natural, os modelos quando aplicados a tarefas específicas obtêm desempenhos excecionais, que podem em alguns casos rivalizar e até superar as capacidades humanas. O raciocínio de senso comum é uma tarefa clássica em IA, tendo sido objeto de estudo de um dos pioneiros da IA, John McCarthy. É uma capacidade humana essencial, que está em constante utilização, pois o conhecimento de senso comum emerge naturalmente da experiência humana: observar e atuar no nosso ambiente. É necessário raciocinar com este conhecimento de base para tomar decisões, por muito imediatas que sejam. Em PLN, as tarefas deste género geralmente são de pergunta & resposta que necessitam de raciocínio de senso comum para serem respondidas. Ensinar uma máquina, que por enquanto não consegue facilmente interagir com o ambiente e aprender dele, continua a ser um desafio central. A investigação recente começa a descobrir como as redes neuronais obtêm resultados que constituem o estado da arte. Por meio de aprendizagem por atalhos, os modelos prendem¬se aos chamados artefactos presentes nos dados, quer estes produzam generalizações válidas ou não, os quais procuram minimizar perdas relativamente à distribuição do conjunto de dados. Um exemplo deste fenômeno foi descoberto numa tarefa de SemEval 2018, Argument Reasoning Comprehension Task, onde os modelos classificavam texto através de palavras¬chave como “not”, “is”, “do” e “are”, que estavam altamente cor relacionadas com o resultado desejado. Embora minimizar as perdas com base em padrões nos dados seja a abordagem subjecente à aprendizagem automática, pode acabar por ser detrimental fazê¬lo, pois os padrões podem não refletir uma generalização sobre a tarefa em questão, mas podem resultar fortuita mente do processo de construção dos dados. Quando a distribuição dos dados muda, o que pode acontecer quando, por exemplo, utilizamos dados de entrada que podem ser consideravelmente diferentes dos dados de treino, os modelos exibem falhas aparatosas. Este trabalho investiga se os modelos realmente aprendem raciocínio de senso comum, uma tarefa cognitivamente exigente e inerentemente de cariz humano. Cinco modelos de Transformer de estado da arte são aplicados a quatro tarefas diferentes de raciocínio de senso comum, de modo a perceber a sua aptidão na tarefa e estabelecer dados comparativos. Dois modelos são escolhidos para serem submetidos a um teste de pressão, com cinco tarefas concebidas para obter indícios de aprendizagem por atalhos e memorização: (i) Treino com dados de entrada parciais (Partial Input Training), onde segmentos dos dados de entrada, essenciais para completar a tarefa, são retirados, e o efeito nos modelos é observado. Se os modelos forem capazes de cumprir a tarefa igualmente bem, então é um indício que estarão a usar arte factos nos dados. (ii) Ataque adversarial (Adversarial Attack), que consiste na utilização de algoritmos que modificam a frase de entrada, de forma que a semântica é conservada, e que levam o modelo a mudar a sua decisão para uma classificação errada. Se a degradação dos resultados for significativa, pode ser um indício de uma aprendizagem superficial, potenciada por atalhos nos dados. (iii) Contaminação de dados (Data Contamination), que procura descobrir se existe uma sobreposição entre os dados de teste de uma tarefa com os dados de pré¬treino. Como previamente referido, a metodologia mais atual utiliza grandes volumes de dados de texto para pré¬treinar modelos, que podem ser obtidos das mesmas fontes utilizadas para construir dados para outras tarefas. Os modelos têm capacidade de reter informação, portanto, podem utilizar mais tarde durante a avaliação, quebrando princípios de senso comum de testes de modelos: modelos devem ser testado em dados que não teram sido vistos previamente. (iv) Avaliação cruzada de tarefas (Cross¬Task Evaluation), que consiste em pegar num modelo treinado numa certa tarefa e avaliar noutra, sem que o modelo tivesse aprendendo¬a. Isto permite observar se há transferência de conheci mento, que seria possível pois as tarefas têm o mesmo conceito comum subjacente, que é raciocínio de senso comum. Caso haja degradação forte nos resultados, isto é indicativo que os modelos aprenderam atalhos que não foram transferidos para as outras tarefas, pois eram específicos aos dados onde treinou. (v) Exploração de atalhos (Shortcut Exploration), que investiga dois tipos de atalhos: desiquilíbrio de classes e “sinais” (cues) lexicais, que são palavras que fornecem indícios da classe pertencente a cada examplo. Modelos que são treinados com um conjunto de dados que tenha desiquilíbrio de classes conseguem obter melhores resultados ao tirar proveito desse desquilíbrio, enquanto que “sinais” lexicais providenciam um sinal útil para os modelos obterem uma boa prestação. As experiências mostram que os modelos parecem recorrer a aprendizagem por atalho em três das quatro tarefas. Na experiência (i), em três das quatro tarefas de raciocínio de senso comum, é possível chegar perto dos resultados impressionantes retirando segmentos dos dados fundamentais, no ponto de vista do raciocínio humano, para resolver a tarefa. Como exemplo, os modelos conseguem escolher respostas corretas a perguntas que não são fornecidas. Na experiência (ii), as mesmas tarefas sofreram uma degradação superior. No geral, a degradação é alta, mostrando que os modelos ainda são frágeis perante ataques adversários. Com a experiência (iii) observa¬se que embora existe diferentes níveis de contaminação dos dados das tarefas, estes não conseguem explicar os resultados obtido nas experiências anteriores, e, portanto, memorização não poderá ser o fenômeno conducente aos resultados obtidos. Na experiência (iv), verifica¬se que os modelos na sua maioria consegue transferir o seu conhecimento para outras tarefas, sem serem treinados nelas. Finalmente, na experiência (v), descarta¬se desiquilíbrio de classes como um possível atalho e identifica¬se alguns “sinais” lexicais presentes nos dados, embora que não são abrangentes o suficiente para explicar os resultados obtidos nas experiências (i), (ii) e (iv). Estes indícios mostram que os modelos não estarão a realizar a tarefa pretendida, em vez disso, estão a aprender e realizar tarefas diferentes que acontece que maximizam as métricas da tarefa pretendida, através de padrões encontrados nos dados. O facto de estes fenômenos se verificarem é preocupante por vários motivos. A área (PLN) consegue medir o progresso através da capacidade destes modelos realizarem tarefas, como as utilizadas nesta dissertação. Mas se os modelos conseguem obter bons resultados não através da tarefa pretendida, mas uma derivada, o progresso pode ser inflacionado. Outra preocupação refere¬se ao grande objetivo traçado desde o começo da área, a reprodução de inteligência humana. Dado que os modelos não aprendem as tarefas supostas, talvez por falta de especificação, e são suscetíveis a simples enganos como mudar apenas uma palavra para um sinónimo, é difícil de argumentar a capacidade cognitiva que eles possuem, por muito impressionante que seja o desempenho e tamanho. Investigação futura é necessária, através de uma revisão cuidadosa e comparação entre os métodos e procedimentos usados no desenvolvimento de dados, modelos e metodologia de treino. Partes deste trabalho foram alvo de revisão por pares e aceites para publicação (Branco et al., 2021a,b).Branco, António H., 1963-Repositório da Universidade de LisboaBranco, Ruben Miguel Rosa2022-02-17T09:59:18Z202120212021-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/51357TID:202934217enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:56:01Zoai:repositorio.ul.pt:10451/51357Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:02:39.654140Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv A Study of Commonsense Reasoning with Language Models
title A Study of Commonsense Reasoning with Language Models
spellingShingle A Study of Commonsense Reasoning with Language Models
Branco, Ruben Miguel Rosa
Inteligência Artificial
Processamento de Linguagem Natural
Aprendizagem Profunda
Raciocínio de Senso Comum
Aprendizagem por Atalhos
Teses de mestrado - 2021
Departamento de Informática
title_short A Study of Commonsense Reasoning with Language Models
title_full A Study of Commonsense Reasoning with Language Models
title_fullStr A Study of Commonsense Reasoning with Language Models
title_full_unstemmed A Study of Commonsense Reasoning with Language Models
title_sort A Study of Commonsense Reasoning with Language Models
author Branco, Ruben Miguel Rosa
author_facet Branco, Ruben Miguel Rosa
author_role author
dc.contributor.none.fl_str_mv Branco, António H., 1963-
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Branco, Ruben Miguel Rosa
dc.subject.por.fl_str_mv Inteligência Artificial
Processamento de Linguagem Natural
Aprendizagem Profunda
Raciocínio de Senso Comum
Aprendizagem por Atalhos
Teses de mestrado - 2021
Departamento de Informática
topic Inteligência Artificial
Processamento de Linguagem Natural
Aprendizagem Profunda
Raciocínio de Senso Comum
Aprendizagem por Atalhos
Teses de mestrado - 2021
Departamento de Informática
description Tese de mestrado, Ciência de Dados, Universidade de Lisboa, Faculdade de Ciências, 2021
publishDate 2021
dc.date.none.fl_str_mv 2021
2021
2021-01-01T00:00:00Z
2022-02-17T09:59:18Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/51357
TID:202934217
url http://hdl.handle.net/10451/51357
identifier_str_mv TID:202934217
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134576145072128