The emergence of an information bottleneck teory of deep learning

Detalhes bibliográficos
Autor(a) principal: Guth, Frederico
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UnB
Texto Completo: https://repositorio.unb.br/handle/10482/43742
Resumo: Dissertação (Mestrado em Informática) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Brasília, 2022.
id UNB_edcd24d3d9c221ad51348f1c26cd7efe
oai_identifier_str oai:repositorio.unb.br:10482/43742
network_acronym_str UNB
network_name_str Repositório Institucional da UnB
repository_id_str
spelling The emergence of an information bottleneck teory of deep learningAprendizagem profundaInteligência artificialDissertação (Mestrado em Informática) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Brasília, 2022.Na última década, assistimos estupefatos uma miríade de sucessos em Aprendizagem Profunda (Deep Learning (DL)). Apesar de tamanho sucesso, talvez estejamos subindo um pico de expectativas infiadas. No passado, incorremos no erro de tentar resolver problemas com maior poder computacional, hoje estamos fazendo o mesmo tentando usar cada vez mais dados. Tal comportamento desencadeou uma corrida por bases de dados de treinamento entre grandes corporações, suscitando preocupações sobre privacidade e concentração de poder. É fato, entretanto, que aprender com muito menos dados é possível: humanos demonstram uma habilidade de generalização muito superior ao estado-da-arte atual em Inteligência Artificial. Para atingir tal capacidade, precisamos entender melhor como o aprendizado ocorre em Deep Learning. A prática tem se desenvolvido mais rapidamente que a teoria na área. Em particular, Zhang et al. demonstraram que modelos de deep learning são capazes de memorizar rótulos aleatórios, ainda assim apresentam alto poder de generalização [Zha+16]. A atual teoria de aprendizado de máquinas não explica tal poder de generalização em modelos superparametrizados. Em 2015, Na ali Tishby e Noga Zaslavsky publicaram uma teoria de aprendizado baseado no princípio do gargalo de informação (information bottleneck) [TZ15a]. Tal teoria sucitou interesse e desconfiança pela academia, tendo vários de seus artigos primordiais sido contestados em artigos posteriores. Esta dissertação visa investigar esforços esparços do uso do princípio do gargalo para explicar a capacidade de generalização de redes neurais profundas e consolidar tal conhecimento em um compêndio deste novo desenvolvimento teórico denominado Teoria do Gargalo de Informação (Information Bottleneck Teory (IBT)) que mostre seus pontos fortes e fracos e oportunidades de pesquisa. a busca dos fundamentos Nesta investigação, partimos de uma discussão filosófica sobre o que é inteligência e o que significa aprender (Capítulo 2) e, passo a passo (Capítulos 3 a 5), mostramos em que fundamentos a teoria vingente de aprendizado de máquinas (Machine Learning Teory (MLT)), assim como a emergente (Information Bottleneck Teory (IBT)) se apoiam. Pudemos assim perceber que ambas teorias se baseiam em um conjunto muito similar de premissas. A maior diferença é que Information Bottleneck Teory (IBT) assume o uso de variáveis aleatórias discretas de espaços finitos. Entretanto, tal limitação não é significativa, uma vez que pesquisas já demonstraram que é possível tornar o erro de quantização arbitrariamente pequeno conquanto haja memória para tanto [Ris86; HVC93]. Além disso, Information Bottleneck Teory (IBT) não invalida nenhum resultado de Machine Learning Teory (MLT), pelo contrário, apresenta uma nova narrativa que nos permite conciliar os resultados teóricos com os fenômenos observados, quando medimos complexidade como a quantidade de informação nos pesos de um modelo, e não a sua quantidade de parâmetros. Essa investigação nos permitiu sintetizar o desenvolvimento teórico em Teoria da Informação (Information Teory (IT)) e Machine LearningTeory (MLT) em uma abodagem que denominamos PAC-Shannon (Capítulo 6) em que partimos dos teoremas fundamentais de Shannon em Information Teory (IT) e provamos limites para erro de generalização em aprendizado. explicando a nova teoria Tishby propôs que vejamos aprendizado como um problema de codi- ficação (Capítulo 7). Nessa perspectiva, os dados de entrada contém informação de um alvo, uma variável rótulo, a qual não temos acesso; o problema de aprendizado é encontrar o codificador-decodificador que explique nossos nossos dados de treinamento; o conjunto de dados (dataset) de treinamento é a definição da tarefa (padronagem estrutural dos dados) que se quer aprender. Em Information Bottleneck Teory (IBT), generalização não depende do espaço de hipóteses do modelo, mas apenas dos limites de compressibilidade do dataset. Limites esses definidos pelos teoremas de Shannon (Capítulo 5). Enquanto Teoria do Aprendizado de Máquina (MLT) é agnóstica à distribuição dos dados e modelo-dependente, Information Bottleneck Teory (IBT) é agnóstica ao modelo e distribuição-dependente. Esta perspectiva, se relaciona perfeitamente com a teoria algorítimica da informação (complexidade de Kolmogorov-Chaitin) (Seção 5.8.1). Essa visão de informação como medida de complexidade, nos permite analisar o treinamento enquanto ele acontece. Ou seja, para aqueles que se sentem desconfotáveis com o fato da teoria corrente ver modelos como uma caixa-preta, onde só se analisa a entrada e a saída, medidas de informação nos permitem entender o que ocorre durante o treinamento. Essa análise leva à surpreendente conclusão de que o aprendizado tem duas fases distintas: uma fase de ajuste e outra de compressão. Primeiro, na fase de ajuste, o modelo memoriza os dados, minimizando rapidamente o erro e usando muita informação que é peculiar apenas ao dataset utilizado e não à variável-alvo; na fase posterior de compressão, o modelo tenta esquecer o máximo possível sobre os dados de entrada enquanto mantém a informação sobre o alvo, reduzindo a quantidade de informação no modelo. pontos fortes e fracos e de oportunidade em ibt Partindo do princípio do gargalo de Teoria da Informação demonstramos a coesão interna desta narrativa alternativa (Capítulo 8), e mostramos o embasamento teórico de práticas em Aprendizagem Profunda, como o uso de Entropia Cruzada como função custo na otimização de modelos; e seus fenômenos, como a generalização de modelos superparametrizados e períodos críticos de aprendizado [ARS17](Capítulo 9). A Information Bottleneck Teory (IBT), entretanto, está longe de ser um desenvolvimento teórico completo. Falta de rigor, definição e objetivos claros em alguns dos seus artigos científicos primeiros deram razão ao ceticismo e até discrédito em que a teoria passou a ser vista. O trabalho de Achille e Soatto (Capítulos 8 e 9) foi menos ambicioso em suas alegações e mais rigoroso, resolvendo alguns dos problemas da apresentação inicial da teoria, mas não se propõe a ser completo. A presente dissertação também presta a esse papel de dar um pouco mais de rigor e clareza aos princípios assumidos, mas há ainda muito o que se desenvolver: Formulação PAC: seria possível criar uma formulação PAC que dependa apenas de β, uma vez que esse parâmetro representa um único limite (є, δ). Novas estratégias de otimização: se o treinamento tem duas fases como preconiza Information Bottleneck Teory (IBT), isso nos permite usar estratégias de otimização diferenciadas para cada uma. Transferência de Aprendizado: se, em Information Bottleneck Teory (IBT), complexidade depende apenas da compressibilidade do dataset e de um nível desejado de performance e generalização (β), podemos analisar a complexidade de datasets e montar uma topologia de tarefas com a predição da similariedade (distância) entre datasets e relacionar tais resultados teóricos com resultados empíricos como os obtidos por Zamir et al. [Zam+18]. Processos ergódicos: os princípios de teoria da informação não requerem amostragem independentes e identicamente distribuídas, mas apenas que sejam processos ergódicos. Conexão com mecânica estatística: a área de Mecânica Estatística já se desenvolve em Física há mais de um século. A conexão de aprendizado de máquina com teoria da informação permite a exploração de resultados nessa área de Física (como fizeram [CS18; Cha+19a]). Em resumo, a presente dissertação foi capaz de estabelecer que Information Bottleneck Teory (IBT) está longe de ser uma teoria rigorosa e completa, mas que é uma interessante teoria emergente que apresenta ainda muitas oportunidades de pesquisa e merece atenção.Fundação de Apoio à Pesquisa do Distrito Federal (FAP/DF).In the last decade, we have witnessed a myriad of astonishing successes in Deep Learning. Despite those many successes, we may again be climbing a peak of in ated expectations. In the past, the false solution was to “add computation power on problems”, today we try “piling data”. Such behaviour has triggered a winner-takes-all rush for data among a handful of large corporations, raising concerns about privacy and concentration of power. It is a known fact, however, that learning from way fewer samples is possible: humans show a much better generalisation ability than the current state of the art arti cial intelligence. To achieve such a feat, a better understanding of how generalisation works is needed, in particular in deep neural networks. However, the practice of modern machine learning has outpaced its theoretical development. In particular, “traditional measures of model complexity struggle to explain the generalization ability of large arti cial neural networks” [Zha+16]. ¿ere is yet no established new general theory of learning which handles this pseudo-paradox. In 2015, Na ali Tishby and Noga Zaslavsky published a seminal theory of learning based on the information-theoretical concept of the bottleneck principle with the potential of lling this gap. ¿is dissertation aims to investigate the e orts using the information bottleneck principle to explain the generalisation capabilities of deep neural networks, consolidate them into a comprehensive digest and analyse its relation to current machine learning theory.Instituto de Ciências Exatas (IE)Departamento de Ciência da Computação (IE CIC)Programa de Pós-Graduação em InformáticaCampos, Teófilo Emídio defredguth@fredguth.comGuth, Frederico2022-05-18T22:37:13Z2022-05-18T22:37:13Z2022-05-182022-01-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfGUTH, Frederico. The emergence of an information bottleneck teory of deep learning. 2022. xxv, 179 f., il. Dissertação (Mestrado em Informática) — Universidade de Brasília, Brasília, 2022.https://repositorio.unb.br/handle/10482/43742A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2024-09-02T11:26:31Zoai:repositorio.unb.br:10482/43742Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2024-09-02T11:26:31Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv The emergence of an information bottleneck teory of deep learning
title The emergence of an information bottleneck teory of deep learning
spellingShingle The emergence of an information bottleneck teory of deep learning
Guth, Frederico
Aprendizagem profunda
Inteligência artificial
title_short The emergence of an information bottleneck teory of deep learning
title_full The emergence of an information bottleneck teory of deep learning
title_fullStr The emergence of an information bottleneck teory of deep learning
title_full_unstemmed The emergence of an information bottleneck teory of deep learning
title_sort The emergence of an information bottleneck teory of deep learning
author Guth, Frederico
author_facet Guth, Frederico
author_role author
dc.contributor.none.fl_str_mv Campos, Teófilo Emídio de
fredguth@fredguth.com
dc.contributor.author.fl_str_mv Guth, Frederico
dc.subject.por.fl_str_mv Aprendizagem profunda
Inteligência artificial
topic Aprendizagem profunda
Inteligência artificial
description Dissertação (Mestrado em Informática) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Brasília, 2022.
publishDate 2022
dc.date.none.fl_str_mv 2022-05-18T22:37:13Z
2022-05-18T22:37:13Z
2022-05-18
2022-01-20
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv GUTH, Frederico. The emergence of an information bottleneck teory of deep learning. 2022. xxv, 179 f., il. Dissertação (Mestrado em Informática) — Universidade de Brasília, Brasília, 2022.
https://repositorio.unb.br/handle/10482/43742
identifier_str_mv GUTH, Frederico. The emergence of an information bottleneck teory of deep learning. 2022. xxv, 179 f., il. Dissertação (Mestrado em Informática) — Universidade de Brasília, Brasília, 2022.
url https://repositorio.unb.br/handle/10482/43742
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Repositório Institucional da UnB
collection Repositório Institucional da UnB
repository.name.fl_str_mv Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv repositorio@unb.br
_version_ 1814508348481994752