Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data

Detalhes bibliográficos
Autor(a) principal: Silva, Ana Maria Rodrigues da
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10773/34198
Resumo: Nos últimos dois anos, foram gerados 90% dos dados existentes atualmente, com 2:5 1018 bytes de informação gerada diariamente. No futuro, o previsível aumento substancial da quantidade de informação implicará o surgimento de mais problemas relacionados com a dimensão dos dados. Apesar deste crescimento acentuado na quantidade de informação ser vantajoso, existem muitos desafios que ainda são necessários ultrapassar, tais como, por exemplo: como guardar, partilhar e proteger os dados? Como obter, de forma eficiente, a informação relevante contida nestes grandes volumes de dados? Os métodos tradicionais de processamento de dados não conseguem gerir e fornecer uma análise adequada da informação para um problema de big data. Para além disto, os conjuntos de dados podem apresentar características indesejadas em tratamento estatístico, como dados não homogéneos, presença de colinearidade nos dados ou outras dificuldades da análise estatística, resultando em observações afetadas por ruído. Metodologias de agregação e a abordagem de info-metrics pretendem resolver, de uma forma mais eficiente e precisa, alguns destes problemas. Neste trabalho, são simuladas diferentes matrizes de variáveis explicativas, com diferentes números de condição, e gerados vetores de perturbações aleatórias, modelados por diferentes distribuições estatísticas. Deste modo, são obtidos conjuntos de dados com diversas características distintas. Posteriormente, são efetuadas amostragens aleatórias, com diferente número de grupos e diferente número de observações por grupo, e calculadas as estimativas dos coeficientes de regressão para cada um dos grupos obtidos. Foram utilizados os seguintes estimadores: o usual OLS, o estimador GME, e uma extensão deste, o W-GME. Por último, estes vetores de estimativas são agregados segundo um determinado critério, nomeadamente com a implementação de um dos três procedimentos: bagging; mais indicado para dados homogéneos, magging, mais vocacionado para dados não homogéneos; e uma nova metodologia, neagging, baseada no conteúdo de informação de cada grupo. O objetivo deste trabalho foi estudar o desempenho destas metodologias em modelos de regressão linear, aplicando diferentes estimadores e estudando a variação de alguns dos parâmetros intrínsecos aos métodos. Os resultados mostram que os estimadores influenciam o desempenho dos métodos de agregação e que o procedimento magging, recorrendo ao estimador W-GME, fornece os melhores resultados para a generalidade dos cenários, principalmente nos que são afetados por colinearidade.
id RCAP_72104018afcec10540eaa4929e123efa
oai_identifier_str oai:ria.ua.pt:10773/34198
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big dataInfo-metricsBig dataRegressão linearColinearidadeDados não homogéneosEntropiaMáxima entropiaEntropia normalizadaMínimos quadrados ordináriosMáxima entropia generalizadaMáxima entropia generalizada ponderadaBaggingMaggingNeaggingNos últimos dois anos, foram gerados 90% dos dados existentes atualmente, com 2:5 1018 bytes de informação gerada diariamente. No futuro, o previsível aumento substancial da quantidade de informação implicará o surgimento de mais problemas relacionados com a dimensão dos dados. Apesar deste crescimento acentuado na quantidade de informação ser vantajoso, existem muitos desafios que ainda são necessários ultrapassar, tais como, por exemplo: como guardar, partilhar e proteger os dados? Como obter, de forma eficiente, a informação relevante contida nestes grandes volumes de dados? Os métodos tradicionais de processamento de dados não conseguem gerir e fornecer uma análise adequada da informação para um problema de big data. Para além disto, os conjuntos de dados podem apresentar características indesejadas em tratamento estatístico, como dados não homogéneos, presença de colinearidade nos dados ou outras dificuldades da análise estatística, resultando em observações afetadas por ruído. Metodologias de agregação e a abordagem de info-metrics pretendem resolver, de uma forma mais eficiente e precisa, alguns destes problemas. Neste trabalho, são simuladas diferentes matrizes de variáveis explicativas, com diferentes números de condição, e gerados vetores de perturbações aleatórias, modelados por diferentes distribuições estatísticas. Deste modo, são obtidos conjuntos de dados com diversas características distintas. Posteriormente, são efetuadas amostragens aleatórias, com diferente número de grupos e diferente número de observações por grupo, e calculadas as estimativas dos coeficientes de regressão para cada um dos grupos obtidos. Foram utilizados os seguintes estimadores: o usual OLS, o estimador GME, e uma extensão deste, o W-GME. Por último, estes vetores de estimativas são agregados segundo um determinado critério, nomeadamente com a implementação de um dos três procedimentos: bagging; mais indicado para dados homogéneos, magging, mais vocacionado para dados não homogéneos; e uma nova metodologia, neagging, baseada no conteúdo de informação de cada grupo. O objetivo deste trabalho foi estudar o desempenho destas metodologias em modelos de regressão linear, aplicando diferentes estimadores e estudando a variação de alguns dos parâmetros intrínsecos aos métodos. Os resultados mostram que os estimadores influenciam o desempenho dos métodos de agregação e que o procedimento magging, recorrendo ao estimador W-GME, fornece os melhores resultados para a generalidade dos cenários, principalmente nos que são afetados por colinearidade.Over the past two years, 90% of the current total data was generated, with more than 2:5 1018 bytes of information generated daily. In the future, this growth in information volume will increase, meaning that more problems related with data dimension will arise. Although an increase in information volume could be advantageous, there is a need to overcome the many challenges associated, such as saving, sharing, and protecting the data, as well as extracting relevant information from larger volumes of data. A proper analysis of the results in the context of a big data problem cannot be fully fulfilled by the traditional methods of data processing. Moreover, the datasets can present undesirable characteristics, such as inhomogeneous data, the presence of collinearity in the data and other difficulties in statistical analysis, resulting in observations affected by noise. Aggregation methodologies and the info-metrics approach look forward to solve some of these problems in a more efficient and precise way. Different matrices of explanatory variables with different condition numbers and random perturbations vectors, modelled by distinct distributions, were simulated in this work. As follows, datasets with diverse characteristics were obtained. Then, random samplings varying the number of groups and the number of observations per group were performed, and the estimatives of the regression coefficients were calculated for each of the obtained groups. The estimators considered were the usual OLS, the GME estimator, and its extension, the W-GME. Finnaly, the aggregation of these estimated vectors was achieved by implementing one of the following procedures: bagging, most indicated in homogeneous data; magging, aimed towards inhomogeneous data; and a new methodology called neagging, based on the information content of each group. The objective of this work was to study the performance of these methodologies in linear regression models, applying different estimators and studying the methods, considering the variation of some of their intrinsic parameters. The obtained results showed that the estimators influence the performance of the aggregation methods and that the magging procedure, using the W-GME estimator, usually provides the best results in most of the scenarios, mainly in the ones affected by collinearity.2022-07-19T09:49:53Z2021-12-13T00:00:00Z2021-12-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10773/34198porSilva, Ana Maria Rodrigues dainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-02-22T12:05:53Zoai:ria.ua.pt:10773/34198Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:05:31.343106Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data
title Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data
spellingShingle Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data
Silva, Ana Maria Rodrigues da
Info-metrics
Big data
Regressão linear
Colinearidade
Dados não homogéneos
Entropia
Máxima entropia
Entropia normalizada
Mínimos quadrados ordinários
Máxima entropia generalizada
Máxima entropia generalizada ponderada
Bagging
Magging
Neagging
title_short Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data
title_full Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data
title_fullStr Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data
title_full_unstemmed Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data
title_sort Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data
author Silva, Ana Maria Rodrigues da
author_facet Silva, Ana Maria Rodrigues da
author_role author
dc.contributor.author.fl_str_mv Silva, Ana Maria Rodrigues da
dc.subject.por.fl_str_mv Info-metrics
Big data
Regressão linear
Colinearidade
Dados não homogéneos
Entropia
Máxima entropia
Entropia normalizada
Mínimos quadrados ordinários
Máxima entropia generalizada
Máxima entropia generalizada ponderada
Bagging
Magging
Neagging
topic Info-metrics
Big data
Regressão linear
Colinearidade
Dados não homogéneos
Entropia
Máxima entropia
Entropia normalizada
Mínimos quadrados ordinários
Máxima entropia generalizada
Máxima entropia generalizada ponderada
Bagging
Magging
Neagging
description Nos últimos dois anos, foram gerados 90% dos dados existentes atualmente, com 2:5 1018 bytes de informação gerada diariamente. No futuro, o previsível aumento substancial da quantidade de informação implicará o surgimento de mais problemas relacionados com a dimensão dos dados. Apesar deste crescimento acentuado na quantidade de informação ser vantajoso, existem muitos desafios que ainda são necessários ultrapassar, tais como, por exemplo: como guardar, partilhar e proteger os dados? Como obter, de forma eficiente, a informação relevante contida nestes grandes volumes de dados? Os métodos tradicionais de processamento de dados não conseguem gerir e fornecer uma análise adequada da informação para um problema de big data. Para além disto, os conjuntos de dados podem apresentar características indesejadas em tratamento estatístico, como dados não homogéneos, presença de colinearidade nos dados ou outras dificuldades da análise estatística, resultando em observações afetadas por ruído. Metodologias de agregação e a abordagem de info-metrics pretendem resolver, de uma forma mais eficiente e precisa, alguns destes problemas. Neste trabalho, são simuladas diferentes matrizes de variáveis explicativas, com diferentes números de condição, e gerados vetores de perturbações aleatórias, modelados por diferentes distribuições estatísticas. Deste modo, são obtidos conjuntos de dados com diversas características distintas. Posteriormente, são efetuadas amostragens aleatórias, com diferente número de grupos e diferente número de observações por grupo, e calculadas as estimativas dos coeficientes de regressão para cada um dos grupos obtidos. Foram utilizados os seguintes estimadores: o usual OLS, o estimador GME, e uma extensão deste, o W-GME. Por último, estes vetores de estimativas são agregados segundo um determinado critério, nomeadamente com a implementação de um dos três procedimentos: bagging; mais indicado para dados homogéneos, magging, mais vocacionado para dados não homogéneos; e uma nova metodologia, neagging, baseada no conteúdo de informação de cada grupo. O objetivo deste trabalho foi estudar o desempenho destas metodologias em modelos de regressão linear, aplicando diferentes estimadores e estudando a variação de alguns dos parâmetros intrínsecos aos métodos. Os resultados mostram que os estimadores influenciam o desempenho dos métodos de agregação e que o procedimento magging, recorrendo ao estimador W-GME, fornece os melhores resultados para a generalidade dos cenários, principalmente nos que são afetados por colinearidade.
publishDate 2021
dc.date.none.fl_str_mv 2021-12-13T00:00:00Z
2021-12-13
2022-07-19T09:49:53Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10773/34198
url http://hdl.handle.net/10773/34198
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799137710210809856