Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data

Silva, Ana Maria Rodrigues da

Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data

Detalhes bibliográficos
Autor(a) principal:	Silva, Ana Maria Rodrigues da
Data de Publicação:	2021
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10773/34198
Resumo:	Nos últimos dois anos, foram gerados 90% dos dados existentes atualmente, com 2:5 1018 bytes de informação gerada diariamente. No futuro, o previsível aumento substancial da quantidade de informação implicará o surgimento de mais problemas relacionados com a dimensão dos dados. Apesar deste crescimento acentuado na quantidade de informação ser vantajoso, existem muitos desafios que ainda são necessários ultrapassar, tais como, por exemplo: como guardar, partilhar e proteger os dados? Como obter, de forma eficiente, a informação relevante contida nestes grandes volumes de dados? Os métodos tradicionais de processamento de dados não conseguem gerir e fornecer uma análise adequada da informação para um problema de big data. Para além disto, os conjuntos de dados podem apresentar características indesejadas em tratamento estatístico, como dados não homogéneos, presença de colinearidade nos dados ou outras dificuldades da análise estatística, resultando em observações afetadas por ruído. Metodologias de agregação e a abordagem de info-metrics pretendem resolver, de uma forma mais eficiente e precisa, alguns destes problemas. Neste trabalho, são simuladas diferentes matrizes de variáveis explicativas, com diferentes números de condição, e gerados vetores de perturbações aleatórias, modelados por diferentes distribuições estatísticas. Deste modo, são obtidos conjuntos de dados com diversas características distintas. Posteriormente, são efetuadas amostragens aleatórias, com diferente número de grupos e diferente número de observações por grupo, e calculadas as estimativas dos coeficientes de regressão para cada um dos grupos obtidos. Foram utilizados os seguintes estimadores: o usual OLS, o estimador GME, e uma extensão deste, o W-GME. Por último, estes vetores de estimativas são agregados segundo um determinado critério, nomeadamente com a implementação de um dos três procedimentos: bagging; mais indicado para dados homogéneos, magging, mais vocacionado para dados não homogéneos; e uma nova metodologia, neagging, baseada no conteúdo de informação de cada grupo. O objetivo deste trabalho foi estudar o desempenho destas metodologias em modelos de regressão linear, aplicando diferentes estimadores e estudando a variação de alguns dos parâmetros intrínsecos aos métodos. Os resultados mostram que os estimadores influenciam o desempenho dos métodos de agregação e que o procedimento magging, recorrendo ao estimador W-GME, fornece os melhores resultados para a generalidade dos cenários, principalmente nos que são afetados por colinearidade.

Metadados do item

id	RCAP_72104018afcec10540eaa4929e123efa
oai_identifier_str	oai:ria.ua.pt:10773/34198
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big dataInfo-metricsBig dataRegressão linearColinearidadeDados não homogéneosEntropiaMáxima entropiaEntropia normalizadaMínimos quadrados ordináriosMáxima entropia generalizadaMáxima entropia generalizada ponderadaBaggingMaggingNeaggingNos últimos dois anos, foram gerados 90% dos dados existentes atualmente, com 2:5 1018 bytes de informação gerada diariamente. No futuro, o previsível aumento substancial da quantidade de informação implicará o surgimento de mais problemas relacionados com a dimensão dos dados. Apesar deste crescimento acentuado na quantidade de informação ser vantajoso, existem muitos desafios que ainda são necessários ultrapassar, tais como, por exemplo: como guardar, partilhar e proteger os dados? Como obter, de forma eficiente, a informação relevante contida nestes grandes volumes de dados? Os métodos tradicionais de processamento de dados não conseguem gerir e fornecer uma análise adequada da informação para um problema de big data. Para além disto, os conjuntos de dados podem apresentar características indesejadas em tratamento estatístico, como dados não homogéneos, presença de colinearidade nos dados ou outras dificuldades da análise estatística, resultando em observações afetadas por ruído. Metodologias de agregação e a abordagem de info-metrics pretendem resolver, de uma forma mais eficiente e precisa, alguns destes problemas. Neste trabalho, são simuladas diferentes matrizes de variáveis explicativas, com diferentes números de condição, e gerados vetores de perturbações aleatórias, modelados por diferentes distribuições estatísticas. Deste modo, são obtidos conjuntos de dados com diversas características distintas. Posteriormente, são efetuadas amostragens aleatórias, com diferente número de grupos e diferente número de observações por grupo, e calculadas as estimativas dos coeficientes de regressão para cada um dos grupos obtidos. Foram utilizados os seguintes estimadores: o usual OLS, o estimador GME, e uma extensão deste, o W-GME. Por último, estes vetores de estimativas são agregados segundo um determinado critério, nomeadamente com a implementação de um dos três procedimentos: bagging; mais indicado para dados homogéneos, magging, mais vocacionado para dados não homogéneos; e uma nova metodologia, neagging, baseada no conteúdo de informação de cada grupo. O objetivo deste trabalho foi estudar o desempenho destas metodologias em modelos de regressão linear, aplicando diferentes estimadores e estudando a variação de alguns dos parâmetros intrínsecos aos métodos. Os resultados mostram que os estimadores influenciam o desempenho dos métodos de agregação e que o procedimento magging, recorrendo ao estimador W-GME, fornece os melhores resultados para a generalidade dos cenários, principalmente nos que são afetados por colinearidade.Over the past two years, 90% of the current total data was generated, with more than 2:5 1018 bytes of information generated daily. In the future, this growth in information volume will increase, meaning that more problems related with data dimension will arise. Although an increase in information volume could be advantageous, there is a need to overcome the many challenges associated, such as saving, sharing, and protecting the data, as well as extracting relevant information from larger volumes of data. A proper analysis of the results in the context of a big data problem cannot be fully fulfilled by the traditional methods of data processing. Moreover, the datasets can present undesirable characteristics, such as inhomogeneous data, the presence of collinearity in the data and other difficulties in statistical analysis, resulting in observations affected by noise. Aggregation methodologies and the info-metrics approach look forward to solve some of these problems in a more efficient and precise way. Different matrices of explanatory variables with different condition numbers and random perturbations vectors, modelled by distinct distributions, were simulated in this work. As follows, datasets with diverse characteristics were obtained. Then, random samplings varying the number of groups and the number of observations per group were performed, and the estimatives of the regression coefficients were calculated for each of the obtained groups. The estimators considered were the usual OLS, the GME estimator, and its extension, the W-GME. Finnaly, the aggregation of these estimated vectors was achieved by implementing one of the following procedures: bagging, most indicated in homogeneous data; magging, aimed towards inhomogeneous data; and a new methodology called neagging, based on the information content of each group. The objective of this work was to study the performance of these methodologies in linear regression models, applying different estimators and studying the methods, considering the variation of some of their intrinsic parameters. The obtained results showed that the estimators influence the performance of the aggregation methods and that the magging procedure, using the W-GME estimator, usually provides the best results in most of the scenarios, mainly in the ones affected by collinearity.2022-07-19T09:49:53Z2021-12-13T00:00:00Z2021-12-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10773/34198porSilva, Ana Maria Rodrigues dainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-02-22T12:05:53Zoai:ria.ua.pt:10773/34198Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:05:31.343106Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data
title	Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data
spellingShingle	Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data Silva, Ana Maria Rodrigues da Info-metrics Big data Regressão linear Colinearidade Dados não homogéneos Entropia Máxima entropia Entropia normalizada Mínimos quadrados ordinários Máxima entropia generalizada Máxima entropia generalizada ponderada Bagging Magging Neagging
title_short	Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data
title_full	Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data
title_fullStr	Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data
title_full_unstemmed	Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data
title_sort	Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data
author	Silva, Ana Maria Rodrigues da
author_facet	Silva, Ana Maria Rodrigues da
author_role	author
dc.contributor.author.fl_str_mv	Silva, Ana Maria Rodrigues da
dc.subject.por.fl_str_mv	Info-metrics Big data Regressão linear Colinearidade Dados não homogéneos Entropia Máxima entropia Entropia normalizada Mínimos quadrados ordinários Máxima entropia generalizada Máxima entropia generalizada ponderada Bagging Magging Neagging
topic	Info-metrics Big data Regressão linear Colinearidade Dados não homogéneos Entropia Máxima entropia Entropia normalizada Mínimos quadrados ordinários Máxima entropia generalizada Máxima entropia generalizada ponderada Bagging Magging Neagging
description	Nos últimos dois anos, foram gerados 90% dos dados existentes atualmente, com 2:5 1018 bytes de informação gerada diariamente. No futuro, o previsível aumento substancial da quantidade de informação implicará o surgimento de mais problemas relacionados com a dimensão dos dados. Apesar deste crescimento acentuado na quantidade de informação ser vantajoso, existem muitos desafios que ainda são necessários ultrapassar, tais como, por exemplo: como guardar, partilhar e proteger os dados? Como obter, de forma eficiente, a informação relevante contida nestes grandes volumes de dados? Os métodos tradicionais de processamento de dados não conseguem gerir e fornecer uma análise adequada da informação para um problema de big data. Para além disto, os conjuntos de dados podem apresentar características indesejadas em tratamento estatístico, como dados não homogéneos, presença de colinearidade nos dados ou outras dificuldades da análise estatística, resultando em observações afetadas por ruído. Metodologias de agregação e a abordagem de info-metrics pretendem resolver, de uma forma mais eficiente e precisa, alguns destes problemas. Neste trabalho, são simuladas diferentes matrizes de variáveis explicativas, com diferentes números de condição, e gerados vetores de perturbações aleatórias, modelados por diferentes distribuições estatísticas. Deste modo, são obtidos conjuntos de dados com diversas características distintas. Posteriormente, são efetuadas amostragens aleatórias, com diferente número de grupos e diferente número de observações por grupo, e calculadas as estimativas dos coeficientes de regressão para cada um dos grupos obtidos. Foram utilizados os seguintes estimadores: o usual OLS, o estimador GME, e uma extensão deste, o W-GME. Por último, estes vetores de estimativas são agregados segundo um determinado critério, nomeadamente com a implementação de um dos três procedimentos: bagging; mais indicado para dados homogéneos, magging, mais vocacionado para dados não homogéneos; e uma nova metodologia, neagging, baseada no conteúdo de informação de cada grupo. O objetivo deste trabalho foi estudar o desempenho destas metodologias em modelos de regressão linear, aplicando diferentes estimadores e estudando a variação de alguns dos parâmetros intrínsecos aos métodos. Os resultados mostram que os estimadores influenciam o desempenho dos métodos de agregação e que o procedimento magging, recorrendo ao estimador W-GME, fornece os melhores resultados para a generalidade dos cenários, principalmente nos que são afetados por colinearidade.
publishDate	2021
dc.date.none.fl_str_mv	2021-12-13T00:00:00Z 2021-12-13 2022-07-19T09:49:53Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10773/34198
url	http://hdl.handle.net/10773/34198
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799137710210809856

Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data

Registros relacionados