Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10773/34198 |
Resumo: | Nos últimos dois anos, foram gerados 90% dos dados existentes atualmente, com 2:5 1018 bytes de informação gerada diariamente. No futuro, o previsível aumento substancial da quantidade de informação implicará o surgimento de mais problemas relacionados com a dimensão dos dados. Apesar deste crescimento acentuado na quantidade de informação ser vantajoso, existem muitos desafios que ainda são necessários ultrapassar, tais como, por exemplo: como guardar, partilhar e proteger os dados? Como obter, de forma eficiente, a informação relevante contida nestes grandes volumes de dados? Os métodos tradicionais de processamento de dados não conseguem gerir e fornecer uma análise adequada da informação para um problema de big data. Para além disto, os conjuntos de dados podem apresentar características indesejadas em tratamento estatístico, como dados não homogéneos, presença de colinearidade nos dados ou outras dificuldades da análise estatística, resultando em observações afetadas por ruído. Metodologias de agregação e a abordagem de info-metrics pretendem resolver, de uma forma mais eficiente e precisa, alguns destes problemas. Neste trabalho, são simuladas diferentes matrizes de variáveis explicativas, com diferentes números de condição, e gerados vetores de perturbações aleatórias, modelados por diferentes distribuições estatísticas. Deste modo, são obtidos conjuntos de dados com diversas características distintas. Posteriormente, são efetuadas amostragens aleatórias, com diferente número de grupos e diferente número de observações por grupo, e calculadas as estimativas dos coeficientes de regressão para cada um dos grupos obtidos. Foram utilizados os seguintes estimadores: o usual OLS, o estimador GME, e uma extensão deste, o W-GME. Por último, estes vetores de estimativas são agregados segundo um determinado critério, nomeadamente com a implementação de um dos três procedimentos: bagging; mais indicado para dados homogéneos, magging, mais vocacionado para dados não homogéneos; e uma nova metodologia, neagging, baseada no conteúdo de informação de cada grupo. O objetivo deste trabalho foi estudar o desempenho destas metodologias em modelos de regressão linear, aplicando diferentes estimadores e estudando a variação de alguns dos parâmetros intrínsecos aos métodos. Os resultados mostram que os estimadores influenciam o desempenho dos métodos de agregação e que o procedimento magging, recorrendo ao estimador W-GME, fornece os melhores resultados para a generalidade dos cenários, principalmente nos que são afetados por colinearidade. |
id |
RCAP_72104018afcec10540eaa4929e123efa |
---|---|
oai_identifier_str |
oai:ria.ua.pt:10773/34198 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big dataInfo-metricsBig dataRegressão linearColinearidadeDados não homogéneosEntropiaMáxima entropiaEntropia normalizadaMínimos quadrados ordináriosMáxima entropia generalizadaMáxima entropia generalizada ponderadaBaggingMaggingNeaggingNos últimos dois anos, foram gerados 90% dos dados existentes atualmente, com 2:5 1018 bytes de informação gerada diariamente. No futuro, o previsível aumento substancial da quantidade de informação implicará o surgimento de mais problemas relacionados com a dimensão dos dados. Apesar deste crescimento acentuado na quantidade de informação ser vantajoso, existem muitos desafios que ainda são necessários ultrapassar, tais como, por exemplo: como guardar, partilhar e proteger os dados? Como obter, de forma eficiente, a informação relevante contida nestes grandes volumes de dados? Os métodos tradicionais de processamento de dados não conseguem gerir e fornecer uma análise adequada da informação para um problema de big data. Para além disto, os conjuntos de dados podem apresentar características indesejadas em tratamento estatístico, como dados não homogéneos, presença de colinearidade nos dados ou outras dificuldades da análise estatística, resultando em observações afetadas por ruído. Metodologias de agregação e a abordagem de info-metrics pretendem resolver, de uma forma mais eficiente e precisa, alguns destes problemas. Neste trabalho, são simuladas diferentes matrizes de variáveis explicativas, com diferentes números de condição, e gerados vetores de perturbações aleatórias, modelados por diferentes distribuições estatísticas. Deste modo, são obtidos conjuntos de dados com diversas características distintas. Posteriormente, são efetuadas amostragens aleatórias, com diferente número de grupos e diferente número de observações por grupo, e calculadas as estimativas dos coeficientes de regressão para cada um dos grupos obtidos. Foram utilizados os seguintes estimadores: o usual OLS, o estimador GME, e uma extensão deste, o W-GME. Por último, estes vetores de estimativas são agregados segundo um determinado critério, nomeadamente com a implementação de um dos três procedimentos: bagging; mais indicado para dados homogéneos, magging, mais vocacionado para dados não homogéneos; e uma nova metodologia, neagging, baseada no conteúdo de informação de cada grupo. O objetivo deste trabalho foi estudar o desempenho destas metodologias em modelos de regressão linear, aplicando diferentes estimadores e estudando a variação de alguns dos parâmetros intrínsecos aos métodos. Os resultados mostram que os estimadores influenciam o desempenho dos métodos de agregação e que o procedimento magging, recorrendo ao estimador W-GME, fornece os melhores resultados para a generalidade dos cenários, principalmente nos que são afetados por colinearidade.Over the past two years, 90% of the current total data was generated, with more than 2:5 1018 bytes of information generated daily. In the future, this growth in information volume will increase, meaning that more problems related with data dimension will arise. Although an increase in information volume could be advantageous, there is a need to overcome the many challenges associated, such as saving, sharing, and protecting the data, as well as extracting relevant information from larger volumes of data. A proper analysis of the results in the context of a big data problem cannot be fully fulfilled by the traditional methods of data processing. Moreover, the datasets can present undesirable characteristics, such as inhomogeneous data, the presence of collinearity in the data and other difficulties in statistical analysis, resulting in observations affected by noise. Aggregation methodologies and the info-metrics approach look forward to solve some of these problems in a more efficient and precise way. Different matrices of explanatory variables with different condition numbers and random perturbations vectors, modelled by distinct distributions, were simulated in this work. As follows, datasets with diverse characteristics were obtained. Then, random samplings varying the number of groups and the number of observations per group were performed, and the estimatives of the regression coefficients were calculated for each of the obtained groups. The estimators considered were the usual OLS, the GME estimator, and its extension, the W-GME. Finnaly, the aggregation of these estimated vectors was achieved by implementing one of the following procedures: bagging, most indicated in homogeneous data; magging, aimed towards inhomogeneous data; and a new methodology called neagging, based on the information content of each group. The objective of this work was to study the performance of these methodologies in linear regression models, applying different estimators and studying the methods, considering the variation of some of their intrinsic parameters. The obtained results showed that the estimators influence the performance of the aggregation methods and that the magging procedure, using the W-GME estimator, usually provides the best results in most of the scenarios, mainly in the ones affected by collinearity.2022-07-19T09:49:53Z2021-12-13T00:00:00Z2021-12-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10773/34198porSilva, Ana Maria Rodrigues dainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-02-22T12:05:53Zoai:ria.ua.pt:10773/34198Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:05:31.343106Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data |
title |
Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data |
spellingShingle |
Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data Silva, Ana Maria Rodrigues da Info-metrics Big data Regressão linear Colinearidade Dados não homogéneos Entropia Máxima entropia Entropia normalizada Mínimos quadrados ordinários Máxima entropia generalizada Máxima entropia generalizada ponderada Bagging Magging Neagging |
title_short |
Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data |
title_full |
Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data |
title_fullStr |
Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data |
title_full_unstemmed |
Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data |
title_sort |
Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data |
author |
Silva, Ana Maria Rodrigues da |
author_facet |
Silva, Ana Maria Rodrigues da |
author_role |
author |
dc.contributor.author.fl_str_mv |
Silva, Ana Maria Rodrigues da |
dc.subject.por.fl_str_mv |
Info-metrics Big data Regressão linear Colinearidade Dados não homogéneos Entropia Máxima entropia Entropia normalizada Mínimos quadrados ordinários Máxima entropia generalizada Máxima entropia generalizada ponderada Bagging Magging Neagging |
topic |
Info-metrics Big data Regressão linear Colinearidade Dados não homogéneos Entropia Máxima entropia Entropia normalizada Mínimos quadrados ordinários Máxima entropia generalizada Máxima entropia generalizada ponderada Bagging Magging Neagging |
description |
Nos últimos dois anos, foram gerados 90% dos dados existentes atualmente, com 2:5 1018 bytes de informação gerada diariamente. No futuro, o previsível aumento substancial da quantidade de informação implicará o surgimento de mais problemas relacionados com a dimensão dos dados. Apesar deste crescimento acentuado na quantidade de informação ser vantajoso, existem muitos desafios que ainda são necessários ultrapassar, tais como, por exemplo: como guardar, partilhar e proteger os dados? Como obter, de forma eficiente, a informação relevante contida nestes grandes volumes de dados? Os métodos tradicionais de processamento de dados não conseguem gerir e fornecer uma análise adequada da informação para um problema de big data. Para além disto, os conjuntos de dados podem apresentar características indesejadas em tratamento estatístico, como dados não homogéneos, presença de colinearidade nos dados ou outras dificuldades da análise estatística, resultando em observações afetadas por ruído. Metodologias de agregação e a abordagem de info-metrics pretendem resolver, de uma forma mais eficiente e precisa, alguns destes problemas. Neste trabalho, são simuladas diferentes matrizes de variáveis explicativas, com diferentes números de condição, e gerados vetores de perturbações aleatórias, modelados por diferentes distribuições estatísticas. Deste modo, são obtidos conjuntos de dados com diversas características distintas. Posteriormente, são efetuadas amostragens aleatórias, com diferente número de grupos e diferente número de observações por grupo, e calculadas as estimativas dos coeficientes de regressão para cada um dos grupos obtidos. Foram utilizados os seguintes estimadores: o usual OLS, o estimador GME, e uma extensão deste, o W-GME. Por último, estes vetores de estimativas são agregados segundo um determinado critério, nomeadamente com a implementação de um dos três procedimentos: bagging; mais indicado para dados homogéneos, magging, mais vocacionado para dados não homogéneos; e uma nova metodologia, neagging, baseada no conteúdo de informação de cada grupo. O objetivo deste trabalho foi estudar o desempenho destas metodologias em modelos de regressão linear, aplicando diferentes estimadores e estudando a variação de alguns dos parâmetros intrínsecos aos métodos. Os resultados mostram que os estimadores influenciam o desempenho dos métodos de agregação e que o procedimento magging, recorrendo ao estimador W-GME, fornece os melhores resultados para a generalidade dos cenários, principalmente nos que são afetados por colinearidade. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-12-13T00:00:00Z 2021-12-13 2022-07-19T09:49:53Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10773/34198 |
url |
http://hdl.handle.net/10773/34198 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799137710210809856 |