Análise de componentes principais em data warehouses
Autor(a) principal: | |
---|---|
Data de Publicação: | 2017 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | http://www.teses.usp.br/teses/disponiveis/45/45134/tde-07012018-182730/ |
Resumo: | A técnica de Análise de Componentes Principais (PCA) tem como objetivo principal a descrição da variância e covariância entre um conjunto de variáveis. Essa técnica é utilizada para mitigar redundâncias no conjunto de variáveis e para redução de dimensionalidade em várias aplicações nas áreas científica, tecnológica e administrativa. Por outro lado, o modelo de dados multidimensionais é composto por relações de fato e dimensões (tabelas) que descrevem um evento usando métricas e a relação entre suas dimensões. No entanto, o volume de dados armazenados e a complexidade de suas dimensões geralmente envolvidas neste modelo, especialmente no ambiente de data warehouse, tornam a tarefa de interpretar a correlação entre dimensões muito difícil e às vezes impraticável. Neste trabalho, propomos o desenvolvimento de uma Interface de Programação de Aplicação (API) para a aplicação da PCA no modelo de dados multidimensionais para facilitar a tarefa de caracterização e redução de dimensionalidade, integrando essa técnica com ambientes de Data Warehouses. Para verificar a eficácia desta API, um estudo de caso foi realizado utilizando dados de produção científica e suas citações obtidas das Plataformas Lattes, Web of Science, Google Scholar e Scopus, fornecidas pela Superintendência de Tecnologia da Informação da Universidade de São Paulo. |
id |
USP_a88f3b4eacb950af9f9caf71531bdeea |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-07012018-182730 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Análise de componentes principais em data warehousesPrincipal components analysis in data warehousesAnálise bibliométricaBibliometric analysisData warehouseData warehouseModelo multidimensionalMultidimensional modelPCAPCAA técnica de Análise de Componentes Principais (PCA) tem como objetivo principal a descrição da variância e covariância entre um conjunto de variáveis. Essa técnica é utilizada para mitigar redundâncias no conjunto de variáveis e para redução de dimensionalidade em várias aplicações nas áreas científica, tecnológica e administrativa. Por outro lado, o modelo de dados multidimensionais é composto por relações de fato e dimensões (tabelas) que descrevem um evento usando métricas e a relação entre suas dimensões. No entanto, o volume de dados armazenados e a complexidade de suas dimensões geralmente envolvidas neste modelo, especialmente no ambiente de data warehouse, tornam a tarefa de interpretar a correlação entre dimensões muito difícil e às vezes impraticável. Neste trabalho, propomos o desenvolvimento de uma Interface de Programação de Aplicação (API) para a aplicação da PCA no modelo de dados multidimensionais para facilitar a tarefa de caracterização e redução de dimensionalidade, integrando essa técnica com ambientes de Data Warehouses. Para verificar a eficácia desta API, um estudo de caso foi realizado utilizando dados de produção científica e suas citações obtidas das Plataformas Lattes, Web of Science, Google Scholar e Scopus, fornecidas pela Superintendência de Tecnologia da Informação da Universidade de São Paulo.The Principal Component Analysis (PCA) technique has as the main goal the description of the variance and covariance between a set of variables. This technique is used to mitigate redundancies in the set of variables and as a mean of achieving dimensional reduction in various applications in the scientific, technological and administrative areas. On the other hand, the multidimensional data model is composed by fact and dimension relations (tables) that describe an event using metrics and the relationship between their dimensions. However, the volume of data stored and the complexity of their dimensions usually involved in this model, specially in data warehouse environment, makes the correlation analyses between dimensions very difficult and sometimes impracticable. In this work, we propose the development of an Application Programming Interface (API) for the application of PCA on multidimensional data model in order to facilitate the characterization task and dimension reduction, integrating the technique with Data Warehouses environments. For verifying the effectiveness of this API, a case study was carried out using the scientific production data obtained from the Lattes Platform, the Web of Science, Google Scholar and Scopus, provided by the IT Superintendence at University of São Paulo.Biblioteca Digitais de Teses e Dissertações da USPFerreira, João EduardoRossi, Rafael Germano2017-11-07info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/45/45134/tde-07012018-182730/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2018-07-19T20:50:39Zoai:teses.usp.br:tde-07012018-182730Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212018-07-19T20:50:39Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Análise de componentes principais em data warehouses Principal components analysis in data warehouses |
title |
Análise de componentes principais em data warehouses |
spellingShingle |
Análise de componentes principais em data warehouses Rossi, Rafael Germano Análise bibliométrica Bibliometric analysis Data warehouse Data warehouse Modelo multidimensional Multidimensional model PCA PCA |
title_short |
Análise de componentes principais em data warehouses |
title_full |
Análise de componentes principais em data warehouses |
title_fullStr |
Análise de componentes principais em data warehouses |
title_full_unstemmed |
Análise de componentes principais em data warehouses |
title_sort |
Análise de componentes principais em data warehouses |
author |
Rossi, Rafael Germano |
author_facet |
Rossi, Rafael Germano |
author_role |
author |
dc.contributor.none.fl_str_mv |
Ferreira, João Eduardo |
dc.contributor.author.fl_str_mv |
Rossi, Rafael Germano |
dc.subject.por.fl_str_mv |
Análise bibliométrica Bibliometric analysis Data warehouse Data warehouse Modelo multidimensional Multidimensional model PCA PCA |
topic |
Análise bibliométrica Bibliometric analysis Data warehouse Data warehouse Modelo multidimensional Multidimensional model PCA PCA |
description |
A técnica de Análise de Componentes Principais (PCA) tem como objetivo principal a descrição da variância e covariância entre um conjunto de variáveis. Essa técnica é utilizada para mitigar redundâncias no conjunto de variáveis e para redução de dimensionalidade em várias aplicações nas áreas científica, tecnológica e administrativa. Por outro lado, o modelo de dados multidimensionais é composto por relações de fato e dimensões (tabelas) que descrevem um evento usando métricas e a relação entre suas dimensões. No entanto, o volume de dados armazenados e a complexidade de suas dimensões geralmente envolvidas neste modelo, especialmente no ambiente de data warehouse, tornam a tarefa de interpretar a correlação entre dimensões muito difícil e às vezes impraticável. Neste trabalho, propomos o desenvolvimento de uma Interface de Programação de Aplicação (API) para a aplicação da PCA no modelo de dados multidimensionais para facilitar a tarefa de caracterização e redução de dimensionalidade, integrando essa técnica com ambientes de Data Warehouses. Para verificar a eficácia desta API, um estudo de caso foi realizado utilizando dados de produção científica e suas citações obtidas das Plataformas Lattes, Web of Science, Google Scholar e Scopus, fornecidas pela Superintendência de Tecnologia da Informação da Universidade de São Paulo. |
publishDate |
2017 |
dc.date.none.fl_str_mv |
2017-11-07 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://www.teses.usp.br/teses/disponiveis/45/45134/tde-07012018-182730/ |
url |
http://www.teses.usp.br/teses/disponiveis/45/45134/tde-07012018-182730/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256737561706496 |