[en] ALUMNI TOOL: INFORMATION RECOVERY OF PERSONAL DATA ON THE WEB IN AUTHENTICATED SOCIAL NETWORKS

Detalhes bibliográficos
Autor(a) principal: LUIS GUSTAVO ALMEIDA
Data de Publicação: 2018
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da PUC-RIO (Projeto Maxwell)
Texto Completo: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=34643&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=34643&idi=2
http://doi.org/10.17771/PUCRio.acad.34643
Resumo: [pt] O uso de robôs de busca para coletar informações para um determinado contexto sempre foi um problema desafiante e tem crescido substancialmente nos últimos anos. Por exemplo, robôs de busca podem ser utilizados para capturar dados de redes sociais profissionais. Em particular, tais redes permitem estudar as trajetórias profissionais dos egressos de uma universidade, e responder diversas perguntas, como por exemplo: Quanto tempo um ex-aluno da PUC-Rio leva para chegar a um cargo de relevância? No entanto, um problema de natureza comum a este cenário é a impossibilidade de coletar informações devido a sistemas de autenticação, impedindo um robô de busca de acessar determinadas páginas e conteúdos. Esta dissertação aborda uma solução para capturar dados, que contorna o problema de autenticação e automatiza o processo de coleta de dados. A solução proposta coleta dados de perfis de usuários de uma rede social profissional para armazenamento em banco de dados e posterior análise. A dissertação contempla ainda a possibilidade de adicionar diversas outras fontes de dados dando ênfase a uma estrutura de armazém de dados.
id PUC_RIO-1_7caafa70f213f6ebd37c9d3e56878018
oai_identifier_str oai:MAXWELL.puc-rio.br:34643
network_acronym_str PUC_RIO-1
network_name_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str 534
spelling [en] ALUMNI TOOL: INFORMATION RECOVERY OF PERSONAL DATA ON THE WEB IN AUTHENTICATED SOCIAL NETWORKS[pt] ALUMNI TOOL: RECUPERAÇÃO DE DADOS PESSOAIS NA WEB EM REDES SOCIAIS AUTENTICADAS[pt] RECUPERACAO DE INFORMACAO[pt] WEB SPIDER[pt] ROBOS DE BUSCA[pt] SCRAPING[pt] SELENIUM[pt] REDE SOCIAL[pt] BOTS[pt] BIG DATA[pt] COLETA DE DADOS[pt] WEB CRAWLING[en] INFORMATION RETRIEVAL[en] WEB SPIDER[en] SEARCH ENGINE[en] SCRAPING[en] SELENIUM[en] SOCIAL MEDIA[en] BOTS[en] BIG DATA[en] DATA RETRIEVAL[en] WEB CRAWLING[pt] O uso de robôs de busca para coletar informações para um determinado contexto sempre foi um problema desafiante e tem crescido substancialmente nos últimos anos. Por exemplo, robôs de busca podem ser utilizados para capturar dados de redes sociais profissionais. Em particular, tais redes permitem estudar as trajetórias profissionais dos egressos de uma universidade, e responder diversas perguntas, como por exemplo: Quanto tempo um ex-aluno da PUC-Rio leva para chegar a um cargo de relevância? No entanto, um problema de natureza comum a este cenário é a impossibilidade de coletar informações devido a sistemas de autenticação, impedindo um robô de busca de acessar determinadas páginas e conteúdos. Esta dissertação aborda uma solução para capturar dados, que contorna o problema de autenticação e automatiza o processo de coleta de dados. A solução proposta coleta dados de perfis de usuários de uma rede social profissional para armazenamento em banco de dados e posterior análise. A dissertação contempla ainda a possibilidade de adicionar diversas outras fontes de dados dando ênfase a uma estrutura de armazém de dados.[en] The use of search bots to collect information for a given context has grown substantially in recent years. For example, search bots may be used to capture data from professional social networks. In particular, such social networks facilitate studying the professional trajectory of the alumni of a given university, and answer several questions such as: How long does a former student of PUC-Rio take to arrive at a management position? However, a common problem in this scenario is the inability to collect information due to authentication systems, preventing a search robot from accessing certain pages and content. This dissertation addresses a solution to capture data, which circumvents the authentication problem and automates the data collection process. The proposed solution collects data from user profiles for later database storage and analysis. The dissertation also contemplates the possibility of adding several other sources of data giving emphasis to a data warehouse structure.MAXWELLMARCO ANTONIO CASANOVAMARCO ANTONIO CASANOVAMARCO ANTONIO CASANOVALUIS GUSTAVO ALMEIDA2018-08-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=34643&idi=1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=34643&idi=2http://doi.org/10.17771/PUCRio.acad.34643porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2018-08-02T00:00:00Zoai:MAXWELL.puc-rio.br:34643Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342018-08-02T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.none.fl_str_mv [en] ALUMNI TOOL: INFORMATION RECOVERY OF PERSONAL DATA ON THE WEB IN AUTHENTICATED SOCIAL NETWORKS
[pt] ALUMNI TOOL: RECUPERAÇÃO DE DADOS PESSOAIS NA WEB EM REDES SOCIAIS AUTENTICADAS
title [en] ALUMNI TOOL: INFORMATION RECOVERY OF PERSONAL DATA ON THE WEB IN AUTHENTICATED SOCIAL NETWORKS
spellingShingle [en] ALUMNI TOOL: INFORMATION RECOVERY OF PERSONAL DATA ON THE WEB IN AUTHENTICATED SOCIAL NETWORKS
LUIS GUSTAVO ALMEIDA
[pt] RECUPERACAO DE INFORMACAO
[pt] WEB SPIDER
[pt] ROBOS DE BUSCA
[pt] SCRAPING
[pt] SELENIUM
[pt] REDE SOCIAL
[pt] BOTS
[pt] BIG DATA
[pt] COLETA DE DADOS
[pt] WEB CRAWLING
[en] INFORMATION RETRIEVAL
[en] WEB SPIDER
[en] SEARCH ENGINE
[en] SCRAPING
[en] SELENIUM
[en] SOCIAL MEDIA
[en] BOTS
[en] BIG DATA
[en] DATA RETRIEVAL
[en] WEB CRAWLING
title_short [en] ALUMNI TOOL: INFORMATION RECOVERY OF PERSONAL DATA ON THE WEB IN AUTHENTICATED SOCIAL NETWORKS
title_full [en] ALUMNI TOOL: INFORMATION RECOVERY OF PERSONAL DATA ON THE WEB IN AUTHENTICATED SOCIAL NETWORKS
title_fullStr [en] ALUMNI TOOL: INFORMATION RECOVERY OF PERSONAL DATA ON THE WEB IN AUTHENTICATED SOCIAL NETWORKS
title_full_unstemmed [en] ALUMNI TOOL: INFORMATION RECOVERY OF PERSONAL DATA ON THE WEB IN AUTHENTICATED SOCIAL NETWORKS
title_sort [en] ALUMNI TOOL: INFORMATION RECOVERY OF PERSONAL DATA ON THE WEB IN AUTHENTICATED SOCIAL NETWORKS
author LUIS GUSTAVO ALMEIDA
author_facet LUIS GUSTAVO ALMEIDA
author_role author
dc.contributor.none.fl_str_mv MARCO ANTONIO CASANOVA
MARCO ANTONIO CASANOVA
MARCO ANTONIO CASANOVA
dc.contributor.author.fl_str_mv LUIS GUSTAVO ALMEIDA
dc.subject.por.fl_str_mv [pt] RECUPERACAO DE INFORMACAO
[pt] WEB SPIDER
[pt] ROBOS DE BUSCA
[pt] SCRAPING
[pt] SELENIUM
[pt] REDE SOCIAL
[pt] BOTS
[pt] BIG DATA
[pt] COLETA DE DADOS
[pt] WEB CRAWLING
[en] INFORMATION RETRIEVAL
[en] WEB SPIDER
[en] SEARCH ENGINE
[en] SCRAPING
[en] SELENIUM
[en] SOCIAL MEDIA
[en] BOTS
[en] BIG DATA
[en] DATA RETRIEVAL
[en] WEB CRAWLING
topic [pt] RECUPERACAO DE INFORMACAO
[pt] WEB SPIDER
[pt] ROBOS DE BUSCA
[pt] SCRAPING
[pt] SELENIUM
[pt] REDE SOCIAL
[pt] BOTS
[pt] BIG DATA
[pt] COLETA DE DADOS
[pt] WEB CRAWLING
[en] INFORMATION RETRIEVAL
[en] WEB SPIDER
[en] SEARCH ENGINE
[en] SCRAPING
[en] SELENIUM
[en] SOCIAL MEDIA
[en] BOTS
[en] BIG DATA
[en] DATA RETRIEVAL
[en] WEB CRAWLING
description [pt] O uso de robôs de busca para coletar informações para um determinado contexto sempre foi um problema desafiante e tem crescido substancialmente nos últimos anos. Por exemplo, robôs de busca podem ser utilizados para capturar dados de redes sociais profissionais. Em particular, tais redes permitem estudar as trajetórias profissionais dos egressos de uma universidade, e responder diversas perguntas, como por exemplo: Quanto tempo um ex-aluno da PUC-Rio leva para chegar a um cargo de relevância? No entanto, um problema de natureza comum a este cenário é a impossibilidade de coletar informações devido a sistemas de autenticação, impedindo um robô de busca de acessar determinadas páginas e conteúdos. Esta dissertação aborda uma solução para capturar dados, que contorna o problema de autenticação e automatiza o processo de coleta de dados. A solução proposta coleta dados de perfis de usuários de uma rede social profissional para armazenamento em banco de dados e posterior análise. A dissertação contempla ainda a possibilidade de adicionar diversas outras fontes de dados dando ênfase a uma estrutura de armazém de dados.
publishDate 2018
dc.date.none.fl_str_mv 2018-08-02
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=34643&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=34643&idi=2
http://doi.org/10.17771/PUCRio.acad.34643
url https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=34643&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=34643&idi=2
http://doi.org/10.17771/PUCRio.acad.34643
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv MAXWELL
publisher.none.fl_str_mv MAXWELL
dc.source.none.fl_str_mv reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)
instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron:PUC_RIO
instname_str Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str PUC_RIO
institution PUC_RIO
reponame_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_ 1821790160446029824