Sistema inteligente de recolha e armazenamento de informação proveniente do Twitter

Detalhes bibliográficos
Autor(a) principal: Brogueira, Gaspar Manuel Rocha
Data de Publicação: 2015
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10071/10966
Resumo: Independentemente do grau de conhecimento e utilização das redes sociais é inegável a sua importância na sociedade contemporânea. Publicitar um evento, comentar ou divulgar uma ideia são práticas comuns nas redes sociais, tornando-as num meio propício à expressão da opinião individual e sua disseminação através dos vários canais levando, consequentemente, à conceção e formação de juízos de valor e facto acerca das mudanças e acontecimentos no mundo que nos rodeia. Analisar e monitorizar sentimentos relativos a uma organização em especifico, prever vendas e aceitação de um produto ou serviço por parte do consumidor, antecipar a propagação de um vírus pela população, são exemplos concretos de como a informação recolhida nas redes sociais, pode ser útil em diversos campos da investigação (áreas como o turismo, marketing e saúde são as que mais se tem vindo a fortalecer mediante este fenómeno). Considerando tal relevância, levantam-se questões acerca do impacto que as redes sociais têm na atual sociedade e indubitavelmente debate-se a temática de como tratar e abordar essa informação de forma analítica e efetivamente útil. Para construir (ou desconstruir) um fato credível, é necessário um volume considerável de dados e uma cobertura assinalável do conjunto de utilizadores do Twitter. Diversos autores que desenvolveram trabalhos relacionados com esta problemática, têm constatado dificuldade em obter volumes significativos de informação, por limitação do Twitter em fornecer acesso aos seus dados. Perante estas circunstâncias, os dados recolhidos estão muitas vezes condicionados a uma análise limitada onde se torna complexo compreender os verdadeiros contornos das questões, ou por vezes são consideradas apenas algumas das suas características, de modo a simplificar a modelação e armazenamento. Tendo como premissa reduzir este enviesamento de informação, o objetivo deste trabalho consiste em desenvolver uma arquitetura para construção de um corpus de tweets tentando ultrapassar as limitações impostas pelo Twitter. Explora-se o paradigma das bases de dados NoSQL de modo a armazenar integralmente cada tweet, resultando num Sistema de Informação que automatiza a recolha, processamento, armazenamento e acesso a um volume considerável de tweets, produzidos em Portugal por autores portugueses e escritos em Português Europeu. A arquitetura apresentada produz um corpus de tweets produzidos em tempo real, que contêm indicação da sua geolocalização. A partir de tweets geolocalizados é efetuada a expansão do corpus pela leitura da timeline dos autores de tweets geolocalizados, conseguindo-se a recuperação de grande parte da informação produzida por estes. Em média são recuperados cerca de 530 mil tweets por dia.
id RCAP_9fd131de1d697a801c03d10b11e39578
oai_identifier_str oai:repositorio.iscte-iul.pt:10071/10966
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Sistema inteligente de recolha e armazenamento de informação proveniente do TwitterSistema de InformaçãoTwitterRedes sociaisBig dataMongoDBREST APIVisualização de dadosInformation systemSocial networksData visualizationIndependentemente do grau de conhecimento e utilização das redes sociais é inegável a sua importância na sociedade contemporânea. Publicitar um evento, comentar ou divulgar uma ideia são práticas comuns nas redes sociais, tornando-as num meio propício à expressão da opinião individual e sua disseminação através dos vários canais levando, consequentemente, à conceção e formação de juízos de valor e facto acerca das mudanças e acontecimentos no mundo que nos rodeia. Analisar e monitorizar sentimentos relativos a uma organização em especifico, prever vendas e aceitação de um produto ou serviço por parte do consumidor, antecipar a propagação de um vírus pela população, são exemplos concretos de como a informação recolhida nas redes sociais, pode ser útil em diversos campos da investigação (áreas como o turismo, marketing e saúde são as que mais se tem vindo a fortalecer mediante este fenómeno). Considerando tal relevância, levantam-se questões acerca do impacto que as redes sociais têm na atual sociedade e indubitavelmente debate-se a temática de como tratar e abordar essa informação de forma analítica e efetivamente útil. Para construir (ou desconstruir) um fato credível, é necessário um volume considerável de dados e uma cobertura assinalável do conjunto de utilizadores do Twitter. Diversos autores que desenvolveram trabalhos relacionados com esta problemática, têm constatado dificuldade em obter volumes significativos de informação, por limitação do Twitter em fornecer acesso aos seus dados. Perante estas circunstâncias, os dados recolhidos estão muitas vezes condicionados a uma análise limitada onde se torna complexo compreender os verdadeiros contornos das questões, ou por vezes são consideradas apenas algumas das suas características, de modo a simplificar a modelação e armazenamento. Tendo como premissa reduzir este enviesamento de informação, o objetivo deste trabalho consiste em desenvolver uma arquitetura para construção de um corpus de tweets tentando ultrapassar as limitações impostas pelo Twitter. Explora-se o paradigma das bases de dados NoSQL de modo a armazenar integralmente cada tweet, resultando num Sistema de Informação que automatiza a recolha, processamento, armazenamento e acesso a um volume considerável de tweets, produzidos em Portugal por autores portugueses e escritos em Português Europeu. A arquitetura apresentada produz um corpus de tweets produzidos em tempo real, que contêm indicação da sua geolocalização. A partir de tweets geolocalizados é efetuada a expansão do corpus pela leitura da timeline dos autores de tweets geolocalizados, conseguindo-se a recuperação de grande parte da informação produzida por estes. Em média são recuperados cerca de 530 mil tweets por dia.Regardless the degree of knowledge and use of social networks, it is undeniable its importance in contemporary society. Advertise an event, comment or release an idea are common practices in social networks, making them an environment conducive to the expression of individual opinion and its dissemination through the main channels, leading consequently to the build of judgments of value and fact about changes and developments in the world around us. Analyze and monitor feelings relating to a specific organization, sales forecasting and acceptance of a product or service by the consumer, anticipate propagation of a virus among the population, are concrete examples of how the information collected on social networks can be useful in several fields of research (areas such as tourism, marketing and health are the most contemplated by this phenomenon). Considering such relevance, arise questions about the impact that social networks have in society and, undoubtedly, it is debated how to treat analytically and effectively this information, making it really useful information. To construct (or deconstruct) a credible fact, it is needed a considerable amount of data and a remarkable coverage of Twitter users. Several authors, who developed works related to this issue, have found difficulty in obtaining large volumes of information, having in account the limitation of Twitter concerning to give access to private data. In those circumstances, the data collected are often constrained to a limited analysis and becomes complex to understand the true contours of the themes. Sometimes it is even considered only some of the many characteristics in order to simplify the modeling and storage. Having as a premise reduce this skewing of information, the objective of this work is to develop an architecture having as a foundation the building of a corpus of tweets in attempt to overcome the limitations imposed by Twitter. It is exploited the paradigm of NoSQL databases in order to fully store each tweet, resulting in an Information System that automates the collection, processing, storage and access to a considerable volume of tweets, produced in Portugal, by Portuguese authors and written in European Portuguese. The presented architecture produces a corpus of tweets done in real time containing indication of its geolocation. From geolocated tweets is made the expansion of corpus by reading the timeline of the authors of geolocated tweets and it is possible to recover much of the information produced by them. On average, are recovered 530K tweets per day.2016-02-29T16:03:18Z2015-01-01T00:00:00Z20152015-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfapplication/octet-streamhttp://hdl.handle.net/10071/10966TID:201080141porBrogueira, Gaspar Manuel Rochainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-07-07T03:21:56Zoai:repositorio.iscte-iul.pt:10071/10966Portal AgregadorONGhttps://www.rcaap.pt/oai/openairemluisa.alvim@gmail.comopendoar:71602024-07-07T03:21:56Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Sistema inteligente de recolha e armazenamento de informação proveniente do Twitter
title Sistema inteligente de recolha e armazenamento de informação proveniente do Twitter
spellingShingle Sistema inteligente de recolha e armazenamento de informação proveniente do Twitter
Brogueira, Gaspar Manuel Rocha
Sistema de Informação
Twitter
Redes sociais
Big data
MongoDB
REST API
Visualização de dados
Information system
Social networks
Data visualization
title_short Sistema inteligente de recolha e armazenamento de informação proveniente do Twitter
title_full Sistema inteligente de recolha e armazenamento de informação proveniente do Twitter
title_fullStr Sistema inteligente de recolha e armazenamento de informação proveniente do Twitter
title_full_unstemmed Sistema inteligente de recolha e armazenamento de informação proveniente do Twitter
title_sort Sistema inteligente de recolha e armazenamento de informação proveniente do Twitter
author Brogueira, Gaspar Manuel Rocha
author_facet Brogueira, Gaspar Manuel Rocha
author_role author
dc.contributor.author.fl_str_mv Brogueira, Gaspar Manuel Rocha
dc.subject.por.fl_str_mv Sistema de Informação
Twitter
Redes sociais
Big data
MongoDB
REST API
Visualização de dados
Information system
Social networks
Data visualization
topic Sistema de Informação
Twitter
Redes sociais
Big data
MongoDB
REST API
Visualização de dados
Information system
Social networks
Data visualization
description Independentemente do grau de conhecimento e utilização das redes sociais é inegável a sua importância na sociedade contemporânea. Publicitar um evento, comentar ou divulgar uma ideia são práticas comuns nas redes sociais, tornando-as num meio propício à expressão da opinião individual e sua disseminação através dos vários canais levando, consequentemente, à conceção e formação de juízos de valor e facto acerca das mudanças e acontecimentos no mundo que nos rodeia. Analisar e monitorizar sentimentos relativos a uma organização em especifico, prever vendas e aceitação de um produto ou serviço por parte do consumidor, antecipar a propagação de um vírus pela população, são exemplos concretos de como a informação recolhida nas redes sociais, pode ser útil em diversos campos da investigação (áreas como o turismo, marketing e saúde são as que mais se tem vindo a fortalecer mediante este fenómeno). Considerando tal relevância, levantam-se questões acerca do impacto que as redes sociais têm na atual sociedade e indubitavelmente debate-se a temática de como tratar e abordar essa informação de forma analítica e efetivamente útil. Para construir (ou desconstruir) um fato credível, é necessário um volume considerável de dados e uma cobertura assinalável do conjunto de utilizadores do Twitter. Diversos autores que desenvolveram trabalhos relacionados com esta problemática, têm constatado dificuldade em obter volumes significativos de informação, por limitação do Twitter em fornecer acesso aos seus dados. Perante estas circunstâncias, os dados recolhidos estão muitas vezes condicionados a uma análise limitada onde se torna complexo compreender os verdadeiros contornos das questões, ou por vezes são consideradas apenas algumas das suas características, de modo a simplificar a modelação e armazenamento. Tendo como premissa reduzir este enviesamento de informação, o objetivo deste trabalho consiste em desenvolver uma arquitetura para construção de um corpus de tweets tentando ultrapassar as limitações impostas pelo Twitter. Explora-se o paradigma das bases de dados NoSQL de modo a armazenar integralmente cada tweet, resultando num Sistema de Informação que automatiza a recolha, processamento, armazenamento e acesso a um volume considerável de tweets, produzidos em Portugal por autores portugueses e escritos em Português Europeu. A arquitetura apresentada produz um corpus de tweets produzidos em tempo real, que contêm indicação da sua geolocalização. A partir de tweets geolocalizados é efetuada a expansão do corpus pela leitura da timeline dos autores de tweets geolocalizados, conseguindo-se a recuperação de grande parte da informação produzida por estes. Em média são recuperados cerca de 530 mil tweets por dia.
publishDate 2015
dc.date.none.fl_str_mv 2015-01-01T00:00:00Z
2015
2015-09
2016-02-29T16:03:18Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10071/10966
TID:201080141
url http://hdl.handle.net/10071/10966
identifier_str_mv TID:201080141
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
application/octet-stream
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv mluisa.alvim@gmail.com
_version_ 1817546450789203968