Análise exploratória de tweets utilizando modelagem de tópicos para textos curtos: caso Olimpíadas Rio 2016

Detalhes bibliográficos
Autor(a) principal: Pereira, Mariana
Data de Publicação: 2019
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFFS (Repositório Digital da UFFS)
Texto Completo: https://rd.uffs.edu.br/handle/prefix/3371
Resumo: A modelagem de tópicos é uma forma de mineração de texto que visa extrair, dada uma coleção de documentos, os principais tópicos que representem os assuntos abordados nos documentos da coleção. Um documento, que pode ser curto ou longo, pode ser definido como uma mistura de tópicos, sendo um conjunto de palavras ordenadas por suas probabilidades de ocorrência. Abordagens convencionais de modelagem de tópicos como LDAe PSLA foram desenvolvidas para serem aplicadas em documentos longos e, quando aplicados em textos curtos, não são tão eficientes pelo fato de não conseguir lidar bem com a dispersão dos dados. Sendo assim, para a extração de tópicos em textos curtos, se faz necessário a utilização de modelos de tópicos específicos para tal. Posto isso, neste trabalho será realizada uma análise exploratória na base de dados do Twitter, fazendo a utilização do modelo BTM (Biterm Topic Model) para descobrir os principais tópicos discutidos durante o período das Olimpíadas Rio 2016. Como resultado, os tópicos obtidos representaram a coleção e refletiram os acontecimentos ocorridos nos Jogos Olímpicos, principalmente os que fizeram referência ao Brasil.
id UFFS_4bb328554c4abb6fa1ef8b4a46fff7e6
oai_identifier_str oai:rd.uffs.edu.br:prefix/3371
network_acronym_str UFFS
network_name_str Repositório Institucional da UFFS (Repositório Digital da UFFS)
repository_id_str 3924
spelling Duarte, DenioPereira, Mariana20192020-02-04T12:07:36Z20192020-02-04T12:07:36Z2019https://rd.uffs.edu.br/handle/prefix/3371A modelagem de tópicos é uma forma de mineração de texto que visa extrair, dada uma coleção de documentos, os principais tópicos que representem os assuntos abordados nos documentos da coleção. Um documento, que pode ser curto ou longo, pode ser definido como uma mistura de tópicos, sendo um conjunto de palavras ordenadas por suas probabilidades de ocorrência. Abordagens convencionais de modelagem de tópicos como LDAe PSLA foram desenvolvidas para serem aplicadas em documentos longos e, quando aplicados em textos curtos, não são tão eficientes pelo fato de não conseguir lidar bem com a dispersão dos dados. Sendo assim, para a extração de tópicos em textos curtos, se faz necessário a utilização de modelos de tópicos específicos para tal. Posto isso, neste trabalho será realizada uma análise exploratória na base de dados do Twitter, fazendo a utilização do modelo BTM (Biterm Topic Model) para descobrir os principais tópicos discutidos durante o período das Olimpíadas Rio 2016. Como resultado, os tópicos obtidos representaram a coleção e refletiram os acontecimentos ocorridos nos Jogos Olímpicos, principalmente os que fizeram referência ao Brasil.Topic modeling is a data mining problem that aims to extract, given a document collection, the main topics that represent the subjects covered in the collection documents. A document, which can be short or long, can be defined as a mixture of topics, being a set of words ordered by their probability of occurrence. Conventional approaches for topic modeling such as LDA and PSLA have been used in long documents and when used it in short texts may not work well since conventional topic models suffer from the severe data sparsity. So, in this paper, an exploratory analysis is performed in the Twitter database applying the Biterm Topic Model (BTM) to discover the main topics discussed during the Rio 2016 Olympic Games. As a result, the topics obtained represents the collection of documents and reflects the events that occurred at the Olympic Games, especially those that made reference to Brazil.Submitted by Suelen Spindola Bilhar (suelen.bilhar@uffs.edu.br) on 2019-12-20T12:39:46Z No. of bitstreams: 1 PEREIRA.pdf: 5316585 bytes, checksum: 795570b9310b7985c474a340de497396 (MD5)Approved for entry into archive by Franciele Scaglioni da Cruz (franciele.cruz@uffs.edu.br) on 2020-02-04T12:07:36Z (GMT) No. of bitstreams: 1 PEREIRA.pdf: 5316585 bytes, checksum: 795570b9310b7985c474a340de497396 (MD5)Made available in DSpace on 2020-02-04T12:07:36Z (GMT). No. of bitstreams: 1 PEREIRA.pdf: 5316585 bytes, checksum: 795570b9310b7985c474a340de497396 (MD5) Previous issue date: 2019porUniversidade Federal da Fronteira SulUFFSBrasilCampus ChapecóGeometria e modelagem computacionalMineração de dadosRedes sociaisAnálise exploratória de tweets utilizando modelagem de tópicos para textos curtos: caso Olimpíadas Rio 2016info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFFS (Repositório Digital da UFFS)instname:Universidade Federal Fronteira do Sul (UFFS)instacron:UFFSLICENSElicense.txtlicense.txttext/plain; charset=utf-81866https://rd.uffs.edu.br:8443/bitstream/prefix/3371/2/license.txt43cd690d6a359e86c1fe3d5b7cba0c9bMD52ORIGINALPEREIRA.pdfPEREIRA.pdfapplication/pdf5316585https://rd.uffs.edu.br:8443/bitstream/prefix/3371/1/PEREIRA.pdf795570b9310b7985c474a340de497396MD51prefix/33712020-02-04 10:07:36.421oai:rd.uffs.edu.br:prefix/3371TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIApJbnN0aXR1Y2lvbmFsIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCAgdHJhZHV6aXIgKGNvbmZvcm1lIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBhIApzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIApmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIG8gRGVwb3NpdGEgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHB1YmxpY2HDp8OjbyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byAKcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIERlcG9zaXRhIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZSBzdWEgcHVibGljYcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIAplIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSBwdWJsaWNhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIApWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgCmRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSBwdWJsaWNhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgCm9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciBhbyBEZXBvc2l0YSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgCm5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIApvdSBubyBjb250ZcO6ZG8gZGEgcHVibGljYcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFBVQkxJQ0HDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSBBUE9JTyBERSBVTUEgQUfDik5DSUEgREUgRk9NRU5UTyBPVSBPVVRSTyAKT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgCkVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpPIERlcG9zaXRhIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUgKHMpIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIAphdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório InstitucionalPUBhttps://rd.uffs.edu.br/oai/requestopendoar:39242020-02-04T12:07:36Repositório Institucional da UFFS (Repositório Digital da UFFS) - Universidade Federal Fronteira do Sul (UFFS)false
dc.title.pt_BR.fl_str_mv Análise exploratória de tweets utilizando modelagem de tópicos para textos curtos: caso Olimpíadas Rio 2016
title Análise exploratória de tweets utilizando modelagem de tópicos para textos curtos: caso Olimpíadas Rio 2016
spellingShingle Análise exploratória de tweets utilizando modelagem de tópicos para textos curtos: caso Olimpíadas Rio 2016
Pereira, Mariana
Geometria e modelagem computacional
Mineração de dados
Redes sociais
title_short Análise exploratória de tweets utilizando modelagem de tópicos para textos curtos: caso Olimpíadas Rio 2016
title_full Análise exploratória de tweets utilizando modelagem de tópicos para textos curtos: caso Olimpíadas Rio 2016
title_fullStr Análise exploratória de tweets utilizando modelagem de tópicos para textos curtos: caso Olimpíadas Rio 2016
title_full_unstemmed Análise exploratória de tweets utilizando modelagem de tópicos para textos curtos: caso Olimpíadas Rio 2016
title_sort Análise exploratória de tweets utilizando modelagem de tópicos para textos curtos: caso Olimpíadas Rio 2016
author Pereira, Mariana
author_facet Pereira, Mariana
author_role author
dc.contributor.advisor1.fl_str_mv Duarte, Denio
dc.contributor.author.fl_str_mv Pereira, Mariana
contributor_str_mv Duarte, Denio
dc.subject.por.fl_str_mv Geometria e modelagem computacional
Mineração de dados
Redes sociais
topic Geometria e modelagem computacional
Mineração de dados
Redes sociais
description A modelagem de tópicos é uma forma de mineração de texto que visa extrair, dada uma coleção de documentos, os principais tópicos que representem os assuntos abordados nos documentos da coleção. Um documento, que pode ser curto ou longo, pode ser definido como uma mistura de tópicos, sendo um conjunto de palavras ordenadas por suas probabilidades de ocorrência. Abordagens convencionais de modelagem de tópicos como LDAe PSLA foram desenvolvidas para serem aplicadas em documentos longos e, quando aplicados em textos curtos, não são tão eficientes pelo fato de não conseguir lidar bem com a dispersão dos dados. Sendo assim, para a extração de tópicos em textos curtos, se faz necessário a utilização de modelos de tópicos específicos para tal. Posto isso, neste trabalho será realizada uma análise exploratória na base de dados do Twitter, fazendo a utilização do modelo BTM (Biterm Topic Model) para descobrir os principais tópicos discutidos durante o período das Olimpíadas Rio 2016. Como resultado, os tópicos obtidos representaram a coleção e refletiram os acontecimentos ocorridos nos Jogos Olímpicos, principalmente os que fizeram referência ao Brasil.
publishDate 2019
dc.date.none.fl_str_mv 2019
dc.date.available.fl_str_mv 2019
2020-02-04T12:07:36Z
dc.date.issued.fl_str_mv 2019
dc.date.accessioned.fl_str_mv 2020-02-04T12:07:36Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://rd.uffs.edu.br/handle/prefix/3371
url https://rd.uffs.edu.br/handle/prefix/3371
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal da Fronteira Sul
dc.publisher.initials.fl_str_mv UFFS
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Campus Chapecó
publisher.none.fl_str_mv Universidade Federal da Fronteira Sul
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFFS (Repositório Digital da UFFS)
instname:Universidade Federal Fronteira do Sul (UFFS)
instacron:UFFS
instname_str Universidade Federal Fronteira do Sul (UFFS)
instacron_str UFFS
institution UFFS
reponame_str Repositório Institucional da UFFS (Repositório Digital da UFFS)
collection Repositório Institucional da UFFS (Repositório Digital da UFFS)
bitstream.url.fl_str_mv https://rd.uffs.edu.br:8443/bitstream/prefix/3371/2/license.txt
https://rd.uffs.edu.br:8443/bitstream/prefix/3371/1/PEREIRA.pdf
bitstream.checksum.fl_str_mv 43cd690d6a359e86c1fe3d5b7cba0c9b
795570b9310b7985c474a340de497396
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFFS (Repositório Digital da UFFS) - Universidade Federal Fronteira do Sul (UFFS)
repository.mail.fl_str_mv
_version_ 1799765399924899840