Análise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation)

Detalhes bibliográficos
Autor(a) principal: Bianchini, Leonardo
Data de Publicação: 2018
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFFS (Repositório Digital da UFFS)
Texto Completo: https://rd.uffs.edu.br/handle/prefix/2096
Resumo: A modelagem de tópicos é um problema de aprendizado de máquina, que visa extrair, dada uma coleção de documentos, os principais tópicos que representem os assuntos abordados pela coleção. Os documentos podem ser gerados a partir de diferentes distribuições sobre tópicos, sendo os tópicos formados por uma distribuição probabilística de palavras. Para inferir o conjunto de tópicos que geraram uma coleção de documentos, usam-se técnicas probabilísticas que fazem o processo reverso. Nesse trabalho, realiza-se uma análise exploratória na base de dados do Stack Overflow, e para tal, utiliza-se da modelagem de tópicos para a extração das informações desejadas, aplicando o LDA (Latent Dirichlet Allocation) para extrair os tópicos da base de dados. Como resultado, são obtidos os tópicos que representam a coleção, sendo mais recorrentes assuntos ligados à programação web, mobile e controle de versão. Além disso, são comparados os valores de tópicos, avaliados a partir de métricas que verificam a coerência entre suas palavras, identificando, dentre os valores analisados, o número de 50 tópicos com os melhores resultados para representar a coleção.
id UFFS_70a003e4d604fbb72c909ff4c922e695
oai_identifier_str oai:rd.uffs.edu.br:prefix/2096
network_acronym_str UFFS
network_name_str Repositório Institucional da UFFS (Repositório Digital da UFFS)
repository_id_str 3924
spelling Duarte, DenioBianchini, Leonardo2018-07-032018-08-30T18:50:26Z2018-08-30T18:50:26Z2018https://rd.uffs.edu.br/handle/prefix/2096A modelagem de tópicos é um problema de aprendizado de máquina, que visa extrair, dada uma coleção de documentos, os principais tópicos que representem os assuntos abordados pela coleção. Os documentos podem ser gerados a partir de diferentes distribuições sobre tópicos, sendo os tópicos formados por uma distribuição probabilística de palavras. Para inferir o conjunto de tópicos que geraram uma coleção de documentos, usam-se técnicas probabilísticas que fazem o processo reverso. Nesse trabalho, realiza-se uma análise exploratória na base de dados do Stack Overflow, e para tal, utiliza-se da modelagem de tópicos para a extração das informações desejadas, aplicando o LDA (Latent Dirichlet Allocation) para extrair os tópicos da base de dados. Como resultado, são obtidos os tópicos que representam a coleção, sendo mais recorrentes assuntos ligados à programação web, mobile e controle de versão. Além disso, são comparados os valores de tópicos, avaliados a partir de métricas que verificam a coerência entre suas palavras, identificando, dentre os valores analisados, o número de 50 tópicos com os melhores resultados para representar a coleção.Topic modeling is a machine learning problem, which aims to extract, given a collection of documents, the main topics that represent the subjects covered by the collection. Documents can be generated from different distributions on topics, the topics being formed by a probabilistic distribution of words. To infer the set of topics that generated a collection of documents, apply probabilistic techniques that make the process reverse. In this work, an exploratory analysis is performed in the Stack Overflow database, and for this purpose, it is used the topic modeling to extract the desired information, applying the Latent Dirichlet Allocation (LDA) to extract the topics from the database. As a result, the topics that represent the collection are obtained, with more recurring themes related to web programming, textit mobile, and version control. In addition, the values of topics are compared, evaluated from metrics that verify the coherence of their words, identifying, among the analyzed values, the number of 50 topics with the best results to represent the collectionSubmitted by ADAIR PERDOMO FALCÃO (adair.falcao@uffs.edu.br) on 2018-08-29T16:16:23Z No. of bitstreams: 1 BIANCHINI.pdf: 1694582 bytes, checksum: fd05ab6f2bbedf16fe4f84e2b7c4d15b (MD5)Approved for entry into archive by Diego dos Santos Borba (dborba@uffs.edu.br) on 2018-08-30T18:50:26Z (GMT) No. of bitstreams: 1 BIANCHINI.pdf: 1694582 bytes, checksum: fd05ab6f2bbedf16fe4f84e2b7c4d15b (MD5)Made available in DSpace on 2018-08-30T18:50:26Z (GMT). No. of bitstreams: 1 BIANCHINI.pdf: 1694582 bytes, checksum: fd05ab6f2bbedf16fe4f84e2b7c4d15b (MD5) Previous issue date: 2018porUniversidade Federal da Fronteira SulUFFSBrasilCampus ChapecóMineração de dadosRepresentação descritivaAnálise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation)info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFFS (Repositório Digital da UFFS)instname:Universidade Federal Fronteira do Sul (UFFS)instacron:UFFSLICENSElicense.txtlicense.txttext/plain; charset=utf-81866https://rd.uffs.edu.br:8443/bitstream/prefix/2096/2/license.txt43cd690d6a359e86c1fe3d5b7cba0c9bMD52ORIGINALBIANCHINI.pdfBIANCHINI.pdfapplication/pdf1694582https://rd.uffs.edu.br:8443/bitstream/prefix/2096/1/BIANCHINI.pdffd05ab6f2bbedf16fe4f84e2b7c4d15bMD51prefix/20962019-06-26 14:57:25.654oai:rd.uffs.edu.br:prefix/2096TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIApJbnN0aXR1Y2lvbmFsIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCAgdHJhZHV6aXIgKGNvbmZvcm1lIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBhIApzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIApmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIG8gRGVwb3NpdGEgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHB1YmxpY2HDp8OjbyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byAKcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIERlcG9zaXRhIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZSBzdWEgcHVibGljYcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIAplIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSBwdWJsaWNhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIApWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgCmRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSBwdWJsaWNhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgCm9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciBhbyBEZXBvc2l0YSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgCm5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIApvdSBubyBjb250ZcO6ZG8gZGEgcHVibGljYcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFBVQkxJQ0HDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSBBUE9JTyBERSBVTUEgQUfDik5DSUEgREUgRk9NRU5UTyBPVSBPVVRSTyAKT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgCkVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpPIERlcG9zaXRhIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUgKHMpIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIAphdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório InstitucionalPUBhttps://rd.uffs.edu.br/oai/requestopendoar:39242019-06-26T17:57:25Repositório Institucional da UFFS (Repositório Digital da UFFS) - Universidade Federal Fronteira do Sul (UFFS)false
dc.title.pt_BR.fl_str_mv Análise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation)
title Análise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation)
spellingShingle Análise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation)
Bianchini, Leonardo
Mineração de dados
Representação descritiva
title_short Análise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation)
title_full Análise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation)
title_fullStr Análise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation)
title_full_unstemmed Análise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation)
title_sort Análise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation)
author Bianchini, Leonardo
author_facet Bianchini, Leonardo
author_role author
dc.contributor.advisor1.fl_str_mv Duarte, Denio
dc.contributor.author.fl_str_mv Bianchini, Leonardo
contributor_str_mv Duarte, Denio
dc.subject.por.fl_str_mv Mineração de dados
Representação descritiva
topic Mineração de dados
Representação descritiva
description A modelagem de tópicos é um problema de aprendizado de máquina, que visa extrair, dada uma coleção de documentos, os principais tópicos que representem os assuntos abordados pela coleção. Os documentos podem ser gerados a partir de diferentes distribuições sobre tópicos, sendo os tópicos formados por uma distribuição probabilística de palavras. Para inferir o conjunto de tópicos que geraram uma coleção de documentos, usam-se técnicas probabilísticas que fazem o processo reverso. Nesse trabalho, realiza-se uma análise exploratória na base de dados do Stack Overflow, e para tal, utiliza-se da modelagem de tópicos para a extração das informações desejadas, aplicando o LDA (Latent Dirichlet Allocation) para extrair os tópicos da base de dados. Como resultado, são obtidos os tópicos que representam a coleção, sendo mais recorrentes assuntos ligados à programação web, mobile e controle de versão. Além disso, são comparados os valores de tópicos, avaliados a partir de métricas que verificam a coerência entre suas palavras, identificando, dentre os valores analisados, o número de 50 tópicos com os melhores resultados para representar a coleção.
publishDate 2018
dc.date.none.fl_str_mv 2018-07-03
dc.date.accessioned.fl_str_mv 2018-08-30T18:50:26Z
dc.date.available.fl_str_mv 2018-08-30T18:50:26Z
dc.date.issued.fl_str_mv 2018
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://rd.uffs.edu.br/handle/prefix/2096
url https://rd.uffs.edu.br/handle/prefix/2096
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal da Fronteira Sul
dc.publisher.initials.fl_str_mv UFFS
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Campus Chapecó
publisher.none.fl_str_mv Universidade Federal da Fronteira Sul
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFFS (Repositório Digital da UFFS)
instname:Universidade Federal Fronteira do Sul (UFFS)
instacron:UFFS
instname_str Universidade Federal Fronteira do Sul (UFFS)
instacron_str UFFS
institution UFFS
reponame_str Repositório Institucional da UFFS (Repositório Digital da UFFS)
collection Repositório Institucional da UFFS (Repositório Digital da UFFS)
bitstream.url.fl_str_mv https://rd.uffs.edu.br:8443/bitstream/prefix/2096/2/license.txt
https://rd.uffs.edu.br:8443/bitstream/prefix/2096/1/BIANCHINI.pdf
bitstream.checksum.fl_str_mv 43cd690d6a359e86c1fe3d5b7cba0c9b
fd05ab6f2bbedf16fe4f84e2b7c4d15b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFFS (Repositório Digital da UFFS) - Universidade Federal Fronteira do Sul (UFFS)
repository.mail.fl_str_mv
_version_ 1809094604939591680