Análise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation)
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFFS (Repositório Digital da UFFS) |
Texto Completo: | https://rd.uffs.edu.br/handle/prefix/2096 |
Resumo: | A modelagem de tópicos é um problema de aprendizado de máquina, que visa extrair, dada uma coleção de documentos, os principais tópicos que representem os assuntos abordados pela coleção. Os documentos podem ser gerados a partir de diferentes distribuições sobre tópicos, sendo os tópicos formados por uma distribuição probabilística de palavras. Para inferir o conjunto de tópicos que geraram uma coleção de documentos, usam-se técnicas probabilísticas que fazem o processo reverso. Nesse trabalho, realiza-se uma análise exploratória na base de dados do Stack Overflow, e para tal, utiliza-se da modelagem de tópicos para a extração das informações desejadas, aplicando o LDA (Latent Dirichlet Allocation) para extrair os tópicos da base de dados. Como resultado, são obtidos os tópicos que representam a coleção, sendo mais recorrentes assuntos ligados à programação web, mobile e controle de versão. Além disso, são comparados os valores de tópicos, avaliados a partir de métricas que verificam a coerência entre suas palavras, identificando, dentre os valores analisados, o número de 50 tópicos com os melhores resultados para representar a coleção. |
id |
UFFS_70a003e4d604fbb72c909ff4c922e695 |
---|---|
oai_identifier_str |
oai:rd.uffs.edu.br:prefix/2096 |
network_acronym_str |
UFFS |
network_name_str |
Repositório Institucional da UFFS (Repositório Digital da UFFS) |
repository_id_str |
3924 |
spelling |
Duarte, DenioBianchini, Leonardo2018-07-032018-08-30T18:50:26Z2018-08-30T18:50:26Z2018https://rd.uffs.edu.br/handle/prefix/2096A modelagem de tópicos é um problema de aprendizado de máquina, que visa extrair, dada uma coleção de documentos, os principais tópicos que representem os assuntos abordados pela coleção. Os documentos podem ser gerados a partir de diferentes distribuições sobre tópicos, sendo os tópicos formados por uma distribuição probabilística de palavras. Para inferir o conjunto de tópicos que geraram uma coleção de documentos, usam-se técnicas probabilísticas que fazem o processo reverso. Nesse trabalho, realiza-se uma análise exploratória na base de dados do Stack Overflow, e para tal, utiliza-se da modelagem de tópicos para a extração das informações desejadas, aplicando o LDA (Latent Dirichlet Allocation) para extrair os tópicos da base de dados. Como resultado, são obtidos os tópicos que representam a coleção, sendo mais recorrentes assuntos ligados à programação web, mobile e controle de versão. Além disso, são comparados os valores de tópicos, avaliados a partir de métricas que verificam a coerência entre suas palavras, identificando, dentre os valores analisados, o número de 50 tópicos com os melhores resultados para representar a coleção.Topic modeling is a machine learning problem, which aims to extract, given a collection of documents, the main topics that represent the subjects covered by the collection. Documents can be generated from different distributions on topics, the topics being formed by a probabilistic distribution of words. To infer the set of topics that generated a collection of documents, apply probabilistic techniques that make the process reverse. In this work, an exploratory analysis is performed in the Stack Overflow database, and for this purpose, it is used the topic modeling to extract the desired information, applying the Latent Dirichlet Allocation (LDA) to extract the topics from the database. As a result, the topics that represent the collection are obtained, with more recurring themes related to web programming, textit mobile, and version control. In addition, the values of topics are compared, evaluated from metrics that verify the coherence of their words, identifying, among the analyzed values, the number of 50 topics with the best results to represent the collectionSubmitted by ADAIR PERDOMO FALCÃO (adair.falcao@uffs.edu.br) on 2018-08-29T16:16:23Z No. of bitstreams: 1 BIANCHINI.pdf: 1694582 bytes, checksum: fd05ab6f2bbedf16fe4f84e2b7c4d15b (MD5)Approved for entry into archive by Diego dos Santos Borba (dborba@uffs.edu.br) on 2018-08-30T18:50:26Z (GMT) No. of bitstreams: 1 BIANCHINI.pdf: 1694582 bytes, checksum: fd05ab6f2bbedf16fe4f84e2b7c4d15b (MD5)Made available in DSpace on 2018-08-30T18:50:26Z (GMT). No. of bitstreams: 1 BIANCHINI.pdf: 1694582 bytes, checksum: fd05ab6f2bbedf16fe4f84e2b7c4d15b (MD5) Previous issue date: 2018porUniversidade Federal da Fronteira SulUFFSBrasilCampus ChapecóMineração de dadosRepresentação descritivaAnálise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation)info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFFS (Repositório Digital da UFFS)instname:Universidade Federal Fronteira do Sul (UFFS)instacron:UFFSLICENSElicense.txtlicense.txttext/plain; charset=utf-81866https://rd.uffs.edu.br:8443/bitstream/prefix/2096/2/license.txt43cd690d6a359e86c1fe3d5b7cba0c9bMD52ORIGINALBIANCHINI.pdfBIANCHINI.pdfapplication/pdf1694582https://rd.uffs.edu.br:8443/bitstream/prefix/2096/1/BIANCHINI.pdffd05ab6f2bbedf16fe4f84e2b7c4d15bMD51prefix/20962019-06-26 14:57:25.654oai:rd.uffs.edu.br:prefix/2096TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIApJbnN0aXR1Y2lvbmFsIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCAgdHJhZHV6aXIgKGNvbmZvcm1lIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBhIApzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIApmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIG8gRGVwb3NpdGEgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHB1YmxpY2HDp8OjbyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byAKcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIERlcG9zaXRhIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZSBzdWEgcHVibGljYcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIAplIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSBwdWJsaWNhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIApWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgCmRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSBwdWJsaWNhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgCm9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciBhbyBEZXBvc2l0YSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgCm5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIApvdSBubyBjb250ZcO6ZG8gZGEgcHVibGljYcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFBVQkxJQ0HDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSBBUE9JTyBERSBVTUEgQUfDik5DSUEgREUgRk9NRU5UTyBPVSBPVVRSTyAKT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgCkVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpPIERlcG9zaXRhIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUgKHMpIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIAphdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório InstitucionalPUBhttps://rd.uffs.edu.br/oai/requestopendoar:39242019-06-26T17:57:25Repositório Institucional da UFFS (Repositório Digital da UFFS) - Universidade Federal Fronteira do Sul (UFFS)false |
dc.title.pt_BR.fl_str_mv |
Análise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation) |
title |
Análise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation) |
spellingShingle |
Análise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation) Bianchini, Leonardo Mineração de dados Representação descritiva |
title_short |
Análise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation) |
title_full |
Análise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation) |
title_fullStr |
Análise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation) |
title_full_unstemmed |
Análise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation) |
title_sort |
Análise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation) |
author |
Bianchini, Leonardo |
author_facet |
Bianchini, Leonardo |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Duarte, Denio |
dc.contributor.author.fl_str_mv |
Bianchini, Leonardo |
contributor_str_mv |
Duarte, Denio |
dc.subject.por.fl_str_mv |
Mineração de dados Representação descritiva |
topic |
Mineração de dados Representação descritiva |
description |
A modelagem de tópicos é um problema de aprendizado de máquina, que visa extrair, dada uma coleção de documentos, os principais tópicos que representem os assuntos abordados pela coleção. Os documentos podem ser gerados a partir de diferentes distribuições sobre tópicos, sendo os tópicos formados por uma distribuição probabilística de palavras. Para inferir o conjunto de tópicos que geraram uma coleção de documentos, usam-se técnicas probabilísticas que fazem o processo reverso. Nesse trabalho, realiza-se uma análise exploratória na base de dados do Stack Overflow, e para tal, utiliza-se da modelagem de tópicos para a extração das informações desejadas, aplicando o LDA (Latent Dirichlet Allocation) para extrair os tópicos da base de dados. Como resultado, são obtidos os tópicos que representam a coleção, sendo mais recorrentes assuntos ligados à programação web, mobile e controle de versão. Além disso, são comparados os valores de tópicos, avaliados a partir de métricas que verificam a coerência entre suas palavras, identificando, dentre os valores analisados, o número de 50 tópicos com os melhores resultados para representar a coleção. |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018-07-03 |
dc.date.accessioned.fl_str_mv |
2018-08-30T18:50:26Z |
dc.date.available.fl_str_mv |
2018-08-30T18:50:26Z |
dc.date.issued.fl_str_mv |
2018 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://rd.uffs.edu.br/handle/prefix/2096 |
url |
https://rd.uffs.edu.br/handle/prefix/2096 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal da Fronteira Sul |
dc.publisher.initials.fl_str_mv |
UFFS |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Campus Chapecó |
publisher.none.fl_str_mv |
Universidade Federal da Fronteira Sul |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFFS (Repositório Digital da UFFS) instname:Universidade Federal Fronteira do Sul (UFFS) instacron:UFFS |
instname_str |
Universidade Federal Fronteira do Sul (UFFS) |
instacron_str |
UFFS |
institution |
UFFS |
reponame_str |
Repositório Institucional da UFFS (Repositório Digital da UFFS) |
collection |
Repositório Institucional da UFFS (Repositório Digital da UFFS) |
bitstream.url.fl_str_mv |
https://rd.uffs.edu.br:8443/bitstream/prefix/2096/2/license.txt https://rd.uffs.edu.br:8443/bitstream/prefix/2096/1/BIANCHINI.pdf |
bitstream.checksum.fl_str_mv |
43cd690d6a359e86c1fe3d5b7cba0c9b fd05ab6f2bbedf16fe4f84e2b7c4d15b |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFFS (Repositório Digital da UFFS) - Universidade Federal Fronteira do Sul (UFFS) |
repository.mail.fl_str_mv |
|
_version_ |
1809094604939591680 |