Avaliação da sensibilidade de métricas de avaliação de tópicos

Detalhes bibliográficos
Autor(a) principal: Campagnolo, João Marcos
Data de Publicação: 2018
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFFS (Repositório Digital da UFFS)
Texto Completo: https://rd.uffs.edu.br/handle/prefix/2701
Resumo: A crescente tendência de armazenar todo o conhecimento e conteúdo produzido de forma digital dificulta cada vez mais a tarefa de buscar e organizar as informações. Os algoritmos de modelagem de tópicos permitem extrair temas/assuntos, em forma de tópicos, de vastas coleções de documentos. Um documento, que pode ser curto ou longo, pode ser definido como uma mistura de tópicos, que são um conjunto de palavras ordenadas por suas probabilidades de ocorrência. Avaliar a qualidade de um tópico é uma tarefa que pode ser simples para seres humanos, tornando-se muito custosa em se tratando de grandes quantidades de dados. Dessa forma, métodos computacionais, conhecidos como métricas de coerência, são utilizados para medir a qualidade de tópicos a partir da co-ocorrência entre as palavras que os compõem. Porém, diferentes métricas podem gerar diferentes resultados quando aplicadas a um mesmo tópico. Neste trabalho será realizada uma avaliação da sensibilidade de algumas dessas métricas, aplicando-as em um conjunto de tópicos que foram criados, deturpados através da inserção de palavras intrusas, e validados por seres humanos. Como resultado, de modo geral, a métrica CUCI se mostrou ser a mais sensível, enquanto as métricas CV e CUMASS se mostraram as menos sensíveis.
id UFFS_eaf3372f531c371f147149b99ce50423
oai_identifier_str oai:rd.uffs.edu.br:prefix/2701
network_acronym_str UFFS
network_name_str Repositório Institucional da UFFS (Repositório Digital da UFFS)
repository_id_str 3924
spelling Duarte, DenioCampagnolo, João Marcos20182019-04-10T16:57:05Z20192019-04-10T16:57:05Z2018https://rd.uffs.edu.br/handle/prefix/2701A crescente tendência de armazenar todo o conhecimento e conteúdo produzido de forma digital dificulta cada vez mais a tarefa de buscar e organizar as informações. Os algoritmos de modelagem de tópicos permitem extrair temas/assuntos, em forma de tópicos, de vastas coleções de documentos. Um documento, que pode ser curto ou longo, pode ser definido como uma mistura de tópicos, que são um conjunto de palavras ordenadas por suas probabilidades de ocorrência. Avaliar a qualidade de um tópico é uma tarefa que pode ser simples para seres humanos, tornando-se muito custosa em se tratando de grandes quantidades de dados. Dessa forma, métodos computacionais, conhecidos como métricas de coerência, são utilizados para medir a qualidade de tópicos a partir da co-ocorrência entre as palavras que os compõem. Porém, diferentes métricas podem gerar diferentes resultados quando aplicadas a um mesmo tópico. Neste trabalho será realizada uma avaliação da sensibilidade de algumas dessas métricas, aplicando-as em um conjunto de tópicos que foram criados, deturpados através da inserção de palavras intrusas, e validados por seres humanos. Como resultado, de modo geral, a métrica CUCI se mostrou ser a mais sensível, enquanto as métricas CV e CUMASS se mostraram as menos sensíveis.The growing tendency of store all the knowledge and content produced digitally makes it increasingly difficult to find all this information and organize it. Topical modeling algorithms allows to extract topics from vast collections of documents. A document, which maybe short or long, can be defined as a mixture of topics, which are a set of words sorted by their probability ofoccurrence. Evaluating the quality of a topic is atask that can be simple for humans,al though it is very expensive when dealing with large amounts of data. Thus, computational methods, known as coherence metrics, are used to measure the quality of topics from the co-occurrence between the words that compose them. However, different metrics can generate different results when applied to the same topic. This work will evaluate the sensitivity of some of these metrics by applying them to a set of topics that have been created, adulterated by inserting intrusive words, and validated by humans. As result, in general, the metric CUICI was shown to be the most sensitive, while the metrics CV and CUMASS were shown to be the least sensitive.Submitted by SUELEN SPINDOLA BILHAR (suelen.bilhar@gmail.com) on 2019-04-10T12:01:09Z No. of bitstreams: 1 CAMPAGNOLO.pdf: 5575809 bytes, checksum: 5621974257c7f54659f8a24b59cff9c9 (MD5)Approved for entry into archive by Diego dos Santos Borba (dborba@uffs.edu.br) on 2019-04-10T16:57:05Z (GMT) No. of bitstreams: 1 CAMPAGNOLO.pdf: 5575809 bytes, checksum: 5621974257c7f54659f8a24b59cff9c9 (MD5)Made available in DSpace on 2019-04-10T16:57:05Z (GMT). No. of bitstreams: 1 CAMPAGNOLO.pdf: 5575809 bytes, checksum: 5621974257c7f54659f8a24b59cff9c9 (MD5) Previous issue date: 2018porUniversidade Federal da Fronteira SulUFFSBrasilCampus ChapecóAlgoritmosGeometria e modelagem computacionalMétricas de sofwareAvaliação da sensibilidade de métricas de avaliação de tópicosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFFS (Repositório Digital da UFFS)instname:Universidade Federal Fronteira do Sul (UFFS)instacron:UFFSLICENSElicense.txtlicense.txttext/plain; charset=utf-81866https://rd.uffs.edu.br:8443/bitstream/prefix/2701/2/license.txt43cd690d6a359e86c1fe3d5b7cba0c9bMD52ORIGINALCAMPAGNOLO.pdfCAMPAGNOLO.pdfapplication/pdf5575809https://rd.uffs.edu.br:8443/bitstream/prefix/2701/1/CAMPAGNOLO.pdf5621974257c7f54659f8a24b59cff9c9MD51prefix/27012019-04-10 13:57:05.934oai:rd.uffs.edu.br:prefix/2701TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIApJbnN0aXR1Y2lvbmFsIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCAgdHJhZHV6aXIgKGNvbmZvcm1lIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBhIApzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIApmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIG8gRGVwb3NpdGEgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHB1YmxpY2HDp8OjbyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byAKcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIERlcG9zaXRhIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZSBzdWEgcHVibGljYcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIAplIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSBwdWJsaWNhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIApWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgCmRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSBwdWJsaWNhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgCm9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciBhbyBEZXBvc2l0YSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgCm5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIApvdSBubyBjb250ZcO6ZG8gZGEgcHVibGljYcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFBVQkxJQ0HDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSBBUE9JTyBERSBVTUEgQUfDik5DSUEgREUgRk9NRU5UTyBPVSBPVVRSTyAKT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgCkVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpPIERlcG9zaXRhIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUgKHMpIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIAphdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório InstitucionalPUBhttps://rd.uffs.edu.br/oai/requestopendoar:39242019-04-10T16:57:05Repositório Institucional da UFFS (Repositório Digital da UFFS) - Universidade Federal Fronteira do Sul (UFFS)false
dc.title.pt_BR.fl_str_mv Avaliação da sensibilidade de métricas de avaliação de tópicos
title Avaliação da sensibilidade de métricas de avaliação de tópicos
spellingShingle Avaliação da sensibilidade de métricas de avaliação de tópicos
Campagnolo, João Marcos
Algoritmos
Geometria e modelagem computacional
Métricas de sofware
title_short Avaliação da sensibilidade de métricas de avaliação de tópicos
title_full Avaliação da sensibilidade de métricas de avaliação de tópicos
title_fullStr Avaliação da sensibilidade de métricas de avaliação de tópicos
title_full_unstemmed Avaliação da sensibilidade de métricas de avaliação de tópicos
title_sort Avaliação da sensibilidade de métricas de avaliação de tópicos
author Campagnolo, João Marcos
author_facet Campagnolo, João Marcos
author_role author
dc.contributor.advisor1.fl_str_mv Duarte, Denio
dc.contributor.author.fl_str_mv Campagnolo, João Marcos
contributor_str_mv Duarte, Denio
dc.subject.por.fl_str_mv Algoritmos
Geometria e modelagem computacional
Métricas de sofware
topic Algoritmos
Geometria e modelagem computacional
Métricas de sofware
description A crescente tendência de armazenar todo o conhecimento e conteúdo produzido de forma digital dificulta cada vez mais a tarefa de buscar e organizar as informações. Os algoritmos de modelagem de tópicos permitem extrair temas/assuntos, em forma de tópicos, de vastas coleções de documentos. Um documento, que pode ser curto ou longo, pode ser definido como uma mistura de tópicos, que são um conjunto de palavras ordenadas por suas probabilidades de ocorrência. Avaliar a qualidade de um tópico é uma tarefa que pode ser simples para seres humanos, tornando-se muito custosa em se tratando de grandes quantidades de dados. Dessa forma, métodos computacionais, conhecidos como métricas de coerência, são utilizados para medir a qualidade de tópicos a partir da co-ocorrência entre as palavras que os compõem. Porém, diferentes métricas podem gerar diferentes resultados quando aplicadas a um mesmo tópico. Neste trabalho será realizada uma avaliação da sensibilidade de algumas dessas métricas, aplicando-as em um conjunto de tópicos que foram criados, deturpados através da inserção de palavras intrusas, e validados por seres humanos. Como resultado, de modo geral, a métrica CUCI se mostrou ser a mais sensível, enquanto as métricas CV e CUMASS se mostraram as menos sensíveis.
publishDate 2018
dc.date.none.fl_str_mv 2018
dc.date.issued.fl_str_mv 2018
dc.date.accessioned.fl_str_mv 2019-04-10T16:57:05Z
dc.date.available.fl_str_mv 2019
2019-04-10T16:57:05Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://rd.uffs.edu.br/handle/prefix/2701
url https://rd.uffs.edu.br/handle/prefix/2701
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal da Fronteira Sul
dc.publisher.initials.fl_str_mv UFFS
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Campus Chapecó
publisher.none.fl_str_mv Universidade Federal da Fronteira Sul
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFFS (Repositório Digital da UFFS)
instname:Universidade Federal Fronteira do Sul (UFFS)
instacron:UFFS
instname_str Universidade Federal Fronteira do Sul (UFFS)
instacron_str UFFS
institution UFFS
reponame_str Repositório Institucional da UFFS (Repositório Digital da UFFS)
collection Repositório Institucional da UFFS (Repositório Digital da UFFS)
bitstream.url.fl_str_mv https://rd.uffs.edu.br:8443/bitstream/prefix/2701/2/license.txt
https://rd.uffs.edu.br:8443/bitstream/prefix/2701/1/CAMPAGNOLO.pdf
bitstream.checksum.fl_str_mv 43cd690d6a359e86c1fe3d5b7cba0c9b
5621974257c7f54659f8a24b59cff9c9
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFFS (Repositório Digital da UFFS) - Universidade Federal Fronteira do Sul (UFFS)
repository.mail.fl_str_mv
_version_ 1799765393238130688