Seleção de ensemble heterogêneo para a detecção de fake news

Detalhes bibliográficos
Autor(a) principal: COUTINHO, Sara Bandeira
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPE
Texto Completo: https://repositorio.ufpe.br/handle/123456789/52584
Resumo: A disseminação de Fake News tornou-se um dos problemas da sociedade atual. Uma solução para esse problema é detectar a veracidade dos textos das notícias usando sistemas automati- zados, dada a existência da dificuldade do ser humano de detectá-las, concernente ao viés de confirmação, as preferências pessoais que influenciam os sistemas de recomendação, bem como a grande quantidade de dados gerados online, que inviabiliza uma inspeção manual. Diversas abordagens relacionadas ao aprendizado de máquina têm sido propostas na literatura. Dentre elas, o uso de sistemas de múltiplos classificadores mostrou-se promissor por obter resultados melhores do que sistemas que usam apenas um classificador. No entanto, para serem eficientes, esses sistemas precisam de que seus classificadores sejam diversos, e para isso, na literatura, algumas estratégias são encontradas para obtê-la, tal qual o uso de classificadores heterogê- neos e uma análise sobre agrupamentos de classificadores, construídos a partir da informação de dissimilaridade entre eles. Contudo, esse tipo de abordagem demanda uma inspeção visual. Como alternativa, este trabalho propõe um sistema de múltiplos classificadores que seleciona subconjuntos de um pool de classificadores heterogêneos, a partir de uma análise automática sob diferentes níveis de dissimilaridade entre os classificadores. Deseja-se que os classificado- res selecionados sejam diversos e, para esse fim, cada classificador no pool é representado usando a medida de diversidade e um algoritmo de agrupamento hierárquico, que agrupa os classificadores semelhantes, facilitando a seleção dos classificadores mais diversos. Em com- plemento, para esta etapa, considerou-se escolhê-los a partir daqueles que apresentaram um maior desempenho, em uma análise individual, nas métricas de avaliação, a fim de que fosse obtido um subconjunto com maior diversidade e com classificadores que tiveram uma maior capacidade de generalização. Nos experimentos, foram considerados seis conjuntos de dados, de diferentes contextos e quantidades de classe. O método proposto foi comparado com outras três heurísticas de seleção e com abordagens da literatura. As métricas adotadas para avaliar os resultados foram acurácia, precisão, revocação e medida f1. O método proposto apresentou resultados promissores, alcançando o maior desempenho, com relação aos demais, em 3 dos 6 conjuntos adotados, os quais apresentaram apenas duas classes.
id UFPE_d2c1442dfa5742711996f9e2f0a29384
oai_identifier_str oai:repositorio.ufpe.br:123456789/52584
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str 2221
spelling COUTINHO, Sara Bandeirahttp://lattes.cnpq.br/3615526322937307http://lattes.cnpq.br/8577312109146354http://lattes.cnpq.br/1143656271684404CAVALCANTI, George Darmiton da CunhaCRUZ, Rafael Menelau Oliveira e2023-10-03T14:41:01Z2023-10-03T14:41:01Z2023-08-02COUTINHO, Sara Bandeira. Seleção de ensemble heterogêneo para a detecção de fake news. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2023.https://repositorio.ufpe.br/handle/123456789/52584A disseminação de Fake News tornou-se um dos problemas da sociedade atual. Uma solução para esse problema é detectar a veracidade dos textos das notícias usando sistemas automati- zados, dada a existência da dificuldade do ser humano de detectá-las, concernente ao viés de confirmação, as preferências pessoais que influenciam os sistemas de recomendação, bem como a grande quantidade de dados gerados online, que inviabiliza uma inspeção manual. Diversas abordagens relacionadas ao aprendizado de máquina têm sido propostas na literatura. Dentre elas, o uso de sistemas de múltiplos classificadores mostrou-se promissor por obter resultados melhores do que sistemas que usam apenas um classificador. No entanto, para serem eficientes, esses sistemas precisam de que seus classificadores sejam diversos, e para isso, na literatura, algumas estratégias são encontradas para obtê-la, tal qual o uso de classificadores heterogê- neos e uma análise sobre agrupamentos de classificadores, construídos a partir da informação de dissimilaridade entre eles. Contudo, esse tipo de abordagem demanda uma inspeção visual. Como alternativa, este trabalho propõe um sistema de múltiplos classificadores que seleciona subconjuntos de um pool de classificadores heterogêneos, a partir de uma análise automática sob diferentes níveis de dissimilaridade entre os classificadores. Deseja-se que os classificado- res selecionados sejam diversos e, para esse fim, cada classificador no pool é representado usando a medida de diversidade e um algoritmo de agrupamento hierárquico, que agrupa os classificadores semelhantes, facilitando a seleção dos classificadores mais diversos. Em com- plemento, para esta etapa, considerou-se escolhê-los a partir daqueles que apresentaram um maior desempenho, em uma análise individual, nas métricas de avaliação, a fim de que fosse obtido um subconjunto com maior diversidade e com classificadores que tiveram uma maior capacidade de generalização. Nos experimentos, foram considerados seis conjuntos de dados, de diferentes contextos e quantidades de classe. O método proposto foi comparado com outras três heurísticas de seleção e com abordagens da literatura. As métricas adotadas para avaliar os resultados foram acurácia, precisão, revocação e medida f1. O método proposto apresentou resultados promissores, alcançando o maior desempenho, com relação aos demais, em 3 dos 6 conjuntos adotados, os quais apresentaram apenas duas classes.CAPESThe spread of Fake News has become one of the problems of today’s society. A solution to this problem is to detect the veracity of news texts using automated systems given the difficulty for humans to detect them, concerning confirmation bias, personal preferences that influence recommendation systems, as well as the large amount of data generated online, that makes manual inspection unfeasible. Several approaches related to machine learning have been proposed in the literature. Among them, the use of multiple classifier systems has shown to be promising for obtaining better results than systems that use only one classifier. However, to be efficient, these systems need their classifiers to be diverse, and for this, in the literature, some strategies are found to obtain it, such as the use of heterogeneous classifiers and an analysis of the groupings of classifiers, constructed from the dissimilarity information between them. However, this type of approach demands a visual inspection. As an alternative, this work proposes a multiple classifier systems that selects subsets of a pool of heterogeneous classifiers, from an automatic analysis under different levels of dissimilarity between the classifiers. It is desired to the selected classifiers to be diverse, and to that end, each classifier in the pool is represented using the diversity measure and a hierarchical clustering algorithm that groups similar classifiers, making it easier to select the most diverse classifiers. In addition, for this stage, it was considered to choose them from those that presented a greater performance, in an individual analysis, in the evaluation metrics, in order to obtain the subset with greater diversity and with classifiers that had a greater generalization ability. In the experiments, six datasets were considered, from different contexts and class quantities. The method was compared with three other selection heuristics and with literature approaches. The metrics adopted to evaluate the results were accuracy, precision, recall and f1 score. The proposed method presented promising results, reaching the highest performance, to the others, in 3 of the 6 adopted datasets, which presented only two classes.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência computacionalDiversidadeSeleção de ensemble heterogêneo para a detecção de fake newsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPEORIGINALDISSERTAÇÃO Sara Bandeira Coutinho.pdfDISSERTAÇÃO Sara Bandeira Coutinho.pdfapplication/pdf2669085https://repositorio.ufpe.br/bitstream/123456789/52584/1/DISSERTA%c3%87%c3%83O%20Sara%20Bandeira%20Coutinho.pdfad78a341fc6181cbb05726fede488122MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/52584/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82362https://repositorio.ufpe.br/bitstream/123456789/52584/3/license.txt5e89a1613ddc8510c6576f4b23a78973MD53TEXTDISSERTAÇÃO Sara Bandeira Coutinho.pdf.txtDISSERTAÇÃO Sara Bandeira Coutinho.pdf.txtExtracted texttext/plain330604https://repositorio.ufpe.br/bitstream/123456789/52584/4/DISSERTA%c3%87%c3%83O%20Sara%20Bandeira%20Coutinho.pdf.txt242effa75945d758cca9aef71acb9679MD54THUMBNAILDISSERTAÇÃO Sara Bandeira Coutinho.pdf.jpgDISSERTAÇÃO Sara Bandeira Coutinho.pdf.jpgGenerated Thumbnailimage/jpeg1216https://repositorio.ufpe.br/bitstream/123456789/52584/5/DISSERTA%c3%87%c3%83O%20Sara%20Bandeira%20Coutinho.pdf.jpgc28b417fcc6baefc45fc5bb5a847f46aMD55123456789/525842023-10-04 02:39:57.006oai:repositorio.ufpe.br:123456789/52584VGVybW8gZGUgRGVww7NzaXRvIExlZ2FsIGUgQXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2l6YcOnw6NvIGRlIERvY3VtZW50b3Mgbm8gUmVwb3NpdMOzcmlvIERpZ2l0YWwgZGEgVUZQRQoKCkRlY2xhcm8gZXN0YXIgY2llbnRlIGRlIHF1ZSBlc3RlIFRlcm1vIGRlIERlcMOzc2l0byBMZWdhbCBlIEF1dG9yaXphw6fDo28gdGVtIG8gb2JqZXRpdm8gZGUgZGl2dWxnYcOnw6NvIGRvcyBkb2N1bWVudG9zIGRlcG9zaXRhZG9zIG5vIFJlcG9zaXTDs3JpbyBEaWdpdGFsIGRhIFVGUEUgZSBkZWNsYXJvIHF1ZToKCkkgLSBvcyBkYWRvcyBwcmVlbmNoaWRvcyBubyBmb3JtdWzDoXJpbyBkZSBkZXDDs3NpdG8gc8OjbyB2ZXJkYWRlaXJvcyBlIGF1dMOqbnRpY29zOwoKSUkgLSAgbyBjb250ZcO6ZG8gZGlzcG9uaWJpbGl6YWRvIMOpIGRlIHJlc3BvbnNhYmlsaWRhZGUgZGUgc3VhIGF1dG9yaWE7CgpJSUkgLSBvIGNvbnRlw7pkbyDDqSBvcmlnaW5hbCwgZSBzZSBvIHRyYWJhbGhvIGUvb3UgcGFsYXZyYXMgZGUgb3V0cmFzIHBlc3NvYXMgZm9yYW0gdXRpbGl6YWRvcywgZXN0YXMgZm9yYW0gZGV2aWRhbWVudGUgcmVjb25oZWNpZGFzOwoKSVYgLSBxdWFuZG8gdHJhdGFyLXNlIGRlIG9icmEgY29sZXRpdmEgKG1haXMgZGUgdW0gYXV0b3IpOiB0b2RvcyBvcyBhdXRvcmVzIGVzdMOjbyBjaWVudGVzIGRvIGRlcMOzc2l0byBlIGRlIGFjb3JkbyBjb20gZXN0ZSB0ZXJtbzsKClYgLSBxdWFuZG8gdHJhdGFyLXNlIGRlIFRyYWJhbGhvIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28sIERpc3NlcnRhw6fDo28gb3UgVGVzZTogbyBhcnF1aXZvIGRlcG9zaXRhZG8gY29ycmVzcG9uZGUgw6AgdmVyc8OjbyBmaW5hbCBkbyB0cmFiYWxobzsKClZJIC0gcXVhbmRvIHRyYXRhci1zZSBkZSBUcmFiYWxobyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvLCBEaXNzZXJ0YcOnw6NvIG91IFRlc2U6IGVzdG91IGNpZW50ZSBkZSBxdWUgYSBhbHRlcmHDp8OjbyBkYSBtb2RhbGlkYWRlIGRlIGFjZXNzbyBhbyBkb2N1bWVudG8gYXDDs3MgbyBkZXDDs3NpdG8gZSBhbnRlcyBkZSBmaW5kYXIgbyBwZXLDrW9kbyBkZSBlbWJhcmdvLCBxdWFuZG8gZm9yIGVzY29saGlkbyBhY2Vzc28gcmVzdHJpdG8sIHNlcsOhIHBlcm1pdGlkYSBtZWRpYW50ZSBzb2xpY2l0YcOnw6NvIGRvIChhKSBhdXRvciAoYSkgYW8gU2lzdGVtYSBJbnRlZ3JhZG8gZGUgQmlibGlvdGVjYXMgZGEgVUZQRSAoU0lCL1VGUEUpLgoKIApQYXJhIHRyYWJhbGhvcyBlbSBBY2Vzc28gQWJlcnRvOgoKTmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRlIGF1dG9yIHF1ZSByZWNhZW0gc29icmUgZXN0ZSBkb2N1bWVudG8sIGZ1bmRhbWVudGFkbyBuYSBMZWkgZGUgRGlyZWl0byBBdXRvcmFsIG5vIDkuNjEwLCBkZSAxOSBkZSBmZXZlcmVpcm8gZGUgMTk5OCwgYXJ0LiAyOSwgaW5jaXNvIElJSSwgYXV0b3Jpem8gYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIGEgZGlzcG9uaWJpbGl6YXIgZ3JhdHVpdGFtZW50ZSwgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkIChhcXVpc2nDp8OjbykgYXRyYXbDqXMgZG8gc2l0ZSBkbyBSZXBvc2l0w7NyaW8gRGlnaXRhbCBkYSBVRlBFIG5vIGVuZGVyZcOnbyBodHRwOi8vd3d3LnJlcG9zaXRvcmlvLnVmcGUuYnIsIGEgcGFydGlyIGRhIGRhdGEgZGUgZGVww7NzaXRvLgoKIApQYXJhIHRyYWJhbGhvcyBlbSBBY2Vzc28gUmVzdHJpdG86CgpOYSBxdWFsaWRhZGUgZGUgdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGUgYXV0b3IgcXVlIHJlY2FlbSBzb2JyZSBlc3RlIGRvY3VtZW50bywgZnVuZGFtZW50YWRvIG5hIExlaSBkZSBEaXJlaXRvIEF1dG9yYWwgbm8gOS42MTAgZGUgMTkgZGUgZmV2ZXJlaXJvIGRlIDE5OTgsIGFydC4gMjksIGluY2lzbyBJSUksIGF1dG9yaXpvIGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgUGVybmFtYnVjbyBhIGRpc3BvbmliaWxpemFyIGdyYXR1aXRhbWVudGUsIHNlbSByZXNzYXJjaW1lbnRvIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgcGFyYSBmaW5zIGRlIGxlaXR1cmEsIGltcHJlc3PDo28gZS9vdSBkb3dubG9hZCAoYXF1aXNpw6fDo28pIGF0cmF2w6lzIGRvIHNpdGUgZG8gUmVwb3NpdMOzcmlvIERpZ2l0YWwgZGEgVUZQRSBubyBlbmRlcmXDp28gaHR0cDovL3d3dy5yZXBvc2l0b3Jpby51ZnBlLmJyLCBxdWFuZG8gZmluZGFyIG8gcGVyw61vZG8gZGUgZW1iYXJnbyBjb25kaXplbnRlIGFvIHRpcG8gZGUgZG9jdW1lbnRvLCBjb25mb3JtZSBpbmRpY2FkbyBubyBjYW1wbyBEYXRhIGRlIEVtYmFyZ28uCg==Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212023-10-04T05:39:57Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Seleção de ensemble heterogêneo para a detecção de fake news
title Seleção de ensemble heterogêneo para a detecção de fake news
spellingShingle Seleção de ensemble heterogêneo para a detecção de fake news
COUTINHO, Sara Bandeira
Inteligência computacional
Diversidade
title_short Seleção de ensemble heterogêneo para a detecção de fake news
title_full Seleção de ensemble heterogêneo para a detecção de fake news
title_fullStr Seleção de ensemble heterogêneo para a detecção de fake news
title_full_unstemmed Seleção de ensemble heterogêneo para a detecção de fake news
title_sort Seleção de ensemble heterogêneo para a detecção de fake news
author COUTINHO, Sara Bandeira
author_facet COUTINHO, Sara Bandeira
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/3615526322937307
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/8577312109146354
dc.contributor.advisor-coLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/1143656271684404
dc.contributor.author.fl_str_mv COUTINHO, Sara Bandeira
dc.contributor.advisor1.fl_str_mv CAVALCANTI, George Darmiton da Cunha
dc.contributor.advisor-co1.fl_str_mv CRUZ, Rafael Menelau Oliveira e
contributor_str_mv CAVALCANTI, George Darmiton da Cunha
CRUZ, Rafael Menelau Oliveira e
dc.subject.por.fl_str_mv Inteligência computacional
Diversidade
topic Inteligência computacional
Diversidade
description A disseminação de Fake News tornou-se um dos problemas da sociedade atual. Uma solução para esse problema é detectar a veracidade dos textos das notícias usando sistemas automati- zados, dada a existência da dificuldade do ser humano de detectá-las, concernente ao viés de confirmação, as preferências pessoais que influenciam os sistemas de recomendação, bem como a grande quantidade de dados gerados online, que inviabiliza uma inspeção manual. Diversas abordagens relacionadas ao aprendizado de máquina têm sido propostas na literatura. Dentre elas, o uso de sistemas de múltiplos classificadores mostrou-se promissor por obter resultados melhores do que sistemas que usam apenas um classificador. No entanto, para serem eficientes, esses sistemas precisam de que seus classificadores sejam diversos, e para isso, na literatura, algumas estratégias são encontradas para obtê-la, tal qual o uso de classificadores heterogê- neos e uma análise sobre agrupamentos de classificadores, construídos a partir da informação de dissimilaridade entre eles. Contudo, esse tipo de abordagem demanda uma inspeção visual. Como alternativa, este trabalho propõe um sistema de múltiplos classificadores que seleciona subconjuntos de um pool de classificadores heterogêneos, a partir de uma análise automática sob diferentes níveis de dissimilaridade entre os classificadores. Deseja-se que os classificado- res selecionados sejam diversos e, para esse fim, cada classificador no pool é representado usando a medida de diversidade e um algoritmo de agrupamento hierárquico, que agrupa os classificadores semelhantes, facilitando a seleção dos classificadores mais diversos. Em com- plemento, para esta etapa, considerou-se escolhê-los a partir daqueles que apresentaram um maior desempenho, em uma análise individual, nas métricas de avaliação, a fim de que fosse obtido um subconjunto com maior diversidade e com classificadores que tiveram uma maior capacidade de generalização. Nos experimentos, foram considerados seis conjuntos de dados, de diferentes contextos e quantidades de classe. O método proposto foi comparado com outras três heurísticas de seleção e com abordagens da literatura. As métricas adotadas para avaliar os resultados foram acurácia, precisão, revocação e medida f1. O método proposto apresentou resultados promissores, alcançando o maior desempenho, com relação aos demais, em 3 dos 6 conjuntos adotados, os quais apresentaram apenas duas classes.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-10-03T14:41:01Z
dc.date.available.fl_str_mv 2023-10-03T14:41:01Z
dc.date.issued.fl_str_mv 2023-08-02
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv COUTINHO, Sara Bandeira. Seleção de ensemble heterogêneo para a detecção de fake news. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2023.
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/52584
identifier_str_mv COUTINHO, Sara Bandeira. Seleção de ensemble heterogêneo para a detecção de fake news. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2023.
url https://repositorio.ufpe.br/handle/123456789/52584
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv UFPE
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/52584/1/DISSERTA%c3%87%c3%83O%20Sara%20Bandeira%20Coutinho.pdf
https://repositorio.ufpe.br/bitstream/123456789/52584/2/license_rdf
https://repositorio.ufpe.br/bitstream/123456789/52584/3/license.txt
https://repositorio.ufpe.br/bitstream/123456789/52584/4/DISSERTA%c3%87%c3%83O%20Sara%20Bandeira%20Coutinho.pdf.txt
https://repositorio.ufpe.br/bitstream/123456789/52584/5/DISSERTA%c3%87%c3%83O%20Sara%20Bandeira%20Coutinho.pdf.jpg
bitstream.checksum.fl_str_mv ad78a341fc6181cbb05726fede488122
e39d27027a6cc9cb039ad269a5db8e34
5e89a1613ddc8510c6576f4b23a78973
242effa75945d758cca9aef71acb9679
c28b417fcc6baefc45fc5bb5a847f46a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1802310864320069632