Combinação de classificadores para sistema de automated fact checking
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPE |
dARK ID: | ark:/64986/001300000vb0j |
Texto Completo: | https://repositorio.ufpe.br/handle/123456789/38601 |
Resumo: | A propagação de notícias falsas se tornou um problema de proporções globais, afetando a economia, saúde pública, convívio social, relações internacionais e o processo eleitoral de diversos países. Estudos indicam que fake news são compartilhadas mais vezes, e de maneira mais rápida que notícias verdadeiras. Isso ocorre porque estas declarações são fabricadas para enganar o leitor, indo de encontro com as suas convicções pessoais e diminuindo o seu senso crítico. Diversas técnicas de machine learning vêm sendo empregadas na tentativa de identificar padrões existentes em fake news, criando assim os sistemas de Automated Fact Checking. Uma alternativa a se considerar na melhoria de qualquer problema de classificação, é a combinação de um grupo de classificadores para uma classificação em conjunto, abrindo a possibilidade de se combinar os acertos individuais de cada integrante do grupo, obtendo assim, um resultado na classificação em conjunto que supere os resultados individuais de cada membro do conjunto. No entanto, combinar um grupo de classificadores, de forma a conseguir com que estas técnicas se complementem, não é uma tarefa trivial. Tendo em vista que para se conseguir uma melhoria no desempenho, os classificadores participantes do conjunto devem apresentar variações no seus padrões de acertos e erros. Este trabalho propõe uma abordagem que, dado um pool de classificadores, seja possível analisar o comportamento de cada integrante do conjunto em relação a todos os outros, tornando viável a construção de subgrupos de classificadores que apresente uma boa diversidade entre seus membros. Para testar a abordagem proposta, foi construído um pool composto por 80 classificadores, que tiveram seus desempenhos individuais verificados na classificação de um conjunto de dados de fake news. Em seguida, foi aplicado a metodologia proposta, e selecionados para uma classificação conjunta, subgrupos que apresentaram melhor diversidade entre seus membros. Este processo foi realizado duas vezes, a primeira vez considerando uma classificação binária do problema, e na segunda, foram consideradas seis classes diferentes, cada uma relacionada ao nível de veracidade contido na declaração analisada. Em todos os casos analisados, a aplicação da proposta se mostrou eficiente, possibilitando encontrar subgrupos que apresentaram melhora de desempenho na classificação em conjunto quando comparados com o desempenho individual dos classificadores do pool, superando também, experimentos publicados em outros trabalhos que se dedicavam a classificar o mesmo conjunto de dados. |
id |
UFPE_9320fca4a6ff74a9d1f13164be01d5e8 |
---|---|
oai_identifier_str |
oai:repositorio.ufpe.br:123456789/38601 |
network_acronym_str |
UFPE |
network_name_str |
Repositório Institucional da UFPE |
repository_id_str |
2221 |
spelling |
SOUSA, Thiago Fernandes dehttp://lattes.cnpq.br/4005667915077966http://lattes.cnpq.br/8577312109146354CAVALCANTI, George Darmiton da Cunha2020-11-10T21:10:47Z2020-11-10T21:10:47Z2020-05-26SOUSA, Thiago Fernandes de. Combinação de classificadores para sistema de automated fact checking. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020.https://repositorio.ufpe.br/handle/123456789/38601ark:/64986/001300000vb0jA propagação de notícias falsas se tornou um problema de proporções globais, afetando a economia, saúde pública, convívio social, relações internacionais e o processo eleitoral de diversos países. Estudos indicam que fake news são compartilhadas mais vezes, e de maneira mais rápida que notícias verdadeiras. Isso ocorre porque estas declarações são fabricadas para enganar o leitor, indo de encontro com as suas convicções pessoais e diminuindo o seu senso crítico. Diversas técnicas de machine learning vêm sendo empregadas na tentativa de identificar padrões existentes em fake news, criando assim os sistemas de Automated Fact Checking. Uma alternativa a se considerar na melhoria de qualquer problema de classificação, é a combinação de um grupo de classificadores para uma classificação em conjunto, abrindo a possibilidade de se combinar os acertos individuais de cada integrante do grupo, obtendo assim, um resultado na classificação em conjunto que supere os resultados individuais de cada membro do conjunto. No entanto, combinar um grupo de classificadores, de forma a conseguir com que estas técnicas se complementem, não é uma tarefa trivial. Tendo em vista que para se conseguir uma melhoria no desempenho, os classificadores participantes do conjunto devem apresentar variações no seus padrões de acertos e erros. Este trabalho propõe uma abordagem que, dado um pool de classificadores, seja possível analisar o comportamento de cada integrante do conjunto em relação a todos os outros, tornando viável a construção de subgrupos de classificadores que apresente uma boa diversidade entre seus membros. Para testar a abordagem proposta, foi construído um pool composto por 80 classificadores, que tiveram seus desempenhos individuais verificados na classificação de um conjunto de dados de fake news. Em seguida, foi aplicado a metodologia proposta, e selecionados para uma classificação conjunta, subgrupos que apresentaram melhor diversidade entre seus membros. Este processo foi realizado duas vezes, a primeira vez considerando uma classificação binária do problema, e na segunda, foram consideradas seis classes diferentes, cada uma relacionada ao nível de veracidade contido na declaração analisada. Em todos os casos analisados, a aplicação da proposta se mostrou eficiente, possibilitando encontrar subgrupos que apresentaram melhora de desempenho na classificação em conjunto quando comparados com o desempenho individual dos classificadores do pool, superando também, experimentos publicados em outros trabalhos que se dedicavam a classificar o mesmo conjunto de dados.The spread of false news has become a problem of global proportions, affecting the economy, public health service, social life, international relations and the electoral process of several countries. Studies indicate that fake news is shared more often, and faster than real news. This is because these statements are designed to deceive the reader, meeting their personal beliefs and diminishing their critical sense. Several machine learning techniques have been used in an attempt to identify existing patterns in fake news, thus creating Automated Fact Checking systems. An alternative to consider in the improvement of any classification problem, is the combination of a group of classifiers for a classification together, opening the possibility of combining the individual hits of each member of the group, thus obtaining a result in the classification in set that exceeds the individual results of each member of the set. However, combining a group of classifiers in order to make these techniques complement each other is not a trivial task. Bearing in mind that to achieve an improvement in performance, the classifiers participating in the set must present variations in their patterns of successes and errors. This work proposes an approach that, given a pool of classifiers, it is possible to analyze the behavior of each member of the set in relation to all the others, making it possible to construct subgroups of classifiers that present a good diversity among its members. To test the proposed approach, a pool composed of 80 classifiers was built, which had their individual performances verified in the classification of a fake news data set. Then, the proposed methodology was applied, and subgroups that showed the best diversity among their members were selected for a joint classification. This process was carried out twice, the first time considering a binary classification of the problem, and the second time, six different classes were considered, each related to the level of veracity contained in the analyzed statement. In all the cases analyzed, the application of the proposal proved to be efficient, making it possible to find subgroups that showed improved performance in the classification as a whole when compared to the individual performance of the classifiers in the pool, also surpassing experiments published in other works that were dedicated to classifying the same data set.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência computacionalCombinação de classificadoresCombinação de classificadores para sistema de automated fact checkinginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPECC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/38601/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82310https://repositorio.ufpe.br/bitstream/123456789/38601/3/license.txtbd573a5ca8288eb7272482765f819534MD53TEXTDISSERTAÇÃO Thiago Fernandes de Sousa.pdf.txtDISSERTAÇÃO Thiago Fernandes de Sousa.pdf.txtExtracted texttext/plain151128https://repositorio.ufpe.br/bitstream/123456789/38601/4/DISSERTA%c3%87%c3%83O%20Thiago%20Fernandes%20de%20Sousa.pdf.txte3990167a5ee1490136b1950019cddd4MD54THUMBNAILDISSERTAÇÃO Thiago Fernandes de Sousa.pdf.jpgDISSERTAÇÃO Thiago Fernandes de Sousa.pdf.jpgGenerated Thumbnailimage/jpeg1286https://repositorio.ufpe.br/bitstream/123456789/38601/5/DISSERTA%c3%87%c3%83O%20Thiago%20Fernandes%20de%20Sousa.pdf.jpgd69c3bb85336fcd135c0833c453092c6MD55ORIGINALDISSERTAÇÃO Thiago Fernandes de Sousa.pdfDISSERTAÇÃO Thiago Fernandes de Sousa.pdfapplication/pdf1723903https://repositorio.ufpe.br/bitstream/123456789/38601/1/DISSERTA%c3%87%c3%83O%20Thiago%20Fernandes%20de%20Sousa.pdf5d7cbb8eb7002c7e6bf06bce88f4d4dbMD51123456789/386012020-11-11 02:18:26.965oai:repositorio.ufpe.br:123456789/38601TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLCBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWlzcXVlciBvYnJpZ2HDp8O1ZXMgZXhpZ2lkYXMgcGVsbyByZXNwZWN0aXZvIGNvbnRyYXRvIG91IGFjb3Jkby4KCkEgVUZQRSBpZGVudGlmaWNhcsOhIGNsYXJhbWVudGUgbyhzKSBub21lKHMpIGRvKHMpIGF1dG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50byBlbnRyZWd1ZSBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZG8gcHJldmlzdG8gbmEgYWzDrW5lYSBjKS4KRepositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212020-11-11T05:18:26Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
dc.title.pt_BR.fl_str_mv |
Combinação de classificadores para sistema de automated fact checking |
title |
Combinação de classificadores para sistema de automated fact checking |
spellingShingle |
Combinação de classificadores para sistema de automated fact checking SOUSA, Thiago Fernandes de Inteligência computacional Combinação de classificadores |
title_short |
Combinação de classificadores para sistema de automated fact checking |
title_full |
Combinação de classificadores para sistema de automated fact checking |
title_fullStr |
Combinação de classificadores para sistema de automated fact checking |
title_full_unstemmed |
Combinação de classificadores para sistema de automated fact checking |
title_sort |
Combinação de classificadores para sistema de automated fact checking |
author |
SOUSA, Thiago Fernandes de |
author_facet |
SOUSA, Thiago Fernandes de |
author_role |
author |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/4005667915077966 |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/8577312109146354 |
dc.contributor.author.fl_str_mv |
SOUSA, Thiago Fernandes de |
dc.contributor.advisor1.fl_str_mv |
CAVALCANTI, George Darmiton da Cunha |
contributor_str_mv |
CAVALCANTI, George Darmiton da Cunha |
dc.subject.por.fl_str_mv |
Inteligência computacional Combinação de classificadores |
topic |
Inteligência computacional Combinação de classificadores |
description |
A propagação de notícias falsas se tornou um problema de proporções globais, afetando a economia, saúde pública, convívio social, relações internacionais e o processo eleitoral de diversos países. Estudos indicam que fake news são compartilhadas mais vezes, e de maneira mais rápida que notícias verdadeiras. Isso ocorre porque estas declarações são fabricadas para enganar o leitor, indo de encontro com as suas convicções pessoais e diminuindo o seu senso crítico. Diversas técnicas de machine learning vêm sendo empregadas na tentativa de identificar padrões existentes em fake news, criando assim os sistemas de Automated Fact Checking. Uma alternativa a se considerar na melhoria de qualquer problema de classificação, é a combinação de um grupo de classificadores para uma classificação em conjunto, abrindo a possibilidade de se combinar os acertos individuais de cada integrante do grupo, obtendo assim, um resultado na classificação em conjunto que supere os resultados individuais de cada membro do conjunto. No entanto, combinar um grupo de classificadores, de forma a conseguir com que estas técnicas se complementem, não é uma tarefa trivial. Tendo em vista que para se conseguir uma melhoria no desempenho, os classificadores participantes do conjunto devem apresentar variações no seus padrões de acertos e erros. Este trabalho propõe uma abordagem que, dado um pool de classificadores, seja possível analisar o comportamento de cada integrante do conjunto em relação a todos os outros, tornando viável a construção de subgrupos de classificadores que apresente uma boa diversidade entre seus membros. Para testar a abordagem proposta, foi construído um pool composto por 80 classificadores, que tiveram seus desempenhos individuais verificados na classificação de um conjunto de dados de fake news. Em seguida, foi aplicado a metodologia proposta, e selecionados para uma classificação conjunta, subgrupos que apresentaram melhor diversidade entre seus membros. Este processo foi realizado duas vezes, a primeira vez considerando uma classificação binária do problema, e na segunda, foram consideradas seis classes diferentes, cada uma relacionada ao nível de veracidade contido na declaração analisada. Em todos os casos analisados, a aplicação da proposta se mostrou eficiente, possibilitando encontrar subgrupos que apresentaram melhora de desempenho na classificação em conjunto quando comparados com o desempenho individual dos classificadores do pool, superando também, experimentos publicados em outros trabalhos que se dedicavam a classificar o mesmo conjunto de dados. |
publishDate |
2020 |
dc.date.accessioned.fl_str_mv |
2020-11-10T21:10:47Z |
dc.date.available.fl_str_mv |
2020-11-10T21:10:47Z |
dc.date.issued.fl_str_mv |
2020-05-26 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
SOUSA, Thiago Fernandes de. Combinação de classificadores para sistema de automated fact checking. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufpe.br/handle/123456789/38601 |
dc.identifier.dark.fl_str_mv |
ark:/64986/001300000vb0j |
identifier_str_mv |
SOUSA, Thiago Fernandes de. Combinação de classificadores para sistema de automated fact checking. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020. ark:/64986/001300000vb0j |
url |
https://repositorio.ufpe.br/handle/123456789/38601 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.publisher.program.fl_str_mv |
Programa de Pos Graduacao em Ciencia da Computacao |
dc.publisher.initials.fl_str_mv |
UFPE |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
instname_str |
Universidade Federal de Pernambuco (UFPE) |
instacron_str |
UFPE |
institution |
UFPE |
reponame_str |
Repositório Institucional da UFPE |
collection |
Repositório Institucional da UFPE |
bitstream.url.fl_str_mv |
https://repositorio.ufpe.br/bitstream/123456789/38601/2/license_rdf https://repositorio.ufpe.br/bitstream/123456789/38601/3/license.txt https://repositorio.ufpe.br/bitstream/123456789/38601/4/DISSERTA%c3%87%c3%83O%20Thiago%20Fernandes%20de%20Sousa.pdf.txt https://repositorio.ufpe.br/bitstream/123456789/38601/5/DISSERTA%c3%87%c3%83O%20Thiago%20Fernandes%20de%20Sousa.pdf.jpg https://repositorio.ufpe.br/bitstream/123456789/38601/1/DISSERTA%c3%87%c3%83O%20Thiago%20Fernandes%20de%20Sousa.pdf |
bitstream.checksum.fl_str_mv |
e39d27027a6cc9cb039ad269a5db8e34 bd573a5ca8288eb7272482765f819534 e3990167a5ee1490136b1950019cddd4 d69c3bb85336fcd135c0833c453092c6 5d7cbb8eb7002c7e6bf06bce88f4d4db |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
repository.mail.fl_str_mv |
attena@ufpe.br |
_version_ |
1815172923679309824 |