spelling |
Marcos Oliveira Prateshttp://lattes.cnpq.br/7893235207392165Michael OakesRafael Bassi SternClécio da Silva FerreiraMarcelo Azevedo CostaIlka Afonso Reishttp://lattes.cnpq.br/3092604714336640Larissa Sayuri Futino Castro dos Santos2020-05-29T19:05:56Z2020-05-29T19:05:56Z2019-06-27http://hdl.handle.net/1843/33568This work describes the classification of texts as being either crime-related or non-crime-related. Given the spontaneity and popularity of Twitter, we collected some posts related to crime and criminology, in the state of São Paulo-SP Brazil. However, this data set is not a collection of crime reports. As the web language is characterized by diversity including flexibility, spontaneity and informality we need a classification rule to filter the documents which really are in the context. The proposed methodology works in a two-step framework. In the first step, we partition the text database into smaller data sets which define text collections with characteristics (not necessarily directly observable) which allow a better classification process. This enables the usage of parallel computing which decreases the time process required for the technique execution. Later on, each subset of the data induces a distinct classification rule with a Supervised Machine Learning technique. For the sake of simplicity, we work with KMeans and KMedoids and linear SVM. We will present our results in terms of speed and classification accuracy using various feature sets, including semantic codes. Analysis with distinct classifier induction techniques as Random Forest, Logistic Regression, and Boosting is also provided. An application with a huge data set of 1,600,000 tweets written in English proofs the method's efficiency.Problemas de classificação/categorização de texto tornam-se ainda mais desafiadores quando os documentos de interesse são curtos. Além da falta de contexto, texto advindos da web tem o agravante da espontaneidade, flexibilidade e informalidade. Esse trabalho propõe uma metodologia que viabilize a indução de classificadores de texto para bases de dados grandes por usuários com disponibilidade de computadores comuns e sem conhecimento avançado em computação paralela e/ou distribuída. A metodologia proposta divide-se em dois passos. No primeiro deles, como etapa inicial, procede-se com a partição do banco de dados em subconjuntos de dados menores. No segundo passo cada subconjunto induz um classificador específico a partir de uma técnica supervisionada de Aprendizado de Máquina. A indução de um classificador com a coleção completa é substituída por induções de classificadores com menos dados o que reduz o esforço computacional. Além disso, viabiliza-se também a indução de múltiplos classificadores em distintos cores do computador concomitantemente. Isso denota uma paralelização computacional simples, o que reduz o tempo de processamento para a execução da tarefa. A metodologia também permite o emprego de distintas formas de representação do texto (o uso do vocabulário observado, com diferentes formas de seleção de atributos, o uso de anotação, bigramas, etc). Também é possível o uso de diferentes técnicas de agrupamento e Aprendizado de Máquina. Tais técnicas podem ser especificadas de acordo com as preferências do usuário, contexto e dificuldades do problema ou infra-estrutura disponível. Experimentos com distintos tipo de técnicas de classificação são realizadas. Apresentam-se análises para um base de tweets coletados na região de São Paulo-SP, Brasil no tópico de crime. A eficiência da metodologia é comprovada com o seu emprego em uma base de dados de 1.600.000 tweets em inglês, no domínio de Análise de Sentimento.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorengUniversidade Federal de Minas GeraisPrograma de Pós-Graduação em EstatísticaUFMGBrasilICX - DEPARTAMENTO DE ESTATÍSTICAEstatística – TesesAnálise por conglomeradosMineração de dados (Computação)Classificação de TextosAprendizado do computadortext classificationmachine learningpartition clusteringfeature selectionedit distanceMining large amount of short text data in your desktopMinerando grandes bases de textos curtos em um desktop comuminfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGLICENSElicense.txtlicense.txttext/plain; charset=utf-82119https://repositorio.ufmg.br/bitstream/1843/33568/2/license.txt34badce4be7e31e3adb4575ae96af679MD52ORIGINALLarissaSayuriFutinoCastroDosSantosFinal.pdfLarissaSayuriFutinoCastroDosSantosFinal.pdfapplication/pdf5800983https://repositorio.ufmg.br/bitstream/1843/33568/1/LarissaSayuriFutinoCastroDosSantosFinal.pdf5d4774c3d2a13725f7d1b2bee6b5d1baMD511843/335682020-05-29 16:05:56.968oai:repositorio.ufmg.br:1843/33568TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEgRE8gUkVQT1NJVMOTUklPIElOU1RJVFVDSU9OQUwgREEgVUZNRwoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIChSSS1VRk1HKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZSBpcnJldm9nw6F2ZWwgZGUgcmVwcm9kdXppciBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBkZWNsYXJhIHF1ZSBjb25oZWNlIGEgcG9sw610aWNhIGRlIGNvcHlyaWdodCBkYSBlZGl0b3JhIGRvIHNldSBkb2N1bWVudG8gZSBxdWUgY29uaGVjZSBlIGFjZWl0YSBhcyBEaXJldHJpemVzIGRvIFJJLVVGTUcuCgpWb2PDqiBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGTUcgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRlIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHB1YmxpY2HDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBQVUJMSUNBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCk8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lKHMpIG91IG8ocykgbm9tZXMocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KCg==Repositório InstitucionalPUBhttps://repositorio.ufmg.br/oaiopendoar:2020-05-29T19:05:56Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
|