Estudo sobre aplicação de aprendizado de máquina para identificação de assaltos através de informações do twitter
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRJ |
Texto Completo: | http://hdl.handle.net/11422/6345 |
Resumo: | O Twitter é uma plataforma de serviço de microblogging que tem chamado a atenção de diversos pesquisadores graças ao grande volume de dados que são gerados diariamente. Nesta plataforma, usuários enviam e recebem mensagens, chamadas tweets, de até 280 caracteres em tempo real. Por causa da sua popularização e do aumento da violência no estado do Rio de Janeiro, muitos usuários utilizam o serviço para relatar assaltos, em uma forma de tentar proteger uns aos outros. Neste trabalho, o objetivo é criar um sistema que fornece um mapeamento dos bairros do Rio de Janeiro com o maior número de denúncias de assalto segundo informações coletadas do Twitter. Para selecionar os tweets que contêm informações de assaltos, são utilizados filtros de busca por palavras-chave e outros que garantem que os textos foram postados na cidade ou em locais próximos. Após a coleta dos dados, foram aplicadas técnicas de processamento de linguagem natural para melhorar a qualidade dos mesmos. Além disso, foram investigados métodos de aprendizados para treinar classificadores que identifiquem se um tweet relata ou não um assalto. Como todos os métodos a serem testados utilizam regressão, foi necessário representar esses dados numericamente e a forma de representação escolhida foi a Ponderação TF-IDF. Durante o experimento, foi investigado o desempenho de três métodos, a partir de uma base anotada utilizada para treinamento e validação, são eles: SVM, Naive Bayes e Redes Neurais Artificiais. |
id |
UFRJ_cf36a88eaba09d27a70f37155a8ab8e2 |
---|---|
oai_identifier_str |
oai:pantheon.ufrj.br:11422/6345 |
network_acronym_str |
UFRJ |
network_name_str |
Repositório Institucional da UFRJ |
repository_id_str |
|
spelling |
Almeida, Thais Luca Marques dehttp://lattes.cnpq.br/9413102524215939http://lattes.cnpq.br/1787527911799919Lopes, Giseli Rabellohttp://lattes.cnpq.br/9439416101626260Faria, Fabrício Firmino dehttp://lattes.cnpq.br/9994062739448952Silva, João Carlos Pereira da2019-02-04T12:14:33Z2023-11-30T03:00:29Z2018-12-17http://hdl.handle.net/11422/6345Submitted by Elaine Almeida (elaine.almeida@nce.ufrj.br) on 2019-02-04T12:14:33Z No. of bitstreams: 1 TLMAlmeida.pdf: 865382 bytes, checksum: 943babe7bae88134e4a5dc2dee902843 (MD5)Made available in DSpace on 2019-02-04T12:14:33Z (GMT). No. of bitstreams: 1 TLMAlmeida.pdf: 865382 bytes, checksum: 943babe7bae88134e4a5dc2dee902843 (MD5) Previous issue date: 2018-12-17O Twitter é uma plataforma de serviço de microblogging que tem chamado a atenção de diversos pesquisadores graças ao grande volume de dados que são gerados diariamente. Nesta plataforma, usuários enviam e recebem mensagens, chamadas tweets, de até 280 caracteres em tempo real. Por causa da sua popularização e do aumento da violência no estado do Rio de Janeiro, muitos usuários utilizam o serviço para relatar assaltos, em uma forma de tentar proteger uns aos outros. Neste trabalho, o objetivo é criar um sistema que fornece um mapeamento dos bairros do Rio de Janeiro com o maior número de denúncias de assalto segundo informações coletadas do Twitter. Para selecionar os tweets que contêm informações de assaltos, são utilizados filtros de busca por palavras-chave e outros que garantem que os textos foram postados na cidade ou em locais próximos. Após a coleta dos dados, foram aplicadas técnicas de processamento de linguagem natural para melhorar a qualidade dos mesmos. Além disso, foram investigados métodos de aprendizados para treinar classificadores que identifiquem se um tweet relata ou não um assalto. Como todos os métodos a serem testados utilizam regressão, foi necessário representar esses dados numericamente e a forma de representação escolhida foi a Ponderação TF-IDF. Durante o experimento, foi investigado o desempenho de três métodos, a partir de uma base anotada utilizada para treinamento e validação, são eles: SVM, Naive Bayes e Redes Neurais Artificiais.porUniversidade Federal do Rio de JaneiroUFRJBrasilInstituto de ComputaçãoCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAORedes sociaisProcessamento de linguagem naturalAprendizado computacionalEstudo sobre aplicação de aprendizado de máquina para identificação de assaltos através de informações do twitterinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisabertoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJORIGINALTLMAlmeida.pdfTLMAlmeida.pdfapplication/pdf865382http://pantheon.ufrj.br:80/bitstream/11422/6345/1/TLMAlmeida.pdf943babe7bae88134e4a5dc2dee902843MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81853http://pantheon.ufrj.br:80/bitstream/11422/6345/2/license.txtdd32849f2bfb22da963c3aac6e26e255MD5211422/63452023-11-30 00:00:29.174oai:pantheon.ufrj.br:11422/6345TElDRU7Dh0EgTsODTy1FWENMVVNJVkEgREUgRElTVFJJQlVJw4fDg08KCkFvIGFzc2luYXIgZSBlbnRyZWdhciBlc3RhIGxpY2Vuw6dhLCB2b2PDqihzKSBvKHMpIGF1dG9yKGVzKSBvdSBwcm9wcmlldMOhcmlvKHMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBjb25jZWRlKG0pIGFvIFJlcG9zaXTDs3JpbyBQYW50aGVvbiBkYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gZGUgSmFuZWlybyAoVUZSSikgbyBkaXJlaXRvIG7Do28gLSBleGNsdXNpdm8gZGUgcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vKSBlbSB0b2RvIG8gbXVuZG8sIGVtIGZvcm1hdG8gZWxldHLDtG5pY28gZSBlbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8sIG1hcyBuw6NvIGxpbWl0YWRvIGEgw6F1ZGlvIGUvb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIGEgVUZSSiBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhZHV6aXIgYSBhcHJlc2VudGHDp8OjbyBkZSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gY29tIGEgZmluYWxpZGFkZSBkZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogdGFtYsOpbSBjb25jb3JkYSBxdWUgYSBVRlJKIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXNzYSBzdWJtaXNzw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8OjbyBkaWdpdGFsLgoKRGVjbGFyYSBxdWUgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgc2V1IHRyYWJhbGhvIG9yaWdpbmFsLCBlIHF1ZSB2b2PDqiB0ZW0gbyBkaXJlaXRvIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIGEgc3VhIGFwcmVzZW50YcOnw6NvLCBjb20gbyBtZWxob3IgZGUgc2V1cyBjb25oZWNpbWVudG9zLCBuw6NvIGluZnJpbmdpIGRpcmVpdG9zIGF1dG9yYWlzIGRlIHRlcmNlaXJvcy4KClNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCB2b2PDqiBuw6NvIHRlbSBkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBlIGNvbmNlZGUgYSBVRlJKIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRhIHN1Ym1pc3PDo28uCgpTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIHF1ZSBmb2ksIG91IHRlbSBzaWRvIHBhdHJvY2luYWRvIG91IGFwb2lhZG8gcG9yIHVtYSBhZ8OqbmNpYSBvdSBvdXRybyhzKSBvcmdhbmlzbW8ocykgcXVlIG7Do28gYSBVRlJKLCB2b2PDqiBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWxxdWVyIGRpcmVpdG8gZGUgUkVWSVPDg08gb3UgZGUgb3V0cmFzIG9icmlnYcOnw7VlcyByZXF1ZXJpZGFzIHBvciBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUkogaXLDoSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8ocykgc2V1KHMpIG5vbWUocykgY29tbyBhdXRvcihlcykgb3UgcHJvcHJpZXTDoXJpbyhzKSBkYSBzdWJtaXNzw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZGFzIHBlcm1pdGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EsIG5vIGF0byBkZSBzdWJtaXNzw6NvLgo=Repositório de PublicaçõesPUBhttp://www.pantheon.ufrj.br/oai/requestopendoar:2023-11-30T03:00:29Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false |
dc.title.pt_BR.fl_str_mv |
Estudo sobre aplicação de aprendizado de máquina para identificação de assaltos através de informações do twitter |
title |
Estudo sobre aplicação de aprendizado de máquina para identificação de assaltos através de informações do twitter |
spellingShingle |
Estudo sobre aplicação de aprendizado de máquina para identificação de assaltos através de informações do twitter Almeida, Thais Luca Marques de CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO Redes sociais Processamento de linguagem natural Aprendizado computacional |
title_short |
Estudo sobre aplicação de aprendizado de máquina para identificação de assaltos através de informações do twitter |
title_full |
Estudo sobre aplicação de aprendizado de máquina para identificação de assaltos através de informações do twitter |
title_fullStr |
Estudo sobre aplicação de aprendizado de máquina para identificação de assaltos através de informações do twitter |
title_full_unstemmed |
Estudo sobre aplicação de aprendizado de máquina para identificação de assaltos através de informações do twitter |
title_sort |
Estudo sobre aplicação de aprendizado de máquina para identificação de assaltos através de informações do twitter |
author |
Almeida, Thais Luca Marques de |
author_facet |
Almeida, Thais Luca Marques de |
author_role |
author |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/9413102524215939 |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/1787527911799919 |
dc.contributor.author.fl_str_mv |
Almeida, Thais Luca Marques de |
dc.contributor.referee1.fl_str_mv |
Lopes, Giseli Rabello |
dc.contributor.referee1Lattes.fl_str_mv |
http://lattes.cnpq.br/9439416101626260 |
dc.contributor.referee2.fl_str_mv |
Faria, Fabrício Firmino de |
dc.contributor.referee2Lattes.fl_str_mv |
http://lattes.cnpq.br/9994062739448952 |
dc.contributor.advisor1.fl_str_mv |
Silva, João Carlos Pereira da |
contributor_str_mv |
Lopes, Giseli Rabello Faria, Fabrício Firmino de Silva, João Carlos Pereira da |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
topic |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO Redes sociais Processamento de linguagem natural Aprendizado computacional |
dc.subject.por.fl_str_mv |
Redes sociais Processamento de linguagem natural Aprendizado computacional |
description |
O Twitter é uma plataforma de serviço de microblogging que tem chamado a atenção de diversos pesquisadores graças ao grande volume de dados que são gerados diariamente. Nesta plataforma, usuários enviam e recebem mensagens, chamadas tweets, de até 280 caracteres em tempo real. Por causa da sua popularização e do aumento da violência no estado do Rio de Janeiro, muitos usuários utilizam o serviço para relatar assaltos, em uma forma de tentar proteger uns aos outros. Neste trabalho, o objetivo é criar um sistema que fornece um mapeamento dos bairros do Rio de Janeiro com o maior número de denúncias de assalto segundo informações coletadas do Twitter. Para selecionar os tweets que contêm informações de assaltos, são utilizados filtros de busca por palavras-chave e outros que garantem que os textos foram postados na cidade ou em locais próximos. Após a coleta dos dados, foram aplicadas técnicas de processamento de linguagem natural para melhorar a qualidade dos mesmos. Além disso, foram investigados métodos de aprendizados para treinar classificadores que identifiquem se um tweet relata ou não um assalto. Como todos os métodos a serem testados utilizam regressão, foi necessário representar esses dados numericamente e a forma de representação escolhida foi a Ponderação TF-IDF. Durante o experimento, foi investigado o desempenho de três métodos, a partir de uma base anotada utilizada para treinamento e validação, são eles: SVM, Naive Bayes e Redes Neurais Artificiais. |
publishDate |
2018 |
dc.date.issued.fl_str_mv |
2018-12-17 |
dc.date.accessioned.fl_str_mv |
2019-02-04T12:14:33Z |
dc.date.available.fl_str_mv |
2023-11-30T03:00:29Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/11422/6345 |
url |
http://hdl.handle.net/11422/6345 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal do Rio de Janeiro |
dc.publisher.initials.fl_str_mv |
UFRJ |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Instituto de Computação |
publisher.none.fl_str_mv |
Universidade Federal do Rio de Janeiro |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRJ instname:Universidade Federal do Rio de Janeiro (UFRJ) instacron:UFRJ |
instname_str |
Universidade Federal do Rio de Janeiro (UFRJ) |
instacron_str |
UFRJ |
institution |
UFRJ |
reponame_str |
Repositório Institucional da UFRJ |
collection |
Repositório Institucional da UFRJ |
bitstream.url.fl_str_mv |
http://pantheon.ufrj.br:80/bitstream/11422/6345/1/TLMAlmeida.pdf http://pantheon.ufrj.br:80/bitstream/11422/6345/2/license.txt |
bitstream.checksum.fl_str_mv |
943babe7bae88134e4a5dc2dee902843 dd32849f2bfb22da963c3aac6e26e255 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ) |
repository.mail.fl_str_mv |
|
_version_ |
1784097125784616960 |