Data mining and the quality of extracted knowledge from police reports of Brazilian Federal Highways

Detalhes bibliográficos
Autor(a) principal: Costa, Jefferson de Jesus
Data de Publicação: 2014
Outros Autores: Bernardini, Flávia Cristina, Viterbo Filho, José
Tipo de documento: Artigo
Idioma: por
Título da fonte: AtoZ (Curitiba)
Texto Completo: https://revistas.ufpr.br/atoz/article/view/41346
Resumo: Introduction: This paper presents and analyzes the results obtained when applying Data Mining process in the bulletins of occurrences of the Brazilian federal highways generated by the Federal Highway Police (PRF) in 2012. The purpose of this work is to analyze the feasibility of implementing the Data Mining process on data provided by PRF in order to identify associations between variables related to transit accidents in all Brazilian federal highways. Method: It was used symbolic supervised learning algorithms, as well as an algorithm of generation of association rules, implemented in Weka tool. Regarding the database, it was used the records of 2012. On this portion of the database it was conducted the step of data preprocessing, which were used for extracting models and patterns in the Weka tool and, lastly, evaluated the models and extracted patterns. Results: In supervised learning, the results obtained with J48 and PART algorithms have been considered promising due to the fact that for all classes of accidents causes, the values of area under the ROC curve (AUC) were above 0.5. Furthermore, using the Apriori algorithm there have been generated 38 association rules with confidence greater than 0.8. Conclusions: It was concluded that is important to propose a model for data distribution of this database, in order to use it for data mining process, as well as other knowledge extraction tasks and decision making. It was noted still, the need to improve the quality of data to be provided from the initial stage of data gathering, that is, in the very systems used to record the data.
id UFPR-6_22d4967bcb372158eb99a311cbfcab34
oai_identifier_str oai:revistas.ufpr.br:article/41346
network_acronym_str UFPR-6
network_name_str AtoZ (Curitiba)
repository_id_str
spelling Data mining and the quality of extracted knowledge from police reports of Brazilian Federal HighwaysA mineração de dados e a qualidade de conhecimentos extraídos dos boletins de ocorrência das rodovias federais brasileirasMinería de datos y la calidad de los conocimientos extraídos de informes policiales de carreteras federales brasileñasComputer Science: computing methodologies and techniquesOpen Government Data; Data Mining; Association Rules; Knowledge Discovery in DatabasesCiencias de la Computación: metodologías y técnicas de computaciónDatos abiertos gubernamentales; Minería de datos; Reglas de asociación; Descubrimiento de Conocimiento en Bases de DatosCiência da Computação: metodologias e técnicas da computaçãoDados Governamentais Abertos; Mineração de Dados; Regras de Associação; Descoberta de Conhecimento em Bases de DadosIntroduction: This paper presents and analyzes the results obtained when applying Data Mining process in the bulletins of occurrences of the Brazilian federal highways generated by the Federal Highway Police (PRF) in 2012. The purpose of this work is to analyze the feasibility of implementing the Data Mining process on data provided by PRF in order to identify associations between variables related to transit accidents in all Brazilian federal highways. Method: It was used symbolic supervised learning algorithms, as well as an algorithm of generation of association rules, implemented in Weka tool. Regarding the database, it was used the records of 2012. On this portion of the database it was conducted the step of data preprocessing, which were used for extracting models and patterns in the Weka tool and, lastly, evaluated the models and extracted patterns. Results: In supervised learning, the results obtained with J48 and PART algorithms have been considered promising due to the fact that for all classes of accidents causes, the values of area under the ROC curve (AUC) were above 0.5. Furthermore, using the Apriori algorithm there have been generated 38 association rules with confidence greater than 0.8. Conclusions: It was concluded that is important to propose a model for data distribution of this database, in order to use it for data mining process, as well as other knowledge extraction tasks and decision making. It was noted still, the need to improve the quality of data to be provided from the initial stage of data gathering, that is, in the very systems used to record the data.Introducción: Este trabajo presenta y analiza los resultados obtenidos al aplicar el proceso de minería de datos en los boletines de ocurrencias de las carreteras federales brasileñas generadas por la Policía Federal de Carreteras (PRF) en 2012. El objetivo de este trabajo es analizar la viabilidad de la aplicación de la proceso de minería de datos en los datos proporcionados por PRF con el fin de identificar asociaciones entre las variables relacionadas con los accidentes de tránsito en las autopistas federales brasileñas. Método: Se utilizó algoritmos simbólicos de aprendizaje supervisado, así como un algoritmo de generación de reglas de asociación, implementados en la herramienta Weka. En cuanto a la base de datos, se ha usado los registros de 2012. En esta parte de la base de datos se llevó a cabo la etapa de preprocesamiento de datos, que fueron utilizados para la extracción de modelos y patrones en la herramienta Weka y, por último, evaluado los modelos y patrones extraídos. Resultados: En el aprendizaje supervisado, los resultados obtenidos con los algoritmos de J48 y PARTE se han considerado prometedores debido al hecho de que para todas las clases de causas de accidentes, los valores de área bajo la curva ROC (AUC) fueron superiores a 0,5. Además, utilizando el algoritmo Apriori se han generado 38 reglas de asociación con la confianza mayor que 0,8. Conclusiones: Se concluyó que es importante proponer un modelo para la distribución de los datos de esta base de datos, con el fin de utilizarlo para el proceso de minería de datos, así como otras tareas de extracción de conocimiento y toma de decisiones. Se observó aún, la necesidad de mejorar la calidad de los datos que se proporciona desde la etapa inicial de recopilación de datos, es decir, en los mismos sistemas utilizados para grabar los datos.Introdução: Apresenta e analisa os resultados encontrados com a aplicação do processo de Mineração de Dados nos boletins de ocorrências de rodovias federais brasileiras gerados pela Polícia Rodoviária Federal (PRF) em 2012. O objetivo desse trabalho é analisar a viabilidade da aplicação do processo de Mineração de Dados sobre os dados fornecidos pela PRF, a fim de identificar associações entre variáveis relacionadas aos acidentes de trânsito em todas as rodovias federais. Método: Empregaram-se algoritmos de aprendizado supervisionado e simbólico e um algoritmo de regras de associação, ambos implementados na ferramenta Weka. Quanto à base de dados o estudo compreende os registros referentes ao ano de 2012. Sobre essa parcela da base de dados aplicou-se a etapa de pré-processamento dos dados, os quais foram utilizados para extração dos modelos e padrões na ferramenta Weka e, por último, avaliaram-se os modelos e os padrões extraídos. Resultados: No aprendizado supervisionado, os resultados obtidos com os algoritmos J48 e PART foram considerados promissores, pois para todas as classes de causas de acidente, os valores obtidos de área sob a curva ROC (AUC) estiveram acima de 0,5. Além disso, utilizando-se o algoritmo Apriori, foram geradas 38 regras de associação com confiança maior que 0,8. Conclusão: Conclui-se que é importante uma proposta de modelo para distribuição dos dados dessa base de dados, com o objetivo de utilizá-la para o processo de mineração de dados, bem como para outras tarefas de extração de conhecimento e tomada de decisão. Observa-se, ainda, a necessidade de melhoria da qualidade dos dados a serem disponibilizados desde a fase de coleta, ou seja, nos sistemas para cadastro dos dados.Programa de Pós-graduação em Gestão da Informação - UFPRCosta, Jefferson de JesusBernardini, Flávia CristinaViterbo Filho, José2014-12-31info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionArtículo evaluado por paresminería de datosAvaliado pelos paresmineração de dadosdata miningtext/htmlapplication/pdfapplication/epub+ziphttps://revistas.ufpr.br/atoz/article/view/4134610.5380/atoz.v3i2.41346AtoZ: novas práticas em informação e conhecimento; v. 3, n. 2 (2014): jul./dez.; 139-157AtoZ: novas práticas em informação e conhecimento; v. 3, n. 2 (2014): jul./dez.; 139-157AtoZ: novas práticas em informação e conhecimento; v. 3, n. 2 (2014): jul./dez.; 139-1572237-826X10.5380/atoz.v3i2reponame:AtoZ (Curitiba)instname:Universidade Federal do Paraná (UFPR)instacron:UFPRporhttps://revistas.ufpr.br/atoz/article/view/41346/25356https://revistas.ufpr.br/atoz/article/view/41346/26161https://revistas.ufpr.br/atoz/article/view/41346/25358Brasil2012por registro en base de datosBrazil2012by record in databaseBrasil2012por registro em base de dadosinfo:eu-repo/semantics/openAccess2017-11-03T15:43:09Zoai:revistas.ufpr.br:article/41346Revistahttp://revistas.ufpr.br/atozPUBhttp://ojs.c3sl.ufpr.br/ojs2/index.php/atoz/oai||revistaatoz@ufpr.br|| contatoatoz@gmail.com2237-826X2237-826Xopendoar:2017-11-03T15:43:09AtoZ (Curitiba) - Universidade Federal do Paraná (UFPR)false
dc.title.none.fl_str_mv Data mining and the quality of extracted knowledge from police reports of Brazilian Federal Highways
A mineração de dados e a qualidade de conhecimentos extraídos dos boletins de ocorrência das rodovias federais brasileiras
Minería de datos y la calidad de los conocimientos extraídos de informes policiales de carreteras federales brasileñas
title Data mining and the quality of extracted knowledge from police reports of Brazilian Federal Highways
spellingShingle Data mining and the quality of extracted knowledge from police reports of Brazilian Federal Highways
Costa, Jefferson de Jesus
Computer Science: computing methodologies and techniques
Open Government Data; Data Mining; Association Rules; Knowledge Discovery in Databases
Ciencias de la Computación: metodologías y técnicas de computación
Datos abiertos gubernamentales; Minería de datos; Reglas de asociación; Descubrimiento de Conocimiento en Bases de Datos
Ciência da Computação: metodologias e técnicas da computação
Dados Governamentais Abertos; Mineração de Dados; Regras de Associação; Descoberta de Conhecimento em Bases de Dados
title_short Data mining and the quality of extracted knowledge from police reports of Brazilian Federal Highways
title_full Data mining and the quality of extracted knowledge from police reports of Brazilian Federal Highways
title_fullStr Data mining and the quality of extracted knowledge from police reports of Brazilian Federal Highways
title_full_unstemmed Data mining and the quality of extracted knowledge from police reports of Brazilian Federal Highways
title_sort Data mining and the quality of extracted knowledge from police reports of Brazilian Federal Highways
author Costa, Jefferson de Jesus
author_facet Costa, Jefferson de Jesus
Bernardini, Flávia Cristina
Viterbo Filho, José
author_role author
author2 Bernardini, Flávia Cristina
Viterbo Filho, José
author2_role author
author
dc.contributor.none.fl_str_mv
dc.contributor.author.fl_str_mv Costa, Jefferson de Jesus
Bernardini, Flávia Cristina
Viterbo Filho, José
dc.subject.por.fl_str_mv Computer Science: computing methodologies and techniques
Open Government Data; Data Mining; Association Rules; Knowledge Discovery in Databases
Ciencias de la Computación: metodologías y técnicas de computación
Datos abiertos gubernamentales; Minería de datos; Reglas de asociación; Descubrimiento de Conocimiento en Bases de Datos
Ciência da Computação: metodologias e técnicas da computação
Dados Governamentais Abertos; Mineração de Dados; Regras de Associação; Descoberta de Conhecimento em Bases de Dados
topic Computer Science: computing methodologies and techniques
Open Government Data; Data Mining; Association Rules; Knowledge Discovery in Databases
Ciencias de la Computación: metodologías y técnicas de computación
Datos abiertos gubernamentales; Minería de datos; Reglas de asociación; Descubrimiento de Conocimiento en Bases de Datos
Ciência da Computação: metodologias e técnicas da computação
Dados Governamentais Abertos; Mineração de Dados; Regras de Associação; Descoberta de Conhecimento em Bases de Dados
description Introduction: This paper presents and analyzes the results obtained when applying Data Mining process in the bulletins of occurrences of the Brazilian federal highways generated by the Federal Highway Police (PRF) in 2012. The purpose of this work is to analyze the feasibility of implementing the Data Mining process on data provided by PRF in order to identify associations between variables related to transit accidents in all Brazilian federal highways. Method: It was used symbolic supervised learning algorithms, as well as an algorithm of generation of association rules, implemented in Weka tool. Regarding the database, it was used the records of 2012. On this portion of the database it was conducted the step of data preprocessing, which were used for extracting models and patterns in the Weka tool and, lastly, evaluated the models and extracted patterns. Results: In supervised learning, the results obtained with J48 and PART algorithms have been considered promising due to the fact that for all classes of accidents causes, the values of area under the ROC curve (AUC) were above 0.5. Furthermore, using the Apriori algorithm there have been generated 38 association rules with confidence greater than 0.8. Conclusions: It was concluded that is important to propose a model for data distribution of this database, in order to use it for data mining process, as well as other knowledge extraction tasks and decision making. It was noted still, the need to improve the quality of data to be provided from the initial stage of data gathering, that is, in the very systems used to record the data.
publishDate 2014
dc.date.none.fl_str_mv 2014-12-31
dc.type.none.fl_str_mv
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
Artículo evaluado por pares
minería de datos
Avaliado pelos pares
mineração de dados
data mining
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://revistas.ufpr.br/atoz/article/view/41346
10.5380/atoz.v3i2.41346
url https://revistas.ufpr.br/atoz/article/view/41346
identifier_str_mv 10.5380/atoz.v3i2.41346
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://revistas.ufpr.br/atoz/article/view/41346/25356
https://revistas.ufpr.br/atoz/article/view/41346/26161
https://revistas.ufpr.br/atoz/article/view/41346/25358
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv text/html
application/pdf
application/epub+zip
dc.coverage.none.fl_str_mv Brasil
2012
por registro en base de datos
Brazil
2012
by record in database
Brasil
2012
por registro em base de dados
dc.publisher.none.fl_str_mv Programa de Pós-graduação em Gestão da Informação - UFPR
publisher.none.fl_str_mv Programa de Pós-graduação em Gestão da Informação - UFPR
dc.source.none.fl_str_mv AtoZ: novas práticas em informação e conhecimento; v. 3, n. 2 (2014): jul./dez.; 139-157
AtoZ: novas práticas em informação e conhecimento; v. 3, n. 2 (2014): jul./dez.; 139-157
AtoZ: novas práticas em informação e conhecimento; v. 3, n. 2 (2014): jul./dez.; 139-157
2237-826X
10.5380/atoz.v3i2
reponame:AtoZ (Curitiba)
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str AtoZ (Curitiba)
collection AtoZ (Curitiba)
repository.name.fl_str_mv AtoZ (Curitiba) - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv ||revistaatoz@ufpr.br|| contatoatoz@gmail.com
_version_ 1809276795040563200