Data mining and the quality of extracted knowledge from police reports of Brazilian Federal Highways
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Outros Autores: | , |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | AtoZ (Curitiba) |
Texto Completo: | https://revistas.ufpr.br/atoz/article/view/41346 |
Resumo: | Introduction: This paper presents and analyzes the results obtained when applying Data Mining process in the bulletins of occurrences of the Brazilian federal highways generated by the Federal Highway Police (PRF) in 2012. The purpose of this work is to analyze the feasibility of implementing the Data Mining process on data provided by PRF in order to identify associations between variables related to transit accidents in all Brazilian federal highways. Method: It was used symbolic supervised learning algorithms, as well as an algorithm of generation of association rules, implemented in Weka tool. Regarding the database, it was used the records of 2012. On this portion of the database it was conducted the step of data preprocessing, which were used for extracting models and patterns in the Weka tool and, lastly, evaluated the models and extracted patterns. Results: In supervised learning, the results obtained with J48 and PART algorithms have been considered promising due to the fact that for all classes of accidents causes, the values of area under the ROC curve (AUC) were above 0.5. Furthermore, using the Apriori algorithm there have been generated 38 association rules with confidence greater than 0.8. Conclusions: It was concluded that is important to propose a model for data distribution of this database, in order to use it for data mining process, as well as other knowledge extraction tasks and decision making. It was noted still, the need to improve the quality of data to be provided from the initial stage of data gathering, that is, in the very systems used to record the data. |
id |
UFPR-6_22d4967bcb372158eb99a311cbfcab34 |
---|---|
oai_identifier_str |
oai:revistas.ufpr.br:article/41346 |
network_acronym_str |
UFPR-6 |
network_name_str |
AtoZ (Curitiba) |
repository_id_str |
|
spelling |
Data mining and the quality of extracted knowledge from police reports of Brazilian Federal HighwaysA mineração de dados e a qualidade de conhecimentos extraídos dos boletins de ocorrência das rodovias federais brasileirasMinería de datos y la calidad de los conocimientos extraídos de informes policiales de carreteras federales brasileñasComputer Science: computing methodologies and techniquesOpen Government Data; Data Mining; Association Rules; Knowledge Discovery in DatabasesCiencias de la Computación: metodologías y técnicas de computaciónDatos abiertos gubernamentales; Minería de datos; Reglas de asociación; Descubrimiento de Conocimiento en Bases de DatosCiência da Computação: metodologias e técnicas da computaçãoDados Governamentais Abertos; Mineração de Dados; Regras de Associação; Descoberta de Conhecimento em Bases de DadosIntroduction: This paper presents and analyzes the results obtained when applying Data Mining process in the bulletins of occurrences of the Brazilian federal highways generated by the Federal Highway Police (PRF) in 2012. The purpose of this work is to analyze the feasibility of implementing the Data Mining process on data provided by PRF in order to identify associations between variables related to transit accidents in all Brazilian federal highways. Method: It was used symbolic supervised learning algorithms, as well as an algorithm of generation of association rules, implemented in Weka tool. Regarding the database, it was used the records of 2012. On this portion of the database it was conducted the step of data preprocessing, which were used for extracting models and patterns in the Weka tool and, lastly, evaluated the models and extracted patterns. Results: In supervised learning, the results obtained with J48 and PART algorithms have been considered promising due to the fact that for all classes of accidents causes, the values of area under the ROC curve (AUC) were above 0.5. Furthermore, using the Apriori algorithm there have been generated 38 association rules with confidence greater than 0.8. Conclusions: It was concluded that is important to propose a model for data distribution of this database, in order to use it for data mining process, as well as other knowledge extraction tasks and decision making. It was noted still, the need to improve the quality of data to be provided from the initial stage of data gathering, that is, in the very systems used to record the data.Introducción: Este trabajo presenta y analiza los resultados obtenidos al aplicar el proceso de minería de datos en los boletines de ocurrencias de las carreteras federales brasileñas generadas por la Policía Federal de Carreteras (PRF) en 2012. El objetivo de este trabajo es analizar la viabilidad de la aplicación de la proceso de minería de datos en los datos proporcionados por PRF con el fin de identificar asociaciones entre las variables relacionadas con los accidentes de tránsito en las autopistas federales brasileñas. Método: Se utilizó algoritmos simbólicos de aprendizaje supervisado, así como un algoritmo de generación de reglas de asociación, implementados en la herramienta Weka. En cuanto a la base de datos, se ha usado los registros de 2012. En esta parte de la base de datos se llevó a cabo la etapa de preprocesamiento de datos, que fueron utilizados para la extracción de modelos y patrones en la herramienta Weka y, por último, evaluado los modelos y patrones extraídos. Resultados: En el aprendizaje supervisado, los resultados obtenidos con los algoritmos de J48 y PARTE se han considerado prometedores debido al hecho de que para todas las clases de causas de accidentes, los valores de área bajo la curva ROC (AUC) fueron superiores a 0,5. Además, utilizando el algoritmo Apriori se han generado 38 reglas de asociación con la confianza mayor que 0,8. Conclusiones: Se concluyó que es importante proponer un modelo para la distribución de los datos de esta base de datos, con el fin de utilizarlo para el proceso de minería de datos, así como otras tareas de extracción de conocimiento y toma de decisiones. Se observó aún, la necesidad de mejorar la calidad de los datos que se proporciona desde la etapa inicial de recopilación de datos, es decir, en los mismos sistemas utilizados para grabar los datos.Introdução: Apresenta e analisa os resultados encontrados com a aplicação do processo de Mineração de Dados nos boletins de ocorrências de rodovias federais brasileiras gerados pela Polícia Rodoviária Federal (PRF) em 2012. O objetivo desse trabalho é analisar a viabilidade da aplicação do processo de Mineração de Dados sobre os dados fornecidos pela PRF, a fim de identificar associações entre variáveis relacionadas aos acidentes de trânsito em todas as rodovias federais. Método: Empregaram-se algoritmos de aprendizado supervisionado e simbólico e um algoritmo de regras de associação, ambos implementados na ferramenta Weka. Quanto à base de dados o estudo compreende os registros referentes ao ano de 2012. Sobre essa parcela da base de dados aplicou-se a etapa de pré-processamento dos dados, os quais foram utilizados para extração dos modelos e padrões na ferramenta Weka e, por último, avaliaram-se os modelos e os padrões extraídos. Resultados: No aprendizado supervisionado, os resultados obtidos com os algoritmos J48 e PART foram considerados promissores, pois para todas as classes de causas de acidente, os valores obtidos de área sob a curva ROC (AUC) estiveram acima de 0,5. Além disso, utilizando-se o algoritmo Apriori, foram geradas 38 regras de associação com confiança maior que 0,8. Conclusão: Conclui-se que é importante uma proposta de modelo para distribuição dos dados dessa base de dados, com o objetivo de utilizá-la para o processo de mineração de dados, bem como para outras tarefas de extração de conhecimento e tomada de decisão. Observa-se, ainda, a necessidade de melhoria da qualidade dos dados a serem disponibilizados desde a fase de coleta, ou seja, nos sistemas para cadastro dos dados.Programa de Pós-graduação em Gestão da Informação - UFPRCosta, Jefferson de JesusBernardini, Flávia CristinaViterbo Filho, José2014-12-31info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionArtículo evaluado por paresminería de datosAvaliado pelos paresmineração de dadosdata miningtext/htmlapplication/pdfapplication/epub+ziphttps://revistas.ufpr.br/atoz/article/view/4134610.5380/atoz.v3i2.41346AtoZ: novas práticas em informação e conhecimento; v. 3, n. 2 (2014): jul./dez.; 139-157AtoZ: novas práticas em informação e conhecimento; v. 3, n. 2 (2014): jul./dez.; 139-157AtoZ: novas práticas em informação e conhecimento; v. 3, n. 2 (2014): jul./dez.; 139-1572237-826X10.5380/atoz.v3i2reponame:AtoZ (Curitiba)instname:Universidade Federal do Paraná (UFPR)instacron:UFPRporhttps://revistas.ufpr.br/atoz/article/view/41346/25356https://revistas.ufpr.br/atoz/article/view/41346/26161https://revistas.ufpr.br/atoz/article/view/41346/25358Brasil2012por registro en base de datosBrazil2012by record in databaseBrasil2012por registro em base de dadosinfo:eu-repo/semantics/openAccess2017-11-03T15:43:09Zoai:revistas.ufpr.br:article/41346Revistahttp://revistas.ufpr.br/atozPUBhttp://ojs.c3sl.ufpr.br/ojs2/index.php/atoz/oai||revistaatoz@ufpr.br|| contatoatoz@gmail.com2237-826X2237-826Xopendoar:2017-11-03T15:43:09AtoZ (Curitiba) - Universidade Federal do Paraná (UFPR)false |
dc.title.none.fl_str_mv |
Data mining and the quality of extracted knowledge from police reports of Brazilian Federal Highways A mineração de dados e a qualidade de conhecimentos extraídos dos boletins de ocorrência das rodovias federais brasileiras Minería de datos y la calidad de los conocimientos extraídos de informes policiales de carreteras federales brasileñas |
title |
Data mining and the quality of extracted knowledge from police reports of Brazilian Federal Highways |
spellingShingle |
Data mining and the quality of extracted knowledge from police reports of Brazilian Federal Highways Costa, Jefferson de Jesus Computer Science: computing methodologies and techniques Open Government Data; Data Mining; Association Rules; Knowledge Discovery in Databases Ciencias de la Computación: metodologías y técnicas de computación Datos abiertos gubernamentales; Minería de datos; Reglas de asociación; Descubrimiento de Conocimiento en Bases de Datos Ciência da Computação: metodologias e técnicas da computação Dados Governamentais Abertos; Mineração de Dados; Regras de Associação; Descoberta de Conhecimento em Bases de Dados |
title_short |
Data mining and the quality of extracted knowledge from police reports of Brazilian Federal Highways |
title_full |
Data mining and the quality of extracted knowledge from police reports of Brazilian Federal Highways |
title_fullStr |
Data mining and the quality of extracted knowledge from police reports of Brazilian Federal Highways |
title_full_unstemmed |
Data mining and the quality of extracted knowledge from police reports of Brazilian Federal Highways |
title_sort |
Data mining and the quality of extracted knowledge from police reports of Brazilian Federal Highways |
author |
Costa, Jefferson de Jesus |
author_facet |
Costa, Jefferson de Jesus Bernardini, Flávia Cristina Viterbo Filho, José |
author_role |
author |
author2 |
Bernardini, Flávia Cristina Viterbo Filho, José |
author2_role |
author author |
dc.contributor.none.fl_str_mv |
|
dc.contributor.author.fl_str_mv |
Costa, Jefferson de Jesus Bernardini, Flávia Cristina Viterbo Filho, José |
dc.subject.por.fl_str_mv |
Computer Science: computing methodologies and techniques Open Government Data; Data Mining; Association Rules; Knowledge Discovery in Databases Ciencias de la Computación: metodologías y técnicas de computación Datos abiertos gubernamentales; Minería de datos; Reglas de asociación; Descubrimiento de Conocimiento en Bases de Datos Ciência da Computação: metodologias e técnicas da computação Dados Governamentais Abertos; Mineração de Dados; Regras de Associação; Descoberta de Conhecimento em Bases de Dados |
topic |
Computer Science: computing methodologies and techniques Open Government Data; Data Mining; Association Rules; Knowledge Discovery in Databases Ciencias de la Computación: metodologías y técnicas de computación Datos abiertos gubernamentales; Minería de datos; Reglas de asociación; Descubrimiento de Conocimiento en Bases de Datos Ciência da Computação: metodologias e técnicas da computação Dados Governamentais Abertos; Mineração de Dados; Regras de Associação; Descoberta de Conhecimento em Bases de Dados |
description |
Introduction: This paper presents and analyzes the results obtained when applying Data Mining process in the bulletins of occurrences of the Brazilian federal highways generated by the Federal Highway Police (PRF) in 2012. The purpose of this work is to analyze the feasibility of implementing the Data Mining process on data provided by PRF in order to identify associations between variables related to transit accidents in all Brazilian federal highways. Method: It was used symbolic supervised learning algorithms, as well as an algorithm of generation of association rules, implemented in Weka tool. Regarding the database, it was used the records of 2012. On this portion of the database it was conducted the step of data preprocessing, which were used for extracting models and patterns in the Weka tool and, lastly, evaluated the models and extracted patterns. Results: In supervised learning, the results obtained with J48 and PART algorithms have been considered promising due to the fact that for all classes of accidents causes, the values of area under the ROC curve (AUC) were above 0.5. Furthermore, using the Apriori algorithm there have been generated 38 association rules with confidence greater than 0.8. Conclusions: It was concluded that is important to propose a model for data distribution of this database, in order to use it for data mining process, as well as other knowledge extraction tasks and decision making. It was noted still, the need to improve the quality of data to be provided from the initial stage of data gathering, that is, in the very systems used to record the data. |
publishDate |
2014 |
dc.date.none.fl_str_mv |
2014-12-31 |
dc.type.none.fl_str_mv |
|
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion Artículo evaluado por pares minería de datos Avaliado pelos pares mineração de dados data mining |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://revistas.ufpr.br/atoz/article/view/41346 10.5380/atoz.v3i2.41346 |
url |
https://revistas.ufpr.br/atoz/article/view/41346 |
identifier_str_mv |
10.5380/atoz.v3i2.41346 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://revistas.ufpr.br/atoz/article/view/41346/25356 https://revistas.ufpr.br/atoz/article/view/41346/26161 https://revistas.ufpr.br/atoz/article/view/41346/25358 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
text/html application/pdf application/epub+zip |
dc.coverage.none.fl_str_mv |
Brasil 2012 por registro en base de datos Brazil 2012 by record in database Brasil 2012 por registro em base de dados |
dc.publisher.none.fl_str_mv |
Programa de Pós-graduação em Gestão da Informação - UFPR |
publisher.none.fl_str_mv |
Programa de Pós-graduação em Gestão da Informação - UFPR |
dc.source.none.fl_str_mv |
AtoZ: novas práticas em informação e conhecimento; v. 3, n. 2 (2014): jul./dez.; 139-157 AtoZ: novas práticas em informação e conhecimento; v. 3, n. 2 (2014): jul./dez.; 139-157 AtoZ: novas práticas em informação e conhecimento; v. 3, n. 2 (2014): jul./dez.; 139-157 2237-826X 10.5380/atoz.v3i2 reponame:AtoZ (Curitiba) instname:Universidade Federal do Paraná (UFPR) instacron:UFPR |
instname_str |
Universidade Federal do Paraná (UFPR) |
instacron_str |
UFPR |
institution |
UFPR |
reponame_str |
AtoZ (Curitiba) |
collection |
AtoZ (Curitiba) |
repository.name.fl_str_mv |
AtoZ (Curitiba) - Universidade Federal do Paraná (UFPR) |
repository.mail.fl_str_mv |
||revistaatoz@ufpr.br|| contatoatoz@gmail.com |
_version_ |
1809276795040563200 |