Técnicas de agrupamento de textos aplicadas à computação forense

Nassif, Luís Filipe da Cruz

Técnicas de agrupamento de textos aplicadas à computação forense

Detalhes bibliográficos
Autor(a) principal:	Nassif, Luís Filipe da Cruz
Data de Publicação:	2011
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UnB
Texto Completo:	http://repositorio.unb.br/handle/10482/10718
Resumo:	Dissertação (mestrado)—Universidade de Brasília, Departamento de Engenharia Elétrica, 2011.

Metadados do item

id	UNB_ed441f67009f9004d3dd397ea279ef50
oai_identifier_str	oai:repositorio2.unb.br:10482/10718
network_acronym_str	UNB
network_name_str	Repositório Institucional da UnB
repository_id_str
spelling	Nassif, Luís Filipe da CruzHruschka, Eduardo Raul2012-06-15T13:50:55Z2012-06-15T13:50:55Z2012-06-152011-09-26NASSIF, Luís Filipe da Cruz. Técnicas de agrupamento de textos aplicadas à computação forense. 2011. 71 f. Dissertação (Mestrado em Engenharia Elétrica)—Universidade de Brasília, Brasília, 2011.http://repositorio.unb.br/handle/10482/10718Dissertação (mestrado)—Universidade de Brasília, Departamento de Engenharia Elétrica, 2011.Em análises periciais de computadores, usualmente são examinados centenas de milhares de arquivos. Grande parte dos dados desses arquivos é constituída por texto não estruturado, cuja análise por parte dos peritos é difícil de ser realizada. Nesse contexto, o uso de métodos automatizados de análise baseados na mineração de textos é de grande interesse. Particularmente, algoritmos de agrupamento podem facilitar a descoberta de conhecimentos novos e úteis nos textos sob análise. Este trabalho apresenta uma abordagem para aplicar agrupamento de documentos em análises periciais de computadores apreendidos durante investigações policiais. Para ilustrar tal abordagem, foi realizado um estudo comparativo de seis algoritmos de agrupamento de dados (K-means, K-medoids, Single Link, Complete Link, Average Link e CSPA) aplicados a cinco bases de dados textuais provenientes de investigações reais. Foram realizados experimentos utilizando-se diferentes combinações de parâmetros, totalizando dezoito instanciações diferentes dos algoritmos. Adicionalmente, dois índices de validade relativos (Silhueta e sua versão simplificada) foram utilizados para estimar automaticamente o número de grupos. Estudos relacionados encontrados na literatura se mostram significativamente mais limitados do que o estudo aqui apresentado, especialmente ao se considerar a variedade de algoritmos utilizados e a estimativa automática do número de grupos. Nesse contexto, o presente estudo poderá servir como ponto de partida para aqueles interessados em desenvolver pesquisas neste domínio de aplicação específico. Além disso, os experimentos realizados mostram que os algoritmos hierárquicos Average Link e Complete Link proporcionaram os melhores resultados. Os algoritmos particionais K-means e K-medoids, quando adequadamente inicializados, apresentaram resultados similares àqueles obtidos pelos algoritmos hierárquicos. Este estudo também apresenta e discute diversos resultados práticos mais específicos que podem ser úteis para pesquisadores e praticantes de análises forenses computacionais. ______________________________________________________________________________ ABSTRACTIn computer forensic analysis, hundreds of thousands of files are usually analyzed. Most of the data available in these files consists of unstructured text that are hard to be analyzed by human beings. In this context, the use of automated techniques, based on text mining, is of great relevance. In particular, clustering algorithms can help to find new, useful, and potentially actionable knowledge from text files. This work presents an approach that applies document clustering algorithms to forensic analysis of computers seized in police investigations. It was carried out a comparative study of six clustering algorithms – Kmeans, K-medoids, Single Link, Complete Link, Average Link and CSPA – when applied to five textual databases derived from real cases. A variety of experiments, using different combinations of parameter values, have been performed by running 18 different instantiations of the algorithms under study. In addition, two relative validity indexes for automatically estimating the number of groups – the Silhouette index and its simplified version – have been empirically assessed. To the best of our knowledge, studies of this nature, especially considering a variety of different clustering algorithms and the automatic estimation of the number of clusters, have not been reported in the literature about computer forensics. This study can thus serve as a starting point for researchers interested in developing further research in this particular application domain. In brief, the experiments performed on five real-world datasets show that the hierarchical algorithms known as Average Link and Complete Link provided the best performances. The partitional algorithms K-means and K-medoids, when appropriately initialized, have shown similar performances to those hierarchical algorithms. This study also presents and discusses several practical results for both researchers and practitioners of computer forensic analysisFaculdade de Tecnologia (FT)Departamento de Engenharia Elétrica (FT ENE)Programa de Pós-Graduação em Engenharia ElétricaTécnicas de agrupamento de textos aplicadas à computação forenseText clustering techniques applied to computer forensicsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisDireito - sistemas hipertextoTecnologia da informaçãoTecnologia - algoritmosinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNBORIGINAL2011_LuisFilipedaCruzNassif.pdf2011_LuisFilipedaCruzNassif.pdfapplication/pdf2383961http://repositorio2.unb.br/jspui/bitstream/10482/10718/1/2011_LuisFilipedaCruzNassif.pdfda0b72387006c228c284836d695f4629MD51open accessLICENSElicense.txtlicense.txttext/plain780http://repositorio2.unb.br/jspui/bitstream/10482/10718/2/license.txt82d332e8b7e60f2a8f120a9a8d2988e7MD52open accessTEXT2011_LuisFilipedaCruzNassif.pdf.txt2011_LuisFilipedaCruzNassif.pdf.txtExtracted texttext/plain159914http://repositorio2.unb.br/jspui/bitstream/10482/10718/3/2011_LuisFilipedaCruzNassif.pdf.txt15c9ff564d88d5af5959a145ff8fa7a6MD53open access10482/107182024-03-01 13:12:21.421open accessoai:repositorio2.unb.br:10482/10718TGljZW5zZSBncmFudGVkIGJ5IEphcXVlbGluZSBGZXJyZWlyYSBkZSBTb3V6YSAoamFxdWVmcy5icmF6QGdtYWlsLmNvbSkgb24gMjAxMi0wNi0xNVQxMzo1MDozOVogKEdNVCk6CgpBIGNvbmNlc3PDo28gZGEgbGljZW7Dp2EgZGVzdGEgY29sZcOnw6NvIHJlZmVyZS1zZSBhbyB0ZXJtbyBkZSBhdXRvcml6YcOnw6NvIGltcHJlc3NvIGFzc2luYWRvIA0KcGVsbyBhdXRvciBjb20gYXMgc2VndWludGVzIGNvbmRpw6fDtWVzOg0KDQpOYSBxdWFsaWRhZGUgZGUgdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IgZGEgcHVibGljYcOnw6NvLCBhdXRvcml6byBhIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWENCiBlIG8gSUJJQ1QgYSBkaXNwb25pYmlsaXphciBwb3IgbWVpbyBkb3Mgc2l0ZXMgd3d3LmJjZS51bmIuYnIsIHd3dy5pYmljdC5iciwNCiBodHRwOi8vaGVyY3VsZXMudnRscy5jb20vY2dpLWJpbi9uZGx0ZC9jaGFtZWxlb24/bG5nPXB0JnNraW49bmRsdGQgc2VtIHJlc3NhcmNpbWVudG8gZG9zIA0KZGlyZWl0b3MgYXV0b3JhaXMsIGRlIGFjb3JkbyBjb20gYSBMZWkgbsK6IDk2MTAvOTgsIG8gdGV4dG8gaW50ZWdyYWwgZGEgb2JyYSBkaXNwb25pYmlsaXphZGEsDQogY29uZm9ybWUgcGVybWlzc8O1ZXMgYXNzaW5hbGFkYXMsIHBhcmEgZmlucyBkZSBsZWl0dXJhLCBpbXByZXNzw6NvIGUvb3UgZG93bmxvYWQsIGEgdMOtdHVsbyBkZSANCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEsIGEgcGFydGlyIGRlc3RhIGRhdGEuBiblioteca Digital de Teses e DissertaçõesPUBhttps://repositorio.unb.br/oai/requestopendoar:2024-03-01T16:12:21Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.en.fl_str_mv	Técnicas de agrupamento de textos aplicadas à computação forense
dc.title.alternative.en.fl_str_mv	Text clustering techniques applied to computer forensics
title	Técnicas de agrupamento de textos aplicadas à computação forense
spellingShingle	Técnicas de agrupamento de textos aplicadas à computação forense Nassif, Luís Filipe da Cruz Direito - sistemas hipertexto Tecnologia da informação Tecnologia - algoritmos
title_short	Técnicas de agrupamento de textos aplicadas à computação forense
title_full	Técnicas de agrupamento de textos aplicadas à computação forense
title_fullStr	Técnicas de agrupamento de textos aplicadas à computação forense
title_full_unstemmed	Técnicas de agrupamento de textos aplicadas à computação forense
title_sort	Técnicas de agrupamento de textos aplicadas à computação forense
author	Nassif, Luís Filipe da Cruz
author_facet	Nassif, Luís Filipe da Cruz
author_role	author
dc.contributor.author.fl_str_mv	Nassif, Luís Filipe da Cruz
dc.contributor.advisor1.fl_str_mv	Hruschka, Eduardo Raul
contributor_str_mv	Hruschka, Eduardo Raul
dc.subject.keyword.en.fl_str_mv	Direito - sistemas hipertexto Tecnologia da informação Tecnologia - algoritmos
topic	Direito - sistemas hipertexto Tecnologia da informação Tecnologia - algoritmos
description	Dissertação (mestrado)—Universidade de Brasília, Departamento de Engenharia Elétrica, 2011.
publishDate	2011
dc.date.submitted.none.fl_str_mv	2011-09-26
dc.date.accessioned.fl_str_mv	2012-06-15T13:50:55Z
dc.date.available.fl_str_mv	2012-06-15T13:50:55Z
dc.date.issued.fl_str_mv	2012-06-15
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	NASSIF, Luís Filipe da Cruz. Técnicas de agrupamento de textos aplicadas à computação forense. 2011. 71 f. Dissertação (Mestrado em Engenharia Elétrica)—Universidade de Brasília, Brasília, 2011.
dc.identifier.uri.fl_str_mv	http://repositorio.unb.br/handle/10482/10718
identifier_str_mv	NASSIF, Luís Filipe da Cruz. Técnicas de agrupamento de textos aplicadas à computação forense. 2011. 71 f. Dissertação (Mestrado em Engenharia Elétrica)—Universidade de Brasília, Brasília, 2011.
url	http://repositorio.unb.br/handle/10482/10718
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UnB instname:Universidade de Brasília (UnB) instacron:UNB
instname_str	Universidade de Brasília (UnB)
instacron_str	UNB
institution	UNB
reponame_str	Repositório Institucional da UnB
collection	Repositório Institucional da UnB
bitstream.url.fl_str_mv	http://repositorio2.unb.br/jspui/bitstream/10482/10718/1/2011_LuisFilipedaCruzNassif.pdf http://repositorio2.unb.br/jspui/bitstream/10482/10718/2/license.txt http://repositorio2.unb.br/jspui/bitstream/10482/10718/3/2011_LuisFilipedaCruzNassif.pdf.txt
bitstream.checksum.fl_str_mv	da0b72387006c228c284836d695f4629 82d332e8b7e60f2a8f120a9a8d2988e7 15c9ff564d88d5af5959a145ff8fa7a6
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv
_version_	1801863871278874624

Técnicas de agrupamento de textos aplicadas à computação forense

Registros relacionados