DEOPSMiner : mineração de dados em documentos da Ditadura Militar brasileira

Detalhes bibliográficos
Autor(a) principal: Navarro, Daniel de Moraes
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFABC
Texto Completo: http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=105669
Resumo: Orientador: Prof. Dr. Ronaldo Cristiano Prati
id UFBC_85c3dd465fc39ad43f6031826e3c3e96
oai_identifier_str oai:BDTD:105669
network_acronym_str UFBC
network_name_str Repositório Institucional da UFABC
repository_id_str
spelling DEOPSMiner : mineração de dados em documentos da Ditadura Militar brasileiraMINERAÇÃO DE DADOSPROCESSAMENTO DE DADOSGOVERNOS MILITARES (1964-1985) - BRASILPROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABCOrientador: Prof. Dr. Ronaldo Cristiano PratiDissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, 2016.O processamento de grandes bases de dados tem atraido a atenção da comunidade acadêmica. Recentemente, esse interesse se expandiu para processamento de bases de dados historicas. Tal processamento é utilizado para se obter um melhor entendimento de períodos historicos a partir do processamento de documentos daqueles periodos. No entanto, nesse cenario, a quantidade de dados e documentos disponiveis é tão grande que a utilização de técnicas tradicionais de programação ou de banco de dados se tornam inapropriadas para um correto e efetivo processamento dessas bases de dados. Esse cenário ainda mais complicado quando se trata de documentos historicos onde as bases de dados são geralmente formadas por copias escaneadas de documentos em papel. Como consequencia, tais documentos são comumente deteriorados devido a fatores naturais, como o envelhecimento natural do papel, ou ainda por efeitos químicos, como a tinta utilizada no documento. Outros fatores, como más condições de armazenamento, tais como umidade, por exemplo, podem acelerar e agravar o deterioramento de tais documentos. Nesse trabalho é proposta uma metodologia que utiliza reconhecimento toptico de caracteres, crowdsourcing, extração de informação e tecnicas de processamento de imagens para processar a base de dados de documentos do Departamento de Ordem Política e Social do Estado de São Paulo (DEOPS-SP), no Brasil. O DEOPS-SP foi o orgao do governo brasileiro de inteligência e repressão durante o Regime Militar que durou de 1964 a 1985. A base de dados do DEOPS-SP é composta por aproximadamente 3 milh~oes de documentos, incluindo mais de um milh~ao de registros politicos em formato de fichas que identifcam um envolvido e listam informações relacionadas ao envolvido. A metodologia proposta nesse trabalho e validada atraves dos resultados obtidos com sua aplicação a uma amostra de 500 desses registros politicos que fazem parte da base de dados do DEOPS-SP. Como resultado de utilidade publica, pela primeira vez e possvel utilizar palavras-chave para pesquisa do conteudo textual dos registros do DEOPS-SP através do website DEOPSMiner Online (<https://deopsminer.online/>), desenvolvido pelos autores. Tais resultados, portanto, animam e motivam o desenvolvimento de futuros trabalhos.Processing large data sets for knowledge extraction has recently became one of the main research topics that the scientic community has been focusing their attention on. Particularly, processing historical data sets might provide better and deeper understanding of historical periods. However, in many applications, the amount of data is so large that makes it difficult to process these data sets using traditional database and software techniques. A more complicated case is frequently found when such historical data sets consist of scanned copies of deteriorated paper documents. Deterioration of documents occurs naturally as a result of aging, but it can also be accelerated by chemical efects, e.g. ink, or poor storage conditions, e.g. humidity. We propose to develop of a pipeline composed by the use of image processing techniques, optical character recognition, crowdsourcing and information extraction to process the data base of the Department of Social and Political Order of the the State of S~ao Paulo (DEOPS-SP), Brazil. The DEOPS-SP was the Brazilian intelligence and repression agency during the military government that took place in Brazil between 1964 and 1985. The DEOPS-SP archive currently holds approximately 3 million documents, including more than one thousand police records (index cards listing the subject's name and personal data). The pipeline proposed in this dissertation is tested and validated by its on a subset of 500 records that are part of the DEOPS-SP's data base. The results obtained in this work led to the developing by the authors of DEOPSMiner Online (<https://deopsminer.online/>), an online platform to explore DEOPS-SP records allowing for the rst time the use of keywords to search the real textual content of the data base. These results motivate the development of further research.Prati, Ronaldo CristianoNavarro, Daniel de Moraes2016info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf63 f. : il.http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=105669http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=105669&midiaext=74081http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=105669&midiaext=74080Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=105669porreponame:Repositório Institucional da UFABCinstname:Universidade Federal do ABC (UFABC)instacron:UFABCinfo:eu-repo/semantics/openAccess2017-08-08T11:45:33Zoai:BDTD:105669Repositório InstitucionalPUBhttp://www.biblioteca.ufabc.edu.br/oai/oai.phpopendoar:2017-08-08T11:45:33Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC)false
dc.title.none.fl_str_mv DEOPSMiner : mineração de dados em documentos da Ditadura Militar brasileira
title DEOPSMiner : mineração de dados em documentos da Ditadura Militar brasileira
spellingShingle DEOPSMiner : mineração de dados em documentos da Ditadura Militar brasileira
Navarro, Daniel de Moraes
MINERAÇÃO DE DADOS
PROCESSAMENTO DE DADOS
GOVERNOS MILITARES (1964-1985) - BRASIL
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABC
title_short DEOPSMiner : mineração de dados em documentos da Ditadura Militar brasileira
title_full DEOPSMiner : mineração de dados em documentos da Ditadura Militar brasileira
title_fullStr DEOPSMiner : mineração de dados em documentos da Ditadura Militar brasileira
title_full_unstemmed DEOPSMiner : mineração de dados em documentos da Ditadura Militar brasileira
title_sort DEOPSMiner : mineração de dados em documentos da Ditadura Militar brasileira
author Navarro, Daniel de Moraes
author_facet Navarro, Daniel de Moraes
author_role author
dc.contributor.none.fl_str_mv Prati, Ronaldo Cristiano
dc.contributor.author.fl_str_mv Navarro, Daniel de Moraes
dc.subject.por.fl_str_mv MINERAÇÃO DE DADOS
PROCESSAMENTO DE DADOS
GOVERNOS MILITARES (1964-1985) - BRASIL
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABC
topic MINERAÇÃO DE DADOS
PROCESSAMENTO DE DADOS
GOVERNOS MILITARES (1964-1985) - BRASIL
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABC
description Orientador: Prof. Dr. Ronaldo Cristiano Prati
publishDate 2016
dc.date.none.fl_str_mv 2016
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=105669
url http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=105669
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=105669&midiaext=74081
http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=105669&midiaext=74080
Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=105669
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
63 f. : il.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFABC
instname:Universidade Federal do ABC (UFABC)
instacron:UFABC
instname_str Universidade Federal do ABC (UFABC)
instacron_str UFABC
institution UFABC
reponame_str Repositório Institucional da UFABC
collection Repositório Institucional da UFABC
repository.name.fl_str_mv Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC)
repository.mail.fl_str_mv
_version_ 1801502098668388352