Detecção de clusters espacias via algoritmo scan multi-objetivo

Detalhes bibliográficos
Autor(a) principal: Flavio dos Reis Moura
Data de Publicação: 2006
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/RFFO-7HZHU9
Resumo: Situações em que clusters espaciais de doenças não têm um formato regular são muito comuns. Além disso, mapas com múltiplos clusters, que não têm um cluster primário claramente dominante, ocorrem freqüentemente. Nós desenvolvemos um método para analisar maisdetalhadamente os diversos níveis de clusterização que aparecem naturalmente em mapas de doenças divididos em m regiões.A estatística scan espacial é uma medida usual da intensidade de um cluster. Outra medida importante é a regularidade geométrica. O algoritmo genético multi-objetivo foi desenvolvido anteriormente para identificar o formato geométrico dos clusters. Este método realizauma busca para maximizar dois objetivos, a estatistica scan e a regularidade da forma (o conceito de compacidade). A solução encontrada é um conjunto de Pareto, consistindo de todos os clustersencontrados que não são piores que nenhum outro cluster em ambos objetivos simultaneamente. A avaliação da significância é feita paralelamente para todos os cluster através de simulações deMonte Carlo. Este procedimento determina a melhor solução.Ao invés de usarmos o algoritmo genético, nós desenvolvemos um novo método que incorpora a simplicidade do método scan circular, sendo capaz de detectar e avaliar clusters de formato irregulares. Nós definimos a ocupação circular (OC) de uma zona candidata a cluster como a sua população dividida pela população dentro do menor círculo que a contém. O conceito de OC é computacionalmente rápido, utiliza um conceito mais intuitivo, e substitui aqui o conceito de compacidade como outra medida de regularidade de forma. A estatística scan é calculada para cada uma das m regiões do mapa examinado-as individualmente. As regiões são ordenadas decrescentemente de acordo com o valor da estatística scan. Seja R(k) o conjunto contendo as k primeiras regiões. A modificação multi-objetivo do algoritmo scan circular é aplicada sucessivamente para cada conjunto R(k). Em cada círculo, a zona candidata a ser um cluster consiste das regiões pertencentes a R(k) e que estão no círculo. Na prática nós escolhemos somente alguns poucos valores de k tais como m, m/2, m/4,. . .1. Para cada valor de k nós construímos um conjunto de Pareto P(k). Reunimos todos os conjuntos de Pareto em um gráfico e calculamos o cojunto de Pareto Globlal P(0). Um procedimento de Monte Carlo é usado para avaliar a significância dos clusters.A presença de joelhos no conjunto de Pareto indica transições repentinas na estrutura dos clusters, correspondendo a rearranjos devido à coalescência de clusters fracamente ligados (geralmente desconectados). Cada conjunto de Pareto contém os cluster mais prováveis dentro de um certo nível de informação geográfica. Eles são relacionados, refletindo a distribuição dos casos,estrutura de população e vizinhança do mapa. Computacionalmente, o método é somente algumas vezes mais demorado que o scan circular usual.O scan circular multi-objetivo permite enxergar a estrutura de clusters de um mapa. A comparação do conjunto de Pareto de casos observados com aquele calculados sobre a hipótese nula fornece indicações valiosas sobre a ocorrência de clusters espaciais de doenças. O potencial para monitoramento de clusters incipientes e em diversas escalas geográficas simultaneamente o torna uma ferramenta promissora em vigilância sindrômica, especialmente para doenças contagiosas em que existem interações de curto e longo alcance.
id UFMG_0180a8564029be9531e4f6db51f512ba
oai_identifier_str oai:repositorio.ufmg.br:1843/RFFO-7HZHU9
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Luiz Henrique DuczmalFrederico Rodrigues Borges da CruzSabino Jose Ferreira NetoRicardo Hiroshi Caldeira TakahashiFlavio dos Reis Moura2019-08-12T19:33:55Z2019-08-12T19:33:55Z2006-08-09http://hdl.handle.net/1843/RFFO-7HZHU9Situações em que clusters espaciais de doenças não têm um formato regular são muito comuns. Além disso, mapas com múltiplos clusters, que não têm um cluster primário claramente dominante, ocorrem freqüentemente. Nós desenvolvemos um método para analisar maisdetalhadamente os diversos níveis de clusterização que aparecem naturalmente em mapas de doenças divididos em m regiões.A estatística scan espacial é uma medida usual da intensidade de um cluster. Outra medida importante é a regularidade geométrica. O algoritmo genético multi-objetivo foi desenvolvido anteriormente para identificar o formato geométrico dos clusters. Este método realizauma busca para maximizar dois objetivos, a estatistica scan e a regularidade da forma (o conceito de compacidade). A solução encontrada é um conjunto de Pareto, consistindo de todos os clustersencontrados que não são piores que nenhum outro cluster em ambos objetivos simultaneamente. A avaliação da significância é feita paralelamente para todos os cluster através de simulações deMonte Carlo. Este procedimento determina a melhor solução.Ao invés de usarmos o algoritmo genético, nós desenvolvemos um novo método que incorpora a simplicidade do método scan circular, sendo capaz de detectar e avaliar clusters de formato irregulares. Nós definimos a ocupação circular (OC) de uma zona candidata a cluster como a sua população dividida pela população dentro do menor círculo que a contém. O conceito de OC é computacionalmente rápido, utiliza um conceito mais intuitivo, e substitui aqui o conceito de compacidade como outra medida de regularidade de forma. A estatística scan é calculada para cada uma das m regiões do mapa examinado-as individualmente. As regiões são ordenadas decrescentemente de acordo com o valor da estatística scan. Seja R(k) o conjunto contendo as k primeiras regiões. A modificação multi-objetivo do algoritmo scan circular é aplicada sucessivamente para cada conjunto R(k). Em cada círculo, a zona candidata a ser um cluster consiste das regiões pertencentes a R(k) e que estão no círculo. Na prática nós escolhemos somente alguns poucos valores de k tais como m, m/2, m/4,. . .1. Para cada valor de k nós construímos um conjunto de Pareto P(k). Reunimos todos os conjuntos de Pareto em um gráfico e calculamos o cojunto de Pareto Globlal P(0). Um procedimento de Monte Carlo é usado para avaliar a significância dos clusters.A presença de joelhos no conjunto de Pareto indica transições repentinas na estrutura dos clusters, correspondendo a rearranjos devido à coalescência de clusters fracamente ligados (geralmente desconectados). Cada conjunto de Pareto contém os cluster mais prováveis dentro de um certo nível de informação geográfica. Eles são relacionados, refletindo a distribuição dos casos,estrutura de população e vizinhança do mapa. Computacionalmente, o método é somente algumas vezes mais demorado que o scan circular usual.O scan circular multi-objetivo permite enxergar a estrutura de clusters de um mapa. A comparação do conjunto de Pareto de casos observados com aquele calculados sobre a hipótese nula fornece indicações valiosas sobre a ocorrência de clusters espaciais de doenças. O potencial para monitoramento de clusters incipientes e em diversas escalas geográficas simultaneamente o torna uma ferramenta promissora em vigilância sindrômica, especialmente para doenças contagiosas em que existem interações de curto e longo alcance.Situations where a disease cluster does not have a regular shape are fairly common. Moreover, maps with multiple clustering, when there is not a clearly dominating primary cluster, also occur frequently. We would like to develop a method to analyze more thoroughly the severallevels of clustering that arise naturally in a disease map divided into m regions.The spatial scan statistic is the usual measure of strength of a cluster. Another important measure is its geometric regularity. A genetic multi-objective algorithm was developed elsewhere to identify irregularly shaped clusters. That method conducts a search aiming to maximize twoobjectives, namely the scan statistic and the regularity of shape (the compactness concept). The solution presented is a Pareto-set, consisting of all the clusters found which are not worse in bothobjectives simultaneously. The significance evaluation is conducted in parallel for all the clusters in the Pareto-set through a Monte Carlo simulation. This procedure determines the best cluster solution.Instead of using a genetic algorithm, we designed a novel method that incorporated the simplicity of the circular scan, being able to detect and evaluate irregularly shaped clusters. We define the circular occupation (CO) of a cluster candidate roughly as its population divided by thepopulation inside the smallest circle containing it. The CO concept, being computationally faster, and relying on familiar concepts, is easier to grasp and substitutes here the compactness concept as another measure of regularity of shape. The scan statistic is evaluated for each of the m regions of the map taken individually. The regions are ranked accordingly in decreasing order. Let R(k) be the set containing the first k regions. A multi-objective modification of the circular scan algorithm [8] issuccessively applied for each set R(k). For each circle, the candidate cluster consists of the regions belonging to R(k) within it, and the quotient in the CO calculation takes into account all the regions of the original map inside the circle. In practice we choose only some few k values such asm,m/2,m/4,,1. For each value of k we build the Pareto-set P(k). We display all the Pareto-sets in a graph and after joining all of them we compute the global Pareto-set P(0). A Monte Carlo procedureis used for significance evaluation.The presence of knees in the Pareto-sets indicates sudden transitions in the clusters structure, corresponding to rearrangements due to the coalescence of loosely knitted (usually disconnected) clusters. Each Pareto-set contains the most likely clusters within a certain level ofgeographical information. They are related, reflecting the distribution of cases, populations and neighborhood structure of the map. Computationally, the method is only a few times slower thanthe usual circular scan.The multi-objective circular scan allows peering into the clustering structure of a map. The comparison of Pareto-sets for observed cases with those computed under null-hypothesis provides valuable hints for the spatial occurrence of diseases. The potential for monitoring incipientclusters at several geographic scales simultaneously makes this a promising tool in syndromic surveillance, especially for contagious diseases when there is a mix of short and long range spatialinteractions.Universidade Federal de Minas GeraisUFMGEstatísticaEstatistica médicaSaude PesquisaAnalise por conglomeradosAnálise espacial (Estatística)DetecçãoAlgoritmoDetecção de clusters espacias via algoritmo scan multi-objetivoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALflaviomoura_2006.pdfapplication/pdf1422592https://repositorio.ufmg.br/bitstream/1843/RFFO-7HZHU9/1/flaviomoura_2006.pdff9e857ed6cd95528a91049734d63965dMD51TEXTflaviomoura_2006.pdf.txtflaviomoura_2006.pdf.txtExtracted texttext/plain79422https://repositorio.ufmg.br/bitstream/1843/RFFO-7HZHU9/2/flaviomoura_2006.pdf.txt9047314a30c904b6904818604fa8da96MD521843/RFFO-7HZHU92019-11-14 19:37:09.064oai:repositorio.ufmg.br:1843/RFFO-7HZHU9Repositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T22:37:09Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Detecção de clusters espacias via algoritmo scan multi-objetivo
title Detecção de clusters espacias via algoritmo scan multi-objetivo
spellingShingle Detecção de clusters espacias via algoritmo scan multi-objetivo
Flavio dos Reis Moura
Detecção
Algoritmo
Estatística
Estatistica médica
Saude Pesquisa
Analise por conglomerados
Análise espacial (Estatística)
title_short Detecção de clusters espacias via algoritmo scan multi-objetivo
title_full Detecção de clusters espacias via algoritmo scan multi-objetivo
title_fullStr Detecção de clusters espacias via algoritmo scan multi-objetivo
title_full_unstemmed Detecção de clusters espacias via algoritmo scan multi-objetivo
title_sort Detecção de clusters espacias via algoritmo scan multi-objetivo
author Flavio dos Reis Moura
author_facet Flavio dos Reis Moura
author_role author
dc.contributor.advisor1.fl_str_mv Luiz Henrique Duczmal
dc.contributor.referee1.fl_str_mv Frederico Rodrigues Borges da Cruz
dc.contributor.referee2.fl_str_mv Sabino Jose Ferreira Neto
dc.contributor.referee3.fl_str_mv Ricardo Hiroshi Caldeira Takahashi
dc.contributor.author.fl_str_mv Flavio dos Reis Moura
contributor_str_mv Luiz Henrique Duczmal
Frederico Rodrigues Borges da Cruz
Sabino Jose Ferreira Neto
Ricardo Hiroshi Caldeira Takahashi
dc.subject.por.fl_str_mv Detecção
Algoritmo
topic Detecção
Algoritmo
Estatística
Estatistica médica
Saude Pesquisa
Analise por conglomerados
Análise espacial (Estatística)
dc.subject.other.pt_BR.fl_str_mv Estatística
Estatistica médica
Saude Pesquisa
Analise por conglomerados
Análise espacial (Estatística)
description Situações em que clusters espaciais de doenças não têm um formato regular são muito comuns. Além disso, mapas com múltiplos clusters, que não têm um cluster primário claramente dominante, ocorrem freqüentemente. Nós desenvolvemos um método para analisar maisdetalhadamente os diversos níveis de clusterização que aparecem naturalmente em mapas de doenças divididos em m regiões.A estatística scan espacial é uma medida usual da intensidade de um cluster. Outra medida importante é a regularidade geométrica. O algoritmo genético multi-objetivo foi desenvolvido anteriormente para identificar o formato geométrico dos clusters. Este método realizauma busca para maximizar dois objetivos, a estatistica scan e a regularidade da forma (o conceito de compacidade). A solução encontrada é um conjunto de Pareto, consistindo de todos os clustersencontrados que não são piores que nenhum outro cluster em ambos objetivos simultaneamente. A avaliação da significância é feita paralelamente para todos os cluster através de simulações deMonte Carlo. Este procedimento determina a melhor solução.Ao invés de usarmos o algoritmo genético, nós desenvolvemos um novo método que incorpora a simplicidade do método scan circular, sendo capaz de detectar e avaliar clusters de formato irregulares. Nós definimos a ocupação circular (OC) de uma zona candidata a cluster como a sua população dividida pela população dentro do menor círculo que a contém. O conceito de OC é computacionalmente rápido, utiliza um conceito mais intuitivo, e substitui aqui o conceito de compacidade como outra medida de regularidade de forma. A estatística scan é calculada para cada uma das m regiões do mapa examinado-as individualmente. As regiões são ordenadas decrescentemente de acordo com o valor da estatística scan. Seja R(k) o conjunto contendo as k primeiras regiões. A modificação multi-objetivo do algoritmo scan circular é aplicada sucessivamente para cada conjunto R(k). Em cada círculo, a zona candidata a ser um cluster consiste das regiões pertencentes a R(k) e que estão no círculo. Na prática nós escolhemos somente alguns poucos valores de k tais como m, m/2, m/4,. . .1. Para cada valor de k nós construímos um conjunto de Pareto P(k). Reunimos todos os conjuntos de Pareto em um gráfico e calculamos o cojunto de Pareto Globlal P(0). Um procedimento de Monte Carlo é usado para avaliar a significância dos clusters.A presença de joelhos no conjunto de Pareto indica transições repentinas na estrutura dos clusters, correspondendo a rearranjos devido à coalescência de clusters fracamente ligados (geralmente desconectados). Cada conjunto de Pareto contém os cluster mais prováveis dentro de um certo nível de informação geográfica. Eles são relacionados, refletindo a distribuição dos casos,estrutura de população e vizinhança do mapa. Computacionalmente, o método é somente algumas vezes mais demorado que o scan circular usual.O scan circular multi-objetivo permite enxergar a estrutura de clusters de um mapa. A comparação do conjunto de Pareto de casos observados com aquele calculados sobre a hipótese nula fornece indicações valiosas sobre a ocorrência de clusters espaciais de doenças. O potencial para monitoramento de clusters incipientes e em diversas escalas geográficas simultaneamente o torna uma ferramenta promissora em vigilância sindrômica, especialmente para doenças contagiosas em que existem interações de curto e longo alcance.
publishDate 2006
dc.date.issued.fl_str_mv 2006-08-09
dc.date.accessioned.fl_str_mv 2019-08-12T19:33:55Z
dc.date.available.fl_str_mv 2019-08-12T19:33:55Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/RFFO-7HZHU9
url http://hdl.handle.net/1843/RFFO-7HZHU9
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/RFFO-7HZHU9/1/flaviomoura_2006.pdf
https://repositorio.ufmg.br/bitstream/1843/RFFO-7HZHU9/2/flaviomoura_2006.pdf.txt
bitstream.checksum.fl_str_mv f9e857ed6cd95528a91049734d63965d
9047314a30c904b6904818604fa8da96
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589365105950720