spelling |
Luiz Henrique DuczmalCibele Queiroz da SilvaHélio dos Santos MigonRicardo Tavares2019-08-13T21:18:56Z2019-08-13T21:18:56Z2009-07-07http://hdl.handle.net/1843/ICED-86UJT9ResumoEste trabalho apresenta três novas extensões da estatística scan espacial de Kulldorff para a detecção e inferência de clusters espaciais em estudos cuja localização está associada a áreas delimitadas por polígonos. Considere um mapa com m regiões em que se conhece oscasos observados de um certo evento de interesse (por exemplo, infecção ou óbito por alguma doença) e a população de cada área. Podemos perguntar: os casos estão distribuídos de formaaleatória nessas áreas? Ou ainda, se existe uma área do mapa que possui uma quantidade discrepante de casos em relação às demais? O nosso interesse é testar as seguintes hipóteses: H0: Não existe cluster no mapa vs H1: Existe um cluster no mapa. Na primeira parte, nós propomos uma nova ferramenta para testar hipóteses sobre a adequação de fatores ambientalmente definidos para a formação de clusters localizados de doenças, através da avaliação comparativa da significância dos clusters mais prováveis detectados sob mapas cujas estruturas de vizinhança foram modificadas de acordo com estes fatores. Um algoritmo genético multiobjetivo para a estatística scan é utilizado para encontrar clusters em um mapa dividido em um número finito de regiões, cuja adjacência é definida por uma estrutura de grafo. Este detector de clusters maximiza dois objetivos, a estatística espacial scan e a regularidade do formato do cluster. Ao invés de especificar localizações para o possível cluster a priori, como acontece para algoritmos baseados nos algoritmos focados, alteramos a adjacência básica induzida por limites geográficos comuns entre as regiões. Nanossa abordagem, a conectividade entre as regiões é reforçada ou enfraquecida, conforme certas características ambientais de interesse associadas com o mapa. Construímos vários cenários plausíveis, cada um modificando a estrutura de adjacência em áreas específicas domapa, e executamos o algoritmo genético multiobjetivo para selecionar as melhores soluções vvide clusters para cada um desses cenários. As significâncias estatísticas dos clusters mais prováveis são estimadas através de simulaçõesMonte Carlo. Os clusters com os menores valores p estimados, junto com os seus respectivos mapas de características ambientais alterados são apresentados para a análise comparativa. Conseqüentemente a probabilidade de detecção docluster é aumentada ou diminuída, de acordo com as mudanças feitas na estrutura de adjacência do grafo, relacionada à seleção das características ambientais. A eventual identificação decaracterísticas ambientais específicas às quais induzem os clusters mais significativos permitem ao pesquisador aceitar ou rejeitar diferentes hipóteses a respeito da relevância dos fatoresgeográficos. Estudos de simulação numérica e uma aplicação para clusters de malária no Brasil são apresentados. Na segunda parte, desenvolvemos uma nova metodologia para analisar clusterização emmapas de regiões. Situações em que um cluster da doença não tem um formato regular são razoavelmente comuns. Além disso, mapas com clusters múltiplos, quando não existe um cluster primário claramente dominante, também ocorrem frequentemente. Nós desenvolvemosum método para analisar mais cuidadosamente os vários níveis de clusterização que surgem naturalmente em um mapa de doenças. A estatística espacial scan é a medida usual de força de um cluster. Uma outra medida importante é a sua regularidade geométrica. Um algoritmogenético multiobjetivo foi desenvolvido para identificar clusters de formato irregular. Uma busca é executada tentando maximizar dois objetivos competitivos: a estatística scan e a regularidade do formato (que usa o conceito de compacidade). A solução apresentada é umconjunto Pareto, consistindo de todos os clusters encontrados os quais não são simultaneamente piores em ambos objetivos. Uma avaliação da significância é conduzida em paralelo para todos os clusters no conjunto Pareto através de simulaçõesMonte Carlo, e então o clustermais provável é encontrado. Ao invés de usar um algoritmo genético, nossa nova metodologia incorpora a simplicidade da estatística scan circular, podendo detectar e avaliar clusters de formato irregular. Nós definimos a ocupação circular (CO) de um candidato a cluster comosua população dividida pela população do menor círculo que a contém. O conceito de CO, computacionalmente mais rápido, substitui aqui a definição de compacidade como a medida vii de regularidade do formato. A estatística scan é avaliada para cada uma das m regiões domapa tomadas individualmente. As regiões são ordenadas de forma decrescente conforme os valores da estatística scan. Um procedimento Monte Carlo é usado para a avaliação da significância. A presença de joelhos nos conjuntos Pareto indica transições repentinas naestrutura dos clusters, correspondendo aos rearranjos devido à coalescência de clusters fracamente ligados (geralmente desconectados). Cada conjunto Pareto contendo os clusters maisprováveis dentro de um determinado nível de informação geográfica, podem ser aglutinados para fornecer uma descrição global mais completa. O método scan circular multiobjetivo é um procedimento eficiente que permite a visualização da estrutura de clusterização de um mapa. A comparação dos conjuntos Pareto para os casos observados, com aqueles calculados sob a hipótese nula fornece valiosas pistas para a distribuição espacial da doença. O procedimentoproposto pode ser fundamental para monitorar clusters incipientes e em diversas escalas geográficas simultaneamente, o que o torna uma ferramenta promissora em vigilância sindrômica, especialmente para doenças contagiosas, em que existem interações espaciais decurto e longo alcance. Na terceira parte, exploramos o novo conceito de estatística espacial scan desagregada. Esta parte da tese ainda está em desenvolvimento, e assim apresentaremos apenas um trabalhointrodutório com alguns exemplos. Apresentamos uma variante multiobjetivo da estatística espacial scan de Kulldorff, definindo a busca para o cluster mais provável como um problema multiobjetivo. Duas funções foram consideradas para maximização do conjunto multiobjetivo: o número de casos e o risco relativo dentro da zona candidata a cluster. Mostramos através de exemplos que esta nova abordagem apresenta algumas características atrativas: elaé capaz de distinguir famílias distintas de clusters de significância geográfica dentro do conjunto das soluções potenciais, agrupadas pelas suas posições relativas no espaço de casos versus risco relativo. Assim, a estrutura de clusterização é facilmente disponível para opesquisador, e inferências podem ser desenvolvidas através desta nova ferramenta.This work presents three new extensions of Kulldorffs Spatial Scan Statistic for the detection and inference of spatial clusters. Consider a map divided into m regions with known populations at risk and number of cases of some disease. We would like to know if the cases are randomly distributed over the m regions or not; if the cases are not randomly distributed, is it possible to locate a specific area within the map with an abnormal concentration of cases? We are interested in testing the alternative hypothesis (there is a cluster in the map) against the null hypothesis (there are no clusters in the map). In the first part, we propose a novel tool for testing hypotheses concerning the adequacy of environmentally defined factors for local clustering of diseases, through the comparative evaluation of the significance of the most likely clusters detected under maps whose neighborhood structures were modified according to those factors. A multi-objective genetic algorithm scan statistic is employed for finding spatial clusters in a map divided in a finite number of regions, whose adjacency is defined by a graph structure. This cluster finder maximizes two objectives, the spatial scan statistic and the regularity of cluster shape. Instead of specifyinglocations for the possible clusters a priori, as is currently done for cluster finders based on focused algorithms, we alter the usual adjacency induced by the common geographical boundary between regions. In our approach, the connectivity between regions is reinforcedor weakened, according to certain environmental features of interest associated with the map. We build various plausible scenarios, each time modifying the adjacency structure on specific geographic areas in the map, and run the multi-objective genetic algorithm for selecting thebest cluster solutions for each one of the selected scenarios. The statistical significances of the most likely clusters are estimated through Monte Carlo simulations. The clusters with the ix x lowest estimated p-values, along with their corresponding maps of enhanced environmental features, are displayed for comparative analysis. Therefore the probability of cluster detection is increased or decreased, according to changes made in the adjacency graph structure,related to the selection of environmental features. The eventual identification of the specific environmental conditions which induce the most significant clusters enables the practitioner to accept or reject different hypotheses concerning the relevance of geographical factors. Numerical simulation studies and an application for malaria clusters in Brazil are presented. In the second part, we develop a new methodology for analyzing clustering in maps of regions. Situations where a disease cluster does not have a regular shape are fairly common.Moreover,maps withmultiple clustering, when there is not a clearly dominating primary cluster, also occur frequently. We would like to develop a method to analyze more thoroughly the several levels of clustering that arise naturally in a disease map divided into m regions. The spatial scan statistic is the usual measure of strength of a cluster. Another important measure is its geometric regularity. A genetic multi-objective algorithm was developed elsewhere to identify irregularly shaped clusters. A search is executed aiming to maximize two objectives,namely the scan statistic and the regularity of shape (using the compactness concept). The solution presented is a Pareto-set, consisting of all the clusters found which are not simultaneouslyworse in both objectives. A significance evaluation is conducted in parallel for all clusters in the Pareto-set through Monte Carlo simulation, then finding the most likely cluster. Instead of using a genetic algorithm, our novel method incorporates the simplicity of the circular scan, being able to detect and evaluate irregularly shaped clusters. We definethe circular occupation (CO) of a cluster candidate roughly as its population divided by the population inside the smallest circle containing it. The CO concept, computationally faster and relying on familiar concepts, substitutes here the compactness definition as the measureof regularity of shape. The scan statistic is evaluated for each of the m regions of the map taken individually. The regions are ranked accordingly in decreasing order. A Monte Carlo procedure is used for significance evaluation. The presence of knees in the Pareto-sets indicatessudden transitions in the clusters structure, corresponding to rearrangements due to xi the coalescence of loosely knitted (usually disconnected) clusters. As each Pareto-set contains the most likely clusters within a certain level of geographical information, they could be joined to provide an overall complete description. The multi-objective circular scan is a fast method that allows peering into the clustering structure of a map. The comparison of Paretosets for observed cases with those computed under null-hypothesis provides valuable hints for the spatial occurrence of diseases. The potential for monitoring incipient spatial-temporal clusters at several geographic scales simultaneously is a promising tool in syndromic surveillance, especially for contagious diseases when there is a mix of short and long range spatial nteractions. In the third part, we explore the novel concept of disaggregated spatial scan statistic. This part the thesis is still under development, so we will present only introductory work and a few examples. We present a multi-objective variant of Kulldorffs Spatial Scan Statistic, defining the search for the most likely cluster as a multiobjective problem. Two functions were considered for maximization in the multi-objective setting: the rate and the number of cases within the cluster. We show through examples that this novel approach presents some attractive features: it is capable of distinguishing families of clusters of geographical significance within the set of potential solutions, grouped by their relative position in the rates versus cases space. Thus the clustering structure is readily available to the practitioner, and more detailed inference could be derived through this new tool.Universidade Federal de Minas GeraisUFMGEstatísticaAlgoritmo genéticoEstatística espacial scanOtimização multiobjetivoExtensões da estatística scan espacial utilizando técnicas de otimização multi-objetivoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALtesecorrigida_ricardotavares.pdfapplication/pdf10892835https://repositorio.ufmg.br/bitstream/1843/ICED-86UJT9/1/tesecorrigida_ricardotavares.pdf613cfed50a53565540a550d969c7f93fMD51TEXTtesecorrigida_ricardotavares.pdf.txttesecorrigida_ricardotavares.pdf.txtExtracted texttext/plain187409https://repositorio.ufmg.br/bitstream/1843/ICED-86UJT9/2/tesecorrigida_ricardotavares.pdf.txtf40376d6bf9b23f703f576a567bc5665MD521843/ICED-86UJT92019-11-14 16:53:08.914oai:repositorio.ufmg.br:1843/ICED-86UJT9Repositório InstitucionalPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T19:53:08Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
|