Bisecting stochastic clustering: a new algorithm for PolSAR image unsupervised classification

Detalhes bibliográficos
Autor(a) principal: Naiallen Carolyne Rodrigues Lima Carvalho
Data de Publicação: 2020
Tipo de documento: Tese
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações do INPE
Texto Completo: http://urlib.net/sid.inpe.br/mtc-m21c/2020/12.28.13.44
Resumo: PolSAR (Polarimetric Synthetic Aperture Radar) images can be represented by a set of complex Hermitian positive definite matrices, which have a natural Riemannian metric tensor. PolSAR images are, also, known for following the Wishart distribution, and, by using the information theory contrast function, stochastic distances between Wishart distributions can be derived. This work addresses unsupervised classification strategies, explores the Riemann geometry and studies stochastic distances applied to PolSAR images. The proposed algorithm, named Bisecting Stochastic Clustering (BSC), is a combination between the Stochastic Clustering (SC) algorithm and the hierarchical divisive clustering algorithm. The SC algorithm is technique based on K-means, which uses stochastic distances as similarity metric. The SC algorithm can, usually, be trapped in a local minimum, what led to incorrect clustering results. Therefore, the choice of good initial parameter candidates is essential for the clustering quality. The BSC algorithm is a top-down procedure, it starts with all samples in an unique cluster, that are successively splitted into two new sub-clusters. This algorithm is mainly divided into three steps: the initial parameter determination, the cluster bi-partitioning procedure, and the choice of a suitable cluster to split. In this work, two algorithms for the initial parameter determination are tested: the Expectation-Maximization (EM) algorithm for Wishart Mixture Model and the Riemann Principal Direction Divisive Partitioning (RPDDP). The RPDDP is a new proposed algorithm, whose goal is to perform the bi-partition of a dataset. This algorithm estimates the dataset covariance matrix under the the Riemann geometry, in order to find the principal component, which is used to separate the input data in two sub-clusters. From the RPDDP two estimated sub-clusters, the BSC derives the initial parameters. The BSC second step is performed by the SC algorithm. The BSC builds a dendrogram in order to represent the dataset splitting. Each sub-cluster, or node, links two successor sub-clusters in the dendrogram. When three or more nodes are available in one dendrogram level, the algorithm needs to choose a node to split. The BSC third step uses the information gain as the node choice rule. This work analyses the SC algorithm and two main variants of BSC. The first variant uses the RPDDP as initial parameter determiner, and the second, uses the EM algorithm as initial parameter determiner. The Bhattacharyya (B), Kullback-Leibler (KL) and Hellinger (H) stochastic distances are analysed in this work. In total, nine algorithms are evaluated: SC-B, SC-KL, SC-H, BSC-R-B, BSC-R-KL, BSC-R-H, BSC-EM-B, BSC-EM-KL, BSC-EM-H. The algorithms were analysed in a quantitative and qualitative way. The quantitative analysis consists in the confusion matrix and accuracy estimation, and the qualitative analysis explore the BSC dendrogram and the clusters scattering mechanism by inspecting the Plan H − alpha.
id INPE_42cc794b605f590071d92781383b6924
oai_identifier_str oai:urlib.net:sid.inpe.br/mtc-m21c/2020/12.28.13.44.06-0
network_acronym_str INPE
network_name_str Biblioteca Digital de Teses e Dissertações do INPE
spelling info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisBisecting stochastic clustering: a new algorithm for PolSAR image unsupervised classificationBi-divisão estocástica de agrupamento: um novo algoritmo para classificação não supervisionada de imagens polSAR2020-11-10Sidnei João Siqueira Sant'AnnaLeonardo Sant'Anna BinsElcio Hideiti ShiguemoriSolon Venâncio de CarvalhoAntonio Henrique CorreiaManoel de Araújo Sousa JúniorNaiallen Carolyne Rodrigues Lima CarvalhoInstituto Nacional de Pesquisas Espaciais (INPE)Programa de Pós-Graduação do INPE em Computação AplicadaINPEBRstochastic distanceRiemann geometrydivisive hierarchical clusteringPolSAR imageunsupervised classificationdistancia estocasticageometria de Riemannagrupamento divisivo hierarquicoimagens PolSARclassificação não supervisionadaPolSAR (Polarimetric Synthetic Aperture Radar) images can be represented by a set of complex Hermitian positive definite matrices, which have a natural Riemannian metric tensor. PolSAR images are, also, known for following the Wishart distribution, and, by using the information theory contrast function, stochastic distances between Wishart distributions can be derived. This work addresses unsupervised classification strategies, explores the Riemann geometry and studies stochastic distances applied to PolSAR images. The proposed algorithm, named Bisecting Stochastic Clustering (BSC), is a combination between the Stochastic Clustering (SC) algorithm and the hierarchical divisive clustering algorithm. The SC algorithm is technique based on K-means, which uses stochastic distances as similarity metric. The SC algorithm can, usually, be trapped in a local minimum, what led to incorrect clustering results. Therefore, the choice of good initial parameter candidates is essential for the clustering quality. The BSC algorithm is a top-down procedure, it starts with all samples in an unique cluster, that are successively splitted into two new sub-clusters. This algorithm is mainly divided into three steps: the initial parameter determination, the cluster bi-partitioning procedure, and the choice of a suitable cluster to split. In this work, two algorithms for the initial parameter determination are tested: the Expectation-Maximization (EM) algorithm for Wishart Mixture Model and the Riemann Principal Direction Divisive Partitioning (RPDDP). The RPDDP is a new proposed algorithm, whose goal is to perform the bi-partition of a dataset. This algorithm estimates the dataset covariance matrix under the the Riemann geometry, in order to find the principal component, which is used to separate the input data in two sub-clusters. From the RPDDP two estimated sub-clusters, the BSC derives the initial parameters. The BSC second step is performed by the SC algorithm. The BSC builds a dendrogram in order to represent the dataset splitting. Each sub-cluster, or node, links two successor sub-clusters in the dendrogram. When three or more nodes are available in one dendrogram level, the algorithm needs to choose a node to split. The BSC third step uses the information gain as the node choice rule. This work analyses the SC algorithm and two main variants of BSC. The first variant uses the RPDDP as initial parameter determiner, and the second, uses the EM algorithm as initial parameter determiner. The Bhattacharyya (B), Kullback-Leibler (KL) and Hellinger (H) stochastic distances are analysed in this work. In total, nine algorithms are evaluated: SC-B, SC-KL, SC-H, BSC-R-B, BSC-R-KL, BSC-R-H, BSC-EM-B, BSC-EM-KL, BSC-EM-H. The algorithms were analysed in a quantitative and qualitative way. The quantitative analysis consists in the confusion matrix and accuracy estimation, and the qualitative analysis explore the BSC dendrogram and the clusters scattering mechanism by inspecting the Plan H − alpha.As imagens PolSAR (Polarimetric Synthetic Aperture Radar) podem ser representadas por um conjunto de matrizes definidas positivas Hermitianas complexas, que possuem um tensor métrico Riemanniano. As imagens PolSAR também são conhecidas por seguir a distribuição de Wishart e, usando a função de contraste da teoria da informação, distâncias estocásticas entre as distribuições de Wishart podem ser derivadas. Este trabalho aborda estratégias de classificação não supervisionadas, explora a geometria de Riemann e estuda distâncias estocásticas aplicadas às imagens PolSAR. O algoritmo proposto, denominado Bisecting Stochastic Clustering (BSC), é uma combinação entre o algoritmo Stochastic Clustering (SC) e o algoritmo hierárquico divisivo. O algoritmo SC é uma técnica baseada no K-médias, que usa distâncias estocásticas como métrica de similaridade. O algoritmo SC pode, geralmente, ficar preso em um mínimo local, o que leva a agrupamentos incorretos. Por isso, a escolha de bons parâmetros iniciais é essencial para a qualidade do agrupamento. O algoritmo BSC é um procedimento top-down, ele começa com todas as amostras em um único cluster, que é sucessivamente dividido em dois novos subclusters. Este algoritmo é dividido em três etapas: a determinação do parâmetro inicial, o procedimento de bi-particionamento do cluster e a escolha de um cluster adequado para dividir. Neste trabalho, dois algoritmos para a determinação dos parâmetros iniciais são testados: o algoritmo Expectation-Maximization (EM) para o Modelo de Mistura de Wishart e o Particionamento Divisivo da Direção Principal de Riemann (RPDDP). O RPDDP é um novo algoritmo, proposto com objetivo de realizar a bi-partição de um conjunto de dados. Este algoritmo estima a matriz de covariância do conjunto de dados sob a geometria de Riemann, a fim de encontrar a componente principal, que é usada para separar os dados de entrada em dois subclusters. A partir dos dois subclusters estimados pelo RPDDP, o BSC deriva os parâmetros iniciais. A segunda etapa do BSC é realizada pelo algoritmo SC. O BSC constrói um dendrograma para representar a divisão do conjunto de dados. Cada sub-cluster, ou nó, é ligado a dois sub-grupos sucessores no dendrograma. Quando há três ou mais nós disponíveis em um nível de dendrograma, o algoritmo precisa escolher um nó para ser dividido. A terceira etapa do BSC usa o ganho de informação como regra de escolha desse nó. Este trabalho analisa o algoritmo SC e as duas variantes principais do BSC. A primeira variante usa o RPDDP como determinador dos parâmetros iniciais e a segunda, usa o algoritmo EM. As distâncias estocásticas de Bhattacharyya (B), Kullback-Leibler (KL) e Hellinger (H) são analisadas neste trabalho. No total, nove algoritmos são avaliados: SC-B, SC-KL, SC-H, BSC-R-B, BSC-R-KL, BSC-RH, BSC-EM-B, BSC-EM-KL, BSC-EM-H. Os algoritmos foram analisados de forma quantitativa e qualitativa. A análise quantitativa consiste no calculo da matriz de confusão e na estimativa da acuracia; a análise qualitativa explora o dendrograma e os mecanismos de espalhamento dos clusters através da inspeção do Plan H− alpha.http://urlib.net/sid.inpe.br/mtc-m21c/2020/12.28.13.44info:eu-repo/semantics/openAccessengreponame:Biblioteca Digital de Teses e Dissertações do INPEinstname:Instituto Nacional de Pesquisas Espaciais (INPE)instacron:INPE2021-07-31T06:56:25Zoai:urlib.net:sid.inpe.br/mtc-m21c/2020/12.28.13.44.06-0Biblioteca Digital de Teses e Dissertaçõeshttp://bibdigital.sid.inpe.br/PUBhttp://bibdigital.sid.inpe.br/col/iconet.com.br/banon/2003/11.21.21.08/doc/oai.cgiopendoar:32772021-07-31 06:56:26.005Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)false
dc.title.en.fl_str_mv Bisecting stochastic clustering: a new algorithm for PolSAR image unsupervised classification
dc.title.alternative.pt.fl_str_mv Bi-divisão estocástica de agrupamento: um novo algoritmo para classificação não supervisionada de imagens polSAR
title Bisecting stochastic clustering: a new algorithm for PolSAR image unsupervised classification
spellingShingle Bisecting stochastic clustering: a new algorithm for PolSAR image unsupervised classification
Naiallen Carolyne Rodrigues Lima Carvalho
title_short Bisecting stochastic clustering: a new algorithm for PolSAR image unsupervised classification
title_full Bisecting stochastic clustering: a new algorithm for PolSAR image unsupervised classification
title_fullStr Bisecting stochastic clustering: a new algorithm for PolSAR image unsupervised classification
title_full_unstemmed Bisecting stochastic clustering: a new algorithm for PolSAR image unsupervised classification
title_sort Bisecting stochastic clustering: a new algorithm for PolSAR image unsupervised classification
author Naiallen Carolyne Rodrigues Lima Carvalho
author_facet Naiallen Carolyne Rodrigues Lima Carvalho
author_role author
dc.contributor.advisor1.fl_str_mv Sidnei João Siqueira Sant'Anna
dc.contributor.advisor2.fl_str_mv Leonardo Sant'Anna Bins
dc.contributor.referee1.fl_str_mv Elcio Hideiti Shiguemori
dc.contributor.referee2.fl_str_mv Solon Venâncio de Carvalho
dc.contributor.referee3.fl_str_mv Antonio Henrique Correia
dc.contributor.referee4.fl_str_mv Manoel de Araújo Sousa Júnior
dc.contributor.author.fl_str_mv Naiallen Carolyne Rodrigues Lima Carvalho
contributor_str_mv Sidnei João Siqueira Sant'Anna
Leonardo Sant'Anna Bins
Elcio Hideiti Shiguemori
Solon Venâncio de Carvalho
Antonio Henrique Correia
Manoel de Araújo Sousa Júnior
dc.description.abstract.por.fl_txt_mv PolSAR (Polarimetric Synthetic Aperture Radar) images can be represented by a set of complex Hermitian positive definite matrices, which have a natural Riemannian metric tensor. PolSAR images are, also, known for following the Wishart distribution, and, by using the information theory contrast function, stochastic distances between Wishart distributions can be derived. This work addresses unsupervised classification strategies, explores the Riemann geometry and studies stochastic distances applied to PolSAR images. The proposed algorithm, named Bisecting Stochastic Clustering (BSC), is a combination between the Stochastic Clustering (SC) algorithm and the hierarchical divisive clustering algorithm. The SC algorithm is technique based on K-means, which uses stochastic distances as similarity metric. The SC algorithm can, usually, be trapped in a local minimum, what led to incorrect clustering results. Therefore, the choice of good initial parameter candidates is essential for the clustering quality. The BSC algorithm is a top-down procedure, it starts with all samples in an unique cluster, that are successively splitted into two new sub-clusters. This algorithm is mainly divided into three steps: the initial parameter determination, the cluster bi-partitioning procedure, and the choice of a suitable cluster to split. In this work, two algorithms for the initial parameter determination are tested: the Expectation-Maximization (EM) algorithm for Wishart Mixture Model and the Riemann Principal Direction Divisive Partitioning (RPDDP). The RPDDP is a new proposed algorithm, whose goal is to perform the bi-partition of a dataset. This algorithm estimates the dataset covariance matrix under the the Riemann geometry, in order to find the principal component, which is used to separate the input data in two sub-clusters. From the RPDDP two estimated sub-clusters, the BSC derives the initial parameters. The BSC second step is performed by the SC algorithm. The BSC builds a dendrogram in order to represent the dataset splitting. Each sub-cluster, or node, links two successor sub-clusters in the dendrogram. When three or more nodes are available in one dendrogram level, the algorithm needs to choose a node to split. The BSC third step uses the information gain as the node choice rule. This work analyses the SC algorithm and two main variants of BSC. The first variant uses the RPDDP as initial parameter determiner, and the second, uses the EM algorithm as initial parameter determiner. The Bhattacharyya (B), Kullback-Leibler (KL) and Hellinger (H) stochastic distances are analysed in this work. In total, nine algorithms are evaluated: SC-B, SC-KL, SC-H, BSC-R-B, BSC-R-KL, BSC-R-H, BSC-EM-B, BSC-EM-KL, BSC-EM-H. The algorithms were analysed in a quantitative and qualitative way. The quantitative analysis consists in the confusion matrix and accuracy estimation, and the qualitative analysis explore the BSC dendrogram and the clusters scattering mechanism by inspecting the Plan H − alpha.
As imagens PolSAR (Polarimetric Synthetic Aperture Radar) podem ser representadas por um conjunto de matrizes definidas positivas Hermitianas complexas, que possuem um tensor métrico Riemanniano. As imagens PolSAR também são conhecidas por seguir a distribuição de Wishart e, usando a função de contraste da teoria da informação, distâncias estocásticas entre as distribuições de Wishart podem ser derivadas. Este trabalho aborda estratégias de classificação não supervisionadas, explora a geometria de Riemann e estuda distâncias estocásticas aplicadas às imagens PolSAR. O algoritmo proposto, denominado Bisecting Stochastic Clustering (BSC), é uma combinação entre o algoritmo Stochastic Clustering (SC) e o algoritmo hierárquico divisivo. O algoritmo SC é uma técnica baseada no K-médias, que usa distâncias estocásticas como métrica de similaridade. O algoritmo SC pode, geralmente, ficar preso em um mínimo local, o que leva a agrupamentos incorretos. Por isso, a escolha de bons parâmetros iniciais é essencial para a qualidade do agrupamento. O algoritmo BSC é um procedimento top-down, ele começa com todas as amostras em um único cluster, que é sucessivamente dividido em dois novos subclusters. Este algoritmo é dividido em três etapas: a determinação do parâmetro inicial, o procedimento de bi-particionamento do cluster e a escolha de um cluster adequado para dividir. Neste trabalho, dois algoritmos para a determinação dos parâmetros iniciais são testados: o algoritmo Expectation-Maximization (EM) para o Modelo de Mistura de Wishart e o Particionamento Divisivo da Direção Principal de Riemann (RPDDP). O RPDDP é um novo algoritmo, proposto com objetivo de realizar a bi-partição de um conjunto de dados. Este algoritmo estima a matriz de covariância do conjunto de dados sob a geometria de Riemann, a fim de encontrar a componente principal, que é usada para separar os dados de entrada em dois subclusters. A partir dos dois subclusters estimados pelo RPDDP, o BSC deriva os parâmetros iniciais. A segunda etapa do BSC é realizada pelo algoritmo SC. O BSC constrói um dendrograma para representar a divisão do conjunto de dados. Cada sub-cluster, ou nó, é ligado a dois sub-grupos sucessores no dendrograma. Quando há três ou mais nós disponíveis em um nível de dendrograma, o algoritmo precisa escolher um nó para ser dividido. A terceira etapa do BSC usa o ganho de informação como regra de escolha desse nó. Este trabalho analisa o algoritmo SC e as duas variantes principais do BSC. A primeira variante usa o RPDDP como determinador dos parâmetros iniciais e a segunda, usa o algoritmo EM. As distâncias estocásticas de Bhattacharyya (B), Kullback-Leibler (KL) e Hellinger (H) são analisadas neste trabalho. No total, nove algoritmos são avaliados: SC-B, SC-KL, SC-H, BSC-R-B, BSC-R-KL, BSC-RH, BSC-EM-B, BSC-EM-KL, BSC-EM-H. Os algoritmos foram analisados de forma quantitativa e qualitativa. A análise quantitativa consiste no calculo da matriz de confusão e na estimativa da acuracia; a análise qualitativa explora o dendrograma e os mecanismos de espalhamento dos clusters através da inspeção do Plan H− alpha.
description PolSAR (Polarimetric Synthetic Aperture Radar) images can be represented by a set of complex Hermitian positive definite matrices, which have a natural Riemannian metric tensor. PolSAR images are, also, known for following the Wishart distribution, and, by using the information theory contrast function, stochastic distances between Wishart distributions can be derived. This work addresses unsupervised classification strategies, explores the Riemann geometry and studies stochastic distances applied to PolSAR images. The proposed algorithm, named Bisecting Stochastic Clustering (BSC), is a combination between the Stochastic Clustering (SC) algorithm and the hierarchical divisive clustering algorithm. The SC algorithm is technique based on K-means, which uses stochastic distances as similarity metric. The SC algorithm can, usually, be trapped in a local minimum, what led to incorrect clustering results. Therefore, the choice of good initial parameter candidates is essential for the clustering quality. The BSC algorithm is a top-down procedure, it starts with all samples in an unique cluster, that are successively splitted into two new sub-clusters. This algorithm is mainly divided into three steps: the initial parameter determination, the cluster bi-partitioning procedure, and the choice of a suitable cluster to split. In this work, two algorithms for the initial parameter determination are tested: the Expectation-Maximization (EM) algorithm for Wishart Mixture Model and the Riemann Principal Direction Divisive Partitioning (RPDDP). The RPDDP is a new proposed algorithm, whose goal is to perform the bi-partition of a dataset. This algorithm estimates the dataset covariance matrix under the the Riemann geometry, in order to find the principal component, which is used to separate the input data in two sub-clusters. From the RPDDP two estimated sub-clusters, the BSC derives the initial parameters. The BSC second step is performed by the SC algorithm. The BSC builds a dendrogram in order to represent the dataset splitting. Each sub-cluster, or node, links two successor sub-clusters in the dendrogram. When three or more nodes are available in one dendrogram level, the algorithm needs to choose a node to split. The BSC third step uses the information gain as the node choice rule. This work analyses the SC algorithm and two main variants of BSC. The first variant uses the RPDDP as initial parameter determiner, and the second, uses the EM algorithm as initial parameter determiner. The Bhattacharyya (B), Kullback-Leibler (KL) and Hellinger (H) stochastic distances are analysed in this work. In total, nine algorithms are evaluated: SC-B, SC-KL, SC-H, BSC-R-B, BSC-R-KL, BSC-R-H, BSC-EM-B, BSC-EM-KL, BSC-EM-H. The algorithms were analysed in a quantitative and qualitative way. The quantitative analysis consists in the confusion matrix and accuracy estimation, and the qualitative analysis explore the BSC dendrogram and the clusters scattering mechanism by inspecting the Plan H − alpha.
publishDate 2020
dc.date.issued.fl_str_mv 2020-11-10
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
status_str publishedVersion
format doctoralThesis
dc.identifier.uri.fl_str_mv http://urlib.net/sid.inpe.br/mtc-m21c/2020/12.28.13.44
url http://urlib.net/sid.inpe.br/mtc-m21c/2020/12.28.13.44
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Instituto Nacional de Pesquisas Espaciais (INPE)
dc.publisher.program.fl_str_mv Programa de Pós-Graduação do INPE em Computação Aplicada
dc.publisher.initials.fl_str_mv INPE
dc.publisher.country.fl_str_mv BR
publisher.none.fl_str_mv Instituto Nacional de Pesquisas Espaciais (INPE)
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do INPE
instname:Instituto Nacional de Pesquisas Espaciais (INPE)
instacron:INPE
reponame_str Biblioteca Digital de Teses e Dissertações do INPE
collection Biblioteca Digital de Teses e Dissertações do INPE
instname_str Instituto Nacional de Pesquisas Espaciais (INPE)
instacron_str INPE
institution INPE
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)
repository.mail.fl_str_mv
publisher_program_txtF_mv Programa de Pós-Graduação do INPE em Computação Aplicada
contributor_advisor1_txtF_mv Sidnei João Siqueira Sant'Anna
_version_ 1706809364795359232