Bisecting stochastic clustering: a new algorithm for PolSAR image unsupervised classification
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Tese |
Idioma: | eng |
Título da fonte: | Biblioteca Digital de Teses e Dissertações do INPE |
Texto Completo: | http://urlib.net/sid.inpe.br/mtc-m21c/2020/12.28.13.44 |
Resumo: | PolSAR (Polarimetric Synthetic Aperture Radar) images can be represented by a set of complex Hermitian positive definite matrices, which have a natural Riemannian metric tensor. PolSAR images are, also, known for following the Wishart distribution, and, by using the information theory contrast function, stochastic distances between Wishart distributions can be derived. This work addresses unsupervised classification strategies, explores the Riemann geometry and studies stochastic distances applied to PolSAR images. The proposed algorithm, named Bisecting Stochastic Clustering (BSC), is a combination between the Stochastic Clustering (SC) algorithm and the hierarchical divisive clustering algorithm. The SC algorithm is technique based on K-means, which uses stochastic distances as similarity metric. The SC algorithm can, usually, be trapped in a local minimum, what led to incorrect clustering results. Therefore, the choice of good initial parameter candidates is essential for the clustering quality. The BSC algorithm is a top-down procedure, it starts with all samples in an unique cluster, that are successively splitted into two new sub-clusters. This algorithm is mainly divided into three steps: the initial parameter determination, the cluster bi-partitioning procedure, and the choice of a suitable cluster to split. In this work, two algorithms for the initial parameter determination are tested: the Expectation-Maximization (EM) algorithm for Wishart Mixture Model and the Riemann Principal Direction Divisive Partitioning (RPDDP). The RPDDP is a new proposed algorithm, whose goal is to perform the bi-partition of a dataset. This algorithm estimates the dataset covariance matrix under the the Riemann geometry, in order to find the principal component, which is used to separate the input data in two sub-clusters. From the RPDDP two estimated sub-clusters, the BSC derives the initial parameters. The BSC second step is performed by the SC algorithm. The BSC builds a dendrogram in order to represent the dataset splitting. Each sub-cluster, or node, links two successor sub-clusters in the dendrogram. When three or more nodes are available in one dendrogram level, the algorithm needs to choose a node to split. The BSC third step uses the information gain as the node choice rule. This work analyses the SC algorithm and two main variants of BSC. The first variant uses the RPDDP as initial parameter determiner, and the second, uses the EM algorithm as initial parameter determiner. The Bhattacharyya (B), Kullback-Leibler (KL) and Hellinger (H) stochastic distances are analysed in this work. In total, nine algorithms are evaluated: SC-B, SC-KL, SC-H, BSC-R-B, BSC-R-KL, BSC-R-H, BSC-EM-B, BSC-EM-KL, BSC-EM-H. The algorithms were analysed in a quantitative and qualitative way. The quantitative analysis consists in the confusion matrix and accuracy estimation, and the qualitative analysis explore the BSC dendrogram and the clusters scattering mechanism by inspecting the Plan H − alpha. |
id |
INPE_42cc794b605f590071d92781383b6924 |
---|---|
oai_identifier_str |
oai:urlib.net:sid.inpe.br/mtc-m21c/2020/12.28.13.44.06-0 |
network_acronym_str |
INPE |
network_name_str |
Biblioteca Digital de Teses e Dissertações do INPE |
spelling |
info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisBisecting stochastic clustering: a new algorithm for PolSAR image unsupervised classificationBi-divisão estocástica de agrupamento: um novo algoritmo para classificação não supervisionada de imagens polSAR2020-11-10Sidnei João Siqueira Sant'AnnaLeonardo Sant'Anna BinsElcio Hideiti ShiguemoriSolon Venâncio de CarvalhoAntonio Henrique CorreiaManoel de Araújo Sousa JúniorNaiallen Carolyne Rodrigues Lima CarvalhoInstituto Nacional de Pesquisas Espaciais (INPE)Programa de Pós-Graduação do INPE em Computação AplicadaINPEBRstochastic distanceRiemann geometrydivisive hierarchical clusteringPolSAR imageunsupervised classificationdistancia estocasticageometria de Riemannagrupamento divisivo hierarquicoimagens PolSARclassificação não supervisionadaPolSAR (Polarimetric Synthetic Aperture Radar) images can be represented by a set of complex Hermitian positive definite matrices, which have a natural Riemannian metric tensor. PolSAR images are, also, known for following the Wishart distribution, and, by using the information theory contrast function, stochastic distances between Wishart distributions can be derived. This work addresses unsupervised classification strategies, explores the Riemann geometry and studies stochastic distances applied to PolSAR images. The proposed algorithm, named Bisecting Stochastic Clustering (BSC), is a combination between the Stochastic Clustering (SC) algorithm and the hierarchical divisive clustering algorithm. The SC algorithm is technique based on K-means, which uses stochastic distances as similarity metric. The SC algorithm can, usually, be trapped in a local minimum, what led to incorrect clustering results. Therefore, the choice of good initial parameter candidates is essential for the clustering quality. The BSC algorithm is a top-down procedure, it starts with all samples in an unique cluster, that are successively splitted into two new sub-clusters. This algorithm is mainly divided into three steps: the initial parameter determination, the cluster bi-partitioning procedure, and the choice of a suitable cluster to split. In this work, two algorithms for the initial parameter determination are tested: the Expectation-Maximization (EM) algorithm for Wishart Mixture Model and the Riemann Principal Direction Divisive Partitioning (RPDDP). The RPDDP is a new proposed algorithm, whose goal is to perform the bi-partition of a dataset. This algorithm estimates the dataset covariance matrix under the the Riemann geometry, in order to find the principal component, which is used to separate the input data in two sub-clusters. From the RPDDP two estimated sub-clusters, the BSC derives the initial parameters. The BSC second step is performed by the SC algorithm. The BSC builds a dendrogram in order to represent the dataset splitting. Each sub-cluster, or node, links two successor sub-clusters in the dendrogram. When three or more nodes are available in one dendrogram level, the algorithm needs to choose a node to split. The BSC third step uses the information gain as the node choice rule. This work analyses the SC algorithm and two main variants of BSC. The first variant uses the RPDDP as initial parameter determiner, and the second, uses the EM algorithm as initial parameter determiner. The Bhattacharyya (B), Kullback-Leibler (KL) and Hellinger (H) stochastic distances are analysed in this work. In total, nine algorithms are evaluated: SC-B, SC-KL, SC-H, BSC-R-B, BSC-R-KL, BSC-R-H, BSC-EM-B, BSC-EM-KL, BSC-EM-H. The algorithms were analysed in a quantitative and qualitative way. The quantitative analysis consists in the confusion matrix and accuracy estimation, and the qualitative analysis explore the BSC dendrogram and the clusters scattering mechanism by inspecting the Plan H − alpha.As imagens PolSAR (Polarimetric Synthetic Aperture Radar) podem ser representadas por um conjunto de matrizes definidas positivas Hermitianas complexas, que possuem um tensor métrico Riemanniano. As imagens PolSAR também são conhecidas por seguir a distribuição de Wishart e, usando a função de contraste da teoria da informação, distâncias estocásticas entre as distribuições de Wishart podem ser derivadas. Este trabalho aborda estratégias de classificação não supervisionadas, explora a geometria de Riemann e estuda distâncias estocásticas aplicadas às imagens PolSAR. O algoritmo proposto, denominado Bisecting Stochastic Clustering (BSC), é uma combinação entre o algoritmo Stochastic Clustering (SC) e o algoritmo hierárquico divisivo. O algoritmo SC é uma técnica baseada no K-médias, que usa distâncias estocásticas como métrica de similaridade. O algoritmo SC pode, geralmente, ficar preso em um mínimo local, o que leva a agrupamentos incorretos. Por isso, a escolha de bons parâmetros iniciais é essencial para a qualidade do agrupamento. O algoritmo BSC é um procedimento top-down, ele começa com todas as amostras em um único cluster, que é sucessivamente dividido em dois novos subclusters. Este algoritmo é dividido em três etapas: a determinação do parâmetro inicial, o procedimento de bi-particionamento do cluster e a escolha de um cluster adequado para dividir. Neste trabalho, dois algoritmos para a determinação dos parâmetros iniciais são testados: o algoritmo Expectation-Maximization (EM) para o Modelo de Mistura de Wishart e o Particionamento Divisivo da Direção Principal de Riemann (RPDDP). O RPDDP é um novo algoritmo, proposto com objetivo de realizar a bi-partição de um conjunto de dados. Este algoritmo estima a matriz de covariância do conjunto de dados sob a geometria de Riemann, a fim de encontrar a componente principal, que é usada para separar os dados de entrada em dois subclusters. A partir dos dois subclusters estimados pelo RPDDP, o BSC deriva os parâmetros iniciais. A segunda etapa do BSC é realizada pelo algoritmo SC. O BSC constrói um dendrograma para representar a divisão do conjunto de dados. Cada sub-cluster, ou nó, é ligado a dois sub-grupos sucessores no dendrograma. Quando há três ou mais nós disponíveis em um nível de dendrograma, o algoritmo precisa escolher um nó para ser dividido. A terceira etapa do BSC usa o ganho de informação como regra de escolha desse nó. Este trabalho analisa o algoritmo SC e as duas variantes principais do BSC. A primeira variante usa o RPDDP como determinador dos parâmetros iniciais e a segunda, usa o algoritmo EM. As distâncias estocásticas de Bhattacharyya (B), Kullback-Leibler (KL) e Hellinger (H) são analisadas neste trabalho. No total, nove algoritmos são avaliados: SC-B, SC-KL, SC-H, BSC-R-B, BSC-R-KL, BSC-RH, BSC-EM-B, BSC-EM-KL, BSC-EM-H. Os algoritmos foram analisados de forma quantitativa e qualitativa. A análise quantitativa consiste no calculo da matriz de confusão e na estimativa da acuracia; a análise qualitativa explora o dendrograma e os mecanismos de espalhamento dos clusters através da inspeção do Plan H− alpha.http://urlib.net/sid.inpe.br/mtc-m21c/2020/12.28.13.44info:eu-repo/semantics/openAccessengreponame:Biblioteca Digital de Teses e Dissertações do INPEinstname:Instituto Nacional de Pesquisas Espaciais (INPE)instacron:INPE2021-07-31T06:56:25Zoai:urlib.net:sid.inpe.br/mtc-m21c/2020/12.28.13.44.06-0Biblioteca Digital de Teses e Dissertaçõeshttp://bibdigital.sid.inpe.br/PUBhttp://bibdigital.sid.inpe.br/col/iconet.com.br/banon/2003/11.21.21.08/doc/oai.cgiopendoar:32772021-07-31 06:56:26.005Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)false |
dc.title.en.fl_str_mv |
Bisecting stochastic clustering: a new algorithm for PolSAR image unsupervised classification |
dc.title.alternative.pt.fl_str_mv |
Bi-divisão estocástica de agrupamento: um novo algoritmo para classificação não supervisionada de imagens polSAR |
title |
Bisecting stochastic clustering: a new algorithm for PolSAR image unsupervised classification |
spellingShingle |
Bisecting stochastic clustering: a new algorithm for PolSAR image unsupervised classification Naiallen Carolyne Rodrigues Lima Carvalho |
title_short |
Bisecting stochastic clustering: a new algorithm for PolSAR image unsupervised classification |
title_full |
Bisecting stochastic clustering: a new algorithm for PolSAR image unsupervised classification |
title_fullStr |
Bisecting stochastic clustering: a new algorithm for PolSAR image unsupervised classification |
title_full_unstemmed |
Bisecting stochastic clustering: a new algorithm for PolSAR image unsupervised classification |
title_sort |
Bisecting stochastic clustering: a new algorithm for PolSAR image unsupervised classification |
author |
Naiallen Carolyne Rodrigues Lima Carvalho |
author_facet |
Naiallen Carolyne Rodrigues Lima Carvalho |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Sidnei João Siqueira Sant'Anna |
dc.contributor.advisor2.fl_str_mv |
Leonardo Sant'Anna Bins |
dc.contributor.referee1.fl_str_mv |
Elcio Hideiti Shiguemori |
dc.contributor.referee2.fl_str_mv |
Solon Venâncio de Carvalho |
dc.contributor.referee3.fl_str_mv |
Antonio Henrique Correia |
dc.contributor.referee4.fl_str_mv |
Manoel de Araújo Sousa Júnior |
dc.contributor.author.fl_str_mv |
Naiallen Carolyne Rodrigues Lima Carvalho |
contributor_str_mv |
Sidnei João Siqueira Sant'Anna Leonardo Sant'Anna Bins Elcio Hideiti Shiguemori Solon Venâncio de Carvalho Antonio Henrique Correia Manoel de Araújo Sousa Júnior |
dc.description.abstract.por.fl_txt_mv |
PolSAR (Polarimetric Synthetic Aperture Radar) images can be represented by a set of complex Hermitian positive definite matrices, which have a natural Riemannian metric tensor. PolSAR images are, also, known for following the Wishart distribution, and, by using the information theory contrast function, stochastic distances between Wishart distributions can be derived. This work addresses unsupervised classification strategies, explores the Riemann geometry and studies stochastic distances applied to PolSAR images. The proposed algorithm, named Bisecting Stochastic Clustering (BSC), is a combination between the Stochastic Clustering (SC) algorithm and the hierarchical divisive clustering algorithm. The SC algorithm is technique based on K-means, which uses stochastic distances as similarity metric. The SC algorithm can, usually, be trapped in a local minimum, what led to incorrect clustering results. Therefore, the choice of good initial parameter candidates is essential for the clustering quality. The BSC algorithm is a top-down procedure, it starts with all samples in an unique cluster, that are successively splitted into two new sub-clusters. This algorithm is mainly divided into three steps: the initial parameter determination, the cluster bi-partitioning procedure, and the choice of a suitable cluster to split. In this work, two algorithms for the initial parameter determination are tested: the Expectation-Maximization (EM) algorithm for Wishart Mixture Model and the Riemann Principal Direction Divisive Partitioning (RPDDP). The RPDDP is a new proposed algorithm, whose goal is to perform the bi-partition of a dataset. This algorithm estimates the dataset covariance matrix under the the Riemann geometry, in order to find the principal component, which is used to separate the input data in two sub-clusters. From the RPDDP two estimated sub-clusters, the BSC derives the initial parameters. The BSC second step is performed by the SC algorithm. The BSC builds a dendrogram in order to represent the dataset splitting. Each sub-cluster, or node, links two successor sub-clusters in the dendrogram. When three or more nodes are available in one dendrogram level, the algorithm needs to choose a node to split. The BSC third step uses the information gain as the node choice rule. This work analyses the SC algorithm and two main variants of BSC. The first variant uses the RPDDP as initial parameter determiner, and the second, uses the EM algorithm as initial parameter determiner. The Bhattacharyya (B), Kullback-Leibler (KL) and Hellinger (H) stochastic distances are analysed in this work. In total, nine algorithms are evaluated: SC-B, SC-KL, SC-H, BSC-R-B, BSC-R-KL, BSC-R-H, BSC-EM-B, BSC-EM-KL, BSC-EM-H. The algorithms were analysed in a quantitative and qualitative way. The quantitative analysis consists in the confusion matrix and accuracy estimation, and the qualitative analysis explore the BSC dendrogram and the clusters scattering mechanism by inspecting the Plan H − alpha. As imagens PolSAR (Polarimetric Synthetic Aperture Radar) podem ser representadas por um conjunto de matrizes definidas positivas Hermitianas complexas, que possuem um tensor métrico Riemanniano. As imagens PolSAR também são conhecidas por seguir a distribuição de Wishart e, usando a função de contraste da teoria da informação, distâncias estocásticas entre as distribuições de Wishart podem ser derivadas. Este trabalho aborda estratégias de classificação não supervisionadas, explora a geometria de Riemann e estuda distâncias estocásticas aplicadas às imagens PolSAR. O algoritmo proposto, denominado Bisecting Stochastic Clustering (BSC), é uma combinação entre o algoritmo Stochastic Clustering (SC) e o algoritmo hierárquico divisivo. O algoritmo SC é uma técnica baseada no K-médias, que usa distâncias estocásticas como métrica de similaridade. O algoritmo SC pode, geralmente, ficar preso em um mínimo local, o que leva a agrupamentos incorretos. Por isso, a escolha de bons parâmetros iniciais é essencial para a qualidade do agrupamento. O algoritmo BSC é um procedimento top-down, ele começa com todas as amostras em um único cluster, que é sucessivamente dividido em dois novos subclusters. Este algoritmo é dividido em três etapas: a determinação do parâmetro inicial, o procedimento de bi-particionamento do cluster e a escolha de um cluster adequado para dividir. Neste trabalho, dois algoritmos para a determinação dos parâmetros iniciais são testados: o algoritmo Expectation-Maximization (EM) para o Modelo de Mistura de Wishart e o Particionamento Divisivo da Direção Principal de Riemann (RPDDP). O RPDDP é um novo algoritmo, proposto com objetivo de realizar a bi-partição de um conjunto de dados. Este algoritmo estima a matriz de covariância do conjunto de dados sob a geometria de Riemann, a fim de encontrar a componente principal, que é usada para separar os dados de entrada em dois subclusters. A partir dos dois subclusters estimados pelo RPDDP, o BSC deriva os parâmetros iniciais. A segunda etapa do BSC é realizada pelo algoritmo SC. O BSC constrói um dendrograma para representar a divisão do conjunto de dados. Cada sub-cluster, ou nó, é ligado a dois sub-grupos sucessores no dendrograma. Quando há três ou mais nós disponíveis em um nível de dendrograma, o algoritmo precisa escolher um nó para ser dividido. A terceira etapa do BSC usa o ganho de informação como regra de escolha desse nó. Este trabalho analisa o algoritmo SC e as duas variantes principais do BSC. A primeira variante usa o RPDDP como determinador dos parâmetros iniciais e a segunda, usa o algoritmo EM. As distâncias estocásticas de Bhattacharyya (B), Kullback-Leibler (KL) e Hellinger (H) são analisadas neste trabalho. No total, nove algoritmos são avaliados: SC-B, SC-KL, SC-H, BSC-R-B, BSC-R-KL, BSC-RH, BSC-EM-B, BSC-EM-KL, BSC-EM-H. Os algoritmos foram analisados de forma quantitativa e qualitativa. A análise quantitativa consiste no calculo da matriz de confusão e na estimativa da acuracia; a análise qualitativa explora o dendrograma e os mecanismos de espalhamento dos clusters através da inspeção do Plan H− alpha. |
description |
PolSAR (Polarimetric Synthetic Aperture Radar) images can be represented by a set of complex Hermitian positive definite matrices, which have a natural Riemannian metric tensor. PolSAR images are, also, known for following the Wishart distribution, and, by using the information theory contrast function, stochastic distances between Wishart distributions can be derived. This work addresses unsupervised classification strategies, explores the Riemann geometry and studies stochastic distances applied to PolSAR images. The proposed algorithm, named Bisecting Stochastic Clustering (BSC), is a combination between the Stochastic Clustering (SC) algorithm and the hierarchical divisive clustering algorithm. The SC algorithm is technique based on K-means, which uses stochastic distances as similarity metric. The SC algorithm can, usually, be trapped in a local minimum, what led to incorrect clustering results. Therefore, the choice of good initial parameter candidates is essential for the clustering quality. The BSC algorithm is a top-down procedure, it starts with all samples in an unique cluster, that are successively splitted into two new sub-clusters. This algorithm is mainly divided into three steps: the initial parameter determination, the cluster bi-partitioning procedure, and the choice of a suitable cluster to split. In this work, two algorithms for the initial parameter determination are tested: the Expectation-Maximization (EM) algorithm for Wishart Mixture Model and the Riemann Principal Direction Divisive Partitioning (RPDDP). The RPDDP is a new proposed algorithm, whose goal is to perform the bi-partition of a dataset. This algorithm estimates the dataset covariance matrix under the the Riemann geometry, in order to find the principal component, which is used to separate the input data in two sub-clusters. From the RPDDP two estimated sub-clusters, the BSC derives the initial parameters. The BSC second step is performed by the SC algorithm. The BSC builds a dendrogram in order to represent the dataset splitting. Each sub-cluster, or node, links two successor sub-clusters in the dendrogram. When three or more nodes are available in one dendrogram level, the algorithm needs to choose a node to split. The BSC third step uses the information gain as the node choice rule. This work analyses the SC algorithm and two main variants of BSC. The first variant uses the RPDDP as initial parameter determiner, and the second, uses the EM algorithm as initial parameter determiner. The Bhattacharyya (B), Kullback-Leibler (KL) and Hellinger (H) stochastic distances are analysed in this work. In total, nine algorithms are evaluated: SC-B, SC-KL, SC-H, BSC-R-B, BSC-R-KL, BSC-R-H, BSC-EM-B, BSC-EM-KL, BSC-EM-H. The algorithms were analysed in a quantitative and qualitative way. The quantitative analysis consists in the confusion matrix and accuracy estimation, and the qualitative analysis explore the BSC dendrogram and the clusters scattering mechanism by inspecting the Plan H − alpha. |
publishDate |
2020 |
dc.date.issued.fl_str_mv |
2020-11-10 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
status_str |
publishedVersion |
format |
doctoralThesis |
dc.identifier.uri.fl_str_mv |
http://urlib.net/sid.inpe.br/mtc-m21c/2020/12.28.13.44 |
url |
http://urlib.net/sid.inpe.br/mtc-m21c/2020/12.28.13.44 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Instituto Nacional de Pesquisas Espaciais (INPE) |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação do INPE em Computação Aplicada |
dc.publisher.initials.fl_str_mv |
INPE |
dc.publisher.country.fl_str_mv |
BR |
publisher.none.fl_str_mv |
Instituto Nacional de Pesquisas Espaciais (INPE) |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do INPE instname:Instituto Nacional de Pesquisas Espaciais (INPE) instacron:INPE |
reponame_str |
Biblioteca Digital de Teses e Dissertações do INPE |
collection |
Biblioteca Digital de Teses e Dissertações do INPE |
instname_str |
Instituto Nacional de Pesquisas Espaciais (INPE) |
instacron_str |
INPE |
institution |
INPE |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE) |
repository.mail.fl_str_mv |
|
publisher_program_txtF_mv |
Programa de Pós-Graduação do INPE em Computação Aplicada |
contributor_advisor1_txtF_mv |
Sidnei João Siqueira Sant'Anna |
_version_ |
1706809364795359232 |