Agrupamento baseado em modelos de mistura de gaussianas com covariáveis
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/45/45134/tde-16012021-193220/ |
Resumo: | Frequentemente, o processo de agrupamento é a primeira etapa em diversos projetos de análises de dados. Ele permite identicar padrões que não foram notados antes, sendo muito útil para detectar novas hipóteses. No entanto, um desao na análise de dados empíricos é a presença de covariáveis, que podem mascarar a estrutura de agrupamento obtida. Por exemplo: se estamos interessados em agrupar um conjunto de indivíduos em um grupo de controle e pacientes com câncer. Neste caso, o algoritmo de agrupamento poderia agrupar as observações apenas em jovens e velhos. Isso pode acontecer pois a idade do diagnóstico é associada ao câncer. Com isso em mente, desenvolvemos o CEM-Co, um algoritmo baseado em modelos, que remove/minimiza os efeitos das covariáveis durante o processo de agrupamento. Aplicamos o CEM-Co a uma base de dados de expressão gênica, composta de 129 pacientes de câncer de pulmão do estágio I. Como resultado, foi possível identicar um subgrupo de pacientes com taxa de sobrevida estatisticamente menor, algo até então não encontrado. |
id |
USP_237855f4866e1b215102fac9437c4257 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-16012021-193220 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Agrupamento baseado em modelos de mistura de gaussianas com covariáveisModel-based clustering algorithm with covariatesAgrupamentoAlgoritmo de mistura gaussianaAlgoritmo EMBICBICClusterizationCovariates effectEfeitos de covariáveisEM algorithmHyphotesis testsMixture gaussianTestes de hipótesesFrequentemente, o processo de agrupamento é a primeira etapa em diversos projetos de análises de dados. Ele permite identicar padrões que não foram notados antes, sendo muito útil para detectar novas hipóteses. No entanto, um desao na análise de dados empíricos é a presença de covariáveis, que podem mascarar a estrutura de agrupamento obtida. Por exemplo: se estamos interessados em agrupar um conjunto de indivíduos em um grupo de controle e pacientes com câncer. Neste caso, o algoritmo de agrupamento poderia agrupar as observações apenas em jovens e velhos. Isso pode acontecer pois a idade do diagnóstico é associada ao câncer. Com isso em mente, desenvolvemos o CEM-Co, um algoritmo baseado em modelos, que remove/minimiza os efeitos das covariáveis durante o processo de agrupamento. Aplicamos o CEM-Co a uma base de dados de expressão gênica, composta de 129 pacientes de câncer de pulmão do estágio I. Como resultado, foi possível identicar um subgrupo de pacientes com taxa de sobrevida estatisticamente menor, algo até então não encontrado.Usually, the clustering process is the first step in several data analyses. Clustering allows the identification of unseen patterns and is useful when raising new hypotheses. However, one challenge when analyzing empirical data is the presence of covariates, which may mask the obtained clustering structure. For example: suppose we are interested in clustering a set of individuals into controls and cancer patients. In this case, a clustering algorithm could group subjects into young and elderly. This may happen because, during diagnosis, the age is directly associated with cancer. Thus, we developed CEM-Co, a model-based clustering algorithm that removes/minimizes undesirable covariates\' effects during the clustering process. We applied CEM-Co on a gene expression data set composed of 129 stage I non-small cell lung cancer patients. As a result, we identified a subgroup with a poorer prognosis where standard clustering algorithms failed.Biblioteca Digitais de Teses e Dissertações da USPFujita, AndréRelvas, Carlos Eduardo Martins2020-12-04info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-16012021-193220/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2021-01-21T01:40:02Zoai:teses.usp.br:tde-16012021-193220Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212021-01-21T01:40:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Agrupamento baseado em modelos de mistura de gaussianas com covariáveis Model-based clustering algorithm with covariates |
title |
Agrupamento baseado em modelos de mistura de gaussianas com covariáveis |
spellingShingle |
Agrupamento baseado em modelos de mistura de gaussianas com covariáveis Relvas, Carlos Eduardo Martins Agrupamento Algoritmo de mistura gaussiana Algoritmo EM BIC BIC Clusterization Covariates effect Efeitos de covariáveis EM algorithm Hyphotesis tests Mixture gaussian Testes de hipóteses |
title_short |
Agrupamento baseado em modelos de mistura de gaussianas com covariáveis |
title_full |
Agrupamento baseado em modelos de mistura de gaussianas com covariáveis |
title_fullStr |
Agrupamento baseado em modelos de mistura de gaussianas com covariáveis |
title_full_unstemmed |
Agrupamento baseado em modelos de mistura de gaussianas com covariáveis |
title_sort |
Agrupamento baseado em modelos de mistura de gaussianas com covariáveis |
author |
Relvas, Carlos Eduardo Martins |
author_facet |
Relvas, Carlos Eduardo Martins |
author_role |
author |
dc.contributor.none.fl_str_mv |
Fujita, André |
dc.contributor.author.fl_str_mv |
Relvas, Carlos Eduardo Martins |
dc.subject.por.fl_str_mv |
Agrupamento Algoritmo de mistura gaussiana Algoritmo EM BIC BIC Clusterization Covariates effect Efeitos de covariáveis EM algorithm Hyphotesis tests Mixture gaussian Testes de hipóteses |
topic |
Agrupamento Algoritmo de mistura gaussiana Algoritmo EM BIC BIC Clusterization Covariates effect Efeitos de covariáveis EM algorithm Hyphotesis tests Mixture gaussian Testes de hipóteses |
description |
Frequentemente, o processo de agrupamento é a primeira etapa em diversos projetos de análises de dados. Ele permite identicar padrões que não foram notados antes, sendo muito útil para detectar novas hipóteses. No entanto, um desao na análise de dados empíricos é a presença de covariáveis, que podem mascarar a estrutura de agrupamento obtida. Por exemplo: se estamos interessados em agrupar um conjunto de indivíduos em um grupo de controle e pacientes com câncer. Neste caso, o algoritmo de agrupamento poderia agrupar as observações apenas em jovens e velhos. Isso pode acontecer pois a idade do diagnóstico é associada ao câncer. Com isso em mente, desenvolvemos o CEM-Co, um algoritmo baseado em modelos, que remove/minimiza os efeitos das covariáveis durante o processo de agrupamento. Aplicamos o CEM-Co a uma base de dados de expressão gênica, composta de 129 pacientes de câncer de pulmão do estágio I. Como resultado, foi possível identicar um subgrupo de pacientes com taxa de sobrevida estatisticamente menor, algo até então não encontrado. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-12-04 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-16012021-193220/ |
url |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-16012021-193220/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815257012159643648 |