Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina

Detalhes bibliográficos
Autor(a) principal: Oliveira, Lyncoln Sousa de
Data de Publicação: 2021
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal Fluminense (RIUFF)
Texto Completo: http://app.uff.br/riuff/handle/1/25304
Resumo: No presente trabalho, foram utilizados técnicas de aprendizado de máquinas supervisionado em conjunto com as técnicas de reamostragem k-fold e bootstrap utilizando os modelos logit, probit e complemento log-log, com o objetivo de realizar uma análise comparativa do poder discriminatório destes três modelos utilizados para avaliar a associação entre características da mãe e do recém-nascido e o desfecho de anomalia congênita. Os dados utilizados são provenientes do Sistema de Informações sobre Nascidos Vivos (SINASC) dos anos de 2017 e 2018. A variável resposta anomalia congênita observada pode ser considerada um evento raro pois somente 0,9% dos recém nascidos apresentaram essa característica na base de dados. Foram utilizados 70% dos dados gerais (amostra treino) para aplicação das técnicas k-fold com k = 10 e bootstrap com 50 amostras. Os resultados para as duas técnicas de reamostragem foram parecidos para os três modelos, obtendo valores médios de AUC semelhantes, porém as médias de acurácia (A) e especificidade (E) foram ligeiramente maiores para o modelo probit usando ambas as técnicas de reamostragem (kfold: A = 0; 739 e E = 0; 742; bootstrap A = 0; 738 e E = 0; 740). O modelo selecionado pelo k-fold removeu 2 variáveis explicativas (“raça/cor”do recém nascido e “local de nascimento”) a partir do teste de Wald de significância geral, enquanto a técnica de reamostragem bootstrap removeu 1 variável a mais (“número de consultas de pre-natal”) adotando um nível de significância de = 5%, assim resultando na seleção de dois ajustes de modelo probit distintos. Aplicando os modelos nos 30% dos dados restantes da base de dados geral (amostra teste), notou-se que as métricas que avaliam a capacidade discriminatória dos modelos foram bastante parecidas. Como a aplicação da técnica bootstrap com 50 amostras demandou significantemente mais tempo para execução, a técnica de reamostragem que se mostrou mais eficiente foi a de k-fold com k = 10.
id UFF-2_8e35d3c36a69e1a384e223c6532230b1
oai_identifier_str oai:app.uff.br:1/25304
network_acronym_str UFF-2
network_name_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str 2120
spelling Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquinaAprendizado de máquinaModelo logitModelo probitModelo complemento log-logAnomalia congênitaEstatísticaAnomalia congênitaEstatística de saúdeAprendizado de máquinaNo presente trabalho, foram utilizados técnicas de aprendizado de máquinas supervisionado em conjunto com as técnicas de reamostragem k-fold e bootstrap utilizando os modelos logit, probit e complemento log-log, com o objetivo de realizar uma análise comparativa do poder discriminatório destes três modelos utilizados para avaliar a associação entre características da mãe e do recém-nascido e o desfecho de anomalia congênita. Os dados utilizados são provenientes do Sistema de Informações sobre Nascidos Vivos (SINASC) dos anos de 2017 e 2018. A variável resposta anomalia congênita observada pode ser considerada um evento raro pois somente 0,9% dos recém nascidos apresentaram essa característica na base de dados. Foram utilizados 70% dos dados gerais (amostra treino) para aplicação das técnicas k-fold com k = 10 e bootstrap com 50 amostras. Os resultados para as duas técnicas de reamostragem foram parecidos para os três modelos, obtendo valores médios de AUC semelhantes, porém as médias de acurácia (A) e especificidade (E) foram ligeiramente maiores para o modelo probit usando ambas as técnicas de reamostragem (kfold: A = 0; 739 e E = 0; 742; bootstrap A = 0; 738 e E = 0; 740). O modelo selecionado pelo k-fold removeu 2 variáveis explicativas (“raça/cor”do recém nascido e “local de nascimento”) a partir do teste de Wald de significância geral, enquanto a técnica de reamostragem bootstrap removeu 1 variável a mais (“número de consultas de pre-natal”) adotando um nível de significância de = 5%, assim resultando na seleção de dois ajustes de modelo probit distintos. Aplicando os modelos nos 30% dos dados restantes da base de dados geral (amostra teste), notou-se que as métricas que avaliam a capacidade discriminatória dos modelos foram bastante parecidas. Como a aplicação da técnica bootstrap com 50 amostras demandou significantemente mais tempo para execução, a técnica de reamostragem que se mostrou mais eficiente foi a de k-fold com k = 10.95 f.NiteróiMoraes, José Rodrigo deMoraes, José Rodrigo deAlcoforado, Luciane FerreiraRoss, Steven DuttLongo, Orlando CelsoAlcoforado, Luciane FerreiraMoraes, José Rodrigo deAlcoforado, Luciane FerreiraOliveira, Lyncoln Sousa de2022-06-22T16:41:08Z2022-06-22T16:41:08Z2021info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfOLIVEIRA, Lyncoln Sousa de. Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina. 2021. 95 f. Trabalho de Conclusão de Curso (Graduação de Estatística) - Instituto de Matemática e Estatística, Universidade Federal Fluminense, Niterói, 2021.http://app.uff.br/riuff/handle/1/25304Aluno de Graduaçãohttp://creativecommons.org/licenses/by-nc-nd/3.0/br/CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2022-06-22T16:41:12Zoai:app.uff.br:1/25304Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202024-08-19T10:58:28.644745Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina
title Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina
spellingShingle Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina
Oliveira, Lyncoln Sousa de
Aprendizado de máquina
Modelo logit
Modelo probit
Modelo complemento log-log
Anomalia congênita
Estatística
Anomalia congênita
Estatística de saúde
Aprendizado de máquina
title_short Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina
title_full Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina
title_fullStr Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina
title_full_unstemmed Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina
title_sort Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina
author Oliveira, Lyncoln Sousa de
author_facet Oliveira, Lyncoln Sousa de
author_role author
dc.contributor.none.fl_str_mv Moraes, José Rodrigo de
Moraes, José Rodrigo de
Alcoforado, Luciane Ferreira
Ross, Steven Dutt
Longo, Orlando Celso
Alcoforado, Luciane Ferreira
Moraes, José Rodrigo de
Alcoforado, Luciane Ferreira
dc.contributor.author.fl_str_mv Oliveira, Lyncoln Sousa de
dc.subject.por.fl_str_mv Aprendizado de máquina
Modelo logit
Modelo probit
Modelo complemento log-log
Anomalia congênita
Estatística
Anomalia congênita
Estatística de saúde
Aprendizado de máquina
topic Aprendizado de máquina
Modelo logit
Modelo probit
Modelo complemento log-log
Anomalia congênita
Estatística
Anomalia congênita
Estatística de saúde
Aprendizado de máquina
description No presente trabalho, foram utilizados técnicas de aprendizado de máquinas supervisionado em conjunto com as técnicas de reamostragem k-fold e bootstrap utilizando os modelos logit, probit e complemento log-log, com o objetivo de realizar uma análise comparativa do poder discriminatório destes três modelos utilizados para avaliar a associação entre características da mãe e do recém-nascido e o desfecho de anomalia congênita. Os dados utilizados são provenientes do Sistema de Informações sobre Nascidos Vivos (SINASC) dos anos de 2017 e 2018. A variável resposta anomalia congênita observada pode ser considerada um evento raro pois somente 0,9% dos recém nascidos apresentaram essa característica na base de dados. Foram utilizados 70% dos dados gerais (amostra treino) para aplicação das técnicas k-fold com k = 10 e bootstrap com 50 amostras. Os resultados para as duas técnicas de reamostragem foram parecidos para os três modelos, obtendo valores médios de AUC semelhantes, porém as médias de acurácia (A) e especificidade (E) foram ligeiramente maiores para o modelo probit usando ambas as técnicas de reamostragem (kfold: A = 0; 739 e E = 0; 742; bootstrap A = 0; 738 e E = 0; 740). O modelo selecionado pelo k-fold removeu 2 variáveis explicativas (“raça/cor”do recém nascido e “local de nascimento”) a partir do teste de Wald de significância geral, enquanto a técnica de reamostragem bootstrap removeu 1 variável a mais (“número de consultas de pre-natal”) adotando um nível de significância de = 5%, assim resultando na seleção de dois ajustes de modelo probit distintos. Aplicando os modelos nos 30% dos dados restantes da base de dados geral (amostra teste), notou-se que as métricas que avaliam a capacidade discriminatória dos modelos foram bastante parecidas. Como a aplicação da técnica bootstrap com 50 amostras demandou significantemente mais tempo para execução, a técnica de reamostragem que se mostrou mais eficiente foi a de k-fold com k = 10.
publishDate 2021
dc.date.none.fl_str_mv 2021
2022-06-22T16:41:08Z
2022-06-22T16:41:08Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv OLIVEIRA, Lyncoln Sousa de. Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina. 2021. 95 f. Trabalho de Conclusão de Curso (Graduação de Estatística) - Instituto de Matemática e Estatística, Universidade Federal Fluminense, Niterói, 2021.
http://app.uff.br/riuff/handle/1/25304
Aluno de Graduação
identifier_str_mv OLIVEIRA, Lyncoln Sousa de. Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina. 2021. 95 f. Trabalho de Conclusão de Curso (Graduação de Estatística) - Instituto de Matemática e Estatística, Universidade Federal Fluminense, Niterói, 2021.
Aluno de Graduação
url http://app.uff.br/riuff/handle/1/25304
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/br/
CC-BY-SA
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/br/
CC-BY-SA
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Niterói
publisher.none.fl_str_mv Niterói
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)
instname:Universidade Federal Fluminense (UFF)
instacron:UFF
instname_str Universidade Federal Fluminense (UFF)
instacron_str UFF
institution UFF
reponame_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv riuff@id.uff.br
_version_ 1811823623937196032