Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
Texto Completo: | http://app.uff.br/riuff/handle/1/25304 |
Resumo: | No presente trabalho, foram utilizados técnicas de aprendizado de máquinas supervisionado em conjunto com as técnicas de reamostragem k-fold e bootstrap utilizando os modelos logit, probit e complemento log-log, com o objetivo de realizar uma análise comparativa do poder discriminatório destes três modelos utilizados para avaliar a associação entre características da mãe e do recém-nascido e o desfecho de anomalia congênita. Os dados utilizados são provenientes do Sistema de Informações sobre Nascidos Vivos (SINASC) dos anos de 2017 e 2018. A variável resposta anomalia congênita observada pode ser considerada um evento raro pois somente 0,9% dos recém nascidos apresentaram essa característica na base de dados. Foram utilizados 70% dos dados gerais (amostra treino) para aplicação das técnicas k-fold com k = 10 e bootstrap com 50 amostras. Os resultados para as duas técnicas de reamostragem foram parecidos para os três modelos, obtendo valores médios de AUC semelhantes, porém as médias de acurácia (A) e especificidade (E) foram ligeiramente maiores para o modelo probit usando ambas as técnicas de reamostragem (kfold: A = 0; 739 e E = 0; 742; bootstrap A = 0; 738 e E = 0; 740). O modelo selecionado pelo k-fold removeu 2 variáveis explicativas (“raça/cor”do recém nascido e “local de nascimento”) a partir do teste de Wald de significância geral, enquanto a técnica de reamostragem bootstrap removeu 1 variável a mais (“número de consultas de pre-natal”) adotando um nível de significância de = 5%, assim resultando na seleção de dois ajustes de modelo probit distintos. Aplicando os modelos nos 30% dos dados restantes da base de dados geral (amostra teste), notou-se que as métricas que avaliam a capacidade discriminatória dos modelos foram bastante parecidas. Como a aplicação da técnica bootstrap com 50 amostras demandou significantemente mais tempo para execução, a técnica de reamostragem que se mostrou mais eficiente foi a de k-fold com k = 10. |
id |
UFF-2_8e35d3c36a69e1a384e223c6532230b1 |
---|---|
oai_identifier_str |
oai:app.uff.br:1/25304 |
network_acronym_str |
UFF-2 |
network_name_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository_id_str |
2120 |
spelling |
Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquinaAprendizado de máquinaModelo logitModelo probitModelo complemento log-logAnomalia congênitaEstatísticaAnomalia congênitaEstatística de saúdeAprendizado de máquinaNo presente trabalho, foram utilizados técnicas de aprendizado de máquinas supervisionado em conjunto com as técnicas de reamostragem k-fold e bootstrap utilizando os modelos logit, probit e complemento log-log, com o objetivo de realizar uma análise comparativa do poder discriminatório destes três modelos utilizados para avaliar a associação entre características da mãe e do recém-nascido e o desfecho de anomalia congênita. Os dados utilizados são provenientes do Sistema de Informações sobre Nascidos Vivos (SINASC) dos anos de 2017 e 2018. A variável resposta anomalia congênita observada pode ser considerada um evento raro pois somente 0,9% dos recém nascidos apresentaram essa característica na base de dados. Foram utilizados 70% dos dados gerais (amostra treino) para aplicação das técnicas k-fold com k = 10 e bootstrap com 50 amostras. Os resultados para as duas técnicas de reamostragem foram parecidos para os três modelos, obtendo valores médios de AUC semelhantes, porém as médias de acurácia (A) e especificidade (E) foram ligeiramente maiores para o modelo probit usando ambas as técnicas de reamostragem (kfold: A = 0; 739 e E = 0; 742; bootstrap A = 0; 738 e E = 0; 740). O modelo selecionado pelo k-fold removeu 2 variáveis explicativas (“raça/cor”do recém nascido e “local de nascimento”) a partir do teste de Wald de significância geral, enquanto a técnica de reamostragem bootstrap removeu 1 variável a mais (“número de consultas de pre-natal”) adotando um nível de significância de = 5%, assim resultando na seleção de dois ajustes de modelo probit distintos. Aplicando os modelos nos 30% dos dados restantes da base de dados geral (amostra teste), notou-se que as métricas que avaliam a capacidade discriminatória dos modelos foram bastante parecidas. Como a aplicação da técnica bootstrap com 50 amostras demandou significantemente mais tempo para execução, a técnica de reamostragem que se mostrou mais eficiente foi a de k-fold com k = 10.95 f.NiteróiMoraes, José Rodrigo deMoraes, José Rodrigo deAlcoforado, Luciane FerreiraRoss, Steven DuttLongo, Orlando CelsoAlcoforado, Luciane FerreiraMoraes, José Rodrigo deAlcoforado, Luciane FerreiraOliveira, Lyncoln Sousa de2022-06-22T16:41:08Z2022-06-22T16:41:08Z2021info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfOLIVEIRA, Lyncoln Sousa de. Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina. 2021. 95 f. Trabalho de Conclusão de Curso (Graduação de Estatística) - Instituto de Matemática e Estatística, Universidade Federal Fluminense, Niterói, 2021.http://app.uff.br/riuff/handle/1/25304Aluno de Graduaçãohttp://creativecommons.org/licenses/by-nc-nd/3.0/br/CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2022-06-22T16:41:12Zoai:app.uff.br:1/25304Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202024-08-19T10:58:28.644745Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false |
dc.title.none.fl_str_mv |
Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina |
title |
Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina |
spellingShingle |
Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina Oliveira, Lyncoln Sousa de Aprendizado de máquina Modelo logit Modelo probit Modelo complemento log-log Anomalia congênita Estatística Anomalia congênita Estatística de saúde Aprendizado de máquina |
title_short |
Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina |
title_full |
Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina |
title_fullStr |
Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina |
title_full_unstemmed |
Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina |
title_sort |
Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina |
author |
Oliveira, Lyncoln Sousa de |
author_facet |
Oliveira, Lyncoln Sousa de |
author_role |
author |
dc.contributor.none.fl_str_mv |
Moraes, José Rodrigo de Moraes, José Rodrigo de Alcoforado, Luciane Ferreira Ross, Steven Dutt Longo, Orlando Celso Alcoforado, Luciane Ferreira Moraes, José Rodrigo de Alcoforado, Luciane Ferreira |
dc.contributor.author.fl_str_mv |
Oliveira, Lyncoln Sousa de |
dc.subject.por.fl_str_mv |
Aprendizado de máquina Modelo logit Modelo probit Modelo complemento log-log Anomalia congênita Estatística Anomalia congênita Estatística de saúde Aprendizado de máquina |
topic |
Aprendizado de máquina Modelo logit Modelo probit Modelo complemento log-log Anomalia congênita Estatística Anomalia congênita Estatística de saúde Aprendizado de máquina |
description |
No presente trabalho, foram utilizados técnicas de aprendizado de máquinas supervisionado em conjunto com as técnicas de reamostragem k-fold e bootstrap utilizando os modelos logit, probit e complemento log-log, com o objetivo de realizar uma análise comparativa do poder discriminatório destes três modelos utilizados para avaliar a associação entre características da mãe e do recém-nascido e o desfecho de anomalia congênita. Os dados utilizados são provenientes do Sistema de Informações sobre Nascidos Vivos (SINASC) dos anos de 2017 e 2018. A variável resposta anomalia congênita observada pode ser considerada um evento raro pois somente 0,9% dos recém nascidos apresentaram essa característica na base de dados. Foram utilizados 70% dos dados gerais (amostra treino) para aplicação das técnicas k-fold com k = 10 e bootstrap com 50 amostras. Os resultados para as duas técnicas de reamostragem foram parecidos para os três modelos, obtendo valores médios de AUC semelhantes, porém as médias de acurácia (A) e especificidade (E) foram ligeiramente maiores para o modelo probit usando ambas as técnicas de reamostragem (kfold: A = 0; 739 e E = 0; 742; bootstrap A = 0; 738 e E = 0; 740). O modelo selecionado pelo k-fold removeu 2 variáveis explicativas (“raça/cor”do recém nascido e “local de nascimento”) a partir do teste de Wald de significância geral, enquanto a técnica de reamostragem bootstrap removeu 1 variável a mais (“número de consultas de pre-natal”) adotando um nível de significância de = 5%, assim resultando na seleção de dois ajustes de modelo probit distintos. Aplicando os modelos nos 30% dos dados restantes da base de dados geral (amostra teste), notou-se que as métricas que avaliam a capacidade discriminatória dos modelos foram bastante parecidas. Como a aplicação da técnica bootstrap com 50 amostras demandou significantemente mais tempo para execução, a técnica de reamostragem que se mostrou mais eficiente foi a de k-fold com k = 10. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021 2022-06-22T16:41:08Z 2022-06-22T16:41:08Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
OLIVEIRA, Lyncoln Sousa de. Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina. 2021. 95 f. Trabalho de Conclusão de Curso (Graduação de Estatística) - Instituto de Matemática e Estatística, Universidade Federal Fluminense, Niterói, 2021. http://app.uff.br/riuff/handle/1/25304 Aluno de Graduação |
identifier_str_mv |
OLIVEIRA, Lyncoln Sousa de. Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de máquina. 2021. 95 f. Trabalho de Conclusão de Curso (Graduação de Estatística) - Instituto de Matemática e Estatística, Universidade Federal Fluminense, Niterói, 2021. Aluno de Graduação |
url |
http://app.uff.br/riuff/handle/1/25304 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/br/ CC-BY-SA info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/br/ CC-BY-SA |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Niterói |
publisher.none.fl_str_mv |
Niterói |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF) instname:Universidade Federal Fluminense (UFF) instacron:UFF |
instname_str |
Universidade Federal Fluminense (UFF) |
instacron_str |
UFF |
institution |
UFF |
reponame_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
collection |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF) |
repository.mail.fl_str_mv |
riuff@id.uff.br |
_version_ |
1811823623937196032 |