Protocolo de coleta de dados para predição de Covid-19

Detalhes bibliográficos
Autor(a) principal: Souza, Alex Fernandes de [UNIFESP]
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UNIFESP
Texto Completo: https://repositorio.unifesp.br/11600/66572
Resumo: A coleta de dados representa um desafio em diversos setores da sociedade. Na pandemia de Covid-19, grandes volumes de dados foram gerados com a finalidade de usá-los em tarefas de aprendizado de máquina (AM) para auxiliar na tomada de decisão. Contudo, a forma como estes dados foram coletados dificulta a elaboração de análises estatísticas e uso em tarefas de diagnóstico e prognóstico. Estas análises demandam conjuntos de dados arrumados, que representam uma forma de conectar a estrutura dos dados à sua semântica. Este estudo propõe um protocolo de coleta de dados a partir do estudo de datasets clínicos disponibilizados no Repositório do COVID19 DataSharing/BR para uso em tarefas de aprendizado de máquina. Foram analisados dados do Laboratório Fleury, que apontam o diagnóstico, e dados do Hospital Sírio-Libanês, que permitem estudar o prognóstico dos casos. Ambos os datasets demandaram um extenso pré-processamento e, em seguida, foram arrumados para que pudessem ser utilizados em tarefas de AM. Entre os problemas observados ao longo das etapas de pré-processamento, destacam-se a falta de padronização, informações redundantes, atributos sem relevância, dados ausentes, entre outros. Após o pré-processamento inicial, ambos os conjuntos foram arrumados de modo que tornassem seu uso eficiente. Na sequência, outras tarefas foram realizadas para tornar os dados utilizáveis, eliminado, por exemplo, a extensa quantidade de valores ausentes. Com os dados arrumados, aplicou-se três técnicas preditivas de AM, sendo estes K-Nearest Neighbor (KNN), Support-Vector Machine e Árvore de decisão. Na tarefa de diagnóstico de Covid-19, a técnica KNN apresentou melhor desempenho com valores de área sob a curva ROC igual a 0.77. Para os dados de prognóstico de Covid-19, os algoritmos KNN e SVM apresentaram os melhores desempenho, ambos com 0.81 da mesma medida. A partir desses resultados, pode-se afirmar que os conjuntos de dados, dentro de uma estrutura arrumada, podem ser utilizados no auxílio ao diagnóstico e prognóstico de Covid-19. Logo, a partir do protocolo de coleta de dados proposto neste estudo, o qual garante a obtenção de dados em formato arrumado, observou-se a redução da necessidade de diversas tarefas de pré-processamento. Assim, o uso dos dados em tarefas de aprendizado de máquina e análises estatísticas é facilitado, potencializando também o manejo eficiente de pacientes e recursos hospitalares. Além disso, este protocolo pode ser utilizado em eventos futuros, facilitando a forma como os dados são coletados e seu uso subsequente
id UFSP_d29a142ffab32b6ffd9393a58cdcc66f
oai_identifier_str oai:repositorio.unifesp.br:11600/66572
network_acronym_str UFSP
network_name_str Repositório Institucional da UNIFESP
repository_id_str 3465
spelling Souza, Alex Fernandes de [UNIFESP]http://lattes.cnpq.br/5633654726100239http://lattes.cnpq.br/0145582312635382Verri, Filipe Alves NetoSão José dos Campos, SP2023-01-24T18:29:37Z2023-01-24T18:29:37Z2022-10-05SOUZA, A. F. Protocolo de coleta de dados para predição de Covid-19. 2022. 75 f. Dissertação (Mestrado em Pesquisa Operacional), Universidade Federal de São Paulo - Instituto Tecnológico de Aeronáutica, São José dos Campos, 2022.https://repositorio.unifesp.br/11600/66572A coleta de dados representa um desafio em diversos setores da sociedade. Na pandemia de Covid-19, grandes volumes de dados foram gerados com a finalidade de usá-los em tarefas de aprendizado de máquina (AM) para auxiliar na tomada de decisão. Contudo, a forma como estes dados foram coletados dificulta a elaboração de análises estatísticas e uso em tarefas de diagnóstico e prognóstico. Estas análises demandam conjuntos de dados arrumados, que representam uma forma de conectar a estrutura dos dados à sua semântica. Este estudo propõe um protocolo de coleta de dados a partir do estudo de datasets clínicos disponibilizados no Repositório do COVID19 DataSharing/BR para uso em tarefas de aprendizado de máquina. Foram analisados dados do Laboratório Fleury, que apontam o diagnóstico, e dados do Hospital Sírio-Libanês, que permitem estudar o prognóstico dos casos. Ambos os datasets demandaram um extenso pré-processamento e, em seguida, foram arrumados para que pudessem ser utilizados em tarefas de AM. Entre os problemas observados ao longo das etapas de pré-processamento, destacam-se a falta de padronização, informações redundantes, atributos sem relevância, dados ausentes, entre outros. Após o pré-processamento inicial, ambos os conjuntos foram arrumados de modo que tornassem seu uso eficiente. Na sequência, outras tarefas foram realizadas para tornar os dados utilizáveis, eliminado, por exemplo, a extensa quantidade de valores ausentes. Com os dados arrumados, aplicou-se três técnicas preditivas de AM, sendo estes K-Nearest Neighbor (KNN), Support-Vector Machine e Árvore de decisão. Na tarefa de diagnóstico de Covid-19, a técnica KNN apresentou melhor desempenho com valores de área sob a curva ROC igual a 0.77. Para os dados de prognóstico de Covid-19, os algoritmos KNN e SVM apresentaram os melhores desempenho, ambos com 0.81 da mesma medida. A partir desses resultados, pode-se afirmar que os conjuntos de dados, dentro de uma estrutura arrumada, podem ser utilizados no auxílio ao diagnóstico e prognóstico de Covid-19. Logo, a partir do protocolo de coleta de dados proposto neste estudo, o qual garante a obtenção de dados em formato arrumado, observou-se a redução da necessidade de diversas tarefas de pré-processamento. Assim, o uso dos dados em tarefas de aprendizado de máquina e análises estatísticas é facilitado, potencializando também o manejo eficiente de pacientes e recursos hospitalares. Além disso, este protocolo pode ser utilizado em eventos futuros, facilitando a forma como os dados são coletados e seu uso subsequenteEdital CAPES Telemedicina e Análise de Dados Médicos 88881.507039/2020-0175 fporUniversidade Federal de São PauloColeta de dadosCovid-19Aprendizado de máquinaProtocolo de coleta de dados para predição de Covid-19Data collection protocol for prediction of Covid-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNIFESPinstname:Universidade Federal de São Paulo (UNIFESP)instacron:UNIFESPInstituto de Ciência e Tecnologia (ICT)Pesquisa OperacionalEngenharia de ProduçãoCiências de DadosORIGINALDISSERTACAO_FINAL_ALEX_ASSINADA.pdfDISSERTACAO_FINAL_ALEX_ASSINADA.pdfDissertação Mestradoapplication/pdf7088680${dspace.ui.url}/bitstream/11600/66572/1/DISSERTACAO_FINAL_ALEX_ASSINADA.pdf8ddeeb1dd45b81989f9f1cdc8cd8249cMD51open accessLICENSElicense.txtlicense.txttext/plain; charset=utf-85802${dspace.ui.url}/bitstream/11600/66572/2/license.txt7a6beedfc4d785c197ed43137537cbb2MD52open accessTEXTDISSERTACAO_FINAL_ALEX_ASSINADA.pdf.txtDISSERTACAO_FINAL_ALEX_ASSINADA.pdf.txtExtracted texttext/plain148765${dspace.ui.url}/bitstream/11600/66572/3/DISSERTACAO_FINAL_ALEX_ASSINADA.pdf.txtcef753830eea41e3ec4091423bf58c26MD53open accessTHUMBNAILDISSERTACAO_FINAL_ALEX_ASSINADA.pdf.jpgDISSERTACAO_FINAL_ALEX_ASSINADA.pdf.jpgIM Thumbnailimage/jpeg4305${dspace.ui.url}/bitstream/11600/66572/5/DISSERTACAO_FINAL_ALEX_ASSINADA.pdf.jpgbbc02cc07200dcb21422f5f6b57dbb40MD55open access11600/665722023-01-26 08:55:52.724open accessoai:repositorio.unifesp.br:11600/66572VEVSTU9TIEUgQ09OREnDh8OVRVMgUEFSQSBPIExJQ0VOQ0lBTUVOVE8gRE8gQVJRVUlWQU1FTlRPLCBSRVBST0RVw4fDg08gRSBESVZVTEdBw4fDg08gUMOaQkxJQ0EgREUgQ09OVEXDmkRPIE5PIFJFUE9TSVTDk1JJTyBJTlNUSVRVQ0lPTkFMIFVOSUZFU1AKCjEuIEV1LCBBbGV4IFNvdXphIChzb3V6YS5hbGV4QHVuaWZlc3AuYnIpLCByZXNwb25zw6F2ZWwgcGVsbyB0cmFiYWxobyDigJxQcm90b2NvbG8gZGUgY29sZXRhIGRlIGRhZG9zIHBhcmEgcHJlZGnDp8OjbyBkZSBDb3ZpZC0xOeKAnSBlL291IHVzdcOhcmlvLWRlcG9zaXRhbnRlIG5vIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIFVOSUZFU1AsYXNzZWd1cm8gbm8gcHJlc2VudGUgYXRvIHF1ZSBzb3UgdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGF0cmltb25pYWlzIGUvb3UgZGlyZWl0b3MgY29uZXhvcyByZWZlcmVudGVzIMOgIHRvdGFsaWRhZGUgZGEgT2JyYSBvcmEgZGVwb3NpdGFkYSBlbSBmb3JtYXRvIGRpZ2l0YWwsIGJlbSBjb21vIGRlIHNldXMgY29tcG9uZW50ZXMgbWVub3JlcywgZW0gc2UgdHJhdGFuZG8gZGUgb2JyYSBjb2xldGl2YSwgY29uZm9ybWUgbyBwcmVjZWl0dWFkbyBwZWxhIExlaSA5LjYxMC85OCBlL291IExlaSA5LjYwOS85OC4gTsOjbyBzZW5kbyBlc3RlIG8gY2FzbywgYXNzZWd1cm8gdGVyIG9idGlkbyBkaXJldGFtZW50ZSBkb3MgZGV2aWRvcyB0aXR1bGFyZXMgYXV0b3JpemHDp8OjbyBwcsOpdmlhIGUgZXhwcmVzc2EgcGFyYSBvIGRlcMOzc2l0byBlIHBhcmEgYSBkaXZ1bGdhw6fDo28gZGEgT2JyYSwgYWJyYW5nZW5kbyB0b2RvcyBvcyBkaXJlaXRvcyBhdXRvcmFpcyBlIGNvbmV4b3MgYWZldGFkb3MgcGVsYSBhc3NpbmF0dXJhIGRvIHByZXNlbnRlIHRlcm1vIGRlIGxpY2VuY2lhbWVudG8sIGRlIG1vZG8gYSBlZmV0aXZhbWVudGUgaXNlbnRhciBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFPDo28gUGF1bG8gKFVOSUZFU1ApIGUgc2V1cyBmdW5jaW9uw6FyaW9zIGRlIHF1YWxxdWVyIHJlc3BvbnNhYmlsaWRhZGUgcGVsbyB1c28gbsOjby1hdXRvcml6YWRvIGRvIG1hdGVyaWFsIGRlcG9zaXRhZG8sIHNlamEgZW0gdmluY3VsYcOnw6NvIGFvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIFVOSUZFU1AsIHNlamEgZW0gdmluY3VsYcOnw6NvIGEgcXVhaXNxdWVyIHNlcnZpw6dvcyBkZSBidXNjYSBlIGRlIGRpc3RyaWJ1acOnw6NvIGRlIGNvbnRlw7pkbyBxdWUgZmHDp2FtIHVzbyBkYXMgaW50ZXJmYWNlcyBlIGVzcGHDp28gZGUgYXJtYXplbmFtZW50byBwcm92aWRlbmNpYWRvcyBwZWxhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFPDo28gUGF1bG8gKFVOSUZFU1ApIHBvciBtZWlvIGRlIHNldXMgc2lzdGVtYXMgaW5mb3JtYXRpemFkb3MuCgoyLiBBIGNvbmNvcmTDom5jaWEgY29tIGVzdGEgbGljZW7Dp2EgdGVtIGNvbW8gY29uc2VxdcOqbmNpYSBhIHRyYW5zZmVyw6puY2lhLCBhIHTDrXR1bG8gbsOjby1leGNsdXNpdm8gZSBuw6NvLW9uZXJvc28sIGlzZW50YSBkbyBwYWdhbWVudG8gZGUgcm95YWx0aWVzIG91IHF1YWxxdWVyIG91dHJhIGNvbnRyYXByZXN0YcOnw6NvLCBwZWN1bmnDoXJpYSBvdSBuw6NvLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTw6NvIFBhdWxvIChVTklGRVNQKSBkb3MgZGlyZWl0b3MgZGUgYXJtYXplbmFyIGRpZ2l0YWxtZW50ZSwgZGUgcmVwcm9kdXppciBlIGRlIGRpc3RyaWJ1aXIgbmFjaW9uYWwgZSBpbnRlcm5hY2lvbmFsbWVudGUgYSBPYnJhLCBpbmNsdWluZG8tc2UgbyBzZXUgcmVzdW1vL2Fic3RyYWN0LCBwb3IgbWVpb3MgZWxldHLDtG5pY29zIGFvIHDDumJsaWNvIGVtIGdlcmFsLCBlbSByZWdpbWUgZGUgYWNlc3NvIGFiZXJ0by4KCjMuIEEgcHJlc2VudGUgbGljZW7Dp2EgdGFtYsOpbSBhYnJhbmdlLCBub3MgbWVzbW9zIHRlcm1vcyBlc3RhYmVsZWNpZG9zIG5vIGl0ZW0gMiwgc3VwcmEsIHF1YWxxdWVyIGRpcmVpdG8gZGUgY29tdW5pY2HDp8OjbyBhbyBww7pibGljbyBjYWLDrXZlbCBlbSByZWxhw6fDo28gw6AgT2JyYSBvcmEgZGVwb3NpdGFkYSwgaW5jbHVpbmRvLXNlIG9zIHVzb3MgcmVmZXJlbnRlcyDDoCByZXByZXNlbnRhw6fDo28gcMO6YmxpY2EgZS9vdSBleGVjdcOnw6NvIHDDumJsaWNhLCBiZW0gY29tbyBxdWFscXVlciBvdXRyYSBtb2RhbGlkYWRlIGRlIGNvbXVuaWNhw6fDo28gYW8gcMO6YmxpY28gcXVlIGV4aXN0YSBvdSB2ZW5oYSBhIGV4aXN0aXIsIG5vcyB0ZXJtb3MgZG8gYXJ0aWdvIDY4IGUgc2VndWludGVzIGRhIExlaSA5LjYxMC85OCwgbmEgZXh0ZW5zw6NvIHF1ZSBmb3IgYXBsaWPDoXZlbCBhb3Mgc2VydmnDp29zIHByZXN0YWRvcyBhbyBww7pibGljbyBwZWxhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFPDo28gUGF1bG8gKFVOSUZFU1ApLgoKNC4gRXN0YSBsaWNlbsOnYSBhYnJhbmdlLCBhaW5kYSwgbm9zIG1lc21vcyB0ZXJtb3MgZXN0YWJlbGVjaWRvcyBubyBpdGVtIDIsIHN1cHJhLCB0b2RvcyBvcyBkaXJlaXRvcyBjb25leG9zIGRlIGFydGlzdGFzIGludMOpcnByZXRlcyBvdSBleGVjdXRhbnRlcywgcHJvZHV0b3JlcyBmb25vZ3LDoWZpY29zIG91IGVtcHJlc2FzIGRlIHJhZGlvZGlmdXPDo28gcXVlIGV2ZW50dWFsbWVudGUgc2VqYW0gYXBsaWPDoXZlaXMgZW0gcmVsYcOnw6NvIMOgIG9icmEgZGVwb3NpdGFkYSwgZW0gY29uZm9ybWlkYWRlIGNvbSBvIHJlZ2ltZSBmaXhhZG8gbm8gVMOtdHVsbyBWIGRhIExlaSA5LjYxMC85OC4KCjUuIFNlIGEgT2JyYSBkZXBvc2l0YWRhIGZvaSBvdSDDqSBvYmpldG8gZGUgZmluYW5jaWFtZW50byBwb3IgaW5zdGl0dWnDp8O1ZXMgZGUgZm9tZW50byDDoCBwZXNxdWlzYSBvdSBxdWFscXVlciBvdXRyYSBzZW1lbGhhbnRlLCB2b2PDqiBvdSBvIHRpdHVsYXIgYXNzZWd1cmEgcXVlIGN1bXByaXUgdG9kYXMgYXMgb2JyaWdhw6fDtWVzIHF1ZSBsaGUgZm9yYW0gaW1wb3N0YXMgcGVsYSBpbnN0aXR1acOnw6NvIGZpbmFuY2lhZG9yYSBlbSByYXrDo28gZG8gZmluYW5jaWFtZW50bywgZSBxdWUgbsOjbyBlc3TDoSBjb250cmFyaWFuZG8gcXVhbHF1ZXIgZGlzcG9zacOnw6NvIGNvbnRyYXR1YWwgcmVmZXJlbnRlIMOgIHB1YmxpY2HDp8OjbyBkbyBjb250ZcO6ZG8gb3JhIHN1Ym1ldGlkbyBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBVTklGRVNQLgogCjYuIEF1dG9yaXphIGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgU8OjbyBQYXVsbyBhIGRpc3BvbmliaWxpemFyIGEgb2JyYSBubyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBVTklGRVNQIGRlIGZvcm1hIGdyYXR1aXRhLCBkZSBhY29yZG8gY29tIGEgbGljZW7Dp2EgcMO6YmxpY2EgQ3JlYXRpdmUgQ29tbW9uczogQXRyaWJ1acOnw6NvLVNlbSBEZXJpdmHDp8O1ZXMtU2VtIERlcml2YWRvcyA0LjAgSW50ZXJuYWNpb25hbCAoQ0MgQlktTkMtTkQpLCBwZXJtaXRpbmRvIHNldSBsaXZyZSBhY2Vzc28sIHVzbyBlIGNvbXBhcnRpbGhhbWVudG8sIGRlc2RlIHF1ZSBjaXRhZGEgYSBmb250ZS4gQSBvYnJhIGNvbnRpbnVhIHByb3RlZ2lkYSBwb3IgRGlyZWl0b3MgQXV0b3JhaXMgZS9vdSBwb3Igb3V0cmFzIGxlaXMgYXBsaWPDoXZlaXMuIFF1YWxxdWVyIHVzbyBkYSBvYnJhLCBxdWUgbsOjbyBvIGF1dG9yaXphZG8gc29iIGVzdGEgbGljZW7Dp2Egb3UgcGVsYSBsZWdpc2xhw6fDo28gYXV0b3JhbCwgw6kgcHJvaWJpZG8uICAKCjcuIEF0ZXN0YSBxdWUgYSBPYnJhIHN1Ym1ldGlkYSBuw6NvIGNvbnTDqW0gcXVhbHF1ZXIgaW5mb3JtYcOnw6NvIGNvbmZpZGVuY2lhbCBzdWEgb3UgZGUgdGVyY2Vpcm9zLgoKOC4gQXRlc3RhIHF1ZSBvIHRyYWJhbGhvIHN1Ym1ldGlkbyDDqSBvcmlnaW5hbCBlIGZvaSBlbGFib3JhZG8gcmVzcGVpdGFuZG8gb3MgcHJpbmPDrXBpb3MgZGEgbW9yYWwgZSBkYSDDqXRpY2EgZSBuw6NvIHZpb2xvdSBxdWFscXVlciBkaXJlaXRvIGRlIHByb3ByaWVkYWRlIGludGVsZWN0dWFsLCBzb2IgcGVuYSBkZSByZXNwb25kZXIgY2l2aWwsIGNyaW1pbmFsLCDDqXRpY2EgZSBwcm9maXNzaW9uYWxtZW50ZSBwb3IgbWV1cyBhdG9zOwoKOS4gQXRlc3RhIHF1ZSBhIHZlcnPDo28gZG8gdHJhYmFsaG8gcHJlc2VudGUgbm8gYXJxdWl2byBzdWJtZXRpZG8gw6kgYSB2ZXJzw6NvIGRlZmluaXRpdmEgcXVlIGluY2x1aSBhcyBhbHRlcmHDp8O1ZXMgZGVjb3JyZW50ZXMgZGEgZGVmZXNhLCBzb2xpY2l0YWRhcyBwZWxhIGJhbmNhLCBzZSBob3V2ZSBhbGd1bWEsIG91IHNvbGljaXRhZGFzIHBvciBwYXJ0ZSBkZSBvcmllbnRhw6fDo28gZG9jZW50ZSByZXNwb25zw6F2ZWw7CgoxMC4gQ29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTw6NvIFBhdWxvIChVTklGRVNQKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgcmVhbGl6YXIgcXVhaXNxdWVyIGFsdGVyYcOnw7VlcyBuYSBtw61kaWEgb3Ugbm8gZm9ybWF0byBkbyBhcnF1aXZvIHBhcmEgcHJvcMOzc2l0b3MgZGUgcHJlc2VydmHDp8OjbyBkaWdpdGFsLCBkZSBhY2Vzc2liaWxpZGFkZSBlIGRlIG1lbGhvciBpZGVudGlmaWNhw6fDo28gZG8gdHJhYmFsaG8gc3VibWV0aWRvLCBkZXNkZSBxdWUgbsOjbyBzZWphIGFsdGVyYWRvIHNldSBjb250ZcO6ZG8gaW50ZWxlY3R1YWwuCgpBbyBjb25jbHVpciBhcyBldGFwYXMgZG8gcHJvY2Vzc28gZGUgc3VibWlzc8OjbyBkZSBhcnF1aXZvcyBubyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBVTklGRVNQLCBhdGVzdG8gcXVlIGxpIGUgY29uY29yZGVpIGludGVncmFsbWVudGUgY29tIG9zIHRlcm1vcyBhY2ltYSBkZWxpbWl0YWRvcywgc2VtIGZhemVyIHF1YWxxdWVyIHJlc2VydmEgZSBub3ZhbWVudGUgY29uZmlybWFuZG8gcXVlIGN1bXBybyBvcyByZXF1aXNpdG9zIGluZGljYWRvcyBub3MgaXRlbnMgbWVuY2lvbmFkb3MgYW50ZXJpb3JtZW50ZS4KCkhhdmVuZG8gcXVhbHF1ZXIgZGlzY29yZMOibmNpYSBlbSByZWxhw6fDo28gYSBwcmVzZW50ZSBsaWNlbsOnYSBvdSBuw6NvIHNlIHZlcmlmaWNhbmRvIG8gZXhpZ2lkbyBub3MgaXRlbnMgYW50ZXJpb3Jlcywgdm9jw6ogZGV2ZSBpbnRlcnJvbXBlciBpbWVkaWF0YW1lbnRlIG8gcHJvY2Vzc28gZGUgc3VibWlzc8Ojby4gQSBjb250aW51aWRhZGUgZG8gcHJvY2Vzc28gZXF1aXZhbGUgw6AgY29uY29yZMOibmNpYSBlIMOgIGFzc2luYXR1cmEgZGVzdGUgZG9jdW1lbnRvLCBjb20gdG9kYXMgYXMgY29uc2VxdcOqbmNpYXMgbmVsZSBwcmV2aXN0YXMsIHN1amVpdGFuZG8tc2UgbyBzaWduYXTDoXJpbyBhIHNhbsOnw7VlcyBjaXZpcyBlIGNyaW1pbmFpcyBjYXNvIG7Do28gc2VqYSB0aXR1bGFyIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXRyaW1vbmlhaXMgZS9vdSBjb25leG9zIGFwbGljw6F2ZWlzIMOgIE9icmEgZGVwb3NpdGFkYSBkdXJhbnRlIGVzdGUgcHJvY2Vzc28sIG91IGNhc28gbsOjbyB0ZW5oYSBvYnRpZG8gcHLDqXZpYSBlIGV4cHJlc3NhIGF1dG9yaXphw6fDo28gZG8gdGl0dWxhciBwYXJhIG8gZGVww7NzaXRvIGUgdG9kb3Mgb3MgdXNvcyBkYSBPYnJhIGVudm9sdmlkb3MuCgpTZSB0aXZlciBxdWFscXVlciBkw7p2aWRhIHF1YW50byBhb3MgdGVybW9zIGRlIGxpY2VuY2lhbWVudG8gZSBxdWFudG8gYW8gcHJvY2Vzc28gZGUgc3VibWlzc8OjbywgZW50cmUgZW0gY29udGF0byBjb20gYSBiaWJsaW90ZWNhIGRvIHNldSBjYW1wdXMgKGNvbnN1bHRlIGVtOiBodHRwczovL2JpYmxpb3RlY2FzLnVuaWZlc3AuYnIvYmlibGlvdGVjYXMtZGEtcmVkZSkuIAoKU8OjbyBQYXVsbywgVGh1IEphbiAwNSAxNDo1Mzo0MSBCUlQgMjAyMy4KRepositório InstitucionalPUBhttp://www.repositorio.unifesp.br/oai/requestopendoar:34652023-01-26T11:55:52Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)false
dc.title.pt_BR.fl_str_mv Protocolo de coleta de dados para predição de Covid-19
dc.title.alternative.pt_BR.fl_str_mv Data collection protocol for prediction of Covid-19
title Protocolo de coleta de dados para predição de Covid-19
spellingShingle Protocolo de coleta de dados para predição de Covid-19
Souza, Alex Fernandes de [UNIFESP]
Coleta de dados
Covid-19
Aprendizado de máquina
title_short Protocolo de coleta de dados para predição de Covid-19
title_full Protocolo de coleta de dados para predição de Covid-19
title_fullStr Protocolo de coleta de dados para predição de Covid-19
title_full_unstemmed Protocolo de coleta de dados para predição de Covid-19
title_sort Protocolo de coleta de dados para predição de Covid-19
author Souza, Alex Fernandes de [UNIFESP]
author_facet Souza, Alex Fernandes de [UNIFESP]
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/5633654726100239
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/0145582312635382
dc.contributor.author.fl_str_mv Souza, Alex Fernandes de [UNIFESP]
dc.contributor.advisor1.fl_str_mv Verri, Filipe Alves Neto
contributor_str_mv Verri, Filipe Alves Neto
dc.subject.por.fl_str_mv Coleta de dados
Covid-19
Aprendizado de máquina
topic Coleta de dados
Covid-19
Aprendizado de máquina
description A coleta de dados representa um desafio em diversos setores da sociedade. Na pandemia de Covid-19, grandes volumes de dados foram gerados com a finalidade de usá-los em tarefas de aprendizado de máquina (AM) para auxiliar na tomada de decisão. Contudo, a forma como estes dados foram coletados dificulta a elaboração de análises estatísticas e uso em tarefas de diagnóstico e prognóstico. Estas análises demandam conjuntos de dados arrumados, que representam uma forma de conectar a estrutura dos dados à sua semântica. Este estudo propõe um protocolo de coleta de dados a partir do estudo de datasets clínicos disponibilizados no Repositório do COVID19 DataSharing/BR para uso em tarefas de aprendizado de máquina. Foram analisados dados do Laboratório Fleury, que apontam o diagnóstico, e dados do Hospital Sírio-Libanês, que permitem estudar o prognóstico dos casos. Ambos os datasets demandaram um extenso pré-processamento e, em seguida, foram arrumados para que pudessem ser utilizados em tarefas de AM. Entre os problemas observados ao longo das etapas de pré-processamento, destacam-se a falta de padronização, informações redundantes, atributos sem relevância, dados ausentes, entre outros. Após o pré-processamento inicial, ambos os conjuntos foram arrumados de modo que tornassem seu uso eficiente. Na sequência, outras tarefas foram realizadas para tornar os dados utilizáveis, eliminado, por exemplo, a extensa quantidade de valores ausentes. Com os dados arrumados, aplicou-se três técnicas preditivas de AM, sendo estes K-Nearest Neighbor (KNN), Support-Vector Machine e Árvore de decisão. Na tarefa de diagnóstico de Covid-19, a técnica KNN apresentou melhor desempenho com valores de área sob a curva ROC igual a 0.77. Para os dados de prognóstico de Covid-19, os algoritmos KNN e SVM apresentaram os melhores desempenho, ambos com 0.81 da mesma medida. A partir desses resultados, pode-se afirmar que os conjuntos de dados, dentro de uma estrutura arrumada, podem ser utilizados no auxílio ao diagnóstico e prognóstico de Covid-19. Logo, a partir do protocolo de coleta de dados proposto neste estudo, o qual garante a obtenção de dados em formato arrumado, observou-se a redução da necessidade de diversas tarefas de pré-processamento. Assim, o uso dos dados em tarefas de aprendizado de máquina e análises estatísticas é facilitado, potencializando também o manejo eficiente de pacientes e recursos hospitalares. Além disso, este protocolo pode ser utilizado em eventos futuros, facilitando a forma como os dados são coletados e seu uso subsequente
publishDate 2022
dc.date.issued.fl_str_mv 2022-10-05
dc.date.accessioned.fl_str_mv 2023-01-24T18:29:37Z
dc.date.available.fl_str_mv 2023-01-24T18:29:37Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SOUZA, A. F. Protocolo de coleta de dados para predição de Covid-19. 2022. 75 f. Dissertação (Mestrado em Pesquisa Operacional), Universidade Federal de São Paulo - Instituto Tecnológico de Aeronáutica, São José dos Campos, 2022.
dc.identifier.uri.fl_str_mv https://repositorio.unifesp.br/11600/66572
identifier_str_mv SOUZA, A. F. Protocolo de coleta de dados para predição de Covid-19. 2022. 75 f. Dissertação (Mestrado em Pesquisa Operacional), Universidade Federal de São Paulo - Instituto Tecnológico de Aeronáutica, São José dos Campos, 2022.
url https://repositorio.unifesp.br/11600/66572
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 75 f
dc.coverage.spatial.pt_BR.fl_str_mv São José dos Campos, SP
dc.publisher.none.fl_str_mv Universidade Federal de São Paulo
publisher.none.fl_str_mv Universidade Federal de São Paulo
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNIFESP
instname:Universidade Federal de São Paulo (UNIFESP)
instacron:UNIFESP
instname_str Universidade Federal de São Paulo (UNIFESP)
instacron_str UNIFESP
institution UNIFESP
reponame_str Repositório Institucional da UNIFESP
collection Repositório Institucional da UNIFESP
bitstream.url.fl_str_mv ${dspace.ui.url}/bitstream/11600/66572/1/DISSERTACAO_FINAL_ALEX_ASSINADA.pdf
${dspace.ui.url}/bitstream/11600/66572/2/license.txt
${dspace.ui.url}/bitstream/11600/66572/3/DISSERTACAO_FINAL_ALEX_ASSINADA.pdf.txt
${dspace.ui.url}/bitstream/11600/66572/5/DISSERTACAO_FINAL_ALEX_ASSINADA.pdf.jpg
bitstream.checksum.fl_str_mv 8ddeeb1dd45b81989f9f1cdc8cd8249c
7a6beedfc4d785c197ed43137537cbb2
cef753830eea41e3ec4091423bf58c26
bbc02cc07200dcb21422f5f6b57dbb40
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)
repository.mail.fl_str_mv
_version_ 1802764242556813312