Modelos Supervisionados Aplicados à Deteção de Fraude em Seguros de Saúde

Detalhes bibliográficos
Autor(a) principal: Santos, Filipe Alexandre da Silva
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10362/104211
Resumo: Estima-se que a fraude na área da saúde represente um problema na ordem dos 3% a 10% dos orçamentos de alguns países para este setor e que, no caso particular dos seguros de saúde, os prejuízos ascendam a vários milhões de euros. Este problema tem levado estados e seguradoras a implementar Sistemas de Deteção de Fraude sofisticados, compostos por ferramentas automáticas que procuram identificar os padrões de fraude conhecidos seguido de um processo manual de inspeção por especialistas. Contudo, estes sistemas apresentam várias limitações, e algumas técnicas de deteção de fraude baseadas em modelos data driven têm vindo a ser incorporadas nestes sistemas. Apesar de se terem revelado eficientes, a natureza dos datasets deste setor - o conjunto de pedidos de reembolso feitos às seguradoras - traz também muitos desafios à sua implementação, nomeadamente a distribuição enviesada de classes (uma proporção muito elevada de pedidos de reembolso legítimos face aos pedidos de reembolso suspeitos) ou o concept drift (a natureza dos padrões de fraude muda com o tempo). Estas características dificultam a aplicação de técnicas de aprendizagem automática e são necessárias abordagens específicas para a sua resolução. Nesta tese apresenta-se uma solução de aprendizagem automática supervisionada de deteção de fraude, solicitada por um grupo internacional privado que faz a gestão dos seguros de saúde de algumas seguradoras. Usou-se, para esse efeito, o datatset constituído pelos pedidos de reembolso respeitantes aos anos de 2017 e 2018 que haviam sido classificados como legítimos ou suspeitos pelos auditores. Foram consideradas 4 famílias de classificadores - Regressão Logística, Random Forest e Support Vector Machine e XGBoost e os seus desempenhos foram medidos e comparados. Os resultados obtidos evidenciaram a utilidade destes classificadores, tendo o Random Forest e o XGBoost apresentado melhores resultados.
id RCAP_447c5080c8294d961befaf9ed473e903
oai_identifier_str oai:run.unl.pt:10362/104211
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Modelos Supervisionados Aplicados à Deteção de Fraude em Seguros de SaúdeFraude em Seguros de SaúdeSistemas de Deteção de FraudeAprendizagem SupervisionadaDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaEstima-se que a fraude na área da saúde represente um problema na ordem dos 3% a 10% dos orçamentos de alguns países para este setor e que, no caso particular dos seguros de saúde, os prejuízos ascendam a vários milhões de euros. Este problema tem levado estados e seguradoras a implementar Sistemas de Deteção de Fraude sofisticados, compostos por ferramentas automáticas que procuram identificar os padrões de fraude conhecidos seguido de um processo manual de inspeção por especialistas. Contudo, estes sistemas apresentam várias limitações, e algumas técnicas de deteção de fraude baseadas em modelos data driven têm vindo a ser incorporadas nestes sistemas. Apesar de se terem revelado eficientes, a natureza dos datasets deste setor - o conjunto de pedidos de reembolso feitos às seguradoras - traz também muitos desafios à sua implementação, nomeadamente a distribuição enviesada de classes (uma proporção muito elevada de pedidos de reembolso legítimos face aos pedidos de reembolso suspeitos) ou o concept drift (a natureza dos padrões de fraude muda com o tempo). Estas características dificultam a aplicação de técnicas de aprendizagem automática e são necessárias abordagens específicas para a sua resolução. Nesta tese apresenta-se uma solução de aprendizagem automática supervisionada de deteção de fraude, solicitada por um grupo internacional privado que faz a gestão dos seguros de saúde de algumas seguradoras. Usou-se, para esse efeito, o datatset constituído pelos pedidos de reembolso respeitantes aos anos de 2017 e 2018 que haviam sido classificados como legítimos ou suspeitos pelos auditores. Foram consideradas 4 famílias de classificadores - Regressão Logística, Random Forest e Support Vector Machine e XGBoost e os seus desempenhos foram medidos e comparados. Os resultados obtidos evidenciaram a utilidade destes classificadores, tendo o Random Forest e o XGBoost apresentado melhores resultados.Bispo, ReginaRUNSantos, Filipe Alexandre da Silva2020-09-17T15:08:14Z2020-0720202020-07-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10362/104211porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-03-11T04:49:45Zoai:run.unl.pt:10362/104211Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:40:10.321617Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Modelos Supervisionados Aplicados à Deteção de Fraude em Seguros de Saúde
title Modelos Supervisionados Aplicados à Deteção de Fraude em Seguros de Saúde
spellingShingle Modelos Supervisionados Aplicados à Deteção de Fraude em Seguros de Saúde
Santos, Filipe Alexandre da Silva
Fraude em Seguros de Saúde
Sistemas de Deteção de Fraude
Aprendizagem Supervisionada
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Modelos Supervisionados Aplicados à Deteção de Fraude em Seguros de Saúde
title_full Modelos Supervisionados Aplicados à Deteção de Fraude em Seguros de Saúde
title_fullStr Modelos Supervisionados Aplicados à Deteção de Fraude em Seguros de Saúde
title_full_unstemmed Modelos Supervisionados Aplicados à Deteção de Fraude em Seguros de Saúde
title_sort Modelos Supervisionados Aplicados à Deteção de Fraude em Seguros de Saúde
author Santos, Filipe Alexandre da Silva
author_facet Santos, Filipe Alexandre da Silva
author_role author
dc.contributor.none.fl_str_mv Bispo, Regina
RUN
dc.contributor.author.fl_str_mv Santos, Filipe Alexandre da Silva
dc.subject.por.fl_str_mv Fraude em Seguros de Saúde
Sistemas de Deteção de Fraude
Aprendizagem Supervisionada
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Fraude em Seguros de Saúde
Sistemas de Deteção de Fraude
Aprendizagem Supervisionada
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Estima-se que a fraude na área da saúde represente um problema na ordem dos 3% a 10% dos orçamentos de alguns países para este setor e que, no caso particular dos seguros de saúde, os prejuízos ascendam a vários milhões de euros. Este problema tem levado estados e seguradoras a implementar Sistemas de Deteção de Fraude sofisticados, compostos por ferramentas automáticas que procuram identificar os padrões de fraude conhecidos seguido de um processo manual de inspeção por especialistas. Contudo, estes sistemas apresentam várias limitações, e algumas técnicas de deteção de fraude baseadas em modelos data driven têm vindo a ser incorporadas nestes sistemas. Apesar de se terem revelado eficientes, a natureza dos datasets deste setor - o conjunto de pedidos de reembolso feitos às seguradoras - traz também muitos desafios à sua implementação, nomeadamente a distribuição enviesada de classes (uma proporção muito elevada de pedidos de reembolso legítimos face aos pedidos de reembolso suspeitos) ou o concept drift (a natureza dos padrões de fraude muda com o tempo). Estas características dificultam a aplicação de técnicas de aprendizagem automática e são necessárias abordagens específicas para a sua resolução. Nesta tese apresenta-se uma solução de aprendizagem automática supervisionada de deteção de fraude, solicitada por um grupo internacional privado que faz a gestão dos seguros de saúde de algumas seguradoras. Usou-se, para esse efeito, o datatset constituído pelos pedidos de reembolso respeitantes aos anos de 2017 e 2018 que haviam sido classificados como legítimos ou suspeitos pelos auditores. Foram consideradas 4 famílias de classificadores - Regressão Logística, Random Forest e Support Vector Machine e XGBoost e os seus desempenhos foram medidos e comparados. Os resultados obtidos evidenciaram a utilidade destes classificadores, tendo o Random Forest e o XGBoost apresentado melhores resultados.
publishDate 2020
dc.date.none.fl_str_mv 2020-09-17T15:08:14Z
2020-07
2020
2020-07-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10362/104211
url http://hdl.handle.net/10362/104211
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799138017345011712