Métodos de comparação de duas distribuições empíricas em amostras de grandes dimensões

Detalhes bibliográficos
Autor(a) principal: Ferreira, Pedro Maria Ribeiro de Lemos Máximo
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/59172
Resumo: Tese de Mestrado, Estatística de Investigação Operacional, 2022, Universidade de Lisboa, Faculdade de Ciências
id RCAP_123d09e0a98788a0574f091afd840867
oai_identifier_str oai:repositorio.ul.pt:10451/59172
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Métodos de comparação de duas distribuições empíricas em amostras de grandes dimensõesDistribuições empíricasMedidas de semelhançaTestes múltiplosClassificações de alunosTeses de Mestrado - 2022Domínio/Área Científica::Ciências Naturais::MatemáticasTese de Mestrado, Estatística de Investigação Operacional, 2022, Universidade de Lisboa, Faculdade de CiênciasEncontrar evidências que suportem conjeturas de que existem diferenças ou semelhanças estatisticamente significativas entre amostras é um dos grandes desafios para os cientistas experimentais, em diversas áreas. Por norma, tenta-se quantificar estas diferenças ou semelhanças entre duas amostras em termos de valores médios, usando algumas medidas como a estatística t ou outras como as métricas d ou U de Cohen. Em todos os casos, o objetivo é quantificar o quão grandes, ou não, essas diferenças devem ser para serem classificadas como significativas. No entanto, a maioria dessas estatísticas requerem que alguns pressupostos das suas distribuições sejam verificados, como simetria e unimodalidade. E, embora esses pressupostos garantam que as propriedades assintóticas para efeitos de inferência sejam satisfeitas, elas podem frequentemente limitar a validade e interpretabilidade dos resultados. Por outro lado, analisar as semelhanças e diferenças de distribuições em amostras de grande dimensão é um problema difícil e as abordagens clássicas não conseguem dar a devida resposta. Assim sendo, este trabalho tem como principais objetivos ver o impacto da dimensão das amostras nos resultados dos testes de ajustamento clássicos de comparação de distribuições e encontrar e aplicar diferentes abordagens para resolver este problema. Para tal, recorre-se a um conjunto das várias medidas que asseguram que o objetivo consegue ser cumprido, sem o uso das abordagens clássicas. As medidas utilizadas são as divergências de Bhattacharyya e de Kullback-Leibler, a distância de Hellinger e, ainda, o índice de sobreposição (OVL) e a área abaixo da curva ROC (AUC). Adicionalmente, e em alternativa aos testes de ajustamento, utilizaram-se os testes de equivalência múltiplos. A metodologia é aplicada na comparação das classificações obtidas pelos alunos do ensino secundário a um conjunto de disciplinas, ao longo dos anos. Um aspeto revelante destes dados é o facto de existir uma regularidade estatística das distribuições das notas para a mesma disciplina, ao longo dos anos letivos, e, ainda, a grande disparidade das distribuições das notas entre alguns pares de disciplinas. Os resultados indicam o sucesso da utilização destas medidas, quando comparadas com as abordagens mais habituais neste tipo de estudo, tendo a flexibilidade e a utilidade pretendidas na comparação de distribuições em amostras de dimensão elevadas. Neste trabalho, toda a análise foi desenvolvida com recurso ao software R (4.2.0).Finding evidences that support conjectures that there are statistical significant differences or similarities between samples is one of the greatest challenges in experimental sciences from multiple areas. Normally, we try to quantify this differences or similarities between two samples by the expected value, using some measurements like t-statistic or others metrics like the d-metric or Cohen U. In all cases, the aim is to quantify how big, or not, those differences should be for us to rank them like significant effects. However, the majority of those statistics require that some assumptions are verified, like symmetry and uni-modality. And even though those assumptions ensure that the asymptotic properties for inference effects are satisfied, they usually narrow the validity and the interpretability of the results. On the other side, analyse the similarities and differences of distributions with large dimensions is a hard job and the usual approaches fail to have success. Therefore, this work’s main purposes are to identify the reasons why the usual methods to define resemblances or differences between the distributions of two samples fail and find different approaches to solve the problem. For that matter, we resort to a set of various measurements that secure the main objective is fulfilled, without the classic approaches. The measurements are the Bhattacharyya distance, the Kullback-Leibler divergence, the Hellinger distance, the overlap coefficient (OVL) and the area under the ROC curve (AUC). Additionally, and as an alternative to the adjustment tests, we used the multiple equivalence tests. The methodology is applied to the comparison of the grades obtained by the high school students on a set of subjects, over the years. A revelant aspect of this data is the fact that exists a statistical regularity of the distributions of the grades for the same subject, over the years, and a great divergence of the distributions of the grades between some pairs of subjects. The results indicate the success of the use of this measurements, when compared with the usual approaches of this type of studies, having the flexibility and utility intended in the comparison of distributions of large dimension samples. In this work, all the analysis was developed with recourse to R (4.2.0).Loura, Luísa da Conceição dos Santos do Canto e Castro deSilva, Carina Soares daRepositório da Universidade de LisboaFerreira, Pedro Maria Ribeiro de Lemos Máximo2023-09-07T14:08:53Z202220222022-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/59172porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T17:08:10Zoai:repositorio.ul.pt:10451/59172Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:09:08.846833Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Métodos de comparação de duas distribuições empíricas em amostras de grandes dimensões
title Métodos de comparação de duas distribuições empíricas em amostras de grandes dimensões
spellingShingle Métodos de comparação de duas distribuições empíricas em amostras de grandes dimensões
Ferreira, Pedro Maria Ribeiro de Lemos Máximo
Distribuições empíricas
Medidas de semelhança
Testes múltiplos
Classificações de alunos
Teses de Mestrado - 2022
Domínio/Área Científica::Ciências Naturais::Matemáticas
title_short Métodos de comparação de duas distribuições empíricas em amostras de grandes dimensões
title_full Métodos de comparação de duas distribuições empíricas em amostras de grandes dimensões
title_fullStr Métodos de comparação de duas distribuições empíricas em amostras de grandes dimensões
title_full_unstemmed Métodos de comparação de duas distribuições empíricas em amostras de grandes dimensões
title_sort Métodos de comparação de duas distribuições empíricas em amostras de grandes dimensões
author Ferreira, Pedro Maria Ribeiro de Lemos Máximo
author_facet Ferreira, Pedro Maria Ribeiro de Lemos Máximo
author_role author
dc.contributor.none.fl_str_mv Loura, Luísa da Conceição dos Santos do Canto e Castro de
Silva, Carina Soares da
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Ferreira, Pedro Maria Ribeiro de Lemos Máximo
dc.subject.por.fl_str_mv Distribuições empíricas
Medidas de semelhança
Testes múltiplos
Classificações de alunos
Teses de Mestrado - 2022
Domínio/Área Científica::Ciências Naturais::Matemáticas
topic Distribuições empíricas
Medidas de semelhança
Testes múltiplos
Classificações de alunos
Teses de Mestrado - 2022
Domínio/Área Científica::Ciências Naturais::Matemáticas
description Tese de Mestrado, Estatística de Investigação Operacional, 2022, Universidade de Lisboa, Faculdade de Ciências
publishDate 2022
dc.date.none.fl_str_mv 2022
2022
2022-01-01T00:00:00Z
2023-09-07T14:08:53Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/59172
url http://hdl.handle.net/10451/59172
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134647359111168