Extreme value analysis of competitive freediving records

Detalhes bibliográficos
Autor(a) principal: Lomba, Jessica Silva
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/24672
Resumo: Tese de mestrado em Estatística e Investigação Operacional, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2016
id RCAP_15db1f17573f055d83b64a589f99664f
oai_identifier_str oai:repositorio.ul.pt:10451/24672
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Extreme value analysis of competitive freediving recordsTeoria de Valores ExtremosInferência paramétricaInferência semi-paramétricaNão estacionaridadeMergulho em apneiaTeses de mestrado - 2016Domínio/Área Científica::Ciências Naturais::MatemáticasTese de mestrado em Estatística e Investigação Operacional, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2016Nesta dissertação serão introduzidos os conceitos básicos inerentes à Teoria de Valores Extremos, começando pela apresentação dos princípios teóricos sobre os quais é construída, passando pela exposição das metodologias estatísticas mais comuns para tratar este tipo de dados, e finalizando com a exemplificação das abordagens mencionadas com a análise de um conjunto de dados reais. A Teoria de Valores Extremos é o campo da Estatística especializado em lidar com ocorrências extremas dos processos, ou seja, com os valores muito elevados ou muito reduzidos que raramente se registam, razão pela qual as amostras são geralmente escarças. Ao contrário do que acontece com a Teoria Estatística Clássica, que se foca na modelação do grande conjunto de dados centrais, a Teoria de Valores Estremos foca-se na compreensão do comportamento das observações que se registam o mais afastado do centro da amostra, permitindo a extrapolação das conclusões obtidas para além dos dados anteriormente observados (estimação além da amostra). A Teoria de Valores Extremos baseia-se fundamentalmente nos teoremas trabalhados por Fisher and Tippett (1928), Gnedenko (1943), Pickands (1975) e Balkema and de Haan (1974), sendo uma área com grandes influências da teoria distribucional (exata e assintótica) das Estatísticas Ordinais e ainda da teoria da Variação Regular. A utilização dos resultados apresentados depende geralmente de algumas suposições necessárias, sendo que a mais comum é a de independência e de idêntica distribuição das variáveis aleatórias que compõem a amostra. No entanto, é possível relaxar estas suposições de variadas formas, como por exemplo é o caso do tratamento de dados não estacionários (cuja variação do tempo, ou outras variáveis exógenas, influenciam a distribuição). Do ponto de vista estacionário, serão abordadas as principais metodologias que constituem uma abordagem paramétrica, assim como uma abordagem geral semi-paramétrica. Será também referida, embora de forma mais breve, uma metodologia possível para lidar com a não estacionariedade temporal. Este tipo de análise de valores extremos já se provou útil e até indispensável em várias áreas de conhecimento, com especial visibilidade nos campos da Hidrologia (tratamento de dados sobre níveis máximos da água do mar ou níveis de precipitação que podem causar cheias desastrosas), Ciências Ambientais (estudo das temperaturas globais ou das velocidades do vento que mostram a alteração das condições climáticas extremas no planeta), Finanças (estudo de períodos de retorno e probabilidades de crash) ou Engenharia (inferência sobre resistência de materiais ou fiabilidade de equipamentos). Outra área de interesse em que se aplicam estas metodologias é a área do Desporto, em que, dependendo da modalidade, se lida com distâncias, tempos, pesos, etc., máximos ou mínimos, mas em que são invariavelmente os extremos, os recordes, que se destacam. Este é o âmbito em que se inserem os dados tratados no Case Study deste trabalho. O Mergulho em Apneia, ou Freediving, é um desporto de competição internacional que testa a capacidade dos mergulhadores em suster a respiração (i.e. permanecer em apneia) debaixo de água, sem recurso a tanques de oxigénio ou tubos de respiração. É também proibida a preparação dos atletas com a respiração de oxigénio puro antes das provas. Existem 8 modalidades reconhecidas pela entidade reguladora deste desporto, a AIDA _Association Internationale pour le Développement de l'Apnée. À exceção da modalidade de Apneia Estática, todas as restantes consistem em medir a distância máxima percorrida pelo mergulhador em apneia, sob diferentes condições (com ou sem barbatanas, com ou sem cabo, entre outras). A modalidade de Apneia Estática consiste em cronometrar o tempo máximo que o mergulhador sustém a respiração com as vias respiratórias (nariz e boca) submersos, enquanto flutua à superfície da água ou de se encontra em pé no fundo da piscina. As competições, normalmente realizadas em piscinas interiores artificiais, podem também ser realizadas no mar, em águas rasas e calmas. O conjunto de dados que será o objeto da análise do Case Study desta dissertação insere-se nesta modalidade, e consiste no melhor registo pessoal de mergulhadoras de competição femininas que conseguiram marcas de no mínimo 3 minutos em Apneia Estática. Os dados, referentes ao período entre os anos 2002 e 2014, estão disponíveis ao público online no sítio oficial da AIDA, mas não é conhecida nenhuma outra análise estatística do género feita sobre estes registos. O máximo da amostra sob análise corresponde ao recorde feminino atual de 9 minutos e 2 segundos de submersão estática, e foi conseguido pela várias vezes campeã mundial Natalia Molchanova, no ano de 2013. Esta nadadora faleceu tragicamente em 2015, no exercício do desporto, enquanto dava uma aula de mergulho em apneia em mar aberto. Este facto motivou a escolha destes dados para a ilustração das técnicas de Teoria de Valores Extremos. Será interessante avaliar vários indicadores relativos a estes dados, como por exemplo estimar a probabilidade de que o atual recorde mundial feminino venha a ser ultrapassado. Probabilidades muito reduzidas indicam que foi atingida uma zona de estabilidade em que dificilmente poderão ser obtidas melhores marcas. Outra característica inerente à população com grande importância a determinar será a existência (ou não) de um limite máximo estatisticamente possível para o tempo de apneia de um membro desta população de competição. A existência de um tal limite poderá levar a conclusões imediatas acerca do tempo máximo durante o qual um membro da população feminina em geral poderá, no limite, suster a respiração. Sob a condição de estacionariedade, para a obtenção de estimativas para estes e outros indicadores, serão aplicadas três das mais comuns abordagens em contexto paramétrico: a abordagem de Gumbel, também conhecida como método dos Máximos por Bloco, apoiada no Teorema de Fisher-Tippet-Gnedenko e que faz uso da distribuição Generalizada de Valores Extremos para modelar o conjunto dos máximos de cada subamostra ou bloco; a abordagem Paretiana de Exces sos, em inglês Peaks Over Threshold, que apoiada pelo Teorema de Pickands-Balkema-de Haan modela os excessos acima de um determinado nível com uma distribuição Generalizada Pareto; a abordagem das Maiores Observações, que com base na distribuição assintótica conjunta das k observações de topo visa ajustar um modelo Generalizado de Valores Extremos Multivariado à amostra das k maiores observações de cada subamostra ou bloco. Estes métodos paramétricos são passíveis de adaptação para casos específicos de não estacionariedade. Tal será ilustrado também sobre a amostra de recordes de Mergulho em Apneia Estática, em especial para o caso em que se procura inferir sobre a existência de tendência ao longo do tempo nos dados. Outro tipo de não estacionariedade, que não será aqui abordado, consiste na existência sazonalidade nos dados, recorrente em variáveis ambientais, por exemplo, onde as estações influenciam de forma diferente as séries de dados. A abordagem semi-paramétrica será também exemplificada sobre os dados do Case Study, apenas sob a suposição de estacionariedade dos dados. Esta não se baseia em qualquer modelo ou distribuição, mas depende unicamente do tipo de comportamento da cauda da distribuição subjacente e desconhecida que os dados sugerem. Serão apresentados alguns dos estimadores mais usuais neste contexto semi-paramétrico e introduzidas as condições teóricas mais gerais que devem ser verificadas para a sua conveniente aplicação. Os métodos abordados ao longo desta dissertação não são de qualquer modo extensivos ou restritivos de toda a Análise de Valores Extremos. Trata-se de um vasto campo ainda em desenvolvimento e com grande interesse atualmente, sendo possível encontrar na literatura uma miríade de informação relativa quer a fundamentos teóricos quer a novas metodologias estatísticas que expandem os limites desta área. Ao longo do texto serão sempre citados autores e trabalhos para os quais se remetem para mais informação e fundamentação acerca dos tópicos abordados. Nesta dissertação pretende-se apenas levantar a ponta do véu da Teoria de Valores Extremos, demonstrando de forma breve a sua utilidade com o objetivo de incentivar a curiosidade sobre o tema. Pretende-se ainda, simultaneamente, fazer uma análise inicial a um conjunto de dados interessante sobre um tema relacionável e que se encontrava “a cru” até aqui.In this dissertation we introduce the basic concepts of Extreme Value Theory (EVT), presenting the theoretical principals it is built on, detailing the most common statistical methodologies used for this type of data, and finally illustrating the approaches by the analysis of a concrete data set. Extreme Value Theory is the field of Statistics that deals with extremal occurrences, that is, with very large or very small events that occur rarely and for which the samples are therefore scarce. Unlike Classical Statistics, which is focused in modelling the bulk of central data, EVT focuses in understanding the behaviour of observations that fall furthest from the centre of the sample, allowing for the extrapolation of conclusions beyond the previously observed data. EVT is based in the most fundamental theorems by Fisher and Tippett (1928), Gnedenko (1943), Pickands (1975) and Balkema and de Haan (1974), with great influence of the distributional theory of Order Statistics and Regular Variation theory. Some assumptions are usually made for the application of such results, the most common being that of independence and identical distribution of the random variables in the sample. However, this assumptions can sometimes be relaxed, as it is the case when considering non-stationary data. The main inference methodologies considered are the parametric approach, here comprised by the Gumbel method, the Peaks Over Threshold method and the Largest Observations method, and the semi-parametric approach. Literary references will be provided throughout the text for further information on the addressed topics and related application examples. This framework has been proven useful in various fields, with particular visibility in Hydrology, Environmental Sciences, Finances and Engineering. It has also been used in Sports data, as is the case in this work. Freediving is an international competitive sport that revolves around the divers' capability of holding their breaths (apnea) underwater without the aid of oxygen tanks or breathing tubes. The Static Apnea modality consists in recording the maximum time the freediver holds their breath with his nose and mouth immersed while floating on the surface of the water or standing on the bottom of a pool. The data analysed in the Case Study of this dissertation consists of the best personal records of female freedivers in the Static Apena modality that achieved at least a 3 minute breath hold. The sample maximum corresponds to the current female world record of 9 minutes and 2 seconds, and there is an interest in estimating the probability that this mark will be overcome. Another interesting factor to determine is the existence of a maximum limit statistically possible for the apnea time of a member of this population - that would speak to the existence of such a limit for the general female population. Both parametric and semi-parametric approaches will be used on the data with the aim of estimating extremal quantiles and exceedance probabilities, and evaluating the finiteness of the right endpoint. Finally, the veracity of the stationarity assumption from which the analysis starts will also be tested.Alves, Maria Isabel Fraga,1958-Repositório da Universidade de LisboaLomba, Jessica Silva2016-09-15T14:47:39Z201620162016-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/24672TID:201330458enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:13:46Zoai:repositorio.ul.pt:10451/24672Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:41:46.307229Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Extreme value analysis of competitive freediving records
title Extreme value analysis of competitive freediving records
spellingShingle Extreme value analysis of competitive freediving records
Lomba, Jessica Silva
Teoria de Valores Extremos
Inferência paramétrica
Inferência semi-paramétrica
Não estacionaridade
Mergulho em apneia
Teses de mestrado - 2016
Domínio/Área Científica::Ciências Naturais::Matemáticas
title_short Extreme value analysis of competitive freediving records
title_full Extreme value analysis of competitive freediving records
title_fullStr Extreme value analysis of competitive freediving records
title_full_unstemmed Extreme value analysis of competitive freediving records
title_sort Extreme value analysis of competitive freediving records
author Lomba, Jessica Silva
author_facet Lomba, Jessica Silva
author_role author
dc.contributor.none.fl_str_mv Alves, Maria Isabel Fraga,1958-
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Lomba, Jessica Silva
dc.subject.por.fl_str_mv Teoria de Valores Extremos
Inferência paramétrica
Inferência semi-paramétrica
Não estacionaridade
Mergulho em apneia
Teses de mestrado - 2016
Domínio/Área Científica::Ciências Naturais::Matemáticas
topic Teoria de Valores Extremos
Inferência paramétrica
Inferência semi-paramétrica
Não estacionaridade
Mergulho em apneia
Teses de mestrado - 2016
Domínio/Área Científica::Ciências Naturais::Matemáticas
description Tese de mestrado em Estatística e Investigação Operacional, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2016
publishDate 2016
dc.date.none.fl_str_mv 2016-09-15T14:47:39Z
2016
2016
2016-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/24672
TID:201330458
url http://hdl.handle.net/10451/24672
identifier_str_mv TID:201330458
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134329975078912