A machine learning approach to The Big Five Personality Test

Detalhes bibliográficos
Autor(a) principal: Perdigão, Miguel Campos Calafate Carneiro
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/80091
Resumo: Dissertação de mestrado em Engenharia Informática
id RCAP_1c1f3e5572237c14d878ca27fcaa6f38
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/80091
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling A machine learning approach to The Big Five Personality TestBig fiveData augmentationData scienceMachine learningEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em Engenharia InformáticaOne of the most accurate personality assessments available is the Goldberg’s ’The Big Five Personality Test’, which measures the five OCEAN dimensions: Openness, Conscientiousness, Extraversion, Agreeableness and Neuroticism. This assessment is performed by presenting a total of forty adjectives requesting the subject to rate each word using a scale of 1 to 9 indicating whether it accurately (9) describes herself or not (1). Nonetheless, scientific research has shown that this test may, accurately, suggest personality traits such as aggressive reactions, work performance, fitness on specific expertise areas and also mental illnesses. However, one big disadvantage of this test, it simply takes too much time to perform, which can result on undesirable measurements. Indeed, several developments have been done in order to reduce the required effort to perform this test, an example is The Mini Marker Test by Saucier. This study aims to propose a viable shorter alternative to this by applying machine learning techniques, i.e., although measurement precision may be reduced, is it possible to build a much shorter version losing as little precision as possible by just requiring the subject to select the adjectives that characterise him the most? For this study, it was developed a platform to collect data, requesting both the subject to rate each adjective but also to select those he most identifies with. With this, the available data contains both ratings and the selections of the words that most characterise the subject. Three different machine learning architectures are developed and tested. Both regression and classification approaches are considered. The main input for these architectures are the words selected by each evaluated subject. Data collected by this work showed to be insufficient, requiring the use of data augmentation techniques. For this, different versions are proposed, one including the use of frequent itemset mining techniques. The proposed machine learning architectures shown a very high precision, with an RMSE of around 7%. The results show the proposed solutions to be able to perform a shorter version of this test with a minimum precision loss. It was also possible to define a list of common sets of selected words. Further research can be performed mainly on two different streamlines, i.e., strength the data collection process and develop an even shorter version of this test.Uma das avaliações de personalidade mais precisas foi criada por Goldberg, chamada 'The Big Five Personality Test', que mede um total de cinco dimensões denominadas de OCEAN: Openness, Conscientiousness, Extraversion, Agreeableness and Neuroticism. A avaliaçao em causa é realizada apresentando um total de quarenta adjetivos a um individuo solici-tando lhe que classifique cada uma das palavras usando uma escala de a a 9, indicando se esta o descreve de forma exata (9) ou não (1). Assim sendo, estudos científicos sugerem que este teste poderá, de forma precisa, indicar outros traços da personalidade, tais como reações agressivas, desempenho no trabalho, aptidão para áreas de especialidade e doenças mentais. No entanto, uma grande desvantagem deste teste, é que este pode ser demasiado extenso e demorado, podendo gerar resultados indesejados. Na verdade, múltiplos desenvolvimentos foram feitos de modo a reduzir o esforço necessário para a realização do mesmo. Este estudo pretende assim propor uma alternativa mais curta e viável aplicando técnicas de machine learning, isto é, apesar da precisão dos resultados poder ser degradada, é possível construir uma versão muito mais curta com o mínimo possível de degradação da qualidade dos resultados apenas solicitando ao sujeito que este selecione os adjetivos que melhor o caracterizam? Para este estudo, foi desenvolvida uma plataforma para recolha de dados, solicitando ao individuo tanto para classificar cada adjetivo, usando a escala, como também para selecionar aqueles com que este mais se identifica. Assim, os dados disponíveis contém tanto as escalas como a seleção das palavras que mais caracterizam cada um dos sujeitos. Três diferentes arquiteturas de machine learning são desenvolvidas e testadas. Tanto abordagens de regressão como classificação são consideradas. O principal input para estas arquiteturas é a seleção de cada uma das palavras por parte dos sujeitos avaliados. Os dados recolhidos durante este estudo demonstraram ser insuficientes, exigindo o uso de técnicas de data augmentation. Nesse sentido, diferentes versões são propostas, sendo que uma delas incluí o uso de técnicas de frequent itemset mining. As arquiteturas de machine learning propostas apresentaram uma precisão bastante elevada nos resultados, com um RMSE de cerca de 7%. Os resultados obtidos mostram que as soluções propostas são capazes de gerar uma versão reduzida do teste em causa com uma degradação mínima dos resultados. Foi também possível definir uma lista de conjuntos frequentes de palavras selecionadas. Desenvolvimentos futuros podem ser feitos em duas direções distintas, isto é, melhorar o processo de recolha de dados ou desenvolver uma versão ainda mais reduzida deste teste.Analide, CesarFernandes, B.Universidade do MinhoPerdigão, Miguel Campos Calafate Carneiro2019-12-302019-12-30T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/80091eng203022807info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:40:55Zoai:repositorium.sdum.uminho.pt:1822/80091Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:37:47.674328Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv A machine learning approach to The Big Five Personality Test
title A machine learning approach to The Big Five Personality Test
spellingShingle A machine learning approach to The Big Five Personality Test
Perdigão, Miguel Campos Calafate Carneiro
Big five
Data augmentation
Data science
Machine learning
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short A machine learning approach to The Big Five Personality Test
title_full A machine learning approach to The Big Five Personality Test
title_fullStr A machine learning approach to The Big Five Personality Test
title_full_unstemmed A machine learning approach to The Big Five Personality Test
title_sort A machine learning approach to The Big Five Personality Test
author Perdigão, Miguel Campos Calafate Carneiro
author_facet Perdigão, Miguel Campos Calafate Carneiro
author_role author
dc.contributor.none.fl_str_mv Analide, Cesar
Fernandes, B.
Universidade do Minho
dc.contributor.author.fl_str_mv Perdigão, Miguel Campos Calafate Carneiro
dc.subject.por.fl_str_mv Big five
Data augmentation
Data science
Machine learning
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Big five
Data augmentation
Data science
Machine learning
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Dissertação de mestrado em Engenharia Informática
publishDate 2019
dc.date.none.fl_str_mv 2019-12-30
2019-12-30T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/80091
url https://hdl.handle.net/1822/80091
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 203022807
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132912776380416