A machine learning approach to The Big Five Personality Test

Perdigão, Miguel Campos Calafate Carneiro

A machine learning approach to The Big Five Personality Test

Detalhes bibliográficos
Autor(a) principal:	Perdigão, Miguel Campos Calafate Carneiro
Data de Publicação:	2019
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	https://hdl.handle.net/1822/80091
Resumo:	Dissertação de mestrado em Engenharia Informática

Metadados do item

id	RCAP_1c1f3e5572237c14d878ca27fcaa6f38
oai_identifier_str	oai:repositorium.sdum.uminho.pt:1822/80091
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	A machine learning approach to The Big Five Personality TestBig fiveData augmentationData scienceMachine learningEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em Engenharia InformáticaOne of the most accurate personality assessments available is the Goldberg’s ’The Big Five Personality Test’, which measures the five OCEAN dimensions: Openness, Conscientiousness, Extraversion, Agreeableness and Neuroticism. This assessment is performed by presenting a total of forty adjectives requesting the subject to rate each word using a scale of 1 to 9 indicating whether it accurately (9) describes herself or not (1). Nonetheless, scientific research has shown that this test may, accurately, suggest personality traits such as aggressive reactions, work performance, fitness on specific expertise areas and also mental illnesses. However, one big disadvantage of this test, it simply takes too much time to perform, which can result on undesirable measurements. Indeed, several developments have been done in order to reduce the required effort to perform this test, an example is The Mini Marker Test by Saucier. This study aims to propose a viable shorter alternative to this by applying machine learning techniques, i.e., although measurement precision may be reduced, is it possible to build a much shorter version losing as little precision as possible by just requiring the subject to select the adjectives that characterise him the most? For this study, it was developed a platform to collect data, requesting both the subject to rate each adjective but also to select those he most identifies with. With this, the available data contains both ratings and the selections of the words that most characterise the subject. Three different machine learning architectures are developed and tested. Both regression and classification approaches are considered. The main input for these architectures are the words selected by each evaluated subject. Data collected by this work showed to be insufficient, requiring the use of data augmentation techniques. For this, different versions are proposed, one including the use of frequent itemset mining techniques. The proposed machine learning architectures shown a very high precision, with an RMSE of around 7%. The results show the proposed solutions to be able to perform a shorter version of this test with a minimum precision loss. It was also possible to define a list of common sets of selected words. Further research can be performed mainly on two different streamlines, i.e., strength the data collection process and develop an even shorter version of this test.Uma das avaliações de personalidade mais precisas foi criada por Goldberg, chamada 'The Big Five Personality Test', que mede um total de cinco dimensões denominadas de OCEAN: Openness, Conscientiousness, Extraversion, Agreeableness and Neuroticism. A avaliaçao em causa é realizada apresentando um total de quarenta adjetivos a um individuo solici-tando lhe que classifique cada uma das palavras usando uma escala de a a 9, indicando se esta o descreve de forma exata (9) ou não (1). Assim sendo, estudos científicos sugerem que este teste poderá, de forma precisa, indicar outros traços da personalidade, tais como reações agressivas, desempenho no trabalho, aptidão para áreas de especialidade e doenças mentais. No entanto, uma grande desvantagem deste teste, é que este pode ser demasiado extenso e demorado, podendo gerar resultados indesejados. Na verdade, múltiplos desenvolvimentos foram feitos de modo a reduzir o esforço necessário para a realização do mesmo. Este estudo pretende assim propor uma alternativa mais curta e viável aplicando técnicas de machine learning, isto é, apesar da precisão dos resultados poder ser degradada, é possível construir uma versão muito mais curta com o mínimo possível de degradação da qualidade dos resultados apenas solicitando ao sujeito que este selecione os adjetivos que melhor o caracterizam? Para este estudo, foi desenvolvida uma plataforma para recolha de dados, solicitando ao individuo tanto para classificar cada adjetivo, usando a escala, como também para selecionar aqueles com que este mais se identifica. Assim, os dados disponíveis contém tanto as escalas como a seleção das palavras que mais caracterizam cada um dos sujeitos. Três diferentes arquiteturas de machine learning são desenvolvidas e testadas. Tanto abordagens de regressão como classificação são consideradas. O principal input para estas arquiteturas é a seleção de cada uma das palavras por parte dos sujeitos avaliados. Os dados recolhidos durante este estudo demonstraram ser insuficientes, exigindo o uso de técnicas de data augmentation. Nesse sentido, diferentes versões são propostas, sendo que uma delas incluí o uso de técnicas de frequent itemset mining. As arquiteturas de machine learning propostas apresentaram uma precisão bastante elevada nos resultados, com um RMSE de cerca de 7%. Os resultados obtidos mostram que as soluções propostas são capazes de gerar uma versão reduzida do teste em causa com uma degradação mínima dos resultados. Foi também possível definir uma lista de conjuntos frequentes de palavras selecionadas. Desenvolvimentos futuros podem ser feitos em duas direções distintas, isto é, melhorar o processo de recolha de dados ou desenvolver uma versão ainda mais reduzida deste teste.Analide, CesarFernandes, B.Universidade do MinhoPerdigão, Miguel Campos Calafate Carneiro2019-12-302019-12-30T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/80091eng203022807info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:40:55Zoai:repositorium.sdum.uminho.pt:1822/80091Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:37:47.674328Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	A machine learning approach to The Big Five Personality Test
title	A machine learning approach to The Big Five Personality Test
spellingShingle	A machine learning approach to The Big Five Personality Test Perdigão, Miguel Campos Calafate Carneiro Big five Data augmentation Data science Machine learning Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short	A machine learning approach to The Big Five Personality Test
title_full	A machine learning approach to The Big Five Personality Test
title_fullStr	A machine learning approach to The Big Five Personality Test
title_full_unstemmed	A machine learning approach to The Big Five Personality Test
title_sort	A machine learning approach to The Big Five Personality Test
author	Perdigão, Miguel Campos Calafate Carneiro
author_facet	Perdigão, Miguel Campos Calafate Carneiro
author_role	author
dc.contributor.none.fl_str_mv	Analide, Cesar Fernandes, B. Universidade do Minho
dc.contributor.author.fl_str_mv	Perdigão, Miguel Campos Calafate Carneiro
dc.subject.por.fl_str_mv	Big five Data augmentation Data science Machine learning Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic	Big five Data augmentation Data science Machine learning Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description	Dissertação de mestrado em Engenharia Informática
publishDate	2019
dc.date.none.fl_str_mv	2019-12-30 2019-12-30T00:00:00Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://hdl.handle.net/1822/80091
url	https://hdl.handle.net/1822/80091
dc.language.iso.fl_str_mv	eng
language	eng
dc.relation.none.fl_str_mv	203022807
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799132912776380416

A machine learning approach to The Big Five Personality Test

Registros relacionados