Algoritmo de aprendizagem semi-supervisionada

Detalhes bibliográficos
Autor(a) principal: Fontes, André Filipe da Cruz
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.22/23869
Resumo: Os dados etiquetados são essenciais para uma aprendizagem supervisionada. No entanto, estão frequentemente disponíveis apenas em pequenas quantidades, enquanto os dados não etiquetados podem ser abundantes. A utilização de dados não etiquetados juntamente com dados etiquetados é tanto de interesse teórico como prático. A eficiência da aprendizagem supervisionada é altamente dependente das instâncias etiquetadas. Contudo, ter um tamanho razoável de instâncias etiquetadas pode ser difícil, dispendioso e demorado de obter, uma vez que envolve necessariamente conhecimento especializado, tais como anotadores humanos. Este é um desafio comum na investigação em diversas áreas sendo mais comum na área da saúde, mais frequentemente fundamentado em estudos em que os participantes utilizam instrumentos de self-report. Nesta dissertação foi elaborado um algoritmo semi-supervisionado com recurso a dois classificadores, support vector machine e random-forest. Os resultados são promissores, tendo-se obtido um acréscimo de 5% no desempenho do algoritmo, relativamente aos algoritmos em separado e com a capacidade de etiquetar praticamente todos os dados.
id RCAP_bd02a415d4a2c03b70ca0a65c84c04f0
oai_identifier_str oai:recipp.ipp.pt:10400.22/23869
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Algoritmo de aprendizagem semi-supervisionadaSemi-supervisionadoInteligência ArtificialMetodologia de Investigação Científica em DesignCNNLSTMSemi-supervisedArtificial IntelligenceDesign Science Research MethodologySupport vector machineOs dados etiquetados são essenciais para uma aprendizagem supervisionada. No entanto, estão frequentemente disponíveis apenas em pequenas quantidades, enquanto os dados não etiquetados podem ser abundantes. A utilização de dados não etiquetados juntamente com dados etiquetados é tanto de interesse teórico como prático. A eficiência da aprendizagem supervisionada é altamente dependente das instâncias etiquetadas. Contudo, ter um tamanho razoável de instâncias etiquetadas pode ser difícil, dispendioso e demorado de obter, uma vez que envolve necessariamente conhecimento especializado, tais como anotadores humanos. Este é um desafio comum na investigação em diversas áreas sendo mais comum na área da saúde, mais frequentemente fundamentado em estudos em que os participantes utilizam instrumentos de self-report. Nesta dissertação foi elaborado um algoritmo semi-supervisionado com recurso a dois classificadores, support vector machine e random-forest. Os resultados são promissores, tendo-se obtido um acréscimo de 5% no desempenho do algoritmo, relativamente aos algoritmos em separado e com a capacidade de etiquetar praticamente todos os dados.Labelled data are essential for supervised learning. However, they are often available only in small quantities, while unlabelled data may be abundant. Using unlabelled data together with labelled data is of both theoretical and practical interest. The efficiency of supervised learning is highly dependent on labelled instances. However, having a reasonable size of labelled instances may be difficult, expensive and time consuming to obtain since it necessarily involves expert knowledge, such as human annotators or filling self-reported questionnaires. This is a common challenge in health research, most often founded in studies where participants use self-report instruments. To address this issue, we can use semi-supervised learning methods that use both labelled and unlabelled data to construct a classifier and improve the classification performance. In this dissertation, a semi-supervised algorithm was developed using two classifiers: support vector machines and random forests. The results are promising, having achieved a 5% increase in the performance of the algorithm in comparison to the separately used algorithms and with the ability to label virtually all data.Rodrigues, Maria de Fátima CoutinhoRepositório Científico do Instituto Politécnico do PortoFontes, André Filipe da Cruz2023-11-08T16:27:07Z20232023-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/23869TID:203380240porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-15T01:47:47Zoai:recipp.ipp.pt:10400.22/23869Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:42:33.685644Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Algoritmo de aprendizagem semi-supervisionada
title Algoritmo de aprendizagem semi-supervisionada
spellingShingle Algoritmo de aprendizagem semi-supervisionada
Fontes, André Filipe da Cruz
Semi-supervisionado
Inteligência Artificial
Metodologia de Investigação Científica em Design
CNN
LSTM
Semi-supervised
Artificial Intelligence
Design Science Research Methodology
Support vector machine
title_short Algoritmo de aprendizagem semi-supervisionada
title_full Algoritmo de aprendizagem semi-supervisionada
title_fullStr Algoritmo de aprendizagem semi-supervisionada
title_full_unstemmed Algoritmo de aprendizagem semi-supervisionada
title_sort Algoritmo de aprendizagem semi-supervisionada
author Fontes, André Filipe da Cruz
author_facet Fontes, André Filipe da Cruz
author_role author
dc.contributor.none.fl_str_mv Rodrigues, Maria de Fátima Coutinho
Repositório Científico do Instituto Politécnico do Porto
dc.contributor.author.fl_str_mv Fontes, André Filipe da Cruz
dc.subject.por.fl_str_mv Semi-supervisionado
Inteligência Artificial
Metodologia de Investigação Científica em Design
CNN
LSTM
Semi-supervised
Artificial Intelligence
Design Science Research Methodology
Support vector machine
topic Semi-supervisionado
Inteligência Artificial
Metodologia de Investigação Científica em Design
CNN
LSTM
Semi-supervised
Artificial Intelligence
Design Science Research Methodology
Support vector machine
description Os dados etiquetados são essenciais para uma aprendizagem supervisionada. No entanto, estão frequentemente disponíveis apenas em pequenas quantidades, enquanto os dados não etiquetados podem ser abundantes. A utilização de dados não etiquetados juntamente com dados etiquetados é tanto de interesse teórico como prático. A eficiência da aprendizagem supervisionada é altamente dependente das instâncias etiquetadas. Contudo, ter um tamanho razoável de instâncias etiquetadas pode ser difícil, dispendioso e demorado de obter, uma vez que envolve necessariamente conhecimento especializado, tais como anotadores humanos. Este é um desafio comum na investigação em diversas áreas sendo mais comum na área da saúde, mais frequentemente fundamentado em estudos em que os participantes utilizam instrumentos de self-report. Nesta dissertação foi elaborado um algoritmo semi-supervisionado com recurso a dois classificadores, support vector machine e random-forest. Os resultados são promissores, tendo-se obtido um acréscimo de 5% no desempenho do algoritmo, relativamente aos algoritmos em separado e com a capacidade de etiquetar praticamente todos os dados.
publishDate 2023
dc.date.none.fl_str_mv 2023-11-08T16:27:07Z
2023
2023-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.22/23869
TID:203380240
url http://hdl.handle.net/10400.22/23869
identifier_str_mv TID:203380240
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134990808645632