Algoritmo de aprendizagem semi-supervisionada
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10400.22/23869 |
Resumo: | Os dados etiquetados são essenciais para uma aprendizagem supervisionada. No entanto, estão frequentemente disponíveis apenas em pequenas quantidades, enquanto os dados não etiquetados podem ser abundantes. A utilização de dados não etiquetados juntamente com dados etiquetados é tanto de interesse teórico como prático. A eficiência da aprendizagem supervisionada é altamente dependente das instâncias etiquetadas. Contudo, ter um tamanho razoável de instâncias etiquetadas pode ser difícil, dispendioso e demorado de obter, uma vez que envolve necessariamente conhecimento especializado, tais como anotadores humanos. Este é um desafio comum na investigação em diversas áreas sendo mais comum na área da saúde, mais frequentemente fundamentado em estudos em que os participantes utilizam instrumentos de self-report. Nesta dissertação foi elaborado um algoritmo semi-supervisionado com recurso a dois classificadores, support vector machine e random-forest. Os resultados são promissores, tendo-se obtido um acréscimo de 5% no desempenho do algoritmo, relativamente aos algoritmos em separado e com a capacidade de etiquetar praticamente todos os dados. |
id |
RCAP_bd02a415d4a2c03b70ca0a65c84c04f0 |
---|---|
oai_identifier_str |
oai:recipp.ipp.pt:10400.22/23869 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Algoritmo de aprendizagem semi-supervisionadaSemi-supervisionadoInteligência ArtificialMetodologia de Investigação Científica em DesignCNNLSTMSemi-supervisedArtificial IntelligenceDesign Science Research MethodologySupport vector machineOs dados etiquetados são essenciais para uma aprendizagem supervisionada. No entanto, estão frequentemente disponíveis apenas em pequenas quantidades, enquanto os dados não etiquetados podem ser abundantes. A utilização de dados não etiquetados juntamente com dados etiquetados é tanto de interesse teórico como prático. A eficiência da aprendizagem supervisionada é altamente dependente das instâncias etiquetadas. Contudo, ter um tamanho razoável de instâncias etiquetadas pode ser difícil, dispendioso e demorado de obter, uma vez que envolve necessariamente conhecimento especializado, tais como anotadores humanos. Este é um desafio comum na investigação em diversas áreas sendo mais comum na área da saúde, mais frequentemente fundamentado em estudos em que os participantes utilizam instrumentos de self-report. Nesta dissertação foi elaborado um algoritmo semi-supervisionado com recurso a dois classificadores, support vector machine e random-forest. Os resultados são promissores, tendo-se obtido um acréscimo de 5% no desempenho do algoritmo, relativamente aos algoritmos em separado e com a capacidade de etiquetar praticamente todos os dados.Labelled data are essential for supervised learning. However, they are often available only in small quantities, while unlabelled data may be abundant. Using unlabelled data together with labelled data is of both theoretical and practical interest. The efficiency of supervised learning is highly dependent on labelled instances. However, having a reasonable size of labelled instances may be difficult, expensive and time consuming to obtain since it necessarily involves expert knowledge, such as human annotators or filling self-reported questionnaires. This is a common challenge in health research, most often founded in studies where participants use self-report instruments. To address this issue, we can use semi-supervised learning methods that use both labelled and unlabelled data to construct a classifier and improve the classification performance. In this dissertation, a semi-supervised algorithm was developed using two classifiers: support vector machines and random forests. The results are promising, having achieved a 5% increase in the performance of the algorithm in comparison to the separately used algorithms and with the ability to label virtually all data.Rodrigues, Maria de Fátima CoutinhoRepositório Científico do Instituto Politécnico do PortoFontes, André Filipe da Cruz2023-11-08T16:27:07Z20232023-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/23869TID:203380240porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-15T01:47:47Zoai:recipp.ipp.pt:10400.22/23869Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:42:33.685644Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Algoritmo de aprendizagem semi-supervisionada |
title |
Algoritmo de aprendizagem semi-supervisionada |
spellingShingle |
Algoritmo de aprendizagem semi-supervisionada Fontes, André Filipe da Cruz Semi-supervisionado Inteligência Artificial Metodologia de Investigação Científica em Design CNN LSTM Semi-supervised Artificial Intelligence Design Science Research Methodology Support vector machine |
title_short |
Algoritmo de aprendizagem semi-supervisionada |
title_full |
Algoritmo de aprendizagem semi-supervisionada |
title_fullStr |
Algoritmo de aprendizagem semi-supervisionada |
title_full_unstemmed |
Algoritmo de aprendizagem semi-supervisionada |
title_sort |
Algoritmo de aprendizagem semi-supervisionada |
author |
Fontes, André Filipe da Cruz |
author_facet |
Fontes, André Filipe da Cruz |
author_role |
author |
dc.contributor.none.fl_str_mv |
Rodrigues, Maria de Fátima Coutinho Repositório Científico do Instituto Politécnico do Porto |
dc.contributor.author.fl_str_mv |
Fontes, André Filipe da Cruz |
dc.subject.por.fl_str_mv |
Semi-supervisionado Inteligência Artificial Metodologia de Investigação Científica em Design CNN LSTM Semi-supervised Artificial Intelligence Design Science Research Methodology Support vector machine |
topic |
Semi-supervisionado Inteligência Artificial Metodologia de Investigação Científica em Design CNN LSTM Semi-supervised Artificial Intelligence Design Science Research Methodology Support vector machine |
description |
Os dados etiquetados são essenciais para uma aprendizagem supervisionada. No entanto, estão frequentemente disponíveis apenas em pequenas quantidades, enquanto os dados não etiquetados podem ser abundantes. A utilização de dados não etiquetados juntamente com dados etiquetados é tanto de interesse teórico como prático. A eficiência da aprendizagem supervisionada é altamente dependente das instâncias etiquetadas. Contudo, ter um tamanho razoável de instâncias etiquetadas pode ser difícil, dispendioso e demorado de obter, uma vez que envolve necessariamente conhecimento especializado, tais como anotadores humanos. Este é um desafio comum na investigação em diversas áreas sendo mais comum na área da saúde, mais frequentemente fundamentado em estudos em que os participantes utilizam instrumentos de self-report. Nesta dissertação foi elaborado um algoritmo semi-supervisionado com recurso a dois classificadores, support vector machine e random-forest. Os resultados são promissores, tendo-se obtido um acréscimo de 5% no desempenho do algoritmo, relativamente aos algoritmos em separado e com a capacidade de etiquetar praticamente todos os dados. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-11-08T16:27:07Z 2023 2023-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.22/23869 TID:203380240 |
url |
http://hdl.handle.net/10400.22/23869 |
identifier_str_mv |
TID:203380240 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799134990808645632 |