A machine learning taxonomic classifier for science publications

Detalhes bibliográficos
Autor(a) principal: Nunes, Carlos Vicente da Silva
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/1822/71055
Resumo: Dissertação de mestrado integrado em Engineering and Management of Information Systems
id RCAP_7490a06d884bed59597c5a4eb794e9cf
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/71055
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling A machine learning taxonomic classifier for science publicationsData miningMachine learningTaxonomyScienceClassificationTaxonomiaCiênciaClassificaçãoCiências Naturais::Ciências da Computação e da InformaçãoDissertação de mestrado integrado em Engineering and Management of Information SystemsThe evolution in scientific production, associated with the growing interdomain collaboration of knowledge and the increasing co-authorship of scientific works remains supported by processes of manual, highly subjective classification, subject to misinterpretation. The very taxonomy on which this same classification process is based is not consensual, with governmental organizations resorting to taxonomies that do not keep up with changes in scientific areas, and indexers / repositories that seek to keep up with those changes. We find a reality distinct from what is expected and that the domains where scientific work is recorded can easily be misrepresentative of the work itself. The taxonomy applied today by governmental bodies, such as the one that regulates scientific production in Portugal, is not enough, is limiting, and promotes classification in areas close to the desired, therefore with great potential for error. An automatic classification process based on machine learning algorithms presents itself as a possible solution to the subjectivity problem in classification, and while it does not solve the issue of taxonomy mismatch this work shows this possibility with proved results. In this work, we propose a classification taxonomy, as well as we develop a process based on machine learning algorithms to solve the classification problem. We also present a set of directions for future work for an increasingly representative classification of evolution in science, which is not intended as airtight, but flexible and perhaps increasingly based on phenomena and not just disciplines.A evolução na produção de ciência, associada à crescente colaboração interdomínios do conhecimento e à também crescente coautoria de trabalhos permanece suportada por processos de classificação manual, subjetiva e sujeita a interpretações erradas. A própria taxonomia na qual assenta esse mesmo processo de classificação não é consensual, com organismos estatais a recorrerem a taxonomias que não acompanham as alterações nas áreas científicas, e indexadores/repositórios que procuram acompanhar essas mesmas alterações. Verificamos uma realidade distinta do espectável e que os domínios onde são registados os trabalhos científicos podem facilmente estar desenquadrados. A taxonomia hoje aplicada pelos organismos governamentais, como o caso do organismo que regulamenta a produção científica em Portugal, não é suficiente, é limitadora, e promove a classificação em domínios aproximados do desejado, logo com grande potencial para erro. Um processo de classificação automática com base em algoritmos de machine learning apresenta-se como uma possível solução para o problema da subjetividade na classificação, e embora não resolva a questão do desenquadramento da taxonomia utilizada, é apresentada neste trabalho como uma possibilidade comprovada. Neste trabalho propomos uma taxonomia de classificação, bem como nós desenvolvemos um processo baseado em machine learning algoritmos para resolver o problema de classificação. Apresentamos ainda um conjunto de direções para trabalhos futuros para uma classificação cada vez mais representativa da evolução nas ciências, que não pretende ser hermética, mas flexível e talvez cada vez mais baseada em fenómenos e não apenas em disciplinas.Oliveira e Sá, JorgeUniversidade do MinhoNunes, Carlos Vicente da Silva20202020-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/71055eng202638804info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:30:01Zoai:repositorium.sdum.uminho.pt:1822/71055Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:25:06.910048Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv A machine learning taxonomic classifier for science publications
title A machine learning taxonomic classifier for science publications
spellingShingle A machine learning taxonomic classifier for science publications
Nunes, Carlos Vicente da Silva
Data mining
Machine learning
Taxonomy
Science
Classification
Taxonomia
Ciência
Classificação
Ciências Naturais::Ciências da Computação e da Informação
title_short A machine learning taxonomic classifier for science publications
title_full A machine learning taxonomic classifier for science publications
title_fullStr A machine learning taxonomic classifier for science publications
title_full_unstemmed A machine learning taxonomic classifier for science publications
title_sort A machine learning taxonomic classifier for science publications
author Nunes, Carlos Vicente da Silva
author_facet Nunes, Carlos Vicente da Silva
author_role author
dc.contributor.none.fl_str_mv Oliveira e Sá, Jorge
Universidade do Minho
dc.contributor.author.fl_str_mv Nunes, Carlos Vicente da Silva
dc.subject.por.fl_str_mv Data mining
Machine learning
Taxonomy
Science
Classification
Taxonomia
Ciência
Classificação
Ciências Naturais::Ciências da Computação e da Informação
topic Data mining
Machine learning
Taxonomy
Science
Classification
Taxonomia
Ciência
Classificação
Ciências Naturais::Ciências da Computação e da Informação
description Dissertação de mestrado integrado em Engineering and Management of Information Systems
publishDate 2020
dc.date.none.fl_str_mv 2020
2020-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1822/71055
url http://hdl.handle.net/1822/71055
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 202638804
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132733790748672