Identificação de Classes em Texto, Classificação não Supervisionada

Hulevych, Serhiy

Identificação de Classes em Texto, Classificação não Supervisionada

Detalhes bibliográficos
Autor(a) principal:	Hulevych, Serhiy
Data de Publicação:	2022
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10362/147831
Resumo:	Na classificação de documentos, são vários os estudos já realizados, sobretudo através da classificação supervisionada. Existem em menor número também alguns que usam classificação não supervisionada. Na classificação supervisionada, tendo cada documento a etiqueta (label) correspondente à classe/tópico a que pertence, está facilitado o processo de classificação, o que permite em geral melhores resultados, em termos de Precisão e Recall, quando comparados com os obtidos pela opção ’não supervisionada’. No entanto, existe uma limitação forte: a classificação de novos elementos está limitada às classes indicadas na fase de treino através da etiqueta, sendo que o sistema não consegue aprender novas classes a não ser por essa indicação explícita. Considerando a alternativa da classificação não supervisionada, onde não existe a indicação explícita da classe, o desafio consiste sobretudo em detetar/minerar que grupos/ classes de tópicos principais estão implícitos nos dados, isto é, nos documentos caracterizados pelos seus atributos (features). Desta forma poder-se-ão aprender de forma dinâmica novas classes, desde que estejam implícitas nos dados, isto é, desde que as features sejam suficientemente caracterizadoras. Um dos objetivos desta dissertação foi a elaboração de um sistema capaz de receber um conjunto de documentos e agrupá-los por tópicos, tendo em conta o seu conteúdo. Um segundo objectivo consistiu em identificar os tópicos/subtópicos principais de cada grupo e também classificar novos documentos de acordo com o que foi aprendido na fase de treino. O trabalho envolveu a selecção e redução de features, a construção dos grupos (clustering) e a classificação propriamente dita.

Metadados do item

id	RCAP_d98751544e2c9c242883ee54861cc023
oai_identifier_str	oai:run.unl.pt:10362/147831
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Identificação de Classes em Texto, Classificação não SupervisionadaClassificação de DocumentosClassificação não SupervisionadaClassificação SupervisionadaClusteringDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaNa classificação de documentos, são vários os estudos já realizados, sobretudo através da classificação supervisionada. Existem em menor número também alguns que usam classificação não supervisionada. Na classificação supervisionada, tendo cada documento a etiqueta (label) correspondente à classe/tópico a que pertence, está facilitado o processo de classificação, o que permite em geral melhores resultados, em termos de Precisão e Recall, quando comparados com os obtidos pela opção ’não supervisionada’. No entanto, existe uma limitação forte: a classificação de novos elementos está limitada às classes indicadas na fase de treino através da etiqueta, sendo que o sistema não consegue aprender novas classes a não ser por essa indicação explícita. Considerando a alternativa da classificação não supervisionada, onde não existe a indicação explícita da classe, o desafio consiste sobretudo em detetar/minerar que grupos/ classes de tópicos principais estão implícitos nos dados, isto é, nos documentos caracterizados pelos seus atributos (features). Desta forma poder-se-ão aprender de forma dinâmica novas classes, desde que estejam implícitas nos dados, isto é, desde que as features sejam suficientemente caracterizadoras. Um dos objetivos desta dissertação foi a elaboração de um sistema capaz de receber um conjunto de documentos e agrupá-los por tópicos, tendo em conta o seu conteúdo. Um segundo objectivo consistiu em identificar os tópicos/subtópicos principais de cada grupo e também classificar novos documentos de acordo com o que foi aprendido na fase de treino. O trabalho envolveu a selecção e redução de features, a construção dos grupos (clustering) e a classificação propriamente dita.In document classification, there are several studies that have been done, mostly using the supervised classification. There are also some approaches using the unsupervised classification. In supervised classification, with each document having the label corresponding to the class / topic to which it belongs, the classification process is facilitated, which generally allows better results, in terms of Precision and Recall, when compared with those chosen by the option “unsupervised". However, there is a strong limitation: the classification of new elements is limited to the classes indicated in the training phase through the label, and the system is unable to learn new classes except for this explicit indication. Based on the alternative of unsupervised classification, where there is no explicit indication of the class, the challenge consists mainly in detecting/mining which groups/classes of main topics are implicit in the data, in other words, in the documents characterized by their attributes. In this way, new classes can be dynamically learned, as long as they are implicit in the data, in other words, as long as the features are sufficiently characterizing. One of the goals of this dissertation was the development of a system capable of receiving a set of documents and group them by topics, based on their content. Another goal was to identify topics/subtopics of each group and also classify new documents according to what was learned in the training phase. The work involved the selection and reduction of features, the construction of groups (clustering) and a classification itself.Silva, JoaquimRUNHulevych, Serhiy2023-01-19T15:18:09Z2022-022022-02-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10362/147831porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-03-11T05:29:05Zoai:run.unl.pt:10362/147831Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:53:06.346707Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Identificação de Classes em Texto, Classificação não Supervisionada
title	Identificação de Classes em Texto, Classificação não Supervisionada
spellingShingle	Identificação de Classes em Texto, Classificação não Supervisionada Hulevych, Serhiy Classificação de Documentos Classificação não Supervisionada Classificação Supervisionada Clustering Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short	Identificação de Classes em Texto, Classificação não Supervisionada
title_full	Identificação de Classes em Texto, Classificação não Supervisionada
title_fullStr	Identificação de Classes em Texto, Classificação não Supervisionada
title_full_unstemmed	Identificação de Classes em Texto, Classificação não Supervisionada
title_sort	Identificação de Classes em Texto, Classificação não Supervisionada
author	Hulevych, Serhiy
author_facet	Hulevych, Serhiy
author_role	author
dc.contributor.none.fl_str_mv	Silva, Joaquim RUN
dc.contributor.author.fl_str_mv	Hulevych, Serhiy
dc.subject.por.fl_str_mv	Classificação de Documentos Classificação não Supervisionada Classificação Supervisionada Clustering Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic	Classificação de Documentos Classificação não Supervisionada Classificação Supervisionada Clustering Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description	Na classificação de documentos, são vários os estudos já realizados, sobretudo através da classificação supervisionada. Existem em menor número também alguns que usam classificação não supervisionada. Na classificação supervisionada, tendo cada documento a etiqueta (label) correspondente à classe/tópico a que pertence, está facilitado o processo de classificação, o que permite em geral melhores resultados, em termos de Precisão e Recall, quando comparados com os obtidos pela opção ’não supervisionada’. No entanto, existe uma limitação forte: a classificação de novos elementos está limitada às classes indicadas na fase de treino através da etiqueta, sendo que o sistema não consegue aprender novas classes a não ser por essa indicação explícita. Considerando a alternativa da classificação não supervisionada, onde não existe a indicação explícita da classe, o desafio consiste sobretudo em detetar/minerar que grupos/ classes de tópicos principais estão implícitos nos dados, isto é, nos documentos caracterizados pelos seus atributos (features). Desta forma poder-se-ão aprender de forma dinâmica novas classes, desde que estejam implícitas nos dados, isto é, desde que as features sejam suficientemente caracterizadoras. Um dos objetivos desta dissertação foi a elaboração de um sistema capaz de receber um conjunto de documentos e agrupá-los por tópicos, tendo em conta o seu conteúdo. Um segundo objectivo consistiu em identificar os tópicos/subtópicos principais de cada grupo e também classificar novos documentos de acordo com o que foi aprendido na fase de treino. O trabalho envolveu a selecção e redução de features, a construção dos grupos (clustering) e a classificação propriamente dita.
publishDate	2022
dc.date.none.fl_str_mv	2022-02 2022-02-01T00:00:00Z 2023-01-19T15:18:09Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10362/147831
url	http://hdl.handle.net/10362/147831
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799138122333683712

Identificação de Classes em Texto, Classificação não Supervisionada

Registros relacionados