Classificação Supervisionada de Documentos de Texto Cru em contextos difíceis

Detalhes bibliográficos
Autor(a) principal: Oliveira, Pedro Miguel Rocha Correia de
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10362/151148
Resumo: A classificação de documentos é uma área com cada vez mais aplicações. Naturalmente, o número de estudos produzidos tem vindo assim a aumentar e, consequentemente as propostas e abordagens aos diversos problemas têm vindo a melhorar. A classificação de documentos ramifica-se também pelas diferentes abordagens a cada problema, uma vez que estas abordagens diferem consoante a forma como os dados são apresentados. Os resultados obtidos por cada método apresentam por norma diferenças em termos de precisão. De forma genérica, a classificação supervisionada permite obter resultados melhores em comparação com a classificação não supervisionada, onde a priori os dados não têm uma classe conhecida. Neste sentido, quer a Atribuição de Autoria quer a Verificação de Plágio fazem parte da classificação de documentos. Embora com objetivos fundamentalmente diferentes, ambas têm como objetivo inferir a partir do conjunto de dados que compõem um documento, informação sobre o seu autor. Para a realização da presente dissertação, pretende-se desenvolver um sistema capaz de realizar a atribuição de autoria, mas também o de rejeitar um documento que seja muito dissemelhante de qualquer dos protótipos aprendidos numa fase de treino. Ou seja, o sistema recebe um conjunto de amostras (documentos) produzidos por cada autor, extrai informação útil que represente cada um e após uma fase de treino, recebe novos documentos e tenta atribuir-lhes uma das autorias anteriormente aprendidas na referida fase. Caso o documento seja muito dissemelhante de qualquer dos protótipos aprendidos, o sistema deve ser capaz de rejeitar a atribuição de qualquer autoria a este documento. De forma genérica, qualquer problema de classificação parte da assunção de que para objetos diferentes existe algo que os permite distinguir. Assim, uma das grandes dificuldades passa pela identificação de quais atributos presentes nos dados permitem a identificação de cada autor. Após esta fase, um autor será representado pelo conjunto de atributos que o descreve. Assim, idealmente, após esta fase será possível agrupar autores através do grupo escolhido de características (atributos).
id RCAP_a888ea4da5dd62057a10a463e8c427b7
oai_identifier_str oai:run.unl.pt:10362/151148
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Classificação Supervisionada de Documentos de Texto Cru em contextos difíceisClassificação de DocumentosAtribuição de AutoriaClassificação não SupervisionadaClassificação SupervisionadaClusteringExtração de atributosDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaA classificação de documentos é uma área com cada vez mais aplicações. Naturalmente, o número de estudos produzidos tem vindo assim a aumentar e, consequentemente as propostas e abordagens aos diversos problemas têm vindo a melhorar. A classificação de documentos ramifica-se também pelas diferentes abordagens a cada problema, uma vez que estas abordagens diferem consoante a forma como os dados são apresentados. Os resultados obtidos por cada método apresentam por norma diferenças em termos de precisão. De forma genérica, a classificação supervisionada permite obter resultados melhores em comparação com a classificação não supervisionada, onde a priori os dados não têm uma classe conhecida. Neste sentido, quer a Atribuição de Autoria quer a Verificação de Plágio fazem parte da classificação de documentos. Embora com objetivos fundamentalmente diferentes, ambas têm como objetivo inferir a partir do conjunto de dados que compõem um documento, informação sobre o seu autor. Para a realização da presente dissertação, pretende-se desenvolver um sistema capaz de realizar a atribuição de autoria, mas também o de rejeitar um documento que seja muito dissemelhante de qualquer dos protótipos aprendidos numa fase de treino. Ou seja, o sistema recebe um conjunto de amostras (documentos) produzidos por cada autor, extrai informação útil que represente cada um e após uma fase de treino, recebe novos documentos e tenta atribuir-lhes uma das autorias anteriormente aprendidas na referida fase. Caso o documento seja muito dissemelhante de qualquer dos protótipos aprendidos, o sistema deve ser capaz de rejeitar a atribuição de qualquer autoria a este documento. De forma genérica, qualquer problema de classificação parte da assunção de que para objetos diferentes existe algo que os permite distinguir. Assim, uma das grandes dificuldades passa pela identificação de quais atributos presentes nos dados permitem a identificação de cada autor. Após esta fase, um autor será representado pelo conjunto de atributos que o descreve. Assim, idealmente, após esta fase será possível agrupar autores através do grupo escolhido de características (atributos).Document classification is an area with increasing applications. Naturally, the number of studies produced has been increasing and, consequently, the proposals and approaches to the various problems have been improving. The classification of documents is also ramified by the different approaches to each problem, as these approaches differ depend- ing on how the data is presented. The results obtained by each method usually show differences in terms of precision. In general, supervised classification allows obtaining better results when compared to unsupervised classification, where a priori data do not have a known class. In this sense, both the Attribution of Authorship and Plagiarism Verification are part of the document classification. Although with fundamentally different goals, both aim to infer from the data set that make up a document, information about its author. In order to carry out this dissertation, the goal was to develop a system capable of attributing authorship, but also of rejecting a document that is very different from any of the learned prototypes in a training phase. That is, the system receives a set of samples (documents) produced by each author, extracts useful information that represents each one and after being trained, receives new documents and tries to assign them one of the authors previously learned in that phase. If the document is very different from any of the learned prototypes, the system must be able to reject the assignment of any authorship of this document. Generally speaking, any classification problem starts from the assumption that for different objects there is something that allows to distinguish them. So, one of the big difficulties involves the identification of which attributes present in the data allow the identification of each author. After this phase, an author will be represented by the set of attributes that describe it. Thus, ideally, after this phase it will be possible to group authors through the chosen group of characteristics (attributes).Silva, JoaquimRUNOliveira, Pedro Miguel Rocha Correia de2023-03-24T11:00:25Z2022-122022-12-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10362/151148porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-03-11T05:33:37Zoai:run.unl.pt:10362/151148Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:54:29.162721Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Classificação Supervisionada de Documentos de Texto Cru em contextos difíceis
title Classificação Supervisionada de Documentos de Texto Cru em contextos difíceis
spellingShingle Classificação Supervisionada de Documentos de Texto Cru em contextos difíceis
Oliveira, Pedro Miguel Rocha Correia de
Classificação de Documentos
Atribuição de Autoria
Classificação não Supervisionada
Classificação Supervisionada
Clustering
Extração de atributos
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Classificação Supervisionada de Documentos de Texto Cru em contextos difíceis
title_full Classificação Supervisionada de Documentos de Texto Cru em contextos difíceis
title_fullStr Classificação Supervisionada de Documentos de Texto Cru em contextos difíceis
title_full_unstemmed Classificação Supervisionada de Documentos de Texto Cru em contextos difíceis
title_sort Classificação Supervisionada de Documentos de Texto Cru em contextos difíceis
author Oliveira, Pedro Miguel Rocha Correia de
author_facet Oliveira, Pedro Miguel Rocha Correia de
author_role author
dc.contributor.none.fl_str_mv Silva, Joaquim
RUN
dc.contributor.author.fl_str_mv Oliveira, Pedro Miguel Rocha Correia de
dc.subject.por.fl_str_mv Classificação de Documentos
Atribuição de Autoria
Classificação não Supervisionada
Classificação Supervisionada
Clustering
Extração de atributos
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Classificação de Documentos
Atribuição de Autoria
Classificação não Supervisionada
Classificação Supervisionada
Clustering
Extração de atributos
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description A classificação de documentos é uma área com cada vez mais aplicações. Naturalmente, o número de estudos produzidos tem vindo assim a aumentar e, consequentemente as propostas e abordagens aos diversos problemas têm vindo a melhorar. A classificação de documentos ramifica-se também pelas diferentes abordagens a cada problema, uma vez que estas abordagens diferem consoante a forma como os dados são apresentados. Os resultados obtidos por cada método apresentam por norma diferenças em termos de precisão. De forma genérica, a classificação supervisionada permite obter resultados melhores em comparação com a classificação não supervisionada, onde a priori os dados não têm uma classe conhecida. Neste sentido, quer a Atribuição de Autoria quer a Verificação de Plágio fazem parte da classificação de documentos. Embora com objetivos fundamentalmente diferentes, ambas têm como objetivo inferir a partir do conjunto de dados que compõem um documento, informação sobre o seu autor. Para a realização da presente dissertação, pretende-se desenvolver um sistema capaz de realizar a atribuição de autoria, mas também o de rejeitar um documento que seja muito dissemelhante de qualquer dos protótipos aprendidos numa fase de treino. Ou seja, o sistema recebe um conjunto de amostras (documentos) produzidos por cada autor, extrai informação útil que represente cada um e após uma fase de treino, recebe novos documentos e tenta atribuir-lhes uma das autorias anteriormente aprendidas na referida fase. Caso o documento seja muito dissemelhante de qualquer dos protótipos aprendidos, o sistema deve ser capaz de rejeitar a atribuição de qualquer autoria a este documento. De forma genérica, qualquer problema de classificação parte da assunção de que para objetos diferentes existe algo que os permite distinguir. Assim, uma das grandes dificuldades passa pela identificação de quais atributos presentes nos dados permitem a identificação de cada autor. Após esta fase, um autor será representado pelo conjunto de atributos que o descreve. Assim, idealmente, após esta fase será possível agrupar autores através do grupo escolhido de características (atributos).
publishDate 2022
dc.date.none.fl_str_mv 2022-12
2022-12-01T00:00:00Z
2023-03-24T11:00:25Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10362/151148
url http://hdl.handle.net/10362/151148
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799138133717024768