Classificação Supervisionada de Documentos de Texto Cru em contextos difíceis
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10362/151148 |
Resumo: | A classificação de documentos é uma área com cada vez mais aplicações. Naturalmente, o número de estudos produzidos tem vindo assim a aumentar e, consequentemente as propostas e abordagens aos diversos problemas têm vindo a melhorar. A classificação de documentos ramifica-se também pelas diferentes abordagens a cada problema, uma vez que estas abordagens diferem consoante a forma como os dados são apresentados. Os resultados obtidos por cada método apresentam por norma diferenças em termos de precisão. De forma genérica, a classificação supervisionada permite obter resultados melhores em comparação com a classificação não supervisionada, onde a priori os dados não têm uma classe conhecida. Neste sentido, quer a Atribuição de Autoria quer a Verificação de Plágio fazem parte da classificação de documentos. Embora com objetivos fundamentalmente diferentes, ambas têm como objetivo inferir a partir do conjunto de dados que compõem um documento, informação sobre o seu autor. Para a realização da presente dissertação, pretende-se desenvolver um sistema capaz de realizar a atribuição de autoria, mas também o de rejeitar um documento que seja muito dissemelhante de qualquer dos protótipos aprendidos numa fase de treino. Ou seja, o sistema recebe um conjunto de amostras (documentos) produzidos por cada autor, extrai informação útil que represente cada um e após uma fase de treino, recebe novos documentos e tenta atribuir-lhes uma das autorias anteriormente aprendidas na referida fase. Caso o documento seja muito dissemelhante de qualquer dos protótipos aprendidos, o sistema deve ser capaz de rejeitar a atribuição de qualquer autoria a este documento. De forma genérica, qualquer problema de classificação parte da assunção de que para objetos diferentes existe algo que os permite distinguir. Assim, uma das grandes dificuldades passa pela identificação de quais atributos presentes nos dados permitem a identificação de cada autor. Após esta fase, um autor será representado pelo conjunto de atributos que o descreve. Assim, idealmente, após esta fase será possível agrupar autores através do grupo escolhido de características (atributos). |
id |
RCAP_a888ea4da5dd62057a10a463e8c427b7 |
---|---|
oai_identifier_str |
oai:run.unl.pt:10362/151148 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Classificação Supervisionada de Documentos de Texto Cru em contextos difíceisClassificação de DocumentosAtribuição de AutoriaClassificação não SupervisionadaClassificação SupervisionadaClusteringExtração de atributosDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaA classificação de documentos é uma área com cada vez mais aplicações. Naturalmente, o número de estudos produzidos tem vindo assim a aumentar e, consequentemente as propostas e abordagens aos diversos problemas têm vindo a melhorar. A classificação de documentos ramifica-se também pelas diferentes abordagens a cada problema, uma vez que estas abordagens diferem consoante a forma como os dados são apresentados. Os resultados obtidos por cada método apresentam por norma diferenças em termos de precisão. De forma genérica, a classificação supervisionada permite obter resultados melhores em comparação com a classificação não supervisionada, onde a priori os dados não têm uma classe conhecida. Neste sentido, quer a Atribuição de Autoria quer a Verificação de Plágio fazem parte da classificação de documentos. Embora com objetivos fundamentalmente diferentes, ambas têm como objetivo inferir a partir do conjunto de dados que compõem um documento, informação sobre o seu autor. Para a realização da presente dissertação, pretende-se desenvolver um sistema capaz de realizar a atribuição de autoria, mas também o de rejeitar um documento que seja muito dissemelhante de qualquer dos protótipos aprendidos numa fase de treino. Ou seja, o sistema recebe um conjunto de amostras (documentos) produzidos por cada autor, extrai informação útil que represente cada um e após uma fase de treino, recebe novos documentos e tenta atribuir-lhes uma das autorias anteriormente aprendidas na referida fase. Caso o documento seja muito dissemelhante de qualquer dos protótipos aprendidos, o sistema deve ser capaz de rejeitar a atribuição de qualquer autoria a este documento. De forma genérica, qualquer problema de classificação parte da assunção de que para objetos diferentes existe algo que os permite distinguir. Assim, uma das grandes dificuldades passa pela identificação de quais atributos presentes nos dados permitem a identificação de cada autor. Após esta fase, um autor será representado pelo conjunto de atributos que o descreve. Assim, idealmente, após esta fase será possível agrupar autores através do grupo escolhido de características (atributos).Document classification is an area with increasing applications. Naturally, the number of studies produced has been increasing and, consequently, the proposals and approaches to the various problems have been improving. The classification of documents is also ramified by the different approaches to each problem, as these approaches differ depend- ing on how the data is presented. The results obtained by each method usually show differences in terms of precision. In general, supervised classification allows obtaining better results when compared to unsupervised classification, where a priori data do not have a known class. In this sense, both the Attribution of Authorship and Plagiarism Verification are part of the document classification. Although with fundamentally different goals, both aim to infer from the data set that make up a document, information about its author. In order to carry out this dissertation, the goal was to develop a system capable of attributing authorship, but also of rejecting a document that is very different from any of the learned prototypes in a training phase. That is, the system receives a set of samples (documents) produced by each author, extracts useful information that represents each one and after being trained, receives new documents and tries to assign them one of the authors previously learned in that phase. If the document is very different from any of the learned prototypes, the system must be able to reject the assignment of any authorship of this document. Generally speaking, any classification problem starts from the assumption that for different objects there is something that allows to distinguish them. So, one of the big difficulties involves the identification of which attributes present in the data allow the identification of each author. After this phase, an author will be represented by the set of attributes that describe it. Thus, ideally, after this phase it will be possible to group authors through the chosen group of characteristics (attributes).Silva, JoaquimRUNOliveira, Pedro Miguel Rocha Correia de2023-03-24T11:00:25Z2022-122022-12-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10362/151148porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-03-11T05:33:37Zoai:run.unl.pt:10362/151148Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:54:29.162721Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Classificação Supervisionada de Documentos de Texto Cru em contextos difíceis |
title |
Classificação Supervisionada de Documentos de Texto Cru em contextos difíceis |
spellingShingle |
Classificação Supervisionada de Documentos de Texto Cru em contextos difíceis Oliveira, Pedro Miguel Rocha Correia de Classificação de Documentos Atribuição de Autoria Classificação não Supervisionada Classificação Supervisionada Clustering Extração de atributos Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
title_short |
Classificação Supervisionada de Documentos de Texto Cru em contextos difíceis |
title_full |
Classificação Supervisionada de Documentos de Texto Cru em contextos difíceis |
title_fullStr |
Classificação Supervisionada de Documentos de Texto Cru em contextos difíceis |
title_full_unstemmed |
Classificação Supervisionada de Documentos de Texto Cru em contextos difíceis |
title_sort |
Classificação Supervisionada de Documentos de Texto Cru em contextos difíceis |
author |
Oliveira, Pedro Miguel Rocha Correia de |
author_facet |
Oliveira, Pedro Miguel Rocha Correia de |
author_role |
author |
dc.contributor.none.fl_str_mv |
Silva, Joaquim RUN |
dc.contributor.author.fl_str_mv |
Oliveira, Pedro Miguel Rocha Correia de |
dc.subject.por.fl_str_mv |
Classificação de Documentos Atribuição de Autoria Classificação não Supervisionada Classificação Supervisionada Clustering Extração de atributos Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
topic |
Classificação de Documentos Atribuição de Autoria Classificação não Supervisionada Classificação Supervisionada Clustering Extração de atributos Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
description |
A classificação de documentos é uma área com cada vez mais aplicações. Naturalmente, o número de estudos produzidos tem vindo assim a aumentar e, consequentemente as propostas e abordagens aos diversos problemas têm vindo a melhorar. A classificação de documentos ramifica-se também pelas diferentes abordagens a cada problema, uma vez que estas abordagens diferem consoante a forma como os dados são apresentados. Os resultados obtidos por cada método apresentam por norma diferenças em termos de precisão. De forma genérica, a classificação supervisionada permite obter resultados melhores em comparação com a classificação não supervisionada, onde a priori os dados não têm uma classe conhecida. Neste sentido, quer a Atribuição de Autoria quer a Verificação de Plágio fazem parte da classificação de documentos. Embora com objetivos fundamentalmente diferentes, ambas têm como objetivo inferir a partir do conjunto de dados que compõem um documento, informação sobre o seu autor. Para a realização da presente dissertação, pretende-se desenvolver um sistema capaz de realizar a atribuição de autoria, mas também o de rejeitar um documento que seja muito dissemelhante de qualquer dos protótipos aprendidos numa fase de treino. Ou seja, o sistema recebe um conjunto de amostras (documentos) produzidos por cada autor, extrai informação útil que represente cada um e após uma fase de treino, recebe novos documentos e tenta atribuir-lhes uma das autorias anteriormente aprendidas na referida fase. Caso o documento seja muito dissemelhante de qualquer dos protótipos aprendidos, o sistema deve ser capaz de rejeitar a atribuição de qualquer autoria a este documento. De forma genérica, qualquer problema de classificação parte da assunção de que para objetos diferentes existe algo que os permite distinguir. Assim, uma das grandes dificuldades passa pela identificação de quais atributos presentes nos dados permitem a identificação de cada autor. Após esta fase, um autor será representado pelo conjunto de atributos que o descreve. Assim, idealmente, após esta fase será possível agrupar autores através do grupo escolhido de características (atributos). |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-12 2022-12-01T00:00:00Z 2023-03-24T11:00:25Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10362/151148 |
url |
http://hdl.handle.net/10362/151148 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799138133717024768 |