Modelo de representação de texto mais adequado à classificação

Detalhes bibliográficos
Autor(a) principal: Alves, Alexandra Isabel Magalhães
Data de Publicação: 2010
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.22/1908
Resumo: Mestrado em Engenharia Informática
id RCAP_9537947d0335efd0dcc997051e2a0abc
oai_identifier_str oai:recipp.ipp.pt:10400.22/1908
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Modelo de representação de texto mais adequado à classificaçãoClassificação de textoModelo de representaçãoMestrado em Engenharia InformáticaA área de text mining, mais especificamente a classificação de texto, é alvo de muito trabalho e avanços nos últimos anos. Esta área tornou-se cada vez mais importante com a evolução da tecnologia e assume grande relevância na actual sociedade de informação. Um dos problemas ainda presente nesta área baseia-se na classificação de texto para categorias que representam conceitos muito próximos e difíceis de distinguir quando se considera o modelo tradicional do “saco de palavras” (bag-of-word). Estes problemas surgem sobretudo quando se classifica texto referente a um mesmo tema, como por exemplo: respostas em texto livre dadas por alunos ao responder a perguntas abertas, comentários a um mesmo filme, etc. Neste trabalho, é apresentado um estudo sobre todo o processo de classificação de texto que permite avaliar as tarefas e fases mais importantes para a definição de uma metodologia útil para o problema enunciado. A abordagem adoptada neste trabalho baseou-se na ideia de que os resultados da classificação podem melhorar caso se considerem representações de texto mais elaboradas que o simples modelo bag-of-words. Foram então criados diversos modelos de representação dos documentos - envolvendo os modelos de bag-of-words, NGrams e Pos-Tag - todos eles baseados em diversas combinações de tarefas de pré-processamento. Os classificadores usados para a classificação dos documentos foram o support vector machine e k-nearest neighbour. Por fim, para a avaliação da classificação foi aplicada a técnica de validação cruzada para reduzir a variabilidade das estimativas das medidas de desempenho analisadas (abrangência e precisão). Foi possível concluir que os modelos de representação que parecem mais adequados, para a resolução do problema proposto, são os modelos bag-of-words construídos com base em nomes. E, que os classificadores support vector machine apresentam melhor desempenho que o classificadores k-nearest neighbour.The Text Mining area, specifically the text classification is the subject of recent research advances. This area has become increasingly important with the evolution of technology and is highly relevant in today's information society. One of the problems still present in this area is based on the text classification into categories that represent concepts very close and difficult to distinguish when one considers the traditional model of "bag of words”. These problems arise especially when classifying text referring to the same theme, for example: free text responses given by students to answer open questions, comments to the same movie, etc. In this work, we present a study on the whole process of text classification that allows to assess the tasks and the most important stages for the definition of a useful approach to the problem stated. The approach adopted in this study was based on the idea that classification results may improve when considering more elaborated text representations than the simple bag-of-words model. Afterwards we created several representation models of documents involving bag-of-words models, NGrams and POS-tags. All of them were based on various combinations of pre-processing tasks that is considered one of the most important stages of classification. The classifiers used for document classification were the support vector machine and k-nearest neighbor. Finally, we applied crossvalidation to estimate classification performance measures (precision and recall). We concluded that the representation models that seem most appropriate for solving the proposed problem are the bag-of-words models based on names. Furthermore, it was also conclude that the support vector machine classifiers outperform the k-nearest neighbor classifiers.Instituto Politécnico do Porto. Instituto Superior de Engenharia do PortoEscudeiro, NunoRepositório Científico do Instituto Politécnico do PortoAlves, Alexandra Isabel Magalhães2013-09-16T13:39:43Z20102010-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/1908porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-03-13T12:41:26Zoai:recipp.ipp.pt:10400.22/1908Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T17:23:02.933184Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Modelo de representação de texto mais adequado à classificação
title Modelo de representação de texto mais adequado à classificação
spellingShingle Modelo de representação de texto mais adequado à classificação
Alves, Alexandra Isabel Magalhães
Classificação de texto
Modelo de representação
title_short Modelo de representação de texto mais adequado à classificação
title_full Modelo de representação de texto mais adequado à classificação
title_fullStr Modelo de representação de texto mais adequado à classificação
title_full_unstemmed Modelo de representação de texto mais adequado à classificação
title_sort Modelo de representação de texto mais adequado à classificação
author Alves, Alexandra Isabel Magalhães
author_facet Alves, Alexandra Isabel Magalhães
author_role author
dc.contributor.none.fl_str_mv Escudeiro, Nuno
Repositório Científico do Instituto Politécnico do Porto
dc.contributor.author.fl_str_mv Alves, Alexandra Isabel Magalhães
dc.subject.por.fl_str_mv Classificação de texto
Modelo de representação
topic Classificação de texto
Modelo de representação
description Mestrado em Engenharia Informática
publishDate 2010
dc.date.none.fl_str_mv 2010
2010-01-01T00:00:00Z
2013-09-16T13:39:43Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.22/1908
url http://hdl.handle.net/10400.22/1908
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Instituto Politécnico do Porto. Instituto Superior de Engenharia do Porto
publisher.none.fl_str_mv Instituto Politécnico do Porto. Instituto Superior de Engenharia do Porto
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799131326149820416