Modelo de representação de texto mais adequado à classificação

Alves, Alexandra Isabel Magalhães

Modelo de representação de texto mais adequado à classificação

Detalhes bibliográficos
Autor(a) principal:	Alves, Alexandra Isabel Magalhães
Data de Publicação:	2010
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10400.22/1908
Resumo:	Mestrado em Engenharia Informática

Metadados do item

id	RCAP_9537947d0335efd0dcc997051e2a0abc
oai_identifier_str	oai:recipp.ipp.pt:10400.22/1908
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Modelo de representação de texto mais adequado à classificaçãoClassificação de textoModelo de representaçãoMestrado em Engenharia InformáticaA área de text mining, mais especificamente a classificação de texto, é alvo de muito trabalho e avanços nos últimos anos. Esta área tornou-se cada vez mais importante com a evolução da tecnologia e assume grande relevância na actual sociedade de informação. Um dos problemas ainda presente nesta área baseia-se na classificação de texto para categorias que representam conceitos muito próximos e difíceis de distinguir quando se considera o modelo tradicional do “saco de palavras” (bag-of-word). Estes problemas surgem sobretudo quando se classifica texto referente a um mesmo tema, como por exemplo: respostas em texto livre dadas por alunos ao responder a perguntas abertas, comentários a um mesmo filme, etc. Neste trabalho, é apresentado um estudo sobre todo o processo de classificação de texto que permite avaliar as tarefas e fases mais importantes para a definição de uma metodologia útil para o problema enunciado. A abordagem adoptada neste trabalho baseou-se na ideia de que os resultados da classificação podem melhorar caso se considerem representações de texto mais elaboradas que o simples modelo bag-of-words. Foram então criados diversos modelos de representação dos documentos - envolvendo os modelos de bag-of-words, NGrams e Pos-Tag - todos eles baseados em diversas combinações de tarefas de pré-processamento. Os classificadores usados para a classificação dos documentos foram o support vector machine e k-nearest neighbour. Por fim, para a avaliação da classificação foi aplicada a técnica de validação cruzada para reduzir a variabilidade das estimativas das medidas de desempenho analisadas (abrangência e precisão). Foi possível concluir que os modelos de representação que parecem mais adequados, para a resolução do problema proposto, são os modelos bag-of-words construídos com base em nomes. E, que os classificadores support vector machine apresentam melhor desempenho que o classificadores k-nearest neighbour.The Text Mining area, specifically the text classification is the subject of recent research advances. This area has become increasingly important with the evolution of technology and is highly relevant in today's information society. One of the problems still present in this area is based on the text classification into categories that represent concepts very close and difficult to distinguish when one considers the traditional model of "bag of words”. These problems arise especially when classifying text referring to the same theme, for example: free text responses given by students to answer open questions, comments to the same movie, etc. In this work, we present a study on the whole process of text classification that allows to assess the tasks and the most important stages for the definition of a useful approach to the problem stated. The approach adopted in this study was based on the idea that classification results may improve when considering more elaborated text representations than the simple bag-of-words model. Afterwards we created several representation models of documents involving bag-of-words models, NGrams and POS-tags. All of them were based on various combinations of pre-processing tasks that is considered one of the most important stages of classification. The classifiers used for document classification were the support vector machine and k-nearest neighbor. Finally, we applied crossvalidation to estimate classification performance measures (precision and recall). We concluded that the representation models that seem most appropriate for solving the proposed problem are the bag-of-words models based on names. Furthermore, it was also conclude that the support vector machine classifiers outperform the k-nearest neighbor classifiers.Instituto Politécnico do Porto. Instituto Superior de Engenharia do PortoEscudeiro, NunoRepositório Científico do Instituto Politécnico do PortoAlves, Alexandra Isabel Magalhães2013-09-16T13:39:43Z20102010-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/1908porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-03-13T12:41:26Zoai:recipp.ipp.pt:10400.22/1908Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T17:23:02.933184Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Modelo de representação de texto mais adequado à classificação
title	Modelo de representação de texto mais adequado à classificação
spellingShingle	Modelo de representação de texto mais adequado à classificação Alves, Alexandra Isabel Magalhães Classificação de texto Modelo de representação
title_short	Modelo de representação de texto mais adequado à classificação
title_full	Modelo de representação de texto mais adequado à classificação
title_fullStr	Modelo de representação de texto mais adequado à classificação
title_full_unstemmed	Modelo de representação de texto mais adequado à classificação
title_sort	Modelo de representação de texto mais adequado à classificação
author	Alves, Alexandra Isabel Magalhães
author_facet	Alves, Alexandra Isabel Magalhães
author_role	author
dc.contributor.none.fl_str_mv	Escudeiro, Nuno Repositório Científico do Instituto Politécnico do Porto
dc.contributor.author.fl_str_mv	Alves, Alexandra Isabel Magalhães
dc.subject.por.fl_str_mv	Classificação de texto Modelo de representação
topic	Classificação de texto Modelo de representação
description	Mestrado em Engenharia Informática
publishDate	2010
dc.date.none.fl_str_mv	2010 2010-01-01T00:00:00Z 2013-09-16T13:39:43Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10400.22/1908
url	http://hdl.handle.net/10400.22/1908
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Instituto Politécnico do Porto. Instituto Superior de Engenharia do Porto
publisher.none.fl_str_mv	Instituto Politécnico do Porto. Instituto Superior de Engenharia do Porto
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799131326149820416

Modelo de representação de texto mais adequado à classificação

Registros relacionados