Metodologia de categorização de textos a partir de documentos não rotulados utilizando um processo de resolução de anáforas
Autor(a) principal: | |
---|---|
Data de Publicação: | 2010 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
Texto Completo: | http://repositorio.ufes.br/handle/10/4220 |
Resumo: | With the constant expansion of text content in electronic format comes the need to organize all this information in an operable way. Thus the text categorization process has been developed, aiming to make easier the manipulation and recovering of the information by separating it in thematic categories. There are many approaches to obtain an automatic text classi cation. Among then, the supervised learning is the most traditional. Though the supervised methodology is as much precise as the one obtained by human specialists, the obligatoriness of a pre-classi ed corpus might be a limiting factor in some applications. In those situations, a semi- or unsupervised solution can be applied, wich does not demands a complete and well formed set of training to the building of a classi er; on the contrary, only unlabeled documents for the method are supplied. Both the supervised and the semi- and unsupervised learning usually built a text representation based only in the occurrence of the terms, not taking in consideration semantic factors. However, many intrinsic characteristics of the natural language can make the process ambiguous, and one of these factors is the use of diverse terms to refer to one entity already presented in the text. This linguistic phenomena is called anaphora. This thesis proposes a method to concept an unsupervised classi er, using as a base the Nominal Structure of Speech (Estrututra Nominal do Discurso END, in Portuguese), developed by Freitas with the objective of solving anaphora, in [Freitas 2005]. To accomplish the objective, the bootstrapping technique for classi cation is implemented, aiming to obtain the inicial labeled training data, wich is used to generate a classifying model through the supervised learning. Besides being grounded on the END, this paper methodology is bene ted by the direct anaphora resolution process, using the antecedents identi ed for the anaphors, during the nal classi cation phase. This work presents details about the proposed methodol, as well as the trials and tests made to evaluate the method. The results show that the use of the anaphora resolution process is bene cial for an unsupervised learning system. |
id |
UFES_26a75862f09b6906f71c04f7058772df |
---|---|
oai_identifier_str |
oai:repositorio.ufes.br:10/4220 |
network_acronym_str |
UFES |
network_name_str |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
repository_id_str |
2108 |
spelling |
Freitas, Sérgio Antônio Andrade deBossois, Débora ZupeliGarcia, Berilhes BorgesPadilha, Emiliano Gomes2016-08-29T15:33:12Z2016-07-112016-08-29T15:33:12Z2010-08-30With the constant expansion of text content in electronic format comes the need to organize all this information in an operable way. Thus the text categorization process has been developed, aiming to make easier the manipulation and recovering of the information by separating it in thematic categories. There are many approaches to obtain an automatic text classi cation. Among then, the supervised learning is the most traditional. Though the supervised methodology is as much precise as the one obtained by human specialists, the obligatoriness of a pre-classi ed corpus might be a limiting factor in some applications. In those situations, a semi- or unsupervised solution can be applied, wich does not demands a complete and well formed set of training to the building of a classi er; on the contrary, only unlabeled documents for the method are supplied. Both the supervised and the semi- and unsupervised learning usually built a text representation based only in the occurrence of the terms, not taking in consideration semantic factors. However, many intrinsic characteristics of the natural language can make the process ambiguous, and one of these factors is the use of diverse terms to refer to one entity already presented in the text. This linguistic phenomena is called anaphora. This thesis proposes a method to concept an unsupervised classi er, using as a base the Nominal Structure of Speech (Estrututra Nominal do Discurso END, in Portuguese), developed by Freitas with the objective of solving anaphora, in [Freitas 2005]. To accomplish the objective, the bootstrapping technique for classi cation is implemented, aiming to obtain the inicial labeled training data, wich is used to generate a classifying model through the supervised learning. Besides being grounded on the END, this paper methodology is bene ted by the direct anaphora resolution process, using the antecedents identi ed for the anaphors, during the nal classi cation phase. This work presents details about the proposed methodol, as well as the trials and tests made to evaluate the method. The results show that the use of the anaphora resolution process is bene cial for an unsupervised learning system.Com a constante expansão do conteúdo textual em formato eletrônico, surge a necessidade de organizar toda essa informação de forma operável. Desenvolveu-se, então, o processo de categorização de textos, visando facilitar a manipulação e recuperação da informação a partir da sua separação em categorias temáticas. Há diversas abordagens para a obtenção de um categorizador automático de textos e, dentre elas, o paradigma supervisionado é o mais tradicional. Apesar de a metodologia supervisionada apresentar uma precisão comparável àquela obtida por especialistas humanos, a obrigatoriedade de um corpus pré-classificado pode ser um fator limitador em certas aplicações. Nessas situações, pode ser aplicada uma solução semi ou não supervisionada, que não exige um conjunto de treino completo e bem formado para a construção de um categorizador; pelo contrário, são somente fornecidos documentos não rotulados para o método. Tanto o paradigma de aprendizado de máquina supervisionado, quanto os paradigmas semi e não supervisionados, usualmente constroem uma representação dos textos baseado somente na ocorrência dos termos, não levando em conta fatores semânticos. Entretanto, muitas características intrínsecas da linguagem natural podem tornar o processo ambíguo, e um desses fatores é a utilização de termos diversos para a referência de uma entidade já apresentada no texto. A esse fenômeno linguístico, dá-se o nome de anáfora. Esta dissertação propõe um método para a concepção de um categorizador não supervisionado, utilizando como base a Estrutura Nominal do Discurso (END), desenvolvida por Freitas com o propósito de resolução de anáforas, em [Freitas 2005]. Para isso, a técnica de bootstrapping para categorização é implementada, objetivando a obtenção da rotulação inicial para os documentos, a qual é utilizada para gerar um modelo de categorização através do paradigma supervisionado. Além de ter sido fundamentada a partir da END, a metodologia deste trabalho se beneficia do processo de resolução de anáforas de forma direta, utilizando os antecedentes identificados para as anáforas, durante a fase final da categorização. O presente trabalho apresenta detalhes sobre a metodologia proposta, explanando os algoritmos desenvolvidos, bem como as experimentações realizadas para a avaliação do método. Os resultados mostram que a utilização do processo de resolução de anáforas é benéfica para um sistema de categorização não supervisionada.TextBOSSOIS, Débora Zupeli. Metodologia de categorização de textos a partir de documentos não rotulados utilizando um processo de resolução de anáforas. 2010. 109 f. Dissertação (Mestrado em Informática) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2010.http://repositorio.ufes.br/handle/10/4220porUniversidade Federal do Espírito SantoMestrado em InformáticaPrograma de Pós-Graduação em InformáticaUFESBRCentro TecnológicoProcessamento de textos (Computação)Anáfora (Linguística)Categorização (Lingüística)Ciência da Computação004Metodologia de categorização de textos a partir de documentos não rotulados utilizando um processo de resolução de anáforasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)instname:Universidade Federal do Espírito Santo (UFES)instacron:UFESORIGINALDissertação_3546_.pdfapplication/pdf1015846http://repositorio.ufes.br/bitstreams/370dd670-22f8-45b9-a17a-7393f654d2ed/downloada365d98c5659bc09311e6903f97c6e37MD5110/42202024-07-17 17:01:29.3oai:repositorio.ufes.br:10/4220http://repositorio.ufes.brRepositório InstitucionalPUBhttp://repositorio.ufes.br/oai/requestopendoar:21082024-10-15T18:01:48.036775Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES)false |
dc.title.none.fl_str_mv |
Metodologia de categorização de textos a partir de documentos não rotulados utilizando um processo de resolução de anáforas |
title |
Metodologia de categorização de textos a partir de documentos não rotulados utilizando um processo de resolução de anáforas |
spellingShingle |
Metodologia de categorização de textos a partir de documentos não rotulados utilizando um processo de resolução de anáforas Bossois, Débora Zupeli Ciência da Computação Processamento de textos (Computação) Anáfora (Linguística) Categorização (Lingüística) 004 |
title_short |
Metodologia de categorização de textos a partir de documentos não rotulados utilizando um processo de resolução de anáforas |
title_full |
Metodologia de categorização de textos a partir de documentos não rotulados utilizando um processo de resolução de anáforas |
title_fullStr |
Metodologia de categorização de textos a partir de documentos não rotulados utilizando um processo de resolução de anáforas |
title_full_unstemmed |
Metodologia de categorização de textos a partir de documentos não rotulados utilizando um processo de resolução de anáforas |
title_sort |
Metodologia de categorização de textos a partir de documentos não rotulados utilizando um processo de resolução de anáforas |
author |
Bossois, Débora Zupeli |
author_facet |
Bossois, Débora Zupeli |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Freitas, Sérgio Antônio Andrade de |
dc.contributor.author.fl_str_mv |
Bossois, Débora Zupeli |
dc.contributor.referee1.fl_str_mv |
Garcia, Berilhes Borges |
dc.contributor.referee2.fl_str_mv |
Padilha, Emiliano Gomes |
contributor_str_mv |
Freitas, Sérgio Antônio Andrade de Garcia, Berilhes Borges Padilha, Emiliano Gomes |
dc.subject.cnpq.fl_str_mv |
Ciência da Computação |
topic |
Ciência da Computação Processamento de textos (Computação) Anáfora (Linguística) Categorização (Lingüística) 004 |
dc.subject.br-rjbn.none.fl_str_mv |
Processamento de textos (Computação) Anáfora (Linguística) Categorização (Lingüística) |
dc.subject.udc.none.fl_str_mv |
004 |
description |
With the constant expansion of text content in electronic format comes the need to organize all this information in an operable way. Thus the text categorization process has been developed, aiming to make easier the manipulation and recovering of the information by separating it in thematic categories. There are many approaches to obtain an automatic text classi cation. Among then, the supervised learning is the most traditional. Though the supervised methodology is as much precise as the one obtained by human specialists, the obligatoriness of a pre-classi ed corpus might be a limiting factor in some applications. In those situations, a semi- or unsupervised solution can be applied, wich does not demands a complete and well formed set of training to the building of a classi er; on the contrary, only unlabeled documents for the method are supplied. Both the supervised and the semi- and unsupervised learning usually built a text representation based only in the occurrence of the terms, not taking in consideration semantic factors. However, many intrinsic characteristics of the natural language can make the process ambiguous, and one of these factors is the use of diverse terms to refer to one entity already presented in the text. This linguistic phenomena is called anaphora. This thesis proposes a method to concept an unsupervised classi er, using as a base the Nominal Structure of Speech (Estrututra Nominal do Discurso END, in Portuguese), developed by Freitas with the objective of solving anaphora, in [Freitas 2005]. To accomplish the objective, the bootstrapping technique for classi cation is implemented, aiming to obtain the inicial labeled training data, wich is used to generate a classifying model through the supervised learning. Besides being grounded on the END, this paper methodology is bene ted by the direct anaphora resolution process, using the antecedents identi ed for the anaphors, during the nal classi cation phase. This work presents details about the proposed methodol, as well as the trials and tests made to evaluate the method. The results show that the use of the anaphora resolution process is bene cial for an unsupervised learning system. |
publishDate |
2010 |
dc.date.issued.fl_str_mv |
2010-08-30 |
dc.date.accessioned.fl_str_mv |
2016-08-29T15:33:12Z |
dc.date.available.fl_str_mv |
2016-07-11 2016-08-29T15:33:12Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
BOSSOIS, Débora Zupeli. Metodologia de categorização de textos a partir de documentos não rotulados utilizando um processo de resolução de anáforas. 2010. 109 f. Dissertação (Mestrado em Informática) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2010. |
dc.identifier.uri.fl_str_mv |
http://repositorio.ufes.br/handle/10/4220 |
identifier_str_mv |
BOSSOIS, Débora Zupeli. Metodologia de categorização de textos a partir de documentos não rotulados utilizando um processo de resolução de anáforas. 2010. 109 f. Dissertação (Mestrado em Informática) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2010. |
url |
http://repositorio.ufes.br/handle/10/4220 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
Text |
dc.publisher.none.fl_str_mv |
Universidade Federal do Espírito Santo Mestrado em Informática |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Informática |
dc.publisher.initials.fl_str_mv |
UFES |
dc.publisher.country.fl_str_mv |
BR |
dc.publisher.department.fl_str_mv |
Centro Tecnológico |
publisher.none.fl_str_mv |
Universidade Federal do Espírito Santo Mestrado em Informática |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) instname:Universidade Federal do Espírito Santo (UFES) instacron:UFES |
instname_str |
Universidade Federal do Espírito Santo (UFES) |
instacron_str |
UFES |
institution |
UFES |
reponame_str |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
collection |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
bitstream.url.fl_str_mv |
http://repositorio.ufes.br/bitstreams/370dd670-22f8-45b9-a17a-7393f654d2ed/download |
bitstream.checksum.fl_str_mv |
a365d98c5659bc09311e6903f97c6e37 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES) |
repository.mail.fl_str_mv |
|
_version_ |
1813022573409075200 |