AN AUTOMATIC PREPROCESSING FOR TEXT MINING IN PORTUGUESE: A COMPUTER-AIDED APPROACH

Detalhes bibliográficos
Autor(a) principal: CHRISTIAN NUNES ARANHA
Data de Publicação: 2007
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da PUC-RIO (Projeto Maxwell)
Texto Completo: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=10081@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=10081@2
Resumo: O presente trabalho apresenta uma pesquisa onde é proposto um novo modelo de pré-processamento para mineração de textos em português utilizando técnicas de inteligência computacional baseadas em conceitos existentes, como redes neurais, sistemas dinâmicos, e estatística multidimensional. O objetivo dessa tese de doutorado é, portanto, inovar na fase de pré- processamento da mineração de textos, propondo um modelo automático de enriquecimento de dados textuais. Essa abordagem se apresenta como uma extensão do tradicional modelo de conjunto de palavras (bag-of-words), de preocupação mais estatística, e propõe um modelo do tipo conjunto de lexemas (bag-of-lexems) com maior aproveitamento do conteúdo lingüístico do texto em uma abordagem mais computacional, proporcionando resultados mais eficientes. O trabalho é complementado com o desenvolvimento e implementação de um sistema de préprocessamento de textos, que torna automática essa fase do processo de mineração de textos ora proposto. Apesar do objeto principal desta tese ser a etapa de préprocessamento, passaremos, de forma não muito aprofundada, por todas as etapas do processo de mineração de textos com o intuito de fornecer a teoria base completa para o entendimento do processo como um todo. Além de apresentar a teoria de cada etapa, individualmente, é executado um processamento completo (com coleta de dados, indexação, pré-processamento, mineração e pósprocessamento) utilizando nas outras etapas modelos já consagrados na literatura que tiveram sua implementação realizada durante esse trabalho. Ao final são mostradas funcionalidades e algumas aplicações como: classificação de documentos, extração de informações e interface de linguagem natural (ILN).
id PUC_RIO-1_63510bd264d53babce9e75248b9ff8fe
oai_identifier_str oai:MAXWELL.puc-rio.br:10081
network_acronym_str PUC_RIO-1
network_name_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str 534
spelling info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisAN AUTOMATIC PREPROCESSING FOR TEXT MINING IN PORTUGUESE: A COMPUTER-AIDED APPROACHUMA ABORDAGEM DE PRÉ-PROCESSAMENTO AUTOMÁTICO PARA MINERAÇÃO DE TEXTOS EM PORTUGUÊS: SOB O ENFOQUE DA INTELIGENCIA COMPUTACIONAL2007-03-28MARLEY MARIA BERNARDES REBUZZI VELLASCO75758385700lattes.cnpq.br/8265116967095452EMMANUEL PISECES LOPES PASSOS03804518753lattes.cnpq.br/7364893360897168EMMANUEL PISECES LOPES PASSOS03804518753lattes.cnpq.br/7364893360897168MARLEY MARIA BERNARDES REBUZZI VELLASCOVALERIA MENEZES BASTOSANTONIO LUZ FURTADOMARIA CARMELITA PADUA DIASMARCO AURELIO CAVALCANTI PACHECO07253767756CHRISTIAN NUNES ARANHAPONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIROPPG EM ENGENHARIA ELÉTRICAPUC-RioBRO presente trabalho apresenta uma pesquisa onde é proposto um novo modelo de pré-processamento para mineração de textos em português utilizando técnicas de inteligência computacional baseadas em conceitos existentes, como redes neurais, sistemas dinâmicos, e estatística multidimensional. O objetivo dessa tese de doutorado é, portanto, inovar na fase de pré- processamento da mineração de textos, propondo um modelo automático de enriquecimento de dados textuais. Essa abordagem se apresenta como uma extensão do tradicional modelo de conjunto de palavras (bag-of-words), de preocupação mais estatística, e propõe um modelo do tipo conjunto de lexemas (bag-of-lexems) com maior aproveitamento do conteúdo lingüístico do texto em uma abordagem mais computacional, proporcionando resultados mais eficientes. O trabalho é complementado com o desenvolvimento e implementação de um sistema de préprocessamento de textos, que torna automática essa fase do processo de mineração de textos ora proposto. Apesar do objeto principal desta tese ser a etapa de préprocessamento, passaremos, de forma não muito aprofundada, por todas as etapas do processo de mineração de textos com o intuito de fornecer a teoria base completa para o entendimento do processo como um todo. Além de apresentar a teoria de cada etapa, individualmente, é executado um processamento completo (com coleta de dados, indexação, pré-processamento, mineração e pósprocessamento) utilizando nas outras etapas modelos já consagrados na literatura que tiveram sua implementação realizada durante esse trabalho. Ao final são mostradas funcionalidades e algumas aplicações como: classificação de documentos, extração de informações e interface de linguagem natural (ILN).This work presents a research that proposes a new model of pre-processing for text mining in portuguese using computational intelligence techniques based on existing concepts, such as neural networks, dinamic systems and multidimensional statistics. The object of this doctoral thesis is, therefore, innovation in the pre-processing phase of text-mining, proposing an automatic model for the enrichment of textual data. This approach is presented as an extension of the traditional bag-of-words model, that has a more statistical emphasis, and proposes a bag-of-lexemes model with greater usage of the texts' linguistic content in a more computational approach, providing more efficient results. The work is complemented by the development and implementation of a text pre-processing system that automates this phase of th text mining process as proposed. Despite the object of this thesis being the pre- processing stage, one feels apropriate to describe, in overview, every step of the text mining process in order to provide the basic theory necessary to understand the process as a whole. Beyond presenting the theory of every stage individually, one executes a complete process (with data collection, indexing, pre-processing, mining and postprocessing) using tried-and-true models in all the other stages, which were implemented during the development of this work. At last some functionalities and aplications are shown, such as: document classification, information extraction and natural language interface (NLI).CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICOhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=10081@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=10081@2porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2022-11-01T12:55:14Zoai:MAXWELL.puc-rio.br:10081Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342018-10-05T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.en.fl_str_mv AN AUTOMATIC PREPROCESSING FOR TEXT MINING IN PORTUGUESE: A COMPUTER-AIDED APPROACH
dc.title.alternative.pt.fl_str_mv UMA ABORDAGEM DE PRÉ-PROCESSAMENTO AUTOMÁTICO PARA MINERAÇÃO DE TEXTOS EM PORTUGUÊS: SOB O ENFOQUE DA INTELIGENCIA COMPUTACIONAL
title AN AUTOMATIC PREPROCESSING FOR TEXT MINING IN PORTUGUESE: A COMPUTER-AIDED APPROACH
spellingShingle AN AUTOMATIC PREPROCESSING FOR TEXT MINING IN PORTUGUESE: A COMPUTER-AIDED APPROACH
CHRISTIAN NUNES ARANHA
title_short AN AUTOMATIC PREPROCESSING FOR TEXT MINING IN PORTUGUESE: A COMPUTER-AIDED APPROACH
title_full AN AUTOMATIC PREPROCESSING FOR TEXT MINING IN PORTUGUESE: A COMPUTER-AIDED APPROACH
title_fullStr AN AUTOMATIC PREPROCESSING FOR TEXT MINING IN PORTUGUESE: A COMPUTER-AIDED APPROACH
title_full_unstemmed AN AUTOMATIC PREPROCESSING FOR TEXT MINING IN PORTUGUESE: A COMPUTER-AIDED APPROACH
title_sort AN AUTOMATIC PREPROCESSING FOR TEXT MINING IN PORTUGUESE: A COMPUTER-AIDED APPROACH
dc.creator.Lattes.none.fl_str_mv
author CHRISTIAN NUNES ARANHA
author_facet CHRISTIAN NUNES ARANHA
author_role author
dc.contributor.advisor1.fl_str_mv MARLEY MARIA BERNARDES REBUZZI VELLASCO
dc.contributor.advisor1ID.fl_str_mv 75758385700
dc.contributor.advisor1Lattes.fl_str_mv lattes.cnpq.br/8265116967095452
dc.contributor.advisor-co1.fl_str_mv EMMANUEL PISECES LOPES PASSOS
dc.contributor.advisor-co1ID.fl_str_mv 03804518753
dc.contributor.advisor-co1Lattes.fl_str_mv lattes.cnpq.br/7364893360897168
dc.contributor.advisor-co2.fl_str_mv EMMANUEL PISECES LOPES PASSOS
dc.contributor.advisor-co2ID.fl_str_mv 03804518753
dc.contributor.advisor-co2Lattes.fl_str_mv lattes.cnpq.br/7364893360897168
dc.contributor.referee1.fl_str_mv MARLEY MARIA BERNARDES REBUZZI VELLASCO
dc.contributor.referee2.fl_str_mv VALERIA MENEZES BASTOS
dc.contributor.referee3.fl_str_mv ANTONIO LUZ FURTADO
dc.contributor.referee4.fl_str_mv MARIA CARMELITA PADUA DIAS
dc.contributor.referee5.fl_str_mv MARCO AURELIO CAVALCANTI PACHECO
dc.contributor.authorID.fl_str_mv 07253767756
dc.contributor.author.fl_str_mv CHRISTIAN NUNES ARANHA
contributor_str_mv MARLEY MARIA BERNARDES REBUZZI VELLASCO
EMMANUEL PISECES LOPES PASSOS
EMMANUEL PISECES LOPES PASSOS
MARLEY MARIA BERNARDES REBUZZI VELLASCO
VALERIA MENEZES BASTOS
ANTONIO LUZ FURTADO
MARIA CARMELITA PADUA DIAS
MARCO AURELIO CAVALCANTI PACHECO
description O presente trabalho apresenta uma pesquisa onde é proposto um novo modelo de pré-processamento para mineração de textos em português utilizando técnicas de inteligência computacional baseadas em conceitos existentes, como redes neurais, sistemas dinâmicos, e estatística multidimensional. O objetivo dessa tese de doutorado é, portanto, inovar na fase de pré- processamento da mineração de textos, propondo um modelo automático de enriquecimento de dados textuais. Essa abordagem se apresenta como uma extensão do tradicional modelo de conjunto de palavras (bag-of-words), de preocupação mais estatística, e propõe um modelo do tipo conjunto de lexemas (bag-of-lexems) com maior aproveitamento do conteúdo lingüístico do texto em uma abordagem mais computacional, proporcionando resultados mais eficientes. O trabalho é complementado com o desenvolvimento e implementação de um sistema de préprocessamento de textos, que torna automática essa fase do processo de mineração de textos ora proposto. Apesar do objeto principal desta tese ser a etapa de préprocessamento, passaremos, de forma não muito aprofundada, por todas as etapas do processo de mineração de textos com o intuito de fornecer a teoria base completa para o entendimento do processo como um todo. Além de apresentar a teoria de cada etapa, individualmente, é executado um processamento completo (com coleta de dados, indexação, pré-processamento, mineração e pósprocessamento) utilizando nas outras etapas modelos já consagrados na literatura que tiveram sua implementação realizada durante esse trabalho. Ao final são mostradas funcionalidades e algumas aplicações como: classificação de documentos, extração de informações e interface de linguagem natural (ILN).
publishDate 2007
dc.date.issued.fl_str_mv 2007-03-28
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=10081@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=10081@2
url https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=10081@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=10081@2
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
dc.publisher.program.fl_str_mv PPG EM ENGENHARIA ELÉTRICA
dc.publisher.initials.fl_str_mv PUC-Rio
dc.publisher.country.fl_str_mv BR
publisher.none.fl_str_mv PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
dc.source.none.fl_str_mv reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)
instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron:PUC_RIO
instname_str Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str PUC_RIO
institution PUC_RIO
reponame_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_ 1748324893684924416