Um ambiente para avaliação de algoritmos de aprendizado de máquina simbólico utilizando exemplos.

Detalhes bibliográficos
Autor(a) principal: Batista, Gustavo Enrique de Almeida Prado Alves
Data de Publicação: 1997
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19082002-234842/
Resumo: Um sistema de aprendizado supervisionado é um programa capaz de realizar decisões baseado na experiência contida em casos resolvidos com sucesso. As regras de classificação induzidas por um sistema de aprendizado podem ser analisadas segundo dois critérios: a complexidade dessas regras e o erro de classificação sobre um conjunto independente de exemplos. Sistemas de aprendizado têm sido desenvolvidos na prática utilizando diferentes paradigmas incluindo estatística, redes neurais, bem como sistemas de aprendizado simbólico proposicionais e relacionais. Diversos métodos de aprendizado podem ser aplicados à mesma amostra de dados e alguns deles podem desempenhar melhor que outros. Para uma dada aplicação, não existem garantias que qualquer um desses métodos é necessariamente o melhor. Em outras palavras, não existe uma análise matemática que possa determinar se um algoritmo de aprendizado irá desempenhar melhor que outro. Desta forma, estudos experimentais são necessários. Neste trabalho nos concentramos em uma tarefa de aprendizado conhecida como classificação ou predição, na qual o problema consiste na construção de um procedimento de classificação a partir de um conjunto de casos no qual as classes verdadeiras são conhecidas, chamado de aprendizado supervisionado. O maior objetivo de um classificador é ser capaz de predizer com sucesso a respeito de novos casos. A performance de um classificador é medida em termos da taxa de erro. Técnicas experimentais para estimar a taxa de erro verdadeira não somente provêem uma base para comparar objetivamente as performances de diversos algoritmos de aprendizado no mesmo conjunto de exemplos, mas também podem ser uma ferramenta poderosa para projetar um classificador. As técnicas para estimar a taxa de erro são baseadas na teoria estatística de resampling. Um ambiente chamado AMPSAM foi implementado para ajudar na aplicação dos métodos de resampling em conjuntos de exemplos do mundo real. AMPSAM foi projetado como uma coleção de programas independentes, os quais podem interagir entre si através de scripts pré-definidos ou de novos scripts criados pelo usuário. O ambiente utiliza um formato padrão para arquivos de exemplos o qual é independente da sintaxe de qualquer algoritmo. AMPSAM também inclui ferramentas para particionar conjuntos de exemplos em conjuntos de treinamento e teste utilizando diferentes métodos de resampling. Além do método holdout, que é o estimador de taxa de erro mais comum, AMPSAM suporta os métodos n-fold cross-validation --- incluindo o leaning-one-out --- e o método bootstrap. As matrizes de confusão produzidas em cada iteração utilizando conjuntos de treinamento e teste podem ser fornecidas a um outro sistema implementado chamado SMEC. Este sistema calcula e mostra graficamente algumas das medidas descritivas mais importantes relacionadas com tendência central e dispersão dos dados. Este trabalho também relata os resultados experimentais a respeito de medidas do erro de classificação de três classificadores proposicionais e relacionais bem conhecidos, utilizando ambos os sistemas implementados, em diversos conjuntos de exemplos freqüentemente utilizados em pesquisas de Aprendizado de Máquina.
id USP_1e64be1feb959b1bd5184bc0e70d5752
oai_identifier_str oai:teses.usp.br:tde-19082002-234842
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Um ambiente para avaliação de algoritmos de aprendizado de máquina simbólico utilizando exemplos.An environment to evaluate machine learning algorithms.aprendizado de máquinaartificial intelligenceavaliação experimentaldata miningexperimental evaluationinteligência artificialmachine learningmineração de dadosUm sistema de aprendizado supervisionado é um programa capaz de realizar decisões baseado na experiência contida em casos resolvidos com sucesso. As regras de classificação induzidas por um sistema de aprendizado podem ser analisadas segundo dois critérios: a complexidade dessas regras e o erro de classificação sobre um conjunto independente de exemplos. Sistemas de aprendizado têm sido desenvolvidos na prática utilizando diferentes paradigmas incluindo estatística, redes neurais, bem como sistemas de aprendizado simbólico proposicionais e relacionais. Diversos métodos de aprendizado podem ser aplicados à mesma amostra de dados e alguns deles podem desempenhar melhor que outros. Para uma dada aplicação, não existem garantias que qualquer um desses métodos é necessariamente o melhor. Em outras palavras, não existe uma análise matemática que possa determinar se um algoritmo de aprendizado irá desempenhar melhor que outro. Desta forma, estudos experimentais são necessários. Neste trabalho nos concentramos em uma tarefa de aprendizado conhecida como classificação ou predição, na qual o problema consiste na construção de um procedimento de classificação a partir de um conjunto de casos no qual as classes verdadeiras são conhecidas, chamado de aprendizado supervisionado. O maior objetivo de um classificador é ser capaz de predizer com sucesso a respeito de novos casos. A performance de um classificador é medida em termos da taxa de erro. Técnicas experimentais para estimar a taxa de erro verdadeira não somente provêem uma base para comparar objetivamente as performances de diversos algoritmos de aprendizado no mesmo conjunto de exemplos, mas também podem ser uma ferramenta poderosa para projetar um classificador. As técnicas para estimar a taxa de erro são baseadas na teoria estatística de resampling. Um ambiente chamado AMPSAM foi implementado para ajudar na aplicação dos métodos de resampling em conjuntos de exemplos do mundo real. AMPSAM foi projetado como uma coleção de programas independentes, os quais podem interagir entre si através de scripts pré-definidos ou de novos scripts criados pelo usuário. O ambiente utiliza um formato padrão para arquivos de exemplos o qual é independente da sintaxe de qualquer algoritmo. AMPSAM também inclui ferramentas para particionar conjuntos de exemplos em conjuntos de treinamento e teste utilizando diferentes métodos de resampling. Além do método holdout, que é o estimador de taxa de erro mais comum, AMPSAM suporta os métodos n-fold cross-validation --- incluindo o leaning-one-out --- e o método bootstrap. As matrizes de confusão produzidas em cada iteração utilizando conjuntos de treinamento e teste podem ser fornecidas a um outro sistema implementado chamado SMEC. Este sistema calcula e mostra graficamente algumas das medidas descritivas mais importantes relacionadas com tendência central e dispersão dos dados. Este trabalho também relata os resultados experimentais a respeito de medidas do erro de classificação de três classificadores proposicionais e relacionais bem conhecidos, utilizando ambos os sistemas implementados, em diversos conjuntos de exemplos freqüentemente utilizados em pesquisas de Aprendizado de Máquina.A learning system is a computer program that makes decisions based on the accumulative experience contained in successfully solved cases. The classification rules induced by a learning system are judged by two criteria: their classification error on an independent test set and their complexity. Practical learning systems have been developed using different paradigms including statistics, neural nets, as well as propositional and relational symbolic machine learning. Several learning methods can be applied to the same sample data and some of them may do better than others. Still, for a given application, there is no guarantee that any of these methods will work or that any single method is necessarily the best one. In other words, there is not a mathematical analysis method that can determine whether a learning system algorithm will work well. Hence, experimental studies are required. In this work we confine our attention to the learning task known as classification or prediction, where the problem concerns the construction of a classification procedure from a set of data for which the true classes are known, and is termed supervised learning. The overall objective of a classifier is to be able to predict successfully on new data. Performance is measured in terms of the error rate. Error rate estimation techniques not only provide a basis for objectively comparing the error rate of several classifiers on the same data and then estimating their future performance on new data, but they can also be a powerful tool for designing a classifier. The techniques of error rate estimation are based on statistical resampling theory. In this work, rules induced complexity of propositional and relational learning systems as well as several resampling methods to estimate the true error rate are discussed. An environment called AMPSAM has been implemented to aid in the application of resampling methods to real world data sets. AMPSAM consists of a collection of interdependent programs that can be bound together either by already defined or by new user defined scripts. The environment uses a common file format for data sets which is independent of any specific classifier scheme. It also includes facilities for splitting data sets up into test and training sets using different methods. Besides holdout, which is the most common accuracy estimation method, AMPSAM supports n-fold cross-validation --- including leaving-one-out --- and bootstrap. The confusion matrices produced in each run using those test and training sets can be input to another system called SMEC. This system calculates and graphically displays some of the most important descriptive measures related to central tendency and dispersion of those data. This work also reports the results of experiments measuring the classification error of three well known propositional and relational classifiers, using the implemented systems, on several data sets commonly used in Machine Learning research.Biblioteca Digitais de Teses e Dissertações da USPMonard, Maria CarolinaBatista, Gustavo Enrique de Almeida Prado Alves1997-10-15info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/55/55134/tde-19082002-234842/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2016-07-28T16:08:16Zoai:teses.usp.br:tde-19082002-234842Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212016-07-28T16:08:16Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Um ambiente para avaliação de algoritmos de aprendizado de máquina simbólico utilizando exemplos.
An environment to evaluate machine learning algorithms.
title Um ambiente para avaliação de algoritmos de aprendizado de máquina simbólico utilizando exemplos.
spellingShingle Um ambiente para avaliação de algoritmos de aprendizado de máquina simbólico utilizando exemplos.
Batista, Gustavo Enrique de Almeida Prado Alves
aprendizado de máquina
artificial intelligence
avaliação experimental
data mining
experimental evaluation
inteligência artificial
machine learning
mineração de dados
title_short Um ambiente para avaliação de algoritmos de aprendizado de máquina simbólico utilizando exemplos.
title_full Um ambiente para avaliação de algoritmos de aprendizado de máquina simbólico utilizando exemplos.
title_fullStr Um ambiente para avaliação de algoritmos de aprendizado de máquina simbólico utilizando exemplos.
title_full_unstemmed Um ambiente para avaliação de algoritmos de aprendizado de máquina simbólico utilizando exemplos.
title_sort Um ambiente para avaliação de algoritmos de aprendizado de máquina simbólico utilizando exemplos.
author Batista, Gustavo Enrique de Almeida Prado Alves
author_facet Batista, Gustavo Enrique de Almeida Prado Alves
author_role author
dc.contributor.none.fl_str_mv Monard, Maria Carolina
dc.contributor.author.fl_str_mv Batista, Gustavo Enrique de Almeida Prado Alves
dc.subject.por.fl_str_mv aprendizado de máquina
artificial intelligence
avaliação experimental
data mining
experimental evaluation
inteligência artificial
machine learning
mineração de dados
topic aprendizado de máquina
artificial intelligence
avaliação experimental
data mining
experimental evaluation
inteligência artificial
machine learning
mineração de dados
description Um sistema de aprendizado supervisionado é um programa capaz de realizar decisões baseado na experiência contida em casos resolvidos com sucesso. As regras de classificação induzidas por um sistema de aprendizado podem ser analisadas segundo dois critérios: a complexidade dessas regras e o erro de classificação sobre um conjunto independente de exemplos. Sistemas de aprendizado têm sido desenvolvidos na prática utilizando diferentes paradigmas incluindo estatística, redes neurais, bem como sistemas de aprendizado simbólico proposicionais e relacionais. Diversos métodos de aprendizado podem ser aplicados à mesma amostra de dados e alguns deles podem desempenhar melhor que outros. Para uma dada aplicação, não existem garantias que qualquer um desses métodos é necessariamente o melhor. Em outras palavras, não existe uma análise matemática que possa determinar se um algoritmo de aprendizado irá desempenhar melhor que outro. Desta forma, estudos experimentais são necessários. Neste trabalho nos concentramos em uma tarefa de aprendizado conhecida como classificação ou predição, na qual o problema consiste na construção de um procedimento de classificação a partir de um conjunto de casos no qual as classes verdadeiras são conhecidas, chamado de aprendizado supervisionado. O maior objetivo de um classificador é ser capaz de predizer com sucesso a respeito de novos casos. A performance de um classificador é medida em termos da taxa de erro. Técnicas experimentais para estimar a taxa de erro verdadeira não somente provêem uma base para comparar objetivamente as performances de diversos algoritmos de aprendizado no mesmo conjunto de exemplos, mas também podem ser uma ferramenta poderosa para projetar um classificador. As técnicas para estimar a taxa de erro são baseadas na teoria estatística de resampling. Um ambiente chamado AMPSAM foi implementado para ajudar na aplicação dos métodos de resampling em conjuntos de exemplos do mundo real. AMPSAM foi projetado como uma coleção de programas independentes, os quais podem interagir entre si através de scripts pré-definidos ou de novos scripts criados pelo usuário. O ambiente utiliza um formato padrão para arquivos de exemplos o qual é independente da sintaxe de qualquer algoritmo. AMPSAM também inclui ferramentas para particionar conjuntos de exemplos em conjuntos de treinamento e teste utilizando diferentes métodos de resampling. Além do método holdout, que é o estimador de taxa de erro mais comum, AMPSAM suporta os métodos n-fold cross-validation --- incluindo o leaning-one-out --- e o método bootstrap. As matrizes de confusão produzidas em cada iteração utilizando conjuntos de treinamento e teste podem ser fornecidas a um outro sistema implementado chamado SMEC. Este sistema calcula e mostra graficamente algumas das medidas descritivas mais importantes relacionadas com tendência central e dispersão dos dados. Este trabalho também relata os resultados experimentais a respeito de medidas do erro de classificação de três classificadores proposicionais e relacionais bem conhecidos, utilizando ambos os sistemas implementados, em diversos conjuntos de exemplos freqüentemente utilizados em pesquisas de Aprendizado de Máquina.
publishDate 1997
dc.date.none.fl_str_mv 1997-10-15
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19082002-234842/
url http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19082002-234842/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257175112548352