Credibilidade de exemplos em classificação automática

Detalhes bibliográficos
Autor(a) principal: Joao Rafael de Moura Palotti
Data de Publicação: 2011
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/SLSS-8M3MZS
Resumo: Organizar e recuperar grandes quantidades de informação tornaram-se tarefas de extrema importância, principalmente nas áreas de Mineração de Dados e Recuperação de Informação, responsáveis por estudar uma maneira de lidar com essa explosão de dados. Dentre as diversas tarefas estudadas por essas duas áreas destacamos a Classificação Automática de dados.Nessa dissertação, tratamos o problema de classificar automaticamente a informação disponível. Em especial, esse trabalho foi desenvolvido em cima da ideia de que nem todos os exemplos de uma base de treinamento devem contribuir igualmente para a construção do modelo de classificação e, portanto, considerar que alguns exemplos são mais confiáveis que outros pode aumentar a eficácia do classificador. Para lidar com esse problema, propomos estimar e empregar funções de credibilidade capazes de capturar o quanto um classificador pode confiar em um exemplo ao gerar o modelo.A credibilidade é considerada na literatura como dependente do contexto no qual está inserida, além de ser também dependente de quem a estima. Para tornar mais objetiva sua avaliação, recomenda-se que sejam definidos os fatores que influenciam no seu cálculo. Definimos que, do ponto de vista de um classificador, dois fatores são cruciais: as relações atributos/classe e relacionamentos entre exemplos. Relações atributos/classe podem ser facilmente extraídas utilizando um grande conjunto de métricas previamente propostas na literatura, principalmente para a tarefa de seleção de atributos. Relacionamentos entre exemplos podem ser criados a partir de uma característica presente na base. Por exemplo, no contexto de classificação de documentos, já foi mostrado que redes de citações e autorias (que relacionam dois documentos de acordo com seus autores ou artigos citados) provêem grande fonte de informação para classificação. Diversas métricas da literatura de redes complexas podem ser utilizadas para quantificar esses relacionamentos.Baseados nesses dois fatores, selecionamos 30 métricas para explorar a credibilidade dos atributos e 16 para os relacionamentos. Elas foram inspiradas em métricas presentes na literatura que indicam a separação entre as classes e investigam as características dos relacionamentos entre os exemplos. Porém, fica difícil dizer qual dessas métricas seria mais apropriada para estimar a credibilidade de um exemplo. Assim, por possuirmos um grande número de métricas para cada fator, após experimentos com métricas isoladas, criamos um algoritmo de Programação Genética para melhor explorar esse espaço de métricas, gerando funções de credibilidade capazes de melhorar a eficácia de classificadores se associadas a eles.A programação genética é um algoritmo baseado nos princípios de evolução de Darwin, capaz de percorrer, de forma robusta e eficaz, o grande espaço de busca com que estamos trabalhando. As funções evoluídas foram então incorporadas a dois algoritmos de classificação: o Nave Bayes e o KNN. Experimentos foram realizados com três tipos de bases de dados: bases de documentos, bases da UCI com atributos exclusivamente categóricos e uma grande base de assinaturas proteicas. Os resultados mostram ganhos consideráveis em todos os cenários, culminando em melhorias de até 17.51% na MacroF1 da base Ohsumed e de 26.58% e 50.78% na MicroF1 e MacroF1 da base de assinaturas estruturais proteicas.
id UFMG_a27798a83069b05c44f64863352dc623
oai_identifier_str oai:repositorio.ufmg.br:1843/SLSS-8M3MZS
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Gisele Lobo PappaAdriano Alonso VelosoMarcos Andre GoncalvesAurora Trinidad Ramirez PozoJoao Rafael de Moura Palotti2019-08-11T16:19:18Z2019-08-11T16:19:18Z2011-09-23http://hdl.handle.net/1843/SLSS-8M3MZSOrganizar e recuperar grandes quantidades de informação tornaram-se tarefas de extrema importância, principalmente nas áreas de Mineração de Dados e Recuperação de Informação, responsáveis por estudar uma maneira de lidar com essa explosão de dados. Dentre as diversas tarefas estudadas por essas duas áreas destacamos a Classificação Automática de dados.Nessa dissertação, tratamos o problema de classificar automaticamente a informação disponível. Em especial, esse trabalho foi desenvolvido em cima da ideia de que nem todos os exemplos de uma base de treinamento devem contribuir igualmente para a construção do modelo de classificação e, portanto, considerar que alguns exemplos são mais confiáveis que outros pode aumentar a eficácia do classificador. Para lidar com esse problema, propomos estimar e empregar funções de credibilidade capazes de capturar o quanto um classificador pode confiar em um exemplo ao gerar o modelo.A credibilidade é considerada na literatura como dependente do contexto no qual está inserida, além de ser também dependente de quem a estima. Para tornar mais objetiva sua avaliação, recomenda-se que sejam definidos os fatores que influenciam no seu cálculo. Definimos que, do ponto de vista de um classificador, dois fatores são cruciais: as relações atributos/classe e relacionamentos entre exemplos. Relações atributos/classe podem ser facilmente extraídas utilizando um grande conjunto de métricas previamente propostas na literatura, principalmente para a tarefa de seleção de atributos. Relacionamentos entre exemplos podem ser criados a partir de uma característica presente na base. Por exemplo, no contexto de classificação de documentos, já foi mostrado que redes de citações e autorias (que relacionam dois documentos de acordo com seus autores ou artigos citados) provêem grande fonte de informação para classificação. Diversas métricas da literatura de redes complexas podem ser utilizadas para quantificar esses relacionamentos.Baseados nesses dois fatores, selecionamos 30 métricas para explorar a credibilidade dos atributos e 16 para os relacionamentos. Elas foram inspiradas em métricas presentes na literatura que indicam a separação entre as classes e investigam as características dos relacionamentos entre os exemplos. Porém, fica difícil dizer qual dessas métricas seria mais apropriada para estimar a credibilidade de um exemplo. Assim, por possuirmos um grande número de métricas para cada fator, após experimentos com métricas isoladas, criamos um algoritmo de Programação Genética para melhor explorar esse espaço de métricas, gerando funções de credibilidade capazes de melhorar a eficácia de classificadores se associadas a eles.A programação genética é um algoritmo baseado nos princípios de evolução de Darwin, capaz de percorrer, de forma robusta e eficaz, o grande espaço de busca com que estamos trabalhando. As funções evoluídas foram então incorporadas a dois algoritmos de classificação: o Nave Bayes e o KNN. Experimentos foram realizados com três tipos de bases de dados: bases de documentos, bases da UCI com atributos exclusivamente categóricos e uma grande base de assinaturas proteicas. Os resultados mostram ganhos consideráveis em todos os cenários, culminando em melhorias de até 17.51% na MacroF1 da base Ohsumed e de 26.58% e 50.78% na MicroF1 e MacroF1 da base de assinaturas estruturais proteicas.Organization and recovery of large amounts of information became tasks of extreme importance, especially on the areas of Data Mining and Information Recovery, which are responsible for finding a way to deal with this data explosion. Among the topics studied in these two areas, there is the Automatic Classification of data.In this thesis, we treat the problem of automatically classifying the available information. In particular, this work was developed on the consideration that not all examples in a training set contribute equally to the construction of a classification model, so, assuming that some examples are more trustworthy than others can increase the effectiveness of the classifier. To deal with this problem, we propose the use of credibility functions capable of capturing how much a classifier should trust an example while generating the model.Credibility in the literature is considered as context dependent and also dependent on who is estimating it. To make its evaluation more objective, it is recommended that the factors used for its calculation are defined. We defined that, from the classifier's view, there are two crucial factors: the attribute/class relations and relationships among examples. The attribute/class relation can be easily extracted using lots of metrics already proposed in the literature, especially for the task of selecting the attributes. The relationships among the examples can be deduced from a feature that appear in the database. For example, in the context of document classification, it is shown that the networks of citations and authorship (which relate two documents based on its authors or citations) are a big source of information for the classification. Several metrics of complex networks can be used to quantify these relationships.Given these two factors, we selected 30 and 16 metrics to explore the attributes' and relationships' credibility respectively. They were inspired in metrics that occur in the literature, and indicate the separation among the classes and investigate characteristics of the relationship between the examples. Nevertheless, it is hard to tell which of these metrics is more appropriate to estimate the credibility of an example. So, since there is a big number of metrics for each factor, after some experiments with isolated metrics, we developed a Genetic Programming algorithm to better explore this search space, generating credibility functions capable of improving the effectiveness of classifiers associated with it.Genetic programming is an algorithm based on Darwin's theory of evolution, capable of traversing the search space of functions in a robust and effective way. The evolved functions were then incorporated to two classification algorithms: Naive Bayes and KNN. Experiments have been run using three different kinds of databases: document databases, UCI databases of categorical attributes and a protein signature database. The results show considerable improvement of the classification in all cases. In particular, for the database Oshmed, MacroF1 was improved by 17.51%, and for the protein signature database, Micro$F_1$ and Macro$F_1$ were improved by 26.58% and 50.78% respectively.Universidade Federal de Minas GeraisUFMGComputaçãoMineração de dados (Computação)Sistemas de recuperação da informaçãoClassificação automáticaProgramação genéticaCredibilidadeCredibilidade de exemplos em classificação automáticainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALjoaorafaelmourapalotti.pdfapplication/pdf4134874https://repositorio.ufmg.br/bitstream/1843/SLSS-8M3MZS/1/joaorafaelmourapalotti.pdfe435ad9b220a0f5a7af2fe073fef02bcMD51TEXTjoaorafaelmourapalotti.pdf.txtjoaorafaelmourapalotti.pdf.txtExtracted texttext/plain192301https://repositorio.ufmg.br/bitstream/1843/SLSS-8M3MZS/2/joaorafaelmourapalotti.pdf.txta4ac88369af5061fb4f4494c96403d25MD521843/SLSS-8M3MZS2019-11-14 07:25:12.358oai:repositorio.ufmg.br:1843/SLSS-8M3MZSRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T10:25:12Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Credibilidade de exemplos em classificação automática
title Credibilidade de exemplos em classificação automática
spellingShingle Credibilidade de exemplos em classificação automática
Joao Rafael de Moura Palotti
Classificação automática
Programação genética
Credibilidade
Computação
Mineração de dados (Computação)
Sistemas de recuperação da informação
title_short Credibilidade de exemplos em classificação automática
title_full Credibilidade de exemplos em classificação automática
title_fullStr Credibilidade de exemplos em classificação automática
title_full_unstemmed Credibilidade de exemplos em classificação automática
title_sort Credibilidade de exemplos em classificação automática
author Joao Rafael de Moura Palotti
author_facet Joao Rafael de Moura Palotti
author_role author
dc.contributor.advisor1.fl_str_mv Gisele Lobo Pappa
dc.contributor.referee1.fl_str_mv Adriano Alonso Veloso
dc.contributor.referee2.fl_str_mv Marcos Andre Goncalves
dc.contributor.referee3.fl_str_mv Aurora Trinidad Ramirez Pozo
dc.contributor.author.fl_str_mv Joao Rafael de Moura Palotti
contributor_str_mv Gisele Lobo Pappa
Adriano Alonso Veloso
Marcos Andre Goncalves
Aurora Trinidad Ramirez Pozo
dc.subject.por.fl_str_mv Classificação automática
Programação genética
Credibilidade
topic Classificação automática
Programação genética
Credibilidade
Computação
Mineração de dados (Computação)
Sistemas de recuperação da informação
dc.subject.other.pt_BR.fl_str_mv Computação
Mineração de dados (Computação)
Sistemas de recuperação da informação
description Organizar e recuperar grandes quantidades de informação tornaram-se tarefas de extrema importância, principalmente nas áreas de Mineração de Dados e Recuperação de Informação, responsáveis por estudar uma maneira de lidar com essa explosão de dados. Dentre as diversas tarefas estudadas por essas duas áreas destacamos a Classificação Automática de dados.Nessa dissertação, tratamos o problema de classificar automaticamente a informação disponível. Em especial, esse trabalho foi desenvolvido em cima da ideia de que nem todos os exemplos de uma base de treinamento devem contribuir igualmente para a construção do modelo de classificação e, portanto, considerar que alguns exemplos são mais confiáveis que outros pode aumentar a eficácia do classificador. Para lidar com esse problema, propomos estimar e empregar funções de credibilidade capazes de capturar o quanto um classificador pode confiar em um exemplo ao gerar o modelo.A credibilidade é considerada na literatura como dependente do contexto no qual está inserida, além de ser também dependente de quem a estima. Para tornar mais objetiva sua avaliação, recomenda-se que sejam definidos os fatores que influenciam no seu cálculo. Definimos que, do ponto de vista de um classificador, dois fatores são cruciais: as relações atributos/classe e relacionamentos entre exemplos. Relações atributos/classe podem ser facilmente extraídas utilizando um grande conjunto de métricas previamente propostas na literatura, principalmente para a tarefa de seleção de atributos. Relacionamentos entre exemplos podem ser criados a partir de uma característica presente na base. Por exemplo, no contexto de classificação de documentos, já foi mostrado que redes de citações e autorias (que relacionam dois documentos de acordo com seus autores ou artigos citados) provêem grande fonte de informação para classificação. Diversas métricas da literatura de redes complexas podem ser utilizadas para quantificar esses relacionamentos.Baseados nesses dois fatores, selecionamos 30 métricas para explorar a credibilidade dos atributos e 16 para os relacionamentos. Elas foram inspiradas em métricas presentes na literatura que indicam a separação entre as classes e investigam as características dos relacionamentos entre os exemplos. Porém, fica difícil dizer qual dessas métricas seria mais apropriada para estimar a credibilidade de um exemplo. Assim, por possuirmos um grande número de métricas para cada fator, após experimentos com métricas isoladas, criamos um algoritmo de Programação Genética para melhor explorar esse espaço de métricas, gerando funções de credibilidade capazes de melhorar a eficácia de classificadores se associadas a eles.A programação genética é um algoritmo baseado nos princípios de evolução de Darwin, capaz de percorrer, de forma robusta e eficaz, o grande espaço de busca com que estamos trabalhando. As funções evoluídas foram então incorporadas a dois algoritmos de classificação: o Nave Bayes e o KNN. Experimentos foram realizados com três tipos de bases de dados: bases de documentos, bases da UCI com atributos exclusivamente categóricos e uma grande base de assinaturas proteicas. Os resultados mostram ganhos consideráveis em todos os cenários, culminando em melhorias de até 17.51% na MacroF1 da base Ohsumed e de 26.58% e 50.78% na MicroF1 e MacroF1 da base de assinaturas estruturais proteicas.
publishDate 2011
dc.date.issued.fl_str_mv 2011-09-23
dc.date.accessioned.fl_str_mv 2019-08-11T16:19:18Z
dc.date.available.fl_str_mv 2019-08-11T16:19:18Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/SLSS-8M3MZS
url http://hdl.handle.net/1843/SLSS-8M3MZS
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/SLSS-8M3MZS/1/joaorafaelmourapalotti.pdf
https://repositorio.ufmg.br/bitstream/1843/SLSS-8M3MZS/2/joaorafaelmourapalotti.pdf.txt
bitstream.checksum.fl_str_mv e435ad9b220a0f5a7af2fe073fef02bc
a4ac88369af5061fb4f4494c96403d25
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589409618001920