Credibilidade de exemplos em classificação automática

Joao Rafael de Moura Palotti

Credibilidade de exemplos em classificação automática

Detalhes bibliográficos
Autor(a) principal:	Joao Rafael de Moura Palotti
Data de Publicação:	2011
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFMG
Texto Completo:	http://hdl.handle.net/1843/SLSS-8M3MZS
Resumo:	Organizar e recuperar grandes quantidades de informação tornaram-se tarefas de extrema importância, principalmente nas áreas de Mineração de Dados e Recuperação de Informação, responsáveis por estudar uma maneira de lidar com essa explosão de dados. Dentre as diversas tarefas estudadas por essas duas áreas destacamos a Classificação Automática de dados.Nessa dissertação, tratamos o problema de classificar automaticamente a informação disponível. Em especial, esse trabalho foi desenvolvido em cima da ideia de que nem todos os exemplos de uma base de treinamento devem contribuir igualmente para a construção do modelo de classificação e, portanto, considerar que alguns exemplos são mais confiáveis que outros pode aumentar a eficácia do classificador. Para lidar com esse problema, propomos estimar e empregar funções de credibilidade capazes de capturar o quanto um classificador pode confiar em um exemplo ao gerar o modelo.A credibilidade é considerada na literatura como dependente do contexto no qual está inserida, além de ser também dependente de quem a estima. Para tornar mais objetiva sua avaliação, recomenda-se que sejam definidos os fatores que influenciam no seu cálculo. Definimos que, do ponto de vista de um classificador, dois fatores são cruciais: as relações atributos/classe e relacionamentos entre exemplos. Relações atributos/classe podem ser facilmente extraídas utilizando um grande conjunto de métricas previamente propostas na literatura, principalmente para a tarefa de seleção de atributos. Relacionamentos entre exemplos podem ser criados a partir de uma característica presente na base. Por exemplo, no contexto de classificação de documentos, já foi mostrado que redes de citações e autorias (que relacionam dois documentos de acordo com seus autores ou artigos citados) provêem grande fonte de informação para classificação. Diversas métricas da literatura de redes complexas podem ser utilizadas para quantificar esses relacionamentos.Baseados nesses dois fatores, selecionamos 30 métricas para explorar a credibilidade dos atributos e 16 para os relacionamentos. Elas foram inspiradas em métricas presentes na literatura que indicam a separação entre as classes e investigam as características dos relacionamentos entre os exemplos. Porém, fica difícil dizer qual dessas métricas seria mais apropriada para estimar a credibilidade de um exemplo. Assim, por possuirmos um grande número de métricas para cada fator, após experimentos com métricas isoladas, criamos um algoritmo de Programação Genética para melhor explorar esse espaço de métricas, gerando funções de credibilidade capazes de melhorar a eficácia de classificadores se associadas a eles.A programação genética é um algoritmo baseado nos princípios de evolução de Darwin, capaz de percorrer, de forma robusta e eficaz, o grande espaço de busca com que estamos trabalhando. As funções evoluídas foram então incorporadas a dois algoritmos de classificação: o Nave Bayes e o KNN. Experimentos foram realizados com três tipos de bases de dados: bases de documentos, bases da UCI com atributos exclusivamente categóricos e uma grande base de assinaturas proteicas. Os resultados mostram ganhos consideráveis em todos os cenários, culminando em melhorias de até 17.51% na MacroF1 da base Ohsumed e de 26.58% e 50.78% na MicroF1 e MacroF1 da base de assinaturas estruturais proteicas.

Metadados do item

id	UFMG_a27798a83069b05c44f64863352dc623
oai_identifier_str	oai:repositorio.ufmg.br:1843/SLSS-8M3MZS
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Gisele Lobo PappaAdriano Alonso VelosoMarcos Andre GoncalvesAurora Trinidad Ramirez PozoJoao Rafael de Moura Palotti2019-08-11T16:19:18Z2019-08-11T16:19:18Z2011-09-23http://hdl.handle.net/1843/SLSS-8M3MZSOrganizar e recuperar grandes quantidades de informação tornaram-se tarefas de extrema importância, principalmente nas áreas de Mineração de Dados e Recuperação de Informação, responsáveis por estudar uma maneira de lidar com essa explosão de dados. Dentre as diversas tarefas estudadas por essas duas áreas destacamos a Classificação Automática de dados.Nessa dissertação, tratamos o problema de classificar automaticamente a informação disponível. Em especial, esse trabalho foi desenvolvido em cima da ideia de que nem todos os exemplos de uma base de treinamento devem contribuir igualmente para a construção do modelo de classificação e, portanto, considerar que alguns exemplos são mais confiáveis que outros pode aumentar a eficácia do classificador. Para lidar com esse problema, propomos estimar e empregar funções de credibilidade capazes de capturar o quanto um classificador pode confiar em um exemplo ao gerar o modelo.A credibilidade é considerada na literatura como dependente do contexto no qual está inserida, além de ser também dependente de quem a estima. Para tornar mais objetiva sua avaliação, recomenda-se que sejam definidos os fatores que influenciam no seu cálculo. Definimos que, do ponto de vista de um classificador, dois fatores são cruciais: as relações atributos/classe e relacionamentos entre exemplos. Relações atributos/classe podem ser facilmente extraídas utilizando um grande conjunto de métricas previamente propostas na literatura, principalmente para a tarefa de seleção de atributos. Relacionamentos entre exemplos podem ser criados a partir de uma característica presente na base. Por exemplo, no contexto de classificação de documentos, já foi mostrado que redes de citações e autorias (que relacionam dois documentos de acordo com seus autores ou artigos citados) provêem grande fonte de informação para classificação. Diversas métricas da literatura de redes complexas podem ser utilizadas para quantificar esses relacionamentos.Baseados nesses dois fatores, selecionamos 30 métricas para explorar a credibilidade dos atributos e 16 para os relacionamentos. Elas foram inspiradas em métricas presentes na literatura que indicam a separação entre as classes e investigam as características dos relacionamentos entre os exemplos. Porém, fica difícil dizer qual dessas métricas seria mais apropriada para estimar a credibilidade de um exemplo. Assim, por possuirmos um grande número de métricas para cada fator, após experimentos com métricas isoladas, criamos um algoritmo de Programação Genética para melhor explorar esse espaço de métricas, gerando funções de credibilidade capazes de melhorar a eficácia de classificadores se associadas a eles.A programação genética é um algoritmo baseado nos princípios de evolução de Darwin, capaz de percorrer, de forma robusta e eficaz, o grande espaço de busca com que estamos trabalhando. As funções evoluídas foram então incorporadas a dois algoritmos de classificação: o Nave Bayes e o KNN. Experimentos foram realizados com três tipos de bases de dados: bases de documentos, bases da UCI com atributos exclusivamente categóricos e uma grande base de assinaturas proteicas. Os resultados mostram ganhos consideráveis em todos os cenários, culminando em melhorias de até 17.51% na MacroF1 da base Ohsumed e de 26.58% e 50.78% na MicroF1 e MacroF1 da base de assinaturas estruturais proteicas.Organization and recovery of large amounts of information became tasks of extreme importance, especially on the areas of Data Mining and Information Recovery, which are responsible for finding a way to deal with this data explosion. Among the topics studied in these two areas, there is the Automatic Classification of data.In this thesis, we treat the problem of automatically classifying the available information. In particular, this work was developed on the consideration that not all examples in a training set contribute equally to the construction of a classification model, so, assuming that some examples are more trustworthy than others can increase the effectiveness of the classifier. To deal with this problem, we propose the use of credibility functions capable of capturing how much a classifier should trust an example while generating the model.Credibility in the literature is considered as context dependent and also dependent on who is estimating it. To make its evaluation more objective, it is recommended that the factors used for its calculation are defined. We defined that, from the classifier's view, there are two crucial factors: the attribute/class relations and relationships among examples. The attribute/class relation can be easily extracted using lots of metrics already proposed in the literature, especially for the task of selecting the attributes. The relationships among the examples can be deduced from a feature that appear in the database. For example, in the context of document classification, it is shown that the networks of citations and authorship (which relate two documents based on its authors or citations) are a big source of information for the classification. Several metrics of complex networks can be used to quantify these relationships.Given these two factors, we selected 30 and 16 metrics to explore the attributes' and relationships' credibility respectively. They were inspired in metrics that occur in the literature, and indicate the separation among the classes and investigate characteristics of the relationship between the examples. Nevertheless, it is hard to tell which of these metrics is more appropriate to estimate the credibility of an example. So, since there is a big number of metrics for each factor, after some experiments with isolated metrics, we developed a Genetic Programming algorithm to better explore this search space, generating credibility functions capable of improving the effectiveness of classifiers associated with it.Genetic programming is an algorithm based on Darwin's theory of evolution, capable of traversing the search space of functions in a robust and effective way. The evolved functions were then incorporated to two classification algorithms: Naive Bayes and KNN. Experiments have been run using three different kinds of databases: document databases, UCI databases of categorical attributes and a protein signature database. The results show considerable improvement of the classification in all cases. In particular, for the database Oshmed, MacroF1 was improved by 17.51%, and for the protein signature database, Micro$F_1$ and Macro$F_1$ were improved by 26.58% and 50.78% respectively.Universidade Federal de Minas GeraisUFMGComputaçãoMineração de dados (Computação)Sistemas de recuperação da informaçãoClassificação automáticaProgramação genéticaCredibilidadeCredibilidade de exemplos em classificação automáticainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALjoaorafaelmourapalotti.pdfapplication/pdf4134874https://repositorio.ufmg.br/bitstream/1843/SLSS-8M3MZS/1/joaorafaelmourapalotti.pdfe435ad9b220a0f5a7af2fe073fef02bcMD51TEXTjoaorafaelmourapalotti.pdf.txtjoaorafaelmourapalotti.pdf.txtExtracted texttext/plain192301https://repositorio.ufmg.br/bitstream/1843/SLSS-8M3MZS/2/joaorafaelmourapalotti.pdf.txta4ac88369af5061fb4f4494c96403d25MD521843/SLSS-8M3MZS2019-11-14 07:25:12.358oai:repositorio.ufmg.br:1843/SLSS-8M3MZSRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T10:25:12Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv	Credibilidade de exemplos em classificação automática
title	Credibilidade de exemplos em classificação automática
spellingShingle	Credibilidade de exemplos em classificação automática Joao Rafael de Moura Palotti Classificação automática Programação genética Credibilidade Computação Mineração de dados (Computação) Sistemas de recuperação da informação
title_short	Credibilidade de exemplos em classificação automática
title_full	Credibilidade de exemplos em classificação automática
title_fullStr	Credibilidade de exemplos em classificação automática
title_full_unstemmed	Credibilidade de exemplos em classificação automática
title_sort	Credibilidade de exemplos em classificação automática
author	Joao Rafael de Moura Palotti
author_facet	Joao Rafael de Moura Palotti
author_role	author
dc.contributor.advisor1.fl_str_mv	Gisele Lobo Pappa
dc.contributor.referee1.fl_str_mv	Adriano Alonso Veloso
dc.contributor.referee2.fl_str_mv	Marcos Andre Goncalves
dc.contributor.referee3.fl_str_mv	Aurora Trinidad Ramirez Pozo
dc.contributor.author.fl_str_mv	Joao Rafael de Moura Palotti
contributor_str_mv	Gisele Lobo Pappa Adriano Alonso Veloso Marcos Andre Goncalves Aurora Trinidad Ramirez Pozo
dc.subject.por.fl_str_mv	Classificação automática Programação genética Credibilidade
topic	Classificação automática Programação genética Credibilidade Computação Mineração de dados (Computação) Sistemas de recuperação da informação
dc.subject.other.pt_BR.fl_str_mv	Computação Mineração de dados (Computação) Sistemas de recuperação da informação
description	Organizar e recuperar grandes quantidades de informação tornaram-se tarefas de extrema importância, principalmente nas áreas de Mineração de Dados e Recuperação de Informação, responsáveis por estudar uma maneira de lidar com essa explosão de dados. Dentre as diversas tarefas estudadas por essas duas áreas destacamos a Classificação Automática de dados.Nessa dissertação, tratamos o problema de classificar automaticamente a informação disponível. Em especial, esse trabalho foi desenvolvido em cima da ideia de que nem todos os exemplos de uma base de treinamento devem contribuir igualmente para a construção do modelo de classificação e, portanto, considerar que alguns exemplos são mais confiáveis que outros pode aumentar a eficácia do classificador. Para lidar com esse problema, propomos estimar e empregar funções de credibilidade capazes de capturar o quanto um classificador pode confiar em um exemplo ao gerar o modelo.A credibilidade é considerada na literatura como dependente do contexto no qual está inserida, além de ser também dependente de quem a estima. Para tornar mais objetiva sua avaliação, recomenda-se que sejam definidos os fatores que influenciam no seu cálculo. Definimos que, do ponto de vista de um classificador, dois fatores são cruciais: as relações atributos/classe e relacionamentos entre exemplos. Relações atributos/classe podem ser facilmente extraídas utilizando um grande conjunto de métricas previamente propostas na literatura, principalmente para a tarefa de seleção de atributos. Relacionamentos entre exemplos podem ser criados a partir de uma característica presente na base. Por exemplo, no contexto de classificação de documentos, já foi mostrado que redes de citações e autorias (que relacionam dois documentos de acordo com seus autores ou artigos citados) provêem grande fonte de informação para classificação. Diversas métricas da literatura de redes complexas podem ser utilizadas para quantificar esses relacionamentos.Baseados nesses dois fatores, selecionamos 30 métricas para explorar a credibilidade dos atributos e 16 para os relacionamentos. Elas foram inspiradas em métricas presentes na literatura que indicam a separação entre as classes e investigam as características dos relacionamentos entre os exemplos. Porém, fica difícil dizer qual dessas métricas seria mais apropriada para estimar a credibilidade de um exemplo. Assim, por possuirmos um grande número de métricas para cada fator, após experimentos com métricas isoladas, criamos um algoritmo de Programação Genética para melhor explorar esse espaço de métricas, gerando funções de credibilidade capazes de melhorar a eficácia de classificadores se associadas a eles.A programação genética é um algoritmo baseado nos princípios de evolução de Darwin, capaz de percorrer, de forma robusta e eficaz, o grande espaço de busca com que estamos trabalhando. As funções evoluídas foram então incorporadas a dois algoritmos de classificação: o Nave Bayes e o KNN. Experimentos foram realizados com três tipos de bases de dados: bases de documentos, bases da UCI com atributos exclusivamente categóricos e uma grande base de assinaturas proteicas. Os resultados mostram ganhos consideráveis em todos os cenários, culminando em melhorias de até 17.51% na MacroF1 da base Ohsumed e de 26.58% e 50.78% na MicroF1 e MacroF1 da base de assinaturas estruturais proteicas.
publishDate	2011
dc.date.issued.fl_str_mv	2011-09-23
dc.date.accessioned.fl_str_mv	2019-08-11T16:19:18Z
dc.date.available.fl_str_mv	2019-08-11T16:19:18Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1843/SLSS-8M3MZS
url	http://hdl.handle.net/1843/SLSS-8M3MZS
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv	UFMG
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br/bitstream/1843/SLSS-8M3MZS/1/joaorafaelmourapalotti.pdf https://repositorio.ufmg.br/bitstream/1843/SLSS-8M3MZS/2/joaorafaelmourapalotti.pdf.txt
bitstream.checksum.fl_str_mv	e435ad9b220a0f5a7af2fe073fef02bc a4ac88369af5061fb4f4494c96403d25
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_	1803589409618001920

Credibilidade de exemplos em classificação automática

Registros relacionados