Classificação automática de páginas Web Multi-label via MDL e Support Vector Machines

Detalhes bibliográficos
Autor(a) principal: Ormonde, Rodrigo de La Rocque
Data de Publicação: 2009
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UnB
Texto Completo: http://repositorio.unb.br/handle/10482/18555
Resumo: Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2009.
id UNB_2a71cf6838519550b1306c57664f33cd
oai_identifier_str oai:repositorio.unb.br:10482/18555
network_acronym_str UNB
network_name_str Repositório Institucional da UnB
repository_id_str
spelling Classificação automática de páginas Web Multi-label via MDL e Support Vector MachinesAlgoritmos de computadorPáginas web - classificação automáticaDissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2009.Nesta pesquisa é feita a extensão de um novo algoritmo de classificação, chamado de CAH+MDL, anteriormente desenvolvido para lidar apenas com problemas de classificação binários ou multiclasse, para tratar diretamente também problemas de classificação multilabel. Foi estudado então seu desempenho para a classificação de uma base de páginas Web em Português e Inglês, divididas em sete categorias multi-label. Este algoritmo é baseado no princípio da Minimum Description Length (MDL), utilizado juntamente com a Codificação Adaptativa de Huffman e foi anteriormente estudado para a classificação binária na detecção de SPAM, tendo apresentado bons resultados. Não foram encontradas citações na literatura, entretanto, de sua utilização para o caso multi-label, que é bem mais complexo. Para avaliar seu desempenho, os resultados são comparados com os resultados obtidos na classificação da mesma base de dados por uma SVM linear, que é o algoritmo que normalmente apresenta os melhores resultados na classificação de padrões e, especialmente, na classificação de textos. _______________________________________________________________________________ ABSTRACTIn this research, it is developed the extension of a new classification algorithm, called CAH+MDL, previously conceived to deal only with binary or multi-class classification problems, to treat directly multi-label classification problems. Its accuracy is then studied in the classification of a database comprised of Web sites in Portuguese and English, divided into seven multi-label categories. This algorithm is based on the principle of the Minimum Description Length (MDL), used together with the Huffman Adaptive Coding. It has already been studied for binary classification in SPAM detection and has presented good results, however, to the best of my knowledge, it had never been studied before for the multi-label case, which is much more complex. In order to evaluate its performance, its results are compared with the results obtained in the classification of the same database by a linear SVM, which is the algorithm that usually presents the best results in pattern classification and, specially, in text classification.Ladeira, MarceloOrmonde, Rodrigo de La Rocque2015-10-05T16:37:14Z2015-10-05T16:37:14Z2015-10-052009info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfORMONDE, Rodrigo de La Rocque. Classificação automática de páginas Web Multi-label via MDL e Support Vector Machines. 2009. xii, 111 f., il.Dissertação (Mestrado em Informática)-Universidade de Brasília, Brasília, 2009.http://repositorio.unb.br/handle/10482/18555A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2023-07-14T18:56:20Zoai:repositorio.unb.br:10482/18555Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2023-07-14T18:56:20Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv Classificação automática de páginas Web Multi-label via MDL e Support Vector Machines
title Classificação automática de páginas Web Multi-label via MDL e Support Vector Machines
spellingShingle Classificação automática de páginas Web Multi-label via MDL e Support Vector Machines
Ormonde, Rodrigo de La Rocque
Algoritmos de computador
Páginas web - classificação automática
title_short Classificação automática de páginas Web Multi-label via MDL e Support Vector Machines
title_full Classificação automática de páginas Web Multi-label via MDL e Support Vector Machines
title_fullStr Classificação automática de páginas Web Multi-label via MDL e Support Vector Machines
title_full_unstemmed Classificação automática de páginas Web Multi-label via MDL e Support Vector Machines
title_sort Classificação automática de páginas Web Multi-label via MDL e Support Vector Machines
author Ormonde, Rodrigo de La Rocque
author_facet Ormonde, Rodrigo de La Rocque
author_role author
dc.contributor.none.fl_str_mv Ladeira, Marcelo
dc.contributor.author.fl_str_mv Ormonde, Rodrigo de La Rocque
dc.subject.por.fl_str_mv Algoritmos de computador
Páginas web - classificação automática
topic Algoritmos de computador
Páginas web - classificação automática
description Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2009.
publishDate 2009
dc.date.none.fl_str_mv 2009
2015-10-05T16:37:14Z
2015-10-05T16:37:14Z
2015-10-05
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv ORMONDE, Rodrigo de La Rocque. Classificação automática de páginas Web Multi-label via MDL e Support Vector Machines. 2009. xii, 111 f., il.Dissertação (Mestrado em Informática)-Universidade de Brasília, Brasília, 2009.
http://repositorio.unb.br/handle/10482/18555
identifier_str_mv ORMONDE, Rodrigo de La Rocque. Classificação automática de páginas Web Multi-label via MDL e Support Vector Machines. 2009. xii, 111 f., il.Dissertação (Mestrado em Informática)-Universidade de Brasília, Brasília, 2009.
url http://repositorio.unb.br/handle/10482/18555
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Repositório Institucional da UnB
collection Repositório Institucional da UnB
repository.name.fl_str_mv Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv repositorio@unb.br
_version_ 1810580774047449088