Classificação de sites a partir das análises estrutural e textual

Detalhes bibliográficos
Autor(a) principal: Ribas, Oeslei Taborda
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/616
Resumo: Com a ampla utilização da web nos dias atuais e também com o seu crescimento constante, a tarefa de classificação automática de sítios web têm adquirido importância crescente, pois em diversas ocasiões é necessário bloquear o acesso a sítios específicos, como por exemplo no caso do acesso a sítios de conteúdo adulto em escolas elementares e secundárias. Na literatura diferentes trabalhos têm surgido propondo novos métodos de classificação de sítios, com o objetivo de aumentar o índice de páginas corretamente categorizadas. Este trabalho tem por objetivo contribuir com os métodos atuais de classificação através de comparações de quatro aspectos envolvidos no processo de classificação: algoritmos de classificação, dimensionalidade (número de atributos considerados), métricas de avaliação de atributos e seleção de atributos textuais e estruturais presentes nas páginas web. Utiliza-se o modelo vetorial para o tratamento de textos e uma abordagem de aprendizagem de máquina clássica considerando a tarefa de classificação. Diversas métricas são utilizadas para fazer a seleção dos termos mais relevantes, e algoritmos de classificação de diferentes paradigmas são comparados: probabilista (Naıve Bayes), árvores de decisão (C4.5), aprendizado baseado em instâncias (KNN - K vizinhos mais próximos) e Máquinas de Vetores de Suporte (SVM). Os experimentos foram realizados em um conjunto de dados contendo sítios de dois idiomas, Português e Inglês. Os resultados demonstram que é possível obter um classificador com bons índices de acerto utilizando apenas as informações do texto ˆancora dos hyperlinks. Nos experimentos o classificador baseado nessas informações atingiu uma Medida-F de 99.59%.
id UTFPR-12_f0b342744aa7c403091af4ac5c328b40
oai_identifier_str oai:repositorio.utfpr.edu.br:1/616
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling 2013-10-16T17:43:26Z2013-10-16T17:43:26Z2013-08-28RIBAS, Oeslei Taborda. Classificação de sites a partir das análises estrutural e textual. 2013. 125 f. Dissertação (Mestrado em Computação Aplicada) - Universidade Tecnológica Federal do Paraná, Curitiba, 2013.http://repositorio.utfpr.edu.br/jspui/handle/1/616Com a ampla utilização da web nos dias atuais e também com o seu crescimento constante, a tarefa de classificação automática de sítios web têm adquirido importância crescente, pois em diversas ocasiões é necessário bloquear o acesso a sítios específicos, como por exemplo no caso do acesso a sítios de conteúdo adulto em escolas elementares e secundárias. Na literatura diferentes trabalhos têm surgido propondo novos métodos de classificação de sítios, com o objetivo de aumentar o índice de páginas corretamente categorizadas. Este trabalho tem por objetivo contribuir com os métodos atuais de classificação através de comparações de quatro aspectos envolvidos no processo de classificação: algoritmos de classificação, dimensionalidade (número de atributos considerados), métricas de avaliação de atributos e seleção de atributos textuais e estruturais presentes nas páginas web. Utiliza-se o modelo vetorial para o tratamento de textos e uma abordagem de aprendizagem de máquina clássica considerando a tarefa de classificação. Diversas métricas são utilizadas para fazer a seleção dos termos mais relevantes, e algoritmos de classificação de diferentes paradigmas são comparados: probabilista (Naıve Bayes), árvores de decisão (C4.5), aprendizado baseado em instâncias (KNN - K vizinhos mais próximos) e Máquinas de Vetores de Suporte (SVM). Os experimentos foram realizados em um conjunto de dados contendo sítios de dois idiomas, Português e Inglês. Os resultados demonstram que é possível obter um classificador com bons índices de acerto utilizando apenas as informações do texto ˆancora dos hyperlinks. Nos experimentos o classificador baseado nessas informações atingiu uma Medida-F de 99.59%.With the wide use of the web nowadays, also with its constant growth, task of automatic classification of websites has gained increasing importance. In many occasions it is necessary to block access to specific sites, such as in the case of access to adult content sites in elementary and secondary schools. In the literature different studies has appeared proposing new methods for classification of sites, with the goal of increasing the rate of pages correctly categorized. This work aims to contribute to the current methods of classification by comparing four aspects involved in the classification process: classification algorithms, dimensionality (amount of selected attributes), attributes evaluation metrics and selection of textual and structural attributes present in webpages. We use the vector model to treat text and an machine learning classical approach according to the classification task. Several metrics are used to make the selection of the most relevant terms, and classification algorithms from different paradigms are compared: probabilistic (Na¨ıve Bayes), decision tree (C4.5), instance-based learning (KNN - K-Nearest Neighbor) and support vector machine (SVM). The experiments were performed on a dataset containing two languages, English and Portuguese. The results show that it is possible to obtain a classifier with good success indexes using only the information from the anchor text in hyperlinks, in the experiments the classifier based on this information achieved 99.59% F-measure.porUniversidade Tecnológica Federal do ParanáCuritibaPrograma de Pós-Graduação em Computação AplicadaSites da web - Avaliação e classificaçãoProcessamento de textos (Computação)Aprendizado do computadorRedes neurais (Computação)HTML (Linguagem de marcação de documento)Métodos de simulaçãoWeb sites - Ratings and rankingsText processing (Computer science)Machine learningNeural networks (Computer science)HTML (Document marKup language)Simulation methodsClassificação de sites a partir das análises estrutural e textualinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisCuritibaMestradoKaestner, Celso Antônio AlvesRibas, Oeslei Tabordareponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRinfo:eu-repo/semantics/openAccessTHUMBNAILCT_PPGCA_M_Ribas, Oeslei Taborda_2013.pdf.jpgCT_PPGCA_M_Ribas, Oeslei Taborda_2013.pdf.jpgGenerated Thumbnailimage/jpeg1245http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/616/4/CT_PPGCA_M_Ribas%2c%20Oeslei%20Taborda_2013.pdf.jpg0295806ea49d2049f05b08fb7b8eda45MD54ORIGINALCT_PPGCA_M_Ribas, Oeslei Taborda_2013.pdfCT_PPGCA_M_Ribas, Oeslei Taborda_2013.pdfapplication/pdf2576693http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/616/1/CT_PPGCA_M_Ribas%2c%20Oeslei%20Taborda_2013.pdfa4313bab8ed52607c83eb7a7fb09535cMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81292http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/616/2/license.txt009f5cba5f69d75c09da00b6f53f483aMD52TEXTCT_PPGCA_M_Ribas, Oeslei Taborda_2013.pdf.txtCT_PPGCA_M_Ribas, Oeslei Taborda_2013.pdf.txtExtracted texttext/plain276875http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/616/3/CT_PPGCA_M_Ribas%2c%20Oeslei%20Taborda_2013.pdf.txtb2849594d52fb8926517dc5d578e7549MD531/6162015-03-07 03:12:04.418oai:repositorio.utfpr.edu.br:1/616ICBOYSBxdWFsaWRhZGUgZGUgdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IgZGEgcHVibGljYcOnw6NvLCBhdXRvcml6byBhIFVURlBSIGEgdmVpY3VsYXIsIAphdHJhdsOpcyBkbyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGVtIEFjZXNzbyBBYmVydG8gKFBJQUEpIGUgZG9zIENhdMOhbG9nb3MgZGFzIEJpYmxpb3RlY2FzIApkZXN0YSBJbnN0aXR1acOnw6NvLCBzZW0gcmVzc2FyY2ltZW50byBkb3MgZGlyZWl0b3MgYXV0b3JhaXMsIGRlIGFjb3JkbyBjb20gYSBMZWkgbm8gOS42MTAvOTgsIApvIHRleHRvIGRlc3RhIG9icmEsIG9ic2VydmFuZG8gYXMgY29uZGnDp8O1ZXMgZGUgZGlzcG9uaWJpbGl6YcOnw6NvIHJlZ2lzdHJhZGFzIG5vIGl0ZW0gNCBkbyAK4oCcVGVybW8gZGUgQXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2HDp8OjbyBkZSBUcmFiYWxob3MgZGUgQ29uY2x1c8OjbyBkZSBDdXJzbyBkZSBHcmFkdWHDp8OjbyBlIApFc3BlY2lhbGl6YcOnw6NvLCBEaXNzZXJ0YcOnw7VlcyBlIFRlc2VzIG5vIFBvcnRhbCBkZSBJbmZvcm1hw6fDo28gZSBub3MgQ2F0w6Fsb2dvcyBFbGV0csO0bmljb3MgZG8gClNpc3RlbWEgZGUgQmlibGlvdGVjYXMgZGEgVVRGUFLigJ0sIHBhcmEgZmlucyBkZSBsZWl0dXJhLCBpbXByZXNzw6NvIGUvb3UgZG93bmxvYWQsIHZpc2FuZG8gYSAKZGl2dWxnYcOnw6NvIGRhIHByb2R1w6fDo28gY2llbnTDrWZpY2EgYnJhc2lsZWlyYS4KCiAgQXMgdmlhcyBvcmlnaW5haXMgZSBhc3NpbmFkYXMgcGVsbyhzKSBhdXRvcihlcykgZG8g4oCcVGVybW8gZGUgQXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2HDp8OjbyBkZSAKVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSBFc3BlY2lhbGl6YcOnw6NvLCBEaXNzZXJ0YcOnw7VlcyBlIFRlc2VzIG5vIFBvcnRhbCAKZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIFNpc3RlbWEgZGUgQmlibGlvdGVjYXMgZGEgVVRGUFLigJ0gZSBkYSDigJxEZWNsYXJhw6fDo28gCmRlIEF1dG9yaWHigJ0gZW5jb250cmFtLXNlIGFycXVpdmFkYXMgbmEgQmlibGlvdGVjYSBkbyBDw6JtcHVzIG5vIHF1YWwgbyB0cmFiYWxobyBmb2kgZGVmZW5kaWRvLiAKTm8gY2FzbyBkZSBwdWJsaWNhw6fDtWVzIGRlIGF1dG9yaWEgY29sZXRpdmEgZSBtdWx0aWPDom1wdXMsIG9zIGRvY3VtZW50b3MgZmljYXLDo28gc29iIGd1YXJkYSBkYSAKQmlibGlvdGVjYSBjb20gYSBxdWFsIG8g4oCccHJpbWVpcm8gYXV0b3LigJ0gcG9zc3VhIHbDrW5jdWxvLgo=Repositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2015-03-07T06:12:04Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv Classificação de sites a partir das análises estrutural e textual
title Classificação de sites a partir das análises estrutural e textual
spellingShingle Classificação de sites a partir das análises estrutural e textual
Ribas, Oeslei Taborda
Sites da web - Avaliação e classificação
Processamento de textos (Computação)
Aprendizado do computador
Redes neurais (Computação)
HTML (Linguagem de marcação de documento)
Métodos de simulação
Web sites - Ratings and rankings
Text processing (Computer science)
Machine learning
Neural networks (Computer science)
HTML (Document marKup language)
Simulation methods
title_short Classificação de sites a partir das análises estrutural e textual
title_full Classificação de sites a partir das análises estrutural e textual
title_fullStr Classificação de sites a partir das análises estrutural e textual
title_full_unstemmed Classificação de sites a partir das análises estrutural e textual
title_sort Classificação de sites a partir das análises estrutural e textual
author Ribas, Oeslei Taborda
author_facet Ribas, Oeslei Taborda
author_role author
dc.contributor.advisor1.fl_str_mv Kaestner, Celso Antônio Alves
dc.contributor.author.fl_str_mv Ribas, Oeslei Taborda
contributor_str_mv Kaestner, Celso Antônio Alves
dc.subject.por.fl_str_mv Sites da web - Avaliação e classificação
Processamento de textos (Computação)
Aprendizado do computador
Redes neurais (Computação)
HTML (Linguagem de marcação de documento)
Métodos de simulação
Web sites - Ratings and rankings
Text processing (Computer science)
Machine learning
Neural networks (Computer science)
HTML (Document marKup language)
Simulation methods
topic Sites da web - Avaliação e classificação
Processamento de textos (Computação)
Aprendizado do computador
Redes neurais (Computação)
HTML (Linguagem de marcação de documento)
Métodos de simulação
Web sites - Ratings and rankings
Text processing (Computer science)
Machine learning
Neural networks (Computer science)
HTML (Document marKup language)
Simulation methods
description Com a ampla utilização da web nos dias atuais e também com o seu crescimento constante, a tarefa de classificação automática de sítios web têm adquirido importância crescente, pois em diversas ocasiões é necessário bloquear o acesso a sítios específicos, como por exemplo no caso do acesso a sítios de conteúdo adulto em escolas elementares e secundárias. Na literatura diferentes trabalhos têm surgido propondo novos métodos de classificação de sítios, com o objetivo de aumentar o índice de páginas corretamente categorizadas. Este trabalho tem por objetivo contribuir com os métodos atuais de classificação através de comparações de quatro aspectos envolvidos no processo de classificação: algoritmos de classificação, dimensionalidade (número de atributos considerados), métricas de avaliação de atributos e seleção de atributos textuais e estruturais presentes nas páginas web. Utiliza-se o modelo vetorial para o tratamento de textos e uma abordagem de aprendizagem de máquina clássica considerando a tarefa de classificação. Diversas métricas são utilizadas para fazer a seleção dos termos mais relevantes, e algoritmos de classificação de diferentes paradigmas são comparados: probabilista (Naıve Bayes), árvores de decisão (C4.5), aprendizado baseado em instâncias (KNN - K vizinhos mais próximos) e Máquinas de Vetores de Suporte (SVM). Os experimentos foram realizados em um conjunto de dados contendo sítios de dois idiomas, Português e Inglês. Os resultados demonstram que é possível obter um classificador com bons índices de acerto utilizando apenas as informações do texto ˆancora dos hyperlinks. Nos experimentos o classificador baseado nessas informações atingiu uma Medida-F de 99.59%.
publishDate 2013
dc.date.accessioned.fl_str_mv 2013-10-16T17:43:26Z
dc.date.available.fl_str_mv 2013-10-16T17:43:26Z
dc.date.issued.fl_str_mv 2013-08-28
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv RIBAS, Oeslei Taborda. Classificação de sites a partir das análises estrutural e textual. 2013. 125 f. Dissertação (Mestrado em Computação Aplicada) - Universidade Tecnológica Federal do Paraná, Curitiba, 2013.
dc.identifier.uri.fl_str_mv http://repositorio.utfpr.edu.br/jspui/handle/1/616
identifier_str_mv RIBAS, Oeslei Taborda. Classificação de sites a partir das análises estrutural e textual. 2013. 125 f. Dissertação (Mestrado em Computação Aplicada) - Universidade Tecnológica Federal do Paraná, Curitiba, 2013.
url http://repositorio.utfpr.edu.br/jspui/handle/1/616
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Curitiba
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Computação Aplicada
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Curitiba
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/616/4/CT_PPGCA_M_Ribas%2c%20Oeslei%20Taborda_2013.pdf.jpg
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/616/1/CT_PPGCA_M_Ribas%2c%20Oeslei%20Taborda_2013.pdf
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/616/2/license.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/616/3/CT_PPGCA_M_Ribas%2c%20Oeslei%20Taborda_2013.pdf.txt
bitstream.checksum.fl_str_mv 0295806ea49d2049f05b08fb7b8eda45
a4313bab8ed52607c83eb7a7fb09535c
009f5cba5f69d75c09da00b6f53f483a
b2849594d52fb8926517dc5d578e7549
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_ 1805923079047610368