spelling |
Nivio ZivianiAdriano Alonso VelosoAdriano Alonso VelosoEdleno Silva de MouraRodrygo Luis Teodoro SantosCristiano Rodrigues de Carvalho2019-08-11T06:45:47Z2019-08-11T06:45:47Z2014-09-19http://hdl.handle.net/1843/ESBF-9TENX8A Web é um imenso repositório de informações. De acordo com a literatura aproximadamente 29% desse repositório contém conteúdo duplicado. A duplicação de conteúdo pode ocorrer dentro de um mesmo sítio web (intrassítios) ou entre sítios diferentes (intersítios). Esta dissertação trata do problema de detecção de réplicas intersítios. Neste trabalho, esse problema é tratado como uma tarefa de classificação, onde exemplos positivos e negativos de réplicas são utilizados no treinamento de um classificador binário. O método proposto utiliza um algoritmo de aprendizado semissupervisionado baseado em Maximização de Expectativas (do inglês Expectation-Maximization - EM). O algoritmo EM é um método iterativo que permite a estimativa de parâmetros em modelos probabilísticos com dados latentes ou não observados. No caso de detecção de réplicas há uma facilidade de encontrar exemplos óbvios de réplicas e não réplicas. Nesse caso, o algoritmo EM é utilizado para encontrar exemplos não óbvios e formar um conjunto de treino para o algoritmo de classificação sem nenhum custo de uma rotulação manual. É possível melhorar substancialmente a qualidade dos resultados obtidos com a combinação de classificadores através da exploração de um conceito da Economia, a Eficiência de Pareto. Mais especificamente, essa técnica permite a escolha de resultados que se sobressaem em pelo menos um dos classificadores utilizados. O algoritmo proposto provê ganhos significativos em relação ao estado-da-arte em detecção de réplicas de sítios. A combinação do algoritmo proposto que elimina réplicas intersítios junto a algoritmos que eliminam réplicas de conteúdo intrassítios leva a uma solução mais completa, possibilitando uma redução mais efetiva do número de URLs duplicadas na coleção.The Web contains a vast repository of information. According to the literature about 29% of this repository contains duplicate content. Duplication of content may occur within a single web site (intra-site) or between different web sites (inter-site). This thesis addresses the problem of detecting inter-site replicas. In this work, this problem is treated as a classification task, where positive and negative replica examples are used to train a binary classifier. The proposed method uses a semi-supervised learning algorithm based on the Expectation-Maximization (EM) approach. The EM algorithm is an iterative method that allows estimation of parameters in probabilistic models with latent or unobserved data. In replica detection, it is easy to find obvious replica and non-replica examples. The EM algorithm is used to find non-obvious examples and form a training set for the classification algorithm at no cost of manual labeling. It is possible to substantially improve the quality of the results obtained with the combination of classifiers by exploring a central concept of Economics, the Pareto efficiency. More specifically, this technique allows to choose results that excel in at least one of the classifiers used. The proposed algorithm provides significant gains compared to state-of-art in detection of website replicas. The combination of proposed algorithm that eliminates inter-site replicas with algorithms that eliminate intra-sites replica content leads to a more complete solution allowing an effective reduction in the number of duplicated URLs on the collection.Universidade Federal de Minas GeraisUFMGAprendizado do computadorComputaçãoParetoMaximização de expectativasAprendizado de máquinaRéplicas de sítiosDetecção de réplicas de sítios web usando aprendizado semissupervisionado baseado em maximização de expectativasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALcristianorodriguescarvalho.pdfapplication/pdf774397https://repositorio.ufmg.br/bitstream/1843/ESBF-9TENX8/1/cristianorodriguescarvalho.pdf2b48355a80f51a8fedda27cec68bbaf3MD51TEXTcristianorodriguescarvalho.pdf.txtcristianorodriguescarvalho.pdf.txtExtracted texttext/plain131662https://repositorio.ufmg.br/bitstream/1843/ESBF-9TENX8/2/cristianorodriguescarvalho.pdf.txtf858fbed2b55aa0eaba59c761bd7b660MD521843/ESBF-9TENX82019-11-14 10:13:52.505oai:repositorio.ufmg.br:1843/ESBF-9TENX8Repositório InstitucionalPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T13:13:52Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
|