Classificação automática de páginas web usando features visuais
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10316/40401 |
Resumo: | Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia da Universidade de Coimbra |
id |
RCAP_136b3a11a4af3bfe556f2b1885047b52 |
---|---|
oai_identifier_str |
oai:estudogeral.uc.pt:10316/40401 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Classificação automática de páginas web usando features visuaisClassificacão de páginas webextracão de featuresBlogsterm frequency-inverse document frequencySIFTlow-levelWeb page classificationfeature extractionBlogsterm frequency-inverse document frequencySIFTlow-levelDissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia da Universidade de CoimbraThe world of Internet grows up every day. There are a large number of web pages actives at this moment and more are released every day. It is impossible to perform the web page classification manually. It was already developed several approaches in this area. Most of them only use the text information contained in the web pages, ignoring the visual content of them. This work shows that the visual content can improve the accuracies of the classifications that only use the text. It was extracted the text features of the web pages using the term frequency inverse document frequency method. As well, it was also extracted two different types of visual features: the low-level features and the local SIFT ones. Since the amount of the SIFT features is extremely high, it was created a dictionary using the “Bag-of-Words” method. After this extraction the features were merged, using all the types of combinations of them. It was also used the Chi-Square method that selects the best features of a vector. In the classification it was used four different classifiers. It was implemented a multi-label classification, for which we gave unknown web pages to the classifiers, so they could predict the main topic of the web page. It was also implemented a binary classification, for which we used only visual features to verify if a web page was a blog or non-blog. It was obtained good results that shows that adding the visual content to the text the accuracies improve. The best classification it was obtained using only four different categories, where was achieved 98% of accuracy. Later it was developed a web application, where the user can find out the main topic of a web page only inserting the web page URL. It can be accessed in ”http://scrat.isr.uc.pt/uniprojection /wpc.html”.O mundo da internet cresce a cada dia que passa. Existe um enorme numero de p´aginas web activas neste preciso momento e muitas mais s˜ao lan¸cadas a cada dia que passa. E impossivel ´ realizar uma classifica¸c˜ao manual destas p´aginas web. J´a foram realizados diversos trabalhos nesta ´area. A maioria delas apenas utiliza a informa¸c˜ao do texto da p´agina web, ignorando o conte´udo visual das mesmas. Neste trabalho mostramos que o conte´udo visual melhora as precis˜oes dos classificadores que utilizavam apenas texto. Para isso foram extra´ıdas caracter´ısticas de texto das p´aginas web utilizando o m´etodo term frequency-inverse document frequency. Foram extra´ıdos dois tipos de caracter´ısticas visuais: as caracter´ısticas low-level e as caracter´ısticas locais SIFT. Sendo que o n´umero de caracter´ısticas SIFT ´e extremamente alto, foi criado um dicion´ario utilizando o m´etodo “Bag-of-Words”. Depois de exta´ıdas, foram feitas todas as combina¸c˜oes poss´ıveis entre estes trˆes tipos de caracter´ısticas. Foi utilizado tamb´em o m´etodo Chi-Square que seleciona as melhores caracter´ısticas. Na classifica¸c˜ao, foram utilizados quatro classificadores diferentes. Foi realizada uma classifica¸c˜ao multi-label, onde introduzindo p´aginas web desconhecidas pelos classificadores, os mesmos previam o t´opico principal dessa p´agina. Foi tamb´em realizada uma classifica¸c˜ao bin´aria onde apenas foram utilizadas as features visuais para verificarem se uma p´agina web ´e um blog. Foram obtidos bons resultados que mostram que realmente adicionando o conte´udo visual ao texto, as precis˜oes dos classificadores melhoram. A melhor classifica¸c˜ao foi obtida quando utilizadas apenas quatro categorias diferentes, onde foi obtida uma precis˜ao de 98%. Posteriormente foi desenvolvida uma aplica¸c˜ao web com o objectivo de um utilizador conseguir descobrir qual o t´opico principal de uma p´agina web apenas inserindo o seu URL. Pode ser acedida em “http://scrat.isr.uc.pt/uniprojection/wpc.html”.2014-09-12info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/40401http://hdl.handle.net/10316/40401TID:201673010porCosta, Joao Mario Goncalves dainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-02-11T11:23:21Zoai:estudogeral.uc.pt:10316/40401Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:58:07.877638Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Classificação automática de páginas web usando features visuais |
title |
Classificação automática de páginas web usando features visuais |
spellingShingle |
Classificação automática de páginas web usando features visuais Costa, Joao Mario Goncalves da Classificacão de páginas web extracão de features Blogs term frequency-inverse document frequency SIFT low-level Web page classification feature extraction Blogs term frequency-inverse document frequency SIFT low-level |
title_short |
Classificação automática de páginas web usando features visuais |
title_full |
Classificação automática de páginas web usando features visuais |
title_fullStr |
Classificação automática de páginas web usando features visuais |
title_full_unstemmed |
Classificação automática de páginas web usando features visuais |
title_sort |
Classificação automática de páginas web usando features visuais |
author |
Costa, Joao Mario Goncalves da |
author_facet |
Costa, Joao Mario Goncalves da |
author_role |
author |
dc.contributor.author.fl_str_mv |
Costa, Joao Mario Goncalves da |
dc.subject.por.fl_str_mv |
Classificacão de páginas web extracão de features Blogs term frequency-inverse document frequency SIFT low-level Web page classification feature extraction Blogs term frequency-inverse document frequency SIFT low-level |
topic |
Classificacão de páginas web extracão de features Blogs term frequency-inverse document frequency SIFT low-level Web page classification feature extraction Blogs term frequency-inverse document frequency SIFT low-level |
description |
Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia da Universidade de Coimbra |
publishDate |
2014 |
dc.date.none.fl_str_mv |
2014-09-12 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10316/40401 http://hdl.handle.net/10316/40401 TID:201673010 |
url |
http://hdl.handle.net/10316/40401 |
identifier_str_mv |
TID:201673010 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133872301015040 |