Autoclipping

Detalhes bibliográficos
Autor(a) principal: Oliveira, José Maria Paiva Jesus
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.22/16921
Resumo: A monitorização dos media com o objetivo de compilar notícias sobre determinado assunto, processo denominado de clipping, procura cada vez mais recursos à medida que aumenta a quantidade de informação online. Usar soluções de aprendizagem automática para auxiliar os editores de boletins temáticos pode ser uma maneira muito eficiente de oferecer suporte ao recorte automático na web. Este documento apresenta soluções para a recolha automática de páginas web de seed websites de interesse para recolher notícias potencialmente interessantes para o boletim da European Association of ERASMUS Coordinators. O processo de recolha retorna dados não estruturados que são pré-processados para que possam ser explorados por técnicas de aprendizagem automática. Em particular, usaremos classificadores de texto para rotular notícias recentes sobre uma taxonomia que representa o tópico de interesse. O web crawling que faz a recolha de notícias também recolhe estatísticas sobre a qualidade das notícias extraídas de cada seed websites para que o modelo possa adaptar automaticamente a sua frequência de rastreamento para evitar o desperdício de recursos ao extrair dados de sites estáticos. A avaliação preliminar mostra que esse processo pode recolher notícias valiosas com uma redução significativa no tempo e no esforço exigidos do editor do boletim informativo.
id RCAP_8b7f2ce13849751961ae92ea7820e61f
oai_identifier_str oai:recipp.ipp.pt:10400.22/16921
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling AutoclippingAutoclipping: Automatic gathering of news for a specific topic taxonomyWeb CrawlingText MiningAprendizagem supervisionadaClassificaçãoA monitorização dos media com o objetivo de compilar notícias sobre determinado assunto, processo denominado de clipping, procura cada vez mais recursos à medida que aumenta a quantidade de informação online. Usar soluções de aprendizagem automática para auxiliar os editores de boletins temáticos pode ser uma maneira muito eficiente de oferecer suporte ao recorte automático na web. Este documento apresenta soluções para a recolha automática de páginas web de seed websites de interesse para recolher notícias potencialmente interessantes para o boletim da European Association of ERASMUS Coordinators. O processo de recolha retorna dados não estruturados que são pré-processados para que possam ser explorados por técnicas de aprendizagem automática. Em particular, usaremos classificadores de texto para rotular notícias recentes sobre uma taxonomia que representa o tópico de interesse. O web crawling que faz a recolha de notícias também recolhe estatísticas sobre a qualidade das notícias extraídas de cada seed websites para que o modelo possa adaptar automaticamente a sua frequência de rastreamento para evitar o desperdício de recursos ao extrair dados de sites estáticos. A avaliação preliminar mostra que esse processo pode recolher notícias valiosas com uma redução significativa no tempo e no esforço exigidos do editor do boletim informativo.Monitoring the media with the purpose of compiling news about a certain topic, a process named clipping, demands for more and more resources as the amount of online information grows. Using machine learning solutions to assist the editors of thematic newsletters might be a very efficient way to support automatic clipping on the web. This document presents solutions for the automatic harvesting of web pages from seed websites of interest to gather potentially interesting news for the newsletter of the European Association of ERASMUS Coordinators. The harvesting process returns unstructured data that is pre-processed so it can be explored by machine learning techniques. In particular, we will use text classifiers to label fresh news on a taxonomy representing the topic of interest. The web crawler doing the news harvesting is also collecting statistics about the quality of the news extracted from each seed website so the model can automatically adapt its crawling frequency to avoid wasting resources retrieving data from static websites. The preliminary evaluation shows this process might collect valuable news with a significant reduction in the time and effort required from the newsletter editor.Almeida, Ricardo Gabriel Soares Fernandes deRepositório Científico do Instituto Politécnico do PortoOliveira, José Maria Paiva Jesus2021-02-08T15:45:19Z20202020-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/16921TID:202550419porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-03-13T13:05:12Zoai:recipp.ipp.pt:10400.22/16921Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T17:36:34.196102Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Autoclipping
Autoclipping: Automatic gathering of news for a specific topic taxonomy
title Autoclipping
spellingShingle Autoclipping
Oliveira, José Maria Paiva Jesus
Web Crawling
Text Mining
Aprendizagem supervisionada
Classificação
title_short Autoclipping
title_full Autoclipping
title_fullStr Autoclipping
title_full_unstemmed Autoclipping
title_sort Autoclipping
author Oliveira, José Maria Paiva Jesus
author_facet Oliveira, José Maria Paiva Jesus
author_role author
dc.contributor.none.fl_str_mv Almeida, Ricardo Gabriel Soares Fernandes de
Repositório Científico do Instituto Politécnico do Porto
dc.contributor.author.fl_str_mv Oliveira, José Maria Paiva Jesus
dc.subject.por.fl_str_mv Web Crawling
Text Mining
Aprendizagem supervisionada
Classificação
topic Web Crawling
Text Mining
Aprendizagem supervisionada
Classificação
description A monitorização dos media com o objetivo de compilar notícias sobre determinado assunto, processo denominado de clipping, procura cada vez mais recursos à medida que aumenta a quantidade de informação online. Usar soluções de aprendizagem automática para auxiliar os editores de boletins temáticos pode ser uma maneira muito eficiente de oferecer suporte ao recorte automático na web. Este documento apresenta soluções para a recolha automática de páginas web de seed websites de interesse para recolher notícias potencialmente interessantes para o boletim da European Association of ERASMUS Coordinators. O processo de recolha retorna dados não estruturados que são pré-processados para que possam ser explorados por técnicas de aprendizagem automática. Em particular, usaremos classificadores de texto para rotular notícias recentes sobre uma taxonomia que representa o tópico de interesse. O web crawling que faz a recolha de notícias também recolhe estatísticas sobre a qualidade das notícias extraídas de cada seed websites para que o modelo possa adaptar automaticamente a sua frequência de rastreamento para evitar o desperdício de recursos ao extrair dados de sites estáticos. A avaliação preliminar mostra que esse processo pode recolher notícias valiosas com uma redução significativa no tempo e no esforço exigidos do editor do boletim informativo.
publishDate 2020
dc.date.none.fl_str_mv 2020
2020-01-01T00:00:00Z
2021-02-08T15:45:19Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.22/16921
TID:202550419
url http://hdl.handle.net/10400.22/16921
identifier_str_mv TID:202550419
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799131456629374976