SISSI-Web Page's structure identification from syntactic and semantic information
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10451/33935 |
Resumo: | Tese de mestrado, Informática, Universidade de Lisboa, Faculdade de Ciências, 2018 |
id |
RCAP_d98015883e64f0a8c11561f6aa576d7c |
---|---|
oai_identifier_str |
oai:repositorio.ul.pt:10451/33935 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
SISSI-Web Page's structure identification from syntactic and semantic informationSegmentação webWeb semânticaAcessibilidade webTeses de mestrado - 2018Departamento de InformáticaTese de mestrado, Informática, Universidade de Lisboa, Faculdade de Ciências, 2018A WWW (World Wide Web) é uma plataforma que contém uma grande quantidade de informação disponível. Hoje em dia, as pessoas dependem muito da Internet para ajudar nas mais pequenas tarefas do dia-a-dia, como ir às compras, ver o correio eletrónico, falar nas redes sociais ou até no trabalho. Este aumento no uso da Internet foi impulsionado pelo uso de sistemas de gestão de conteúdo, permitindo a utilizadores normais, criarem e gerirem o seu próprio website. Existindo esta quantidade de informação, eventualmente apenas em formato digital, é necessário considerar o seguinte: todas as pessoas são diferentes e podem “ver” a Internet de diferentes perspetivas. Sendo uma plataforma universal, o seu conteúdo deveria ser acessível a todos de maneira igual. Infelizmente, não tem havido muita consideração para com pessoas com necessidades especiais. Pessoas com alguma deficiência, quer seja motora, sensorial ou mental, deveriam conseguir ter a mesma experiência que o resto dos utilizadores. Devido ao facto de estarem condicionados, é preciso ter em conta no desenvolvimento Web, soluções que permitam a essas pessoas terem a mesma experiência de navegação. Por esta razão o conceito de acessibilidade na Web foi crescendo ao longo dos últimos anos. Foram desenvolvidas diretrizes e padrões de modo a que as páginas Web desenvolvidas sejam acessíveis a todos. Para ajudar no desenvolvimento de páginas acessíveis, a tarefa de confirmar se as diretrizes de acessibilidade estavam a ser cumpridas foi automatizada. Uma ferramenta capaz de fazer este tipo de análise é o QualWeb, desenvolvido na faculdade de Ciências da Universidade de Lisboa por um grupo de investigadores, no qual eu colaborei. Como referido anteriormente, as páginas Web têm cada vez mais conteúdo, pelo que é importante para os seus consumidores conseguir distinguir a informação relevante. Ao ser apresentada uma página a uma pessoa com necessidades especiais, esta pode não ser capaz de fazer a separação de conteúdos, o que pode prejudicar a interpretação da informação. Com este trabalho pretendo desenvolver um mecanismo capaz de identificar a estrutura de uma página Web, através da sua informação semântica e sintática. Neste caso vou apenas focar-me em menus porque para além de serem um elemento importante nas páginas Web, podem facilitar a navegação para uma pessoa com necessidades especiais. Para atingir este objetivo, precisei de usar uma ferramenta de segmentação. Dentro de todas as que foram pesquisadas na minha investigação de trabalho relacionado, a melhor foi o VIPS, que relaciona os aspetos visuais da página Web e o código fonte para dividir a página em diferentes secções. O meu capítulo do trabalho relacionado também contém os principais conceitos para entender o que foi desenvolvido, bem como uma investigação de outras ferramentas de avaliação automática da acessibilidade de páginas Web, focando-se mais na que vou utilizar, o QualWeb. Como mencionado também refiro algumas ferramentas de segmentação, descrevendo cada uma delas e mostrando numa tabela as suas características, sendo o VIPS estendido a melhor classificada para o que pretendia. Depois da análise do trabalho relacionado, fui perceber o funcionamento do VIPS estendido, interpretando os vários passos do algoritmo. Uma das vantagens do VIPS estendido é que para além de fazer a segmentação de uma página, ou seja, dividi-la em diferentes secções, é ainda capaz de categorizar cada secção, atribuindo um papel à mesma. O funcionamento do VIPS estendido é descrito no capítulo 3, bem como a razão do foco na avaliação dos menus de páginas Web e em sistemas de gestão de conteúdos durante o processo de otimização do VIPS estendido. Inicialmente, avaliei 30 páginas geradas por um sistema de gestão de conteúdos, designado WordPress, e determinei que elementos eu considerava serem menus nessas páginas. Posteriormente, verifiquei se os elementos que eu considerava menus, também eram assinalados pelo VIPS estendido com esse mesmo papel. Os resultados obtidos não foram satisfatórios, o que me levou a melhorar as regras que classificavam as diferentes áreas da página. Após vários testes, cheguei a um resultado satisfatório, que não consegui melhorar mais. Neste ponto, a identificação de menus era bastante positiva, embora o número de falsos positivos também fosse bastante elevado na minha opinião. Com isto em mente, desenvolvi um filtro para detetar os falsos positivos. Através da observação dos resultados de vários testes, pude determinar que vários tipos de elementos eram considerados menus quando não o deveriam ser. Sabendo a tag do elemento posso evitar que elementos com essas tags sejam considerados menus. Desta maneira, os falsos positivos foram reduzidos e resultados foram melhorados ligeiramente. Estes resultados foram baseados na minha definição de menu e nas observações feitas no conjunto de 30 páginas Web geradas pelo sistema de gestão de conteúdos WordPress, pelo que precisava de validar o mecanismo desenvolvido. Para isto contruí um conjunto de outras 30 páginas Web, composto por 15 de páginas geradas por WordPress e outras 15 não geradas por WordPress. Os resultados obtidos nas 15 páginas geradas pelo WordPress foram iguais aos anteriores, o que é positivo, querendo dizer que as regras desenvolvidas são suficientemente genéricas. Em relação às 15 páginas não geradas pelo WordPress, os resultados superaram as expectativas, porque foram melhores que os anteriores. Como mencionei, o melhoramento das regras baseou-se na minha interpretação de menu, pelo que foi necessário testar se estas podiam ser consideradas gerais, ou seja, se outras pessoas consideram a mesma definição para menu. Para isto, realizei dois testes: o primeiro entrevistando peritos em acessibilidade e outro através de um questionário a utilizadores comuns. Os resultados obtidos divergiram tanto para peritos como para utilizadores. Um aspeto que foi unânime entre os três peritos entrevistados foi o facto de a definição de menu ser suscetível a interpretações, dependendo por vezes do contexto ou opinião pessoal. Um outro aspeto foi o facto de à medida que a entrevista progredia, mais elementos eram considerados menus ou pelo menos surgia a dúvida se seriam ou não. Não houve um consenso na opinião dos peritos, visto que um deles era muito restritivo, selecionando apenas o menu encontrado no cabeçalho ou rodapé das páginas e outro perito, considerava tudo o que fossem listas como menus. Em relação aos utilizadores, houve alguns menus selecionados constantemente (menus de navegação) e outros que geraram mais dúvidas, sendo um deles o elemento que contém os ícones das redes sociais. Após a classificação dos menus estar de acordo com o que pretendia, o próximo passo era implementar o VIPS estendido no QualWeb. Infelizmente, a ferramenta do VIPS estendido que estava a utilizar necessitava do ambiente onde estava implementado (no Eclipse) e portanto perguntei ao responsável pelo desenvolvimento do VIPS estendido se seria possível criar uma versão nova, em que o VIPS seria disponibilizado num Web service e desta maneira seria possível incorporá-lo no QualWeb. Com isto feito, as novas técnicas de acessibilidade, que são aplicadas a menus, puderam ser desenvolvidas. Para validar o desenvolvimento fiz uma análise pericial às 30 páginas Web de treino para conseguir comparar com os resultados das novas técnicas. Através dessa comparação, determinei que as técnicas foram implementadas corretamente.The World Wide Web (WWW) is today a wide spread all-purpose technological platform, with a large quantity of information available, that is supposed to be accessible to everyone. However, this accessibility is not yet a reality. There are some people with disabilities that can’t have the same Web experience as the others. Web designers are becoming more aware of the problem that is the lack of accessible Web pages. The progressive adoption and implementation of specific standards and guidelines on the Web is increasing accessibility, ensuring that everyone has the same Web experience. These specific standards can be evaluated with Web accessibility evaluation tools, allowing Web designers and developers to evaluate their Web page’s accessibility. With this assessment, it is possible then to change the inaccessible source code. However, some of those guidelines need semantic knowledge, which is something that has not been implemented in the Web accessibility evaluation tools. With this purpose, my work focuses on developing and implementing a mechanism able to identify the semantic and syntactic structure of a Web page. This mechanism will rely on a segmentation tool, which separates a Web page into regions. The mechanism attributes to each region a role, which semantically represents its usage and purpose on the Web page. With this categorization, the accessibility standards and guidelines can be applied to the right elements. This document starts with a detailed introduction and goals for this work. Following, a review of the related work already done will be given, which include the concepts to understand the developed work as well as the description of the tools used. Then it will explain in detail the segmentation tool used and the initial analysis made, which was not satisfactory. The improvements to the segmentation tool and the results of each analysis will be presented in the next chapter. Next, the comparison of my evaluation with experts and users evaluations will be given. Finally, the integration of the developed mechanism into the accessibility evaluation tool will be presented, as well as the new developed techniques. At the end, a conclusion will summarize the work done and will include some future work relating to this topic.Duarte, Carlos Alberto Pacheco dos Anjos, 1972-Carriço, Luís, 1963-Repositório da Universidade de LisboaSalvado, Ana Patrícia Fernandes2018-06-16T15:21:08Z201820182018-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/33935TID:201923190enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:28:55Zoai:repositorio.ul.pt:10451/33935Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:48:45.738341Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
SISSI-Web Page's structure identification from syntactic and semantic information |
title |
SISSI-Web Page's structure identification from syntactic and semantic information |
spellingShingle |
SISSI-Web Page's structure identification from syntactic and semantic information Salvado, Ana Patrícia Fernandes Segmentação web Web semântica Acessibilidade web Teses de mestrado - 2018 Departamento de Informática |
title_short |
SISSI-Web Page's structure identification from syntactic and semantic information |
title_full |
SISSI-Web Page's structure identification from syntactic and semantic information |
title_fullStr |
SISSI-Web Page's structure identification from syntactic and semantic information |
title_full_unstemmed |
SISSI-Web Page's structure identification from syntactic and semantic information |
title_sort |
SISSI-Web Page's structure identification from syntactic and semantic information |
author |
Salvado, Ana Patrícia Fernandes |
author_facet |
Salvado, Ana Patrícia Fernandes |
author_role |
author |
dc.contributor.none.fl_str_mv |
Duarte, Carlos Alberto Pacheco dos Anjos, 1972- Carriço, Luís, 1963- Repositório da Universidade de Lisboa |
dc.contributor.author.fl_str_mv |
Salvado, Ana Patrícia Fernandes |
dc.subject.por.fl_str_mv |
Segmentação web Web semântica Acessibilidade web Teses de mestrado - 2018 Departamento de Informática |
topic |
Segmentação web Web semântica Acessibilidade web Teses de mestrado - 2018 Departamento de Informática |
description |
Tese de mestrado, Informática, Universidade de Lisboa, Faculdade de Ciências, 2018 |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018-06-16T15:21:08Z 2018 2018 2018-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10451/33935 TID:201923190 |
url |
http://hdl.handle.net/10451/33935 |
identifier_str_mv |
TID:201923190 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799134417809047552 |