Um método automático para estimativa da qualidade de enciclopédias colaborativas on-line: um estudo de caso sobre a wikipédia

Daniel Hasan Dalip

Um método automático para estimativa da qualidade de enciclopédias colaborativas on-line: um estudo de caso sobre a wikipédia

Detalhes bibliográficos
Autor(a) principal:	Daniel Hasan Dalip
Data de Publicação:	2009
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFMG
Texto Completo:	http://hdl.handle.net/1843/SLSS-7WJN62
Resumo:	O antigo sonho de livre acesso a um repositório contendo todo o conhecimento e cultura humana está se tornando realidade através da Internet e da participação colaborativa dos seus usuários. A Wikipédia é um grande exemplo de repositório de livre acesso e edição criado através do esforço colaborativo de sua comunidade de usuários. Entretanto, esta enorme quantidade de informação disponibilizada de forma democrática causa uma grande preocupação quanto à qualidade de seu conteúdo. Nesta dissertação foram coletados um grande número de indícios de qualidade, alguns já propostos e outros novos e utilizados pela primeira vez para este fim, com o objetivo de estudar a capacidade dos mesmos em estimar a qualidade dos artigos da Wikipédia. Além disso, foi apresentada uma nova abordagem para combinar estes indícios, utilizando técnicas de aprendizado de máquina, para extrair um valor unificado referente à qualidade desses artigos. Com este trabalho foi possível analisar o impacto de cada indício e foi identificado, por exemplo, que os mais promissores em estimar a qualidade de um artigo são aqueles mais simples de extrair em qualquer biblioteca digital de acesso livre: os que levam em conta o conteúdo do texto atual como, por exemplo, o tamanho do artigo e a sua estrutura. Também foi identificado quais indícios não foram tão importantes na estimativa da qualidade. Estes indícios são, coincidentemente, os mais complexos de extrair, como os baseados em análise de ligações. Por fim, o método proposto demonstrou ganhos significativos na estimativa da qualidade de artigos ao compará-lo com as soluções estado-da-arte na literatura.

Metadados do item

id	UFMG_e3c291b72b0e3eee6efea3088654024e
oai_identifier_str	oai:repositorio.ufmg.br:1843/SLSS-7WJN62
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Marcos Andre GoncalvesMarco Antônio Pinheiro de CristoRenata de Matos GalanteGisele Lobo PappaDaniel Hasan Dalip2019-08-11T06:44:45Z2019-08-11T06:44:45Z2009-04-03http://hdl.handle.net/1843/SLSS-7WJN62O antigo sonho de livre acesso a um repositório contendo todo o conhecimento e cultura humana está se tornando realidade através da Internet e da participação colaborativa dos seus usuários. A Wikipédia é um grande exemplo de repositório de livre acesso e edição criado através do esforço colaborativo de sua comunidade de usuários. Entretanto, esta enorme quantidade de informação disponibilizada de forma democrática causa uma grande preocupação quanto à qualidade de seu conteúdo. Nesta dissertação foram coletados um grande número de indícios de qualidade, alguns já propostos e outros novos e utilizados pela primeira vez para este fim, com o objetivo de estudar a capacidade dos mesmos em estimar a qualidade dos artigos da Wikipédia. Além disso, foi apresentada uma nova abordagem para combinar estes indícios, utilizando técnicas de aprendizado de máquina, para extrair um valor unificado referente à qualidade desses artigos. Com este trabalho foi possível analisar o impacto de cada indício e foi identificado, por exemplo, que os mais promissores em estimar a qualidade de um artigo são aqueles mais simples de extrair em qualquer biblioteca digital de acesso livre: os que levam em conta o conteúdo do texto atual como, por exemplo, o tamanho do artigo e a sua estrutura. Também foi identificado quais indícios não foram tão importantes na estimativa da qualidade. Estes indícios são, coincidentemente, os mais complexos de extrair, como os baseados em análise de ligações. Por fim, o método proposto demonstrou ganhos significativos na estimativa da qualidade de artigos ao compará-lo com as soluções estado-da-arte na literatura.The old dream of a universal repository containing all the human knowledge and culture is becoming possible through the Internet and the Web. Moreover, this is happening with the direct collaborative, participation of people. Wikipedia is a great example. It is an enormous repository of information with free access and edition, created by the community in a collaborative manner. However, this large amount of information, made available democratically and virtually without any control, raises questions about its relative quality. In this work we explore a significant number of quality indicators, some of them proposed by us and used here for the first time, and study their capability to assess the quality of Wikipedia articles. Furthermore, we explore machine learning techniques to combine these quality indicators into one single assessment judgment. Through experiments, we show that the most important quality indicators are the easiest ones to extract on a open digital library, namely, textual features related to length, structure and style. We were also able to determine which indicators did not contribute significantly to the quality assessment. These were, coincidentally, the most complex features, such as those based on link analysis. Finally, we compare our combination method with state-of-the-art solutions and show significant improvements in terms of effective quality prediction.Universidade Federal de Minas GeraisUFMGBibliotecas digitaisRecuperação de informaçãoBibliotecas digitaisrecuperação de informaçãoUm método automático para estimativa da qualidade de enciclopédias colaborativas on-line: um estudo de caso sobre a wikipédiainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALdanielhasandalip.pdfapplication/pdf812965https://repositorio.ufmg.br/bitstream/1843/SLSS-7WJN62/1/danielhasandalip.pdfe65e53904c413d8001d062c6af3cd0edMD51TEXTdanielhasandalip.pdf.txtdanielhasandalip.pdf.txtExtracted texttext/plain93865https://repositorio.ufmg.br/bitstream/1843/SLSS-7WJN62/2/danielhasandalip.pdf.txtdc61bae9197636988d0ed4bd55aa46aeMD521843/SLSS-7WJN622019-11-14 09:59:44.742oai:repositorio.ufmg.br:1843/SLSS-7WJN62Repositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T12:59:44Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv	Um método automático para estimativa da qualidade de enciclopédias colaborativas on-line: um estudo de caso sobre a wikipédia
title	Um método automático para estimativa da qualidade de enciclopédias colaborativas on-line: um estudo de caso sobre a wikipédia
spellingShingle	Um método automático para estimativa da qualidade de enciclopédias colaborativas on-line: um estudo de caso sobre a wikipédia Daniel Hasan Dalip Bibliotecas digitais recuperação de informação Bibliotecas digitais Recuperação de informação
title_short	Um método automático para estimativa da qualidade de enciclopédias colaborativas on-line: um estudo de caso sobre a wikipédia
title_full	Um método automático para estimativa da qualidade de enciclopédias colaborativas on-line: um estudo de caso sobre a wikipédia
title_fullStr	Um método automático para estimativa da qualidade de enciclopédias colaborativas on-line: um estudo de caso sobre a wikipédia
title_full_unstemmed	Um método automático para estimativa da qualidade de enciclopédias colaborativas on-line: um estudo de caso sobre a wikipédia
title_sort	Um método automático para estimativa da qualidade de enciclopédias colaborativas on-line: um estudo de caso sobre a wikipédia
author	Daniel Hasan Dalip
author_facet	Daniel Hasan Dalip
author_role	author
dc.contributor.advisor1.fl_str_mv	Marcos Andre Goncalves
dc.contributor.advisor-co1.fl_str_mv	Marco Antônio Pinheiro de Cristo
dc.contributor.referee1.fl_str_mv	Renata de Matos Galante
dc.contributor.referee2.fl_str_mv	Gisele Lobo Pappa
dc.contributor.author.fl_str_mv	Daniel Hasan Dalip
contributor_str_mv	Marcos Andre Goncalves Marco Antônio Pinheiro de Cristo Renata de Matos Galante Gisele Lobo Pappa
dc.subject.por.fl_str_mv	Bibliotecas digitais recuperação de informação
topic	Bibliotecas digitais recuperação de informação Bibliotecas digitais Recuperação de informação
dc.subject.other.pt_BR.fl_str_mv	Bibliotecas digitais Recuperação de informação
description	O antigo sonho de livre acesso a um repositório contendo todo o conhecimento e cultura humana está se tornando realidade através da Internet e da participação colaborativa dos seus usuários. A Wikipédia é um grande exemplo de repositório de livre acesso e edição criado através do esforço colaborativo de sua comunidade de usuários. Entretanto, esta enorme quantidade de informação disponibilizada de forma democrática causa uma grande preocupação quanto à qualidade de seu conteúdo. Nesta dissertação foram coletados um grande número de indícios de qualidade, alguns já propostos e outros novos e utilizados pela primeira vez para este fim, com o objetivo de estudar a capacidade dos mesmos em estimar a qualidade dos artigos da Wikipédia. Além disso, foi apresentada uma nova abordagem para combinar estes indícios, utilizando técnicas de aprendizado de máquina, para extrair um valor unificado referente à qualidade desses artigos. Com este trabalho foi possível analisar o impacto de cada indício e foi identificado, por exemplo, que os mais promissores em estimar a qualidade de um artigo são aqueles mais simples de extrair em qualquer biblioteca digital de acesso livre: os que levam em conta o conteúdo do texto atual como, por exemplo, o tamanho do artigo e a sua estrutura. Também foi identificado quais indícios não foram tão importantes na estimativa da qualidade. Estes indícios são, coincidentemente, os mais complexos de extrair, como os baseados em análise de ligações. Por fim, o método proposto demonstrou ganhos significativos na estimativa da qualidade de artigos ao compará-lo com as soluções estado-da-arte na literatura.
publishDate	2009
dc.date.issued.fl_str_mv	2009-04-03
dc.date.accessioned.fl_str_mv	2019-08-11T06:44:45Z
dc.date.available.fl_str_mv	2019-08-11T06:44:45Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1843/SLSS-7WJN62
url	http://hdl.handle.net/1843/SLSS-7WJN62
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv	UFMG
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br/bitstream/1843/SLSS-7WJN62/1/danielhasandalip.pdf https://repositorio.ufmg.br/bitstream/1843/SLSS-7WJN62/2/danielhasandalip.pdf.txt
bitstream.checksum.fl_str_mv	e65e53904c413d8001d062c6af3cd0ed dc61bae9197636988d0ed4bd55aa46ae
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_	1797971012594171904

Um método automático para estimativa da qualidade de enciclopédias colaborativas on-line: um estudo de caso sobre a wikipédia

Registros relacionados