Ranqueamento de respostas em comunidades de pergunta e resposta baseado em atualidade e qualidade: um estudo de caso stack overflow

Detalhes bibliográficos
Autor(a) principal: Amancio, Leandro
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFSC
Texto Completo: https://repositorio.ufsc.br/handle/123456789/188848
Resumo: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2017.
id UFSC_39d49ef8213867ed798f5ac61c278d32
oai_identifier_str oai:repositorio.ufsc.br:123456789/188848
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling Universidade Federal de Santa CatarinaAmancio, LeandroDorneles, Carina Friedrich2018-08-04T04:03:44Z2018-08-04T04:03:44Z2017353373https://repositorio.ufsc.br/handle/123456789/188848Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2017.Em comunidades de pergunta e resposta (CQAs), ranking de atualidade refere-se a colocar respostas recentes e com alta qualidade nas primeiras posições de um ranking. Ser recente não está relacionado com o quão nova é a data de criação ou edição da resposta, mas o quão atual é o conteúdo da resposta. Porém, o ranking também deve levar em consideração a qualidade das respostas, pois de pouco adianta uma resposta que seja atual, mas que não responda apropriadamente a pergunta. Assim como, por outro lado, é pouco interessante uma resposta que possua qualidade, apresentando um texto adequado e com referências, mas que contenha informações obsoletas.A combinação desses dois quesitos (atualidade e qualidade) é extremamente importante, pois os usuários necessitam obter acesso facilitado às melhores respostas para resolver rapidamente seus problemas e, geralmente, esperam por soluções atuais. As CQAs costumam disponibilizar mecanismos de votação para que os próprios usuários possam indicar as respostas de melhor qualidade, porém, esse método não se preocupa com a atualidade das respostas. Além disso, trata-se de um processo lento e subjetivo que não acompanha a taxa de surgimento de novos conteúdos. Logo, faz-se necessário o uso de um mecanismo automático que considere também a atualidade para realizar o ranking. Para realizar esse tipo de ranqueamento é necessário utilizar características textuais e não textuais que indiquem a qualidade e/ou a atualidade das respostas. Essas características podem ser extraídas da própria resposta, dos usuários envolvidos ou do ambiente de CQA como um todo. O presente trabalho indica quais características podem ser utilizadas para esse fim e propõe uma abordagem, focada nesse tipo de ambiente, para fornecer ranking das respostas baseando-se na atualidade e qualidade que elas possuem, sem necessitar da avaliação dos usuários por meio de votação. De forma resumida, essa abordagem combina características textuais e não textuais com algoritmos de learning to rank para predizer a atualidade e a qualidade das respostas. A qualidade é utilizada para classificar as respostas entre boas e ruins, através da aplicação de um ponto de corte, formando dois conjuntos de respostas: de alta qualidade e de baixa qualidade. Em seguida, é feita a ordenação de cada conjunto por ordem de atualidade. Por fim, esses conjuntos são concatenados dando origem ao ranking final, de modo que as melhores respostas e mais atuais fiquem nas primeiras posições. Para comprovar a eficácia da proposta, um estudo de caso na comunidade do Stack Overflow e um conjunto de experimentos, utilizando diferentes combinações de características e diferentes algoritmos de learning to rank, são descritos.Abstract : In Community Question Answering (CQAs), recency ranking refers to put the freshness answers with high quality in top positions of ranking. Freshness is not related to how recent is the answer creation date, but to how up-to-date is the answer content. However, the ranking should also take into account the quality of the answers, since it is unhelpful when an answer is fresh but it does not answer the question properly. On the other hand, it is not interesting when the answer has good quality, presenting adequate text and references, but containing obsolete information. Combining these two issues (freshness and quality) is extremely important because the users need to get best answers quickly to solve their questions and, usually, they expect up-to-date solutions. The CQAs usually provide voting mechanisms that the users themselves can indicate the best quality answers. However, this method is not concerned with the freshness of the answers. Moreover, it is a slow and subjective process that does not keep up the rate of arising new content. Therefore, it is necessary to use an automatic mechanism that also considers the freshness to perform the ranking. In order to carry out this type of classification, it is necessary to use textual and non-textual features to indicate the quality or freshness of the responses. These features can be extracted from the response itself, from the users involved or from the CQA environment as a whole. In this work, we indicate which features can be used for this purpose and we propose a new approach, whose the focus is on CQA environments, to provide a ranking of the answers based on the freshness and quality they have, without needing users evaluation through voting. In short, the approach combines textual and non-textual features with learning to rank algorithms to predict the freshness and quality of responses. Quality is used to classify the answers between good and bad, by applying a cut-off point, forming two sets of answers: high quality and low quality. Then, each set is sorted by freshness. Finally, the sets are concatenated to result the final ranking, so that the best and most freshness answers stay in the first positions in the ranking.To prove the effectiveness of our proposal, a study case with Stack Overflow community and a set of experiments, using different combinations of features and different learning to rank algorithms, are described.127 p.| il., gráfs., tabs.porComputaçãoPerguntas e respostasAprendizado do computadorRanqueamento de respostas em comunidades de pergunta e resposta baseado em atualidade e qualidade: um estudo de caso stack overflowinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINALPGCC1113-D.pdfPGCC1113-D.pdfapplication/pdf2676733https://repositorio.ufsc.br/bitstream/123456789/188848/-1/PGCC1113-D.pdff20fc6786522d8e9c01acffdb79ef720MD5-1123456789/1888482018-08-04 01:03:45.181oai:repositorio.ufsc.br:123456789/188848Repositório de PublicaçõesPUBhttp://150.162.242.35/oai/requestopendoar:23732018-08-04T04:03:45Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Ranqueamento de respostas em comunidades de pergunta e resposta baseado em atualidade e qualidade: um estudo de caso stack overflow
title Ranqueamento de respostas em comunidades de pergunta e resposta baseado em atualidade e qualidade: um estudo de caso stack overflow
spellingShingle Ranqueamento de respostas em comunidades de pergunta e resposta baseado em atualidade e qualidade: um estudo de caso stack overflow
Amancio, Leandro
Computação
Perguntas e respostas
Aprendizado do computador
title_short Ranqueamento de respostas em comunidades de pergunta e resposta baseado em atualidade e qualidade: um estudo de caso stack overflow
title_full Ranqueamento de respostas em comunidades de pergunta e resposta baseado em atualidade e qualidade: um estudo de caso stack overflow
title_fullStr Ranqueamento de respostas em comunidades de pergunta e resposta baseado em atualidade e qualidade: um estudo de caso stack overflow
title_full_unstemmed Ranqueamento de respostas em comunidades de pergunta e resposta baseado em atualidade e qualidade: um estudo de caso stack overflow
title_sort Ranqueamento de respostas em comunidades de pergunta e resposta baseado em atualidade e qualidade: um estudo de caso stack overflow
author Amancio, Leandro
author_facet Amancio, Leandro
author_role author
dc.contributor.none.fl_str_mv Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Amancio, Leandro
dc.contributor.advisor1.fl_str_mv Dorneles, Carina Friedrich
contributor_str_mv Dorneles, Carina Friedrich
dc.subject.classification.none.fl_str_mv Computação
Perguntas e respostas
Aprendizado do computador
topic Computação
Perguntas e respostas
Aprendizado do computador
description Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2017.
publishDate 2017
dc.date.issued.fl_str_mv 2017
dc.date.accessioned.fl_str_mv 2018-08-04T04:03:44Z
dc.date.available.fl_str_mv 2018-08-04T04:03:44Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/handle/123456789/188848
dc.identifier.other.none.fl_str_mv 353373
identifier_str_mv 353373
url https://repositorio.ufsc.br/handle/123456789/188848
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 127 p.| il., gráfs., tabs.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
bitstream.url.fl_str_mv https://repositorio.ufsc.br/bitstream/123456789/188848/-1/PGCC1113-D.pdf
bitstream.checksum.fl_str_mv f20fc6786522d8e9c01acffdb79ef720
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1766804938326802432