Desambiguação de autoria em listas de discussão de projetos de software livre

Detalhes bibliográficos
Autor(a) principal: Silva, José Teodoro da
Data de Publicação: 2015
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113322/
Resumo: Listas de discussão possibilitam a comunicação entre várias pessoas utilizando a estrutura do e-mail. Listas são utilizadas para discutir diversos assuntos, desde entretenimento até desenvolvimento de software. Elas constituem uma fonte rica de informações sobre a comunicação de seus membros e o histórico das interações é utilizado para estudos quantitativos sobre o comportamento, organização e evolução da comunidade ali existente. Entretanto, usuários utilizam múltiplos endereços de e-mail, que acabam sendo interpretados como diferentes pessoas em muitos estudos, distorcendo os resultados das análises de redes sociais e levando a conclusões equivocadas. Para evitar esse tipo de problema, alguns trabalhos propõem heurísticas para determinação única do autor das mensagens, porém pouco se sabe sobre o quão efetiva são essas heurísticas. O objetivo deste trabalho é comparar 6 heurísticas de desambiguação de autores utilizadas na literatura. Neste estudo, utilizamos as listas de discussão de 150 projetos de software livre da Fundação Apache e encontramos indícios de que o número de endereços de e-mails utilizados na comunidade pode influenciar a qualidade dos resultados das heurísticas e que a escolha da heurística de desambiguação de autores depende do conjunto de dados a ser utilizado. Construíamos uma base de referência com base em dados disponíveis no gerenciador de funcionalidades, no repositório de chaves públicas, nos sites dos projetos e na literatura. Nossos resultados apresentam indícios de que o tamanho da comunidade influencia a qualidade dos resultados dessas heurísticas e que todas as heurísticas produzem melhores resultados quando utilizam intervalos de tempo menores em vez de utilizar todo o histórico das listas de discussão. Os resultados deste trabalho podem servir de base para pesquisadores que investigam listas de discussão de comunidades abertas com grande número de participantes.
id USP_e886e6a45f5be3aabd6012ecc05b8326
oai_identifier_str oai:teses.usp.br:tde-20230727-113322
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Desambiguação de autoria em listas de discussão de projetos de software livreJoining identities on Open Source Project mailing listsEngenharia De SoftwareMineração De DadosSoftware LivreListas de discussão possibilitam a comunicação entre várias pessoas utilizando a estrutura do e-mail. Listas são utilizadas para discutir diversos assuntos, desde entretenimento até desenvolvimento de software. Elas constituem uma fonte rica de informações sobre a comunicação de seus membros e o histórico das interações é utilizado para estudos quantitativos sobre o comportamento, organização e evolução da comunidade ali existente. Entretanto, usuários utilizam múltiplos endereços de e-mail, que acabam sendo interpretados como diferentes pessoas em muitos estudos, distorcendo os resultados das análises de redes sociais e levando a conclusões equivocadas. Para evitar esse tipo de problema, alguns trabalhos propõem heurísticas para determinação única do autor das mensagens, porém pouco se sabe sobre o quão efetiva são essas heurísticas. O objetivo deste trabalho é comparar 6 heurísticas de desambiguação de autores utilizadas na literatura. Neste estudo, utilizamos as listas de discussão de 150 projetos de software livre da Fundação Apache e encontramos indícios de que o número de endereços de e-mails utilizados na comunidade pode influenciar a qualidade dos resultados das heurísticas e que a escolha da heurística de desambiguação de autores depende do conjunto de dados a ser utilizado. Construíamos uma base de referência com base em dados disponíveis no gerenciador de funcionalidades, no repositório de chaves públicas, nos sites dos projetos e na literatura. Nossos resultados apresentam indícios de que o tamanho da comunidade influencia a qualidade dos resultados dessas heurísticas e que todas as heurísticas produzem melhores resultados quando utilizam intervalos de tempo menores em vez de utilizar todo o histórico das listas de discussão. Os resultados deste trabalho podem servir de base para pesquisadores que investigam listas de discussão de comunidades abertas com grande número de participantes.Mailing lists enable communication using the structure of the e-mail. We can use these lists to discuss about various topics, from entertainment to software development. These lists and are a valuable source of information about the community communication. Researchers had used their history of interactions for quantitative studies on behavior, organization and evolution of existing community there. However, the users use multiple e-mail addresses ant this can affect the results of studies using this data. To avoid problems with multiples addresses, some researchers proposed heuristics to join multiple e-mail addresses. There are few studies about how effective are these heuristics. This work compares 6 heuristics from the literature on 150 mailing lists of open source project of the Apache Foundation. We found evidences that the data set may influence the quality and the disambiguation heuristics work better with lower data sets. Our results can help researches to choose a heuristic.Biblioteca Digitais de Teses e Dissertações da USPGerosa, Marco AurélioSilva, José Teodoro da2015-10-14info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113322/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-07-27T19:22:05Zoai:teses.usp.br:tde-20230727-113322Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-07-27T19:22:05Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Desambiguação de autoria em listas de discussão de projetos de software livre
Joining identities on Open Source Project mailing lists
title Desambiguação de autoria em listas de discussão de projetos de software livre
spellingShingle Desambiguação de autoria em listas de discussão de projetos de software livre
Silva, José Teodoro da
Engenharia De Software
Mineração De Dados
Software Livre
title_short Desambiguação de autoria em listas de discussão de projetos de software livre
title_full Desambiguação de autoria em listas de discussão de projetos de software livre
title_fullStr Desambiguação de autoria em listas de discussão de projetos de software livre
title_full_unstemmed Desambiguação de autoria em listas de discussão de projetos de software livre
title_sort Desambiguação de autoria em listas de discussão de projetos de software livre
author Silva, José Teodoro da
author_facet Silva, José Teodoro da
author_role author
dc.contributor.none.fl_str_mv Gerosa, Marco Aurélio
dc.contributor.author.fl_str_mv Silva, José Teodoro da
dc.subject.por.fl_str_mv Engenharia De Software
Mineração De Dados
Software Livre
topic Engenharia De Software
Mineração De Dados
Software Livre
description Listas de discussão possibilitam a comunicação entre várias pessoas utilizando a estrutura do e-mail. Listas são utilizadas para discutir diversos assuntos, desde entretenimento até desenvolvimento de software. Elas constituem uma fonte rica de informações sobre a comunicação de seus membros e o histórico das interações é utilizado para estudos quantitativos sobre o comportamento, organização e evolução da comunidade ali existente. Entretanto, usuários utilizam múltiplos endereços de e-mail, que acabam sendo interpretados como diferentes pessoas em muitos estudos, distorcendo os resultados das análises de redes sociais e levando a conclusões equivocadas. Para evitar esse tipo de problema, alguns trabalhos propõem heurísticas para determinação única do autor das mensagens, porém pouco se sabe sobre o quão efetiva são essas heurísticas. O objetivo deste trabalho é comparar 6 heurísticas de desambiguação de autores utilizadas na literatura. Neste estudo, utilizamos as listas de discussão de 150 projetos de software livre da Fundação Apache e encontramos indícios de que o número de endereços de e-mails utilizados na comunidade pode influenciar a qualidade dos resultados das heurísticas e que a escolha da heurística de desambiguação de autores depende do conjunto de dados a ser utilizado. Construíamos uma base de referência com base em dados disponíveis no gerenciador de funcionalidades, no repositório de chaves públicas, nos sites dos projetos e na literatura. Nossos resultados apresentam indícios de que o tamanho da comunidade influencia a qualidade dos resultados dessas heurísticas e que todas as heurísticas produzem melhores resultados quando utilizam intervalos de tempo menores em vez de utilizar todo o histórico das listas de discussão. Os resultados deste trabalho podem servir de base para pesquisadores que investigam listas de discussão de comunidades abertas com grande número de participantes.
publishDate 2015
dc.date.none.fl_str_mv 2015-10-14
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113322/
url https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113322/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257218925199360