Desambiguação de autoria em listas de discussão de projetos de software livre
Autor(a) principal: | |
---|---|
Data de Publicação: | 2015 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113322/ |
Resumo: | Listas de discussão possibilitam a comunicação entre várias pessoas utilizando a estrutura do e-mail. Listas são utilizadas para discutir diversos assuntos, desde entretenimento até desenvolvimento de software. Elas constituem uma fonte rica de informações sobre a comunicação de seus membros e o histórico das interações é utilizado para estudos quantitativos sobre o comportamento, organização e evolução da comunidade ali existente. Entretanto, usuários utilizam múltiplos endereços de e-mail, que acabam sendo interpretados como diferentes pessoas em muitos estudos, distorcendo os resultados das análises de redes sociais e levando a conclusões equivocadas. Para evitar esse tipo de problema, alguns trabalhos propõem heurísticas para determinação única do autor das mensagens, porém pouco se sabe sobre o quão efetiva são essas heurísticas. O objetivo deste trabalho é comparar 6 heurísticas de desambiguação de autores utilizadas na literatura. Neste estudo, utilizamos as listas de discussão de 150 projetos de software livre da Fundação Apache e encontramos indícios de que o número de endereços de e-mails utilizados na comunidade pode influenciar a qualidade dos resultados das heurísticas e que a escolha da heurística de desambiguação de autores depende do conjunto de dados a ser utilizado. Construíamos uma base de referência com base em dados disponíveis no gerenciador de funcionalidades, no repositório de chaves públicas, nos sites dos projetos e na literatura. Nossos resultados apresentam indícios de que o tamanho da comunidade influencia a qualidade dos resultados dessas heurísticas e que todas as heurísticas produzem melhores resultados quando utilizam intervalos de tempo menores em vez de utilizar todo o histórico das listas de discussão. Os resultados deste trabalho podem servir de base para pesquisadores que investigam listas de discussão de comunidades abertas com grande número de participantes. |
id |
USP_e886e6a45f5be3aabd6012ecc05b8326 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-20230727-113322 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Desambiguação de autoria em listas de discussão de projetos de software livreJoining identities on Open Source Project mailing listsEngenharia De SoftwareMineração De DadosSoftware LivreListas de discussão possibilitam a comunicação entre várias pessoas utilizando a estrutura do e-mail. Listas são utilizadas para discutir diversos assuntos, desde entretenimento até desenvolvimento de software. Elas constituem uma fonte rica de informações sobre a comunicação de seus membros e o histórico das interações é utilizado para estudos quantitativos sobre o comportamento, organização e evolução da comunidade ali existente. Entretanto, usuários utilizam múltiplos endereços de e-mail, que acabam sendo interpretados como diferentes pessoas em muitos estudos, distorcendo os resultados das análises de redes sociais e levando a conclusões equivocadas. Para evitar esse tipo de problema, alguns trabalhos propõem heurísticas para determinação única do autor das mensagens, porém pouco se sabe sobre o quão efetiva são essas heurísticas. O objetivo deste trabalho é comparar 6 heurísticas de desambiguação de autores utilizadas na literatura. Neste estudo, utilizamos as listas de discussão de 150 projetos de software livre da Fundação Apache e encontramos indícios de que o número de endereços de e-mails utilizados na comunidade pode influenciar a qualidade dos resultados das heurísticas e que a escolha da heurística de desambiguação de autores depende do conjunto de dados a ser utilizado. Construíamos uma base de referência com base em dados disponíveis no gerenciador de funcionalidades, no repositório de chaves públicas, nos sites dos projetos e na literatura. Nossos resultados apresentam indícios de que o tamanho da comunidade influencia a qualidade dos resultados dessas heurísticas e que todas as heurísticas produzem melhores resultados quando utilizam intervalos de tempo menores em vez de utilizar todo o histórico das listas de discussão. Os resultados deste trabalho podem servir de base para pesquisadores que investigam listas de discussão de comunidades abertas com grande número de participantes.Mailing lists enable communication using the structure of the e-mail. We can use these lists to discuss about various topics, from entertainment to software development. These lists and are a valuable source of information about the community communication. Researchers had used their history of interactions for quantitative studies on behavior, organization and evolution of existing community there. However, the users use multiple e-mail addresses ant this can affect the results of studies using this data. To avoid problems with multiples addresses, some researchers proposed heuristics to join multiple e-mail addresses. There are few studies about how effective are these heuristics. This work compares 6 heuristics from the literature on 150 mailing lists of open source project of the Apache Foundation. We found evidences that the data set may influence the quality and the disambiguation heuristics work better with lower data sets. Our results can help researches to choose a heuristic.Biblioteca Digitais de Teses e Dissertações da USPGerosa, Marco AurélioSilva, José Teodoro da2015-10-14info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113322/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-07-27T19:22:05Zoai:teses.usp.br:tde-20230727-113322Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-07-27T19:22:05Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Desambiguação de autoria em listas de discussão de projetos de software livre Joining identities on Open Source Project mailing lists |
title |
Desambiguação de autoria em listas de discussão de projetos de software livre |
spellingShingle |
Desambiguação de autoria em listas de discussão de projetos de software livre Silva, José Teodoro da Engenharia De Software Mineração De Dados Software Livre |
title_short |
Desambiguação de autoria em listas de discussão de projetos de software livre |
title_full |
Desambiguação de autoria em listas de discussão de projetos de software livre |
title_fullStr |
Desambiguação de autoria em listas de discussão de projetos de software livre |
title_full_unstemmed |
Desambiguação de autoria em listas de discussão de projetos de software livre |
title_sort |
Desambiguação de autoria em listas de discussão de projetos de software livre |
author |
Silva, José Teodoro da |
author_facet |
Silva, José Teodoro da |
author_role |
author |
dc.contributor.none.fl_str_mv |
Gerosa, Marco Aurélio |
dc.contributor.author.fl_str_mv |
Silva, José Teodoro da |
dc.subject.por.fl_str_mv |
Engenharia De Software Mineração De Dados Software Livre |
topic |
Engenharia De Software Mineração De Dados Software Livre |
description |
Listas de discussão possibilitam a comunicação entre várias pessoas utilizando a estrutura do e-mail. Listas são utilizadas para discutir diversos assuntos, desde entretenimento até desenvolvimento de software. Elas constituem uma fonte rica de informações sobre a comunicação de seus membros e o histórico das interações é utilizado para estudos quantitativos sobre o comportamento, organização e evolução da comunidade ali existente. Entretanto, usuários utilizam múltiplos endereços de e-mail, que acabam sendo interpretados como diferentes pessoas em muitos estudos, distorcendo os resultados das análises de redes sociais e levando a conclusões equivocadas. Para evitar esse tipo de problema, alguns trabalhos propõem heurísticas para determinação única do autor das mensagens, porém pouco se sabe sobre o quão efetiva são essas heurísticas. O objetivo deste trabalho é comparar 6 heurísticas de desambiguação de autores utilizadas na literatura. Neste estudo, utilizamos as listas de discussão de 150 projetos de software livre da Fundação Apache e encontramos indícios de que o número de endereços de e-mails utilizados na comunidade pode influenciar a qualidade dos resultados das heurísticas e que a escolha da heurística de desambiguação de autores depende do conjunto de dados a ser utilizado. Construíamos uma base de referência com base em dados disponíveis no gerenciador de funcionalidades, no repositório de chaves públicas, nos sites dos projetos e na literatura. Nossos resultados apresentam indícios de que o tamanho da comunidade influencia a qualidade dos resultados dessas heurísticas e que todas as heurísticas produzem melhores resultados quando utilizam intervalos de tempo menores em vez de utilizar todo o histórico das listas de discussão. Os resultados deste trabalho podem servir de base para pesquisadores que investigam listas de discussão de comunidades abertas com grande número de participantes. |
publishDate |
2015 |
dc.date.none.fl_str_mv |
2015-10-14 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113322/ |
url |
https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113322/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815257218925199360 |