• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Master's Dissertation
DOI
https://doi.org/10.11606/D.45.2015.tde-20230727-113322
Document
Author
Full name
José Teodoro da Silva
E-mail
Institute/School/College
Knowledge Area
Date of Defense
Published
São Paulo, 2015
Supervisor
Title in Portuguese
Desambiguação de autoria em listas de discussão de projetos de software livre
Keywords in Portuguese
Engenharia De Software
Mineração De Dados
Software Livre
Abstract in Portuguese
Listas de discussão possibilitam a comunicação entre várias pessoas utilizando a estrutura do e-mail. Listas são utilizadas para discutir diversos assuntos, desde entretenimento até desenvolvimento de software. Elas constituem uma fonte rica de informações sobre a comunicação de seus membros e o histórico das interações é utilizado para estudos quantitativos sobre o comportamento, organização e evolução da comunidade ali existente. Entretanto, usuários utilizam múltiplos endereços de e-mail, que acabam sendo interpretados como diferentes pessoas em muitos estudos, distorcendo os resultados das análises de redes sociais e levando a conclusões equivocadas. Para evitar esse tipo de problema, alguns trabalhos propõem heurísticas para determinação única do autor das mensagens, porém pouco se sabe sobre o quão efetiva são essas heurísticas. O objetivo deste trabalho é comparar 6 heurísticas de desambiguação de autores utilizadas na literatura. Neste estudo, utilizamos as listas de discussão de 150 projetos de software livre da Fundação Apache e encontramos indícios de que o número de endereços de e-mails utilizados na comunidade pode influenciar a qualidade dos resultados das heurísticas e que a escolha da heurística de desambiguação de autores depende do conjunto de dados a ser utilizado. Construíamos uma base de referência com base em dados disponíveis no gerenciador de funcionalidades, no repositório de chaves públicas, nos sites dos projetos e na literatura. Nossos resultados apresentam indícios de que o tamanho da comunidade influencia a qualidade dos resultados dessas heurísticas e que todas as heurísticas produzem melhores resultados quando utilizam intervalos de tempo menores em vez de utilizar todo o histórico das listas de discussão. Os resultados deste trabalho podem servir de base para pesquisadores que investigam listas de discussão de comunidades abertas com grande número de participantes.
Title in English
Joining identities on Open Source Project mailing lists
Abstract in English
Mailing lists enable communication using the structure of the e-mail. We can use these lists to discuss about various topics, from entertainment to software development. These lists and are a valuable source of information about the community communication. Researchers had used their history of interactions for quantitative studies on behavior, organization and evolution of existing community there. However, the users use multiple e-mail addresses ant this can affect the results of studies using this data. To avoid problems with multiples addresses, some researchers proposed heuristics to join multiple e-mail addresses. There are few studies about how effective are these heuristics. This work compares 6 heuristics from the literature on 150 mailing lists of open source project of the Apache Foundation. We found evidences that the data set may influence the quality and the disambiguation heuristics work better with lower data sets. Our results can help researches to choose a heuristic.
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
Publishing Date
2023-07-27
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
CeTI-SC/STI
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2024. All rights reserved.