即使你不用社交网络,也可能被找到

互联网 | 编辑: 潘翔城 2012-05-07 00:00:00转载

海德堡大学的研究人员与Facebook匿名合作,将朋友关系网作为测试基础数据组。通过网络分析和机器学习方法处理数据,以在一定条件下,准确预测40%的非用户间是否相识。这个研究也说明社交网络中潜在着许多非用户的信息。

我们对那些好友是社交网络用户,但本人并不使用社交网络的人,能不能辨认呢?海德堡大学科学计算跨学科研究中心的研究人员,对此问题展开了调查研究。从他们的研究工作中可以看出,通过网络分析和机器学习方法对用户间关联和用户与非用户间的关联模式进行再处理,从而得出非用户之间的关系。使用这种简单的关联数据,它可以在一定条件下,能以40%的概率预测两个非社交网络用户之间是否都互相认识。

任意社交网络平台将社交群体分为两部分,用户(黑色小人)与非用户,非用户又分关联非用户(红色小人)和无关联非用户(灰色小人)。非用户间进行邮件联系的用红线标示出来,表示二者认识,而灰线表示未观察到存在关联,即非用户间互相不认识。非用户之间的关系可以从用户间关系(黑线)以及用户与非用户间的联系模式(绿线)准确推测出。

几年来,科学家们一直致力于研究这样的问题,通过运用充分学习和预测算法,对输入数据进行计算分析可以得出什么结论?在一个社交网络中,一些信息用户是不会披露出来的,如性取向或政治倾向,但如果有他的好友提供足够多关于他的信息,那么计算出来的结果会有较高的正确率。海德堡图像处理合作实验室(HCI)的联合创始人,汉普拉彻教授(Prof. Dr. Fred Hamprecht)称,一旦已确认的朋友关系被获知,那么对机器学习来说,预测一些未知内容将不再是一个太大的挑战。

到目前为止,这类研究仅限于社交网络的用户,即那些拥有用户文件并同意(社交网络)给定隐私条款的人。“然而,非用户并没有这样的隐私保密协议,因此,我们对自动生成的所谓影子文件(shadow profiles)展开研究。”在德国海德堡大学科学计算跨学科研究中心(IWR)工作的茨威格教授(Prof. Dr. Katharina Zweig)解释说。

在一个社交网络中,推测非用户信息还是可能的,举例来说,通过使用所谓的发现朋友的应用。当新的一个Facebook用户注册时,他们被要求提供一份完整的电子邮件联系人列表,甚至包括那些不是Facebook的用户。“在社交网络里,这样的谁和谁可能认识的信息会与用户在社交网络之外又认识哪些人的信息捆绑起来。反过来,这样的关联可以用于推测相当一部分非用户之间的关系”,茨威格教授的同事霍瓦特(Ágnes Horvát)如是说。

海德堡大学的研究人员采用基于网络分析结构的标准机器学习程序来完成计算。因为研究所用数据不是随便就能拿到的,研究人员与Facebook匿名合作,将朋友关系网作为测试基础数据组。使用一个范围尽可能广的模型来模拟用户和非用户之间的区分,这样的区分被用于验证实验结果的正确性。研究人员采用标准化计算机,可以在短短数天内计算出哪些非用户最有可能是其他人的朋友。

令海德堡大学的科学家们惊讶的是,所有的模拟方法都产生了相同的定性结果。根据海德堡图像处理合作实验室的韩思曼博士(Dr. Michael Hanselmann)的说法,基于实际假定社交网络用户在人群中占的比例,以及他们将邮件地址簿上传到网上的概率,计算结果可以让我们准确预测40%的非用户间的关系,这代表了与简单猜测相比,准确率提高了20倍之多。

研究结果说明了社交网络中潜在着许多非用户的信息。汉普拉彻教授强调说,该研究仅以关系数据作为基础,这不禁让人吃惊。许多社交网络平台,拥有更多的用户信息,例如年龄,收入,教育经历,或者住址等。利用这些数据,再配备相应的技术基础设施和其他的网络分析结构特性,研究人员相信,预测正确性将得到大大提高。茨威格教授说:“总得说来,我们的项目阐明了一点,我们作为社交群体的一员,得弄明白那些用户没有提供的关系数据可能会被利用到什么程度。”

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑