方可成:全世界都在呼吁“算法透明化”,率先站出来的是今日头条

互联网 | 编辑: 李佳佳 2018-01-18 11:35:55转载

今日头条此前给人的印象是,总在强调技术、机器。这本身并没有什么错,因为它确实是一家以技术为内核的公司。

过去一两年,全球的传媒观察者、研究者都在盯着一个词:算法(algorithm)。

什么是算法?简单粗暴地理解,算法就是一套规则,由机器去执行。比如,你在微博信息流中看到的内容,并不是按照时间顺序排列的,那么是依据什么排列的?算法。算法可以规定,你和一个人互动越频繁,就能越多地看到ta发的微博;算法还可以规定,短视频内容会被优先展示给粉丝;等等。

再比如,你在今日头条刷出来的新闻,并不是人工编辑帮你挑选排序的,而是机器自动完成的,那么机器选择新闻的依据是什么?算法。算法可以规定,如果你喜欢足球,就多给你看足球相关新闻;算法还可以规定,如果你身在北京,就多给你推北京本地新闻;等等。

同样,淘宝向你推荐的商品,网易云音乐给你列出的每日推荐歌曲,豆瓣猜你喜欢的电影,滴滴给你分配的司机,高德地图给你推荐的路线,也都是依靠算法完成的。背后的具体规则多种多样,但它们都有一个名字,那就是算法。

我们的生活正越来越多地被算法决定:读新闻、看电影、吃饭、打车……几乎每一种日常行为,都受到算法的影响。《人类简史》《未来简史》的作者尤瓦尔·赫拉利甚至预测:未来,跟谁谈恋爱和结婚也会由算法来决定。刚刚推出的《黑镜》第四季已经在第四集中将这种设想写进了剧本。

caeabdf3209ed2497d0491771b542078.jpg

黑镜第四季第四集

无处不在的算法,实际上已经成了当今社会上的一种重要的权力(power)。它能在很大程度上决定我们看到什么、听到什么、了解到真实还是虚假的信息、和谁产生互动。

我们都知道,权力需要得到监督,要被“关进笼子里”才好。可是,算法的权力,我们目前还很难监督。

放眼全球,包括Facebook、Google在内的几乎所有互联网公司都将算法视为公司的重要机密,不愿意打开这个黑匣子,让外界了解。

作为商业公司,互联网巨头们有种种考虑,这是可以理解的。但是许多观察者和研究者指出:既然算法已经如此深入地影响着我们的公共生活,它就不能再以“商业秘密”的形式被藏起来了,它应该得到公众的了解和监督。

我长期跟踪全球传媒业界和学界的动向。这一两年来,我最频繁见到的词之一就是:“算法透明度”。要求互联网公司向公众公开算法的细节,提高算法的透明度,已经越来越成为共识。

皮尤研究中心去年2月发布的一份研究报告《算法时代的利弊》显示,算法透明度是业界和学界共同关心的焦点之一。“找到一个能够实现透明化,并且评估结果的框架,将会非常关键。”报告引用受访专家的意见说。

去年12月,在联合国教科文组织的一次会议上,电子隐私信息中心(Electronic Privacy InformationCenter, EPIC)主席Marc Rotenberg甚至提出:对算法的知情权也是人们的一种基本权利,在算法透明度和商业机密之间,需要找到一个恰当的平衡点。而ACM(国际计算机协会)的美国公共政策协会也在去年发布了算法透明度的一份原则性文件,其中提到:鼓励使用算法决策的系统和机构对算法流程和结果进行解释。

f01773c22acef6c7c294782fac9d4174.jpg

虽然呼声越来越大,但到目前为止,还没有硅谷巨头作出实质性的响应。Facebook在接受关于俄罗斯利用社交媒体平台干预美国大选的调查之后,扎克伯格强调会提高透明度,不过只是展示在平台投放广告的商家信息,而不是对自身的算法进行公开解释。而在一次和国会议员的闭门交流中,Facebook只是语焉不详地表示自己的算法会给原创内容和多媒体内容增加权重,除此之外就没有再透露更多了。

反倒是中国的一家互联网企业开了个头,率先进行了分享。这家企业的主要产品叫做今日头条。

1月11日,今日头条召开了一场旨在推动整个行业来问诊算法、建言算法的分享交流会,主讲人是资深算法架构师、中国科技大学计算机博士曹欢欢。

参加交流会的,有100多位自中央电视台、新华社、人民日报技术局等媒体机构的从业者,以及来自阿里、腾讯、百度、美团、新浪、网易等科技公司的算法工程师和产品经理。

曹欢欢博士的分享题目就叫做《让算法公开透明》,宗旨是面向行业公开算法原理,消除社会各界对算法的一些误解。

让算法公开透明,说起来简单,做起来复杂。

社交新闻网站Reddit的首席技术官(CTO)Christopher Slowe曾经在讨论算法的时候贴出下面这张叫做“蓝球机器”图——

01baf7761f9fa2ea91a162bfa326e015.jpg

在这张令人眼花缭乱的动图里面,有着数不清的机关和环节,它们彼此之间又相互关联,共同左右着机器的运行。

让算法透明之后,我们看到的不会是一个“1+2=3”一样的简洁算式,而会是上面这张动图那样的复杂,甚至是一定程度上的混乱。而且,随着技术的飞速发展和对用户需求的更精准把握,算法也总是在不停的更新之中。

这是我们在呼吁算法公开透明的时候,应该做好的心理准备。如果说,让算法公开透明是互联网企业的责任,那么硬币的另一面就是:公众也应多学习和了解一些算法常识,这样才能更好地监督算法。

我通过今日头条的朋友,得到了这次分享的内容纪要。以下,我将我所理解的今日头条算法原理向大家做个通俗的讲解。

要点一:今日头条在做算法推荐时,考虑了四个方面的因素。

怎样决定把什么样的内容推给什么样的用户?比较为人熟知的是:今日头条会根据用户的兴趣来推送。它的广告词“你关心的才是头条”主打的也是这一点。

但是,用户特征(包括年龄、性别、职业、兴趣等)和内容特征是否匹配,只是算法在推荐内容时考虑的一个方面。也就是说,算法确实会考虑一条内容和你本身的兴趣是否搭配,但这只是一个方面。

算法还会考虑其他三个方面的因素:一是时间和使用场景,比如你是在上班路上看,在家里看,还是在旅游途中看,等等;二是热度特征,也就是现在热门的内容有哪些,这些在你第一次使用、系统还不了解你的时候(也就是所谓“冷启动”)特别有用;三是协同特征,也就是看和你相似的用户在看什么,把别人喜欢的内容推荐给你。

这最后一点尤其重要,因为这种被称为“协同过滤”的方法,可以帮助避免“算法越推越窄”的问题。它依据的不是你之前看了什么,而是和你相似的其他人喜欢什么,这有助于帮你探索到更多的内容。

要点二:算法会对文本进行很多分析。

今日头条是做图文内容起家的,对文本进行分析是其基础。只有分析了文本的特征,才能得知读了这段文本的用户有何特征。

今日头条的算法会对每一篇文本做很多层次的分析,包括分类、关键词、topic、实体词等。

在分类方面,第一层的分类是像科技、体育、财经、娱乐,体育这样的大类,再下面细分足球、篮球、乒乓球、网球、田径、游泳……足球再细分国际足球、中国足球……中国足球又细分中甲、中超、国家队……

ad71608cf9b7447304ab58ba1858da93.jpg

“topic”指的是一篇文章中各种词出现的概率;“实体词”则是指名词和代词,识别出了实体词,才知道这篇文章讲的是什么。

要点三:算法会考虑用户的很多种行为。

很多人都知道,在今日头条里面,我点击了阅读了什么内容,会被机器记录下来,并根据此向我推荐更多的内容。

但算法考虑的不仅仅是你点了什么内容而已,还包括其他。

比如,你点一篇文章,但很快就关掉了,那么可能是因为这篇文章是标题党,你进去发现自己被骗了,于是马上跳出。这种停留时间短的点击会被记录下来,用来过滤标题党。

再比如,你点击了一些热门文章(如前段时间PG One的新闻),算法不会太在意,不会认为你真的是PG One的粉丝。

如果一篇文章被推荐推荐给你,而你没有点击,这也会被机器记录下来。这篇文章的相关特征(类别、关键词、来源)会被记录成你可能不那么喜欢的特征,下次就少向你推荐这些了。

此外,人的兴趣会发生转移,所以算法会着重考虑你新的行为,旧的行为会逐渐不那么重要。

要点四:今日头条是一个巨型的实验室。

有这么多因素要考虑,那么也就意味着,算法有很多种写法:既可以特别重视用户兴趣,也可以特别重视推热点文章,还可以特别重视记录用户不喜欢的内容……那么,到底哪一种配置才是最好的?

“很多公司算法做的不好,并非是工程师能力不够,而是需要一个强大的实验平台。”曹欢欢博士说,“有一句我认为非常智慧的话是,‘一个事情没法评估就没法优化’。”

今日头条就是一个巨型的实验室,每天都在做着许多实验。

比如,随机选择5%的用户,给他们推某种新的算法改动,看他们是不是喜欢。每天,用户们都在充当着“小白鼠”,帮助提高算法的质量。

这里有一个很关键的问题:怎么判断用户喜不喜欢?看他们是不是点得更多了?看得时间更长了?更活跃了?曹欢欢说:“不能只看点击率或者留存互动等等,需要综合评估。”他认为,一个良好的评估体系建立需要兼顾短期指标与长期指标,也要兼顾用户指标和生态指标。“今日头条作为内容分创作平台,既要为内容创作者提供价值,让他更有尊严的创作,也有义务满足用户,这两者要平衡。还有广告主利益也要考虑,这是多方博弈和平衡的过程。”

他还透露,“目前,我们上线还是要由各业务比较资深的人组成评审委员会深入讨论后决定。”

在我看来,这次公开分享中最重要的信息是:算法并不是决策者,写算法的人才是。

表面上看,我们的生活越来越被算法决定。其实,算法只不过是一套规则,机器只不过是按照人写好的规则行事。所以,最终还是被写算法的人决定。

曹欢欢博士在分享中说:“算法分发并非是把所有决策都交给机器,我们会不断纠偏,设计、监督并管理算法模型。”

此外,算法也不是万能的,很多事情还是要配合人工干预来做。完全交给机器,并不现实。

比如,他承认:评估内容的效果时,既可以看点击率、阅读时间、点赞、评论、转发等可以量化的因素,但“引入数据以外的要素也很重要”。“有些算法可以完成,有些算法还做不到、做得不好,这就需要内容干预。”言下之意,人工编辑的参与依然重要。

再比如,对标题党、低质内容的打压,对重要新闻的置顶、加权、强插,对低级别账号内容的降权,都是算法本身无法完成的,是由人工编辑进行的。

今日头条此前给人的印象是,总在强调技术、机器。这本身并没有什么错,因为它确实是一家以技术为内核的公司。但是,技术背后也是人,而且技术目前还有很多无法完成的工作,需要有人的干预。在这次分享中,我们看到今日头条的形象在发生一些微妙的变化,在推进算法透明度的同时,也在越来越多谈到人的重要性。

今日头条对外公开表示:“人工智能发展带来的挑战,是人类此前没有遭遇过的。当企业发展壮大时,有责任也有义务,与行业一道积极思考与研究新技术可能带来的机遇和风险。”这样的态度和姿态,以及这次公开算法原理的尝试,都是值得鼓励的。

接下来,不管是在美国、中国还是其他国家,算法透明化相信都会成为重要的趋势。我们等待着下一家互联网公司的主动分享。

相关阅读

网友评论

每日精选

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑