【观点】人民网三批今日头条,专家谈当前算法局限及其改进

摘要: 导读: 推荐算法“此路不通”?还是在不足之处有可以改进的途径?以今日头条为代表所采用的个性化新闻资讯推送之算

12-11 13:11 首页 看传媒

导读:

推荐算法“此路不通”?还是在不足之处有可以改进的途径?以今日头条为代表所采用的个性化新闻资讯推送之算法推荐,最近三次被《人民日报》批评,涉及其内容产出、算法分发、阻碍创新等层面,算法推荐技术成为批评之核心。不仅今日头条积极回应,亦有专家为此诊断支招,中国人民大学新闻学院教授宋建武最近撰文就此分析,就提出了信息甄别、算法改进、丰富取值的改进可能。“看传媒”整理供大家参阅。

人民日报三批今日头条,推荐算法“此路不通”?

今日头条近日可谓处于风口浪尖,在接连的版权官司之后,人民网又连续三天撰文从内容产出、算法分发、创新等角度对今日头条进行全方位立体式的批判,这也应该是今日头条成立以来,被主流媒体最为严重的一次质疑。

 

人民网在第一篇文章《评今日头条、一点资讯算法推荐:不能让算法决定内容》中态度鲜明地提出,在技术红利的背后,也有阳光照不到的地方。如何消除缺少阳光照射的灰色地带?人民网支招,任何时候,内容推送不能少了“总编辑”,再好的传播渠道也要有“看门人”。

 

很显然,这一招击中今日头条最软肋的地方。因为此前今日头条CEO张一鸣曾公开发表言论称,今日头条“不需要总编,没有主编”。眼下,今日头条时常曝充斥着大量的色情、低俗内容。“看门人”何在?仅仅靠算法,能清除乌烟瘴气?

 

第二篇文章《人民网二评算法推荐:别被算法困在“信息茧房”》中,直指眼下一些热点网络事件中暴露出的价值观分化问题,并且言辞激烈地痛批“算法”,称不能接借技术深奥之名糊弄网民和群众。

 

9月20日,人民网再度发力,以《警惕算法走向创新的反面》为题,指出今日头条等智能信息平台带来的最大问题,可能还不是侵权,而是走向创新的反面,甚至可能从根本上破坏创新的源动力。

 

三篇文章,犹如重磅炸弹,重击一直视算法为制胜法宝的今日头条。从今年7月人民日报发文《新闻莫被算法“绑架”》,到如今三评“算法”,不难看出官媒对今日头条等信息客户端的态度。

正视机器算法之不足,今日头条回应全文

在9月21日下午,今日头条发了一封回应信,大意就是:感谢人民网,机器算法有不足,但会努力改进。

以下为今日头条回应全文:

正视不足,勉力前行

 

在今天,算法分发已经是包括搜索引擎、浏览器、资讯客户端甚至音乐软件在内的互联网产品的标配。行业普遍认为,中国的算法分发走在全世界前列。人民网对算法分发的三篇评论,关心技术潮流,切中行业脉搏,考虑深远。

 

感谢人民网在评论中把今日头条作为案例来分析。作为全球最早依靠机器学习来做个性化分发的信息平台,今日头条理解媒体的这些忧虑。

 

今日头条的初衷,是希望通过人工智能技术促进人与信息的交流。机器学习已经在信息分发中表现出了它不可替代的作用,尤其是长尾内容的分发和触达。它和信息传播介质的升级一起,降低了人们获取信息的知识门槛,让“知识普惠”从口号变成了现实。

 

机器学习和人工编辑,在现阶段,是相辅相成的。未来也是如此。再聪明的人工智能,也只是一个需要不断升级的工具,而人是不可替代的。这是一个不断磨合和优化的过程。这也是人民网三篇评论的价值所在。

 

我们正视机器学习技术目前整体发展的不足,勉力改进。今日头条,是伴随着机器学习技术在信息分发领域的应用而发展起来的,还在成长,还需要经历挑战。

 

多谢社会各界的关注和支持。作为行业领导者,今日头条有不可推卸的义务,让基于机器学习的信息分发,给社会创造更大的价值。

专家观点:算法的局限与改进

中国人民大学新闻学院教授、博士生导师宋建武最近撰文就此分析。其观点如下:

 

近日,人民网连续刊载了三篇评论,对个性化新闻资讯推送服务中出现的乱象,做了切中时弊的分析。这三篇文章,引导我们对算法技术的本质特征,及其对传播方式的影响,做出冷静而深入的思考。

 

通过研究以今日头条为代表的“个性化资讯分发平台”,我们得出了一些关于现有算法的局限及其改进方法的认识和判断。


其一,内容杂芜。资讯平台为最大规模地占有内容资源,在发展的特定阶段,往往不加甄别地扩充所谓“自媒体”的内容,以致于内容数据库中鱼目混珠,虚假和低俗信息乘虚而入。平台上大量低品质内容的供给,大规模地“创造”着对低俗内容的需求。而资讯平台对此缺少管理手段,有些平台甚至在主观上还企图借此提高“流量”和“用户数”。

 

其二,算法单一。目前的各类“个性化资讯分发平台”,基本上都是根据用户信息点击的历史数据判断其信息偏好,据此推送更多同类内容。点击量高的内容和内容类别会作为初始设定,被推给更多用户。考虑到用户使用移动终端的场景近乎个人独处,具有私密化特征,此种状态下表现出来的信息需求,常常会对猎奇和低俗内容较为敏感,这类低质量信息往往点击量较高。

 

其三,取值偏差。资讯分发平台把对特定资讯的个人点击量和整体点击量(即所谓热度)作为算法的主要甚至是唯一取值标准,使之成为机器通过算法进行推送的依据。而客观全面地分析“热度”,我们发现,这个指标更多地反映了用户对于特定信息感兴趣的程度,可以映射新闻信息的“趣味性”,但无法反映特定信息对于用户个人和社会的选择和决策行为的真正价值,即新闻信息的“重要性”。反映在平台运营方的观念上,就是他们误把用户对特定信息的“关注度”,当成了“重要性”。殊不知,从新闻信息本身的特性看,这种“关注度”,在移动终端上,往往体现的是用户对特定信息的“兴趣度”,而不是信息本身的“重要性”。

 

尽管基于海量信息聚合并以算法驱动精准分发的个性化资讯服务存在这些局限,而且商业性质的资讯平台还容易受到逐利动机的影响,从而加剧这些问题。但不可否认的是,算法技术推动了信息传播方式的显著进步。

 

在移动互联网时代,移动新闻客户端成为公众接收新闻信息的主要渠道。移动终端的个人化特点增强了个性化的信息需求,其便携性促进了场景化的信息使用,而信息交互让用户成为传播主体。同时,从PC互联网时代开始,内容生产和传播的门槛降低,社交媒体的兴盛使传播环境进一步开放,社会普遍信息化大大扩展了公共信息的规模。这些因素交织在一起,构成了移动传播的特殊矛盾——如何实现海量信息资源与个性化信息需求的高效匹配。我们认为,对于这一问题的解决,基于大数据并运用算法而形成的人工智能是最有效的工具。算法技术对传播方式进步的贡献在于,它能够以较高的效率和较低的成本,在社会普遍信息化所产生的海量信息供给中,为个性化需求寻得精准匹配结果,这是人工智能在信息传播领域的应用,是技术进步的体现。

 

正如邓小平同志倡导的,科学技术是第一生产力。我们不能站在技术进步的对立面,而应该更加积极主动地拥抱技术进步,在实践中完善技术,利用技术获得更大的进步。我们要看到,创新技术的应用和推广,通常需要经历漫长的适应调整期,探索过程中的困难和不足不应成为否认或质疑技术进步总体方向的理由。

 

具体而言,要想恰当解决在当前算法应用中出现的问题,不仅需要改进算法,还需要完善甄别信息真伪和优劣的手段,以及丰富信息价值的评判维度。

如何甄别信息?

算法的核心优势在于对海量信息与个性需求的精准匹配,而高效匹配的前提是对信息的真伪和优劣的准确甄别。

 

对信息真伪的鉴别,国外的脸谱和谷歌、国内的微信和微博大多采用第三方核查的方式,然而,这些方式都属于事后应对,未能形成预警机制,难以提前防范虚假信息的发布和传播。随着各类传播平台的用户规模不断扩大,虚假信息一旦被广泛传播,信息源的资质审查和事后惩罚都难以补偿负面舆情效果。因此,传播之前的拦截具有重要意义。目前互联网信息传播平台普遍采用的办法是借助技术手段进行事先核查。包括今日头条在内的一些网站以“人工+机器”的模式构建防火墙,对敏感词、“标题党”和虚假信息进行拦截,也借助人工智能技术,模仿人脑机制,对低俗图片进行拦截。目前,今日头条等大型资讯类平台都建立了储量超过5000条的谣言数据库用于筛查虚假信息,但面对数量巨大且层出不穷的虚假信息,与其建立谣言数据库,不如建立常识数据库,因为错误可以花样百出,而常识则是相对稳定的。

 

对于信息优劣的鉴别,与评判标准有关,更与内容数据库的来源结构有关。资讯平台应当建立其甄别体系,对信息源进行有效甄别。目前互联网资讯平台已广泛采取对优质自媒体内容的奖励机制,并开始联手一些深耕特定内容领域多年的传统媒体,以加大优质内容的供给。

如何改进算法?

既然人工智能在海量信息和个性需求的精准匹配上具有明显优势,那么匹配的具体规则即算法应该如何制定,才能既满足个性需求又促进优质信息传播?实际上,这个问题含有一个深层矛盾,那就是个人与社会对信息的价值判断在多大程度上能够达成一致?假设这个一致可以达成,又该如何把个人和社会对信息的价值判断体现在算法规则中?

 

算法规则体现着新闻信息生产和分发机构的价值观。商业性的大型资讯分发平台以追求商业利益为经营目的,在算法设计中往往倾向于迎合用户需求,以获得尽可能多的点击量。即便如此,作为一个公共信息分发平台,其基本的社会责任也要求它,不能偏废“重要性”这一最本质的新闻价值维度。对于正打算采用算法技术,落实移动优先战略,以提升传播力和影响力的主流媒体来说,他们的社会功能和历史使命决定了,他们不能照搬商业平台以点击量为主导的算法规则,而必须更全面地考虑用户个人更本质的信息需求,尤其是个人在社会化过程中用于建立其个人与社会的一致性的信息需求,以有效地帮助其降低选择和决策的“不确定性”。因此,主流媒体的算法规则设计应该在吸取现有算法运用的经验和教训的基础上,着力于体现新闻的“重要性”。

如何丰富取值?

目前资讯分发平台普遍使用的信息价值评判标准是点击量,点击量越大的信息,传播范围越广。对于新闻信息而言,这样的取值虽然可以使新闻供给趋近于所谓“公众兴趣的最大公约数”,但对于使用移动终端的用户而言,受兴趣牵引的点击会偏向于娱乐性和猎奇性较强的信息,而主要基于点击量取值的算法规则,又会把这类信息推送到更大范围,在商业资讯平台上色情低俗信息的大量传播就是典型例子。由此可见,信息价值评判的取值方法对基于算法的个性化资讯服务影响重大。目前以点击量为主的取值方式,维度单一,导致了推送的内容过于娱乐化,而缺乏对信息重要性的真正体现。

 

在新闻传播学科内,新闻价值的内涵有普遍接受的定性描述——接近性、时效性、显著性、趣味性和重要性。前两个价值要素分别指的是新闻事件发生的地点和时间,显著性指的是新闻事件涉及的重要人物和组织。这三个要素实际上都是场景性指标,具有量化特定价值判断的作用。在我们的实际考察中发现,发生在移动终端上的点击量主要体现了趣味性要素。最后,重要性要素是新闻价值中最难以通过量化标准来体现的,而它恰恰是新闻信息价值判断的核心,它既需要在个人价值判断与社会整体价值判断的统一中寻找,还体现着浅表的事件描述与深层的数据分析的区别,通常也反映着业余的信息贡献者与专业的内容生产者的差异。目前的实践尚未探索出恰当体现新闻“重要性”的取值方法及与之匹配的算法规则,对于这一问题的理论研究也刚刚起步。

 

从操作层面来看,主流媒体生产的内容通常有专业水平的保障,也自然趋向于与社会主流价值观相一致;而自媒体生产的内容,则受到成本投入和运营水平的限制,也难免因逐利动机而标新立异、哗众取宠。因此,在更为细致的算法规则研发成功之前,按照信源类型对信息价值赋值,也许是具有较高可行性的策略。

来源:康璐玮,《人民日报三批今日头条,推荐算法“此路不通”,资讯平台未来路在何方?》,文化产业新闻;宋建武,《宋建武:个性化新闻资讯推送服务当前算法的局限及其改进》,人民网传媒。

文编:李赛可、张纾

美编:陈咨霖

责编:郑宇



首页 - 看传媒 的更多文章: