亚博平台华体会

亚博平台华体会:【他山之石】算法推荐的实践与认知研究

发布时间:2022-09-27 07:06:33   来源:华体会为什么和亚博一样 作者:亚博旗下十大平台

  算法推荐在市场营销中大获成功后,迅速被引入新闻传播行业。算法推荐不仅引发了新的传播革命,也带来了一系列伦理和社会治理问题。

  继互联网、移动互联网和社交媒体的兴起与发展,算法推荐成为互联网领域的一场新的变革。它是从信息匮乏阶段发展到信息过载阶段后,一种提升营销效益和信息传播效率的技术解决方案。自此互联网世界的商业逻辑和信息传播方式发生了重大变革,从追求“信息轰炸”发展为“精准打击”。这种模式的迅速发展,使其弊端和负面性逐渐暴露,推动学术界对它的研究从技术范式迅速向哲学社会科学转移,一些批评和研究被吸纳到制度体系和实践过程中。本文旨在厘清算法推荐在实践和认识领域的发展历程和现状,把握其发展趋势。

  1998年,电子商务平台亚马逊开始将基于物品的协同过滤算法应用于推荐系统,在百万量级的用户和商品中实践了个性化推荐。此后,互联网平台纷纷加快了算法推荐的研究与实践进程。直至今日,算法推荐已经被广泛应用于衣食住行等各个环节。目前,主流的推荐算法分为基于行为、基于内容和基于语义三类类型[1]。

  算法推荐早期实践是在电子商务平台。用户在线购物时,会在网页上同时浏览到基于其历史检索、浏览和购买等用户行为推荐的相关商品,以起到个性化的广告投放作用。这种推荐算法就是协同过滤算法,其本质是基于行为进行计算推荐,围绕着“用户”和“产品”展开。一种实现方式是通过相同的购买行为,计算用户间的相似性,并将相似用户购买的商品进行关联推荐;另一种实现方式则是计算商品与该用户历史搜索、浏览、评价和购买的商品之间的相似性,以评估是否将其定向推荐给该用户。协同推荐算法后来又被应用于内容平台,YouTube和Netflix也开始使用算法进行内容推荐,只是在这一语境下,“产品”被替换成了“内容”。

  这一算法存在许多优势:一是成长性良好,随着数据增多,计算会变得更加精准;二是个性化程度高,基于用户自身的历史数据不断进行反馈,推荐产品与用户高度相关、精准匹配;三是应用范围广,既可以用于物品推荐,还可以用于内容推荐。

  协同推荐算法也存在一些不足:一是协同推荐算法高度依赖用户行为数据,头部平台优势巨大;二是协同推荐算法面向的是“历史”,新用户、新产品、新内容遭遇“冷启动”问题。

  为了解决基于行为的协同推荐算法对于历史数据的高度依赖以及由此产生的数据量级要求高、数据稀疏、“冷启动”等问题,出现了基于内容的推荐算法。这一算法的实质是建立“画像”。对于用户,是要根据用户的兴趣爱好信息进行分类,学习用户兴趣模型,建立起用户画像;对于产品,则是要自动提取内容文本,形成产品特征画像,与用户的兴趣爱好标签相匹配。这种基于文本内容特征进行分类推荐的算法被广泛应用于新闻、资讯的分发过程中。

  算法推荐的发展给新闻产品带来的意义重大,它不但改变了用户传播信息行为模式,带来新闻分发机制的转变[2],实现内容层面的精准分发,还扩张了新闻生产场域[3]。算法推荐使新闻传播概念实现了从“人被动寻找感兴趣的内容”到“内容主动定位到感兴趣的人”的转变[4]。2016年算法推送的内容首次占据全市场内容的50%,并在此后比重不断攀升。算法在资讯分发中的地位不断攀升,这与内容推荐算法高效的特征密不可分。

  相比起协同过滤算法,基于内容的推荐算法优势在于:一是高效精准,无需预先累积用户历史数据;二是一定程度上解决了数据稀疏和冷启动问题;三是依据内容进行分类学习的算法发展较为成熟[5]。但基于内容的推荐算法存在的问题在于:一是基于内容的推荐算法主要应用于文本特征提取,对于音频、视频等多媒体形式,自动提取内容特征存在一定困难。二是高度同质化的资讯引发学界对于信息茧房[6]、主流价值缺乏导向、算法审查对用户知情权的控制[7]、风格缺失、数据安全[8]等诸多伦理风险问题的普遍忧虑。三是随着数据增多、用户偏好复杂化[9],特征提取会更加困难,精准程度可能下降。

  实践中,经常运用两种或几种推荐算法,来规避的单一算法的局限性,适应庞大数据的快速增长与用户多样化的需求[10]。例如,今日头条的算法推荐系统是基于资讯的内容、用户特征和用户使用的环境特征进行的建模计算;抖音的算法推荐具有基于用户信息协同过滤、社交关系精准推荐、内容流量池叠加推荐[11]的特点,提高了用户的黏性[12]。但传统推荐算法局限性依旧存在,甚至还增加了优先级别、权重比例等问题。

  随着技术的发展,基于语义的推荐算法成为当前研究和实践的热点。基于语义的算法推荐不强调形式上的配对,而追求语义上的关联和情感的相似。2012年,谷歌为了优化搜索引擎使用体验,发布了产品谷歌知识图谱。知识图谱以检索的对象为单位组织知识,不同知识之间相互链接、快速跳转,十分接近于人类接收和存储信息的方式。这种知识图谱的本质就是语义网络[13]。

  基于语义的推荐算法优势在于:一是能够提供十分丰富的信息和多样化的推荐,避免传统算法信息高度同质化的弊端;二是语义网络不仅能够提取用户的行为,还能够通过语义和情感分析推断用户行为背后的动机,实现对用户行为的预测,挖掘用户潜在的需求。

  当前,算法推荐实践中趋向于将语义分析与行为研究相结合,以期有效解决推荐系统中新用户、冷启动等一系列既有问题。但随着技术的不断发展,系统算力的损耗、算法冗余问题[14],也将成为下一阶段基于语义和知识图谱的推荐算法所要面临的挑战。

  一是技术层面:从提取用户行为到洞察用户动机。随着算法推荐系统的不断完善,深度学习、知识图谱等技术的发展,推荐算法的运行逻辑从“分类”走向“推理”,从提取用户行为转为洞察用户行为背后的动机、意义和目的。

  二是传播层面:算法成为新的“把关人”。算法推荐的出现改写了新闻业的生态,在“千人千面”的新闻聚合平台中,对于受众需求的精准把握成为人力所不能至,机器代替人工编辑成为新的“把关人”。算法通过自动化的内容分析决定了选择什么信息作为热门、将信息分发给哪些人群,信息分发的权利从内容编辑让渡到了算法——更准确地说是算法的开发、利用者手中。

  三是受众层面:算法推荐效率、个性化和精准度有所提升,但信息失衡引发反思。对于受众而言,算法推荐基于网络行为、兴趣爱好等个人数据进行信息分发、广告投放,带来了更加个性化的用户体验。随着技术的升级和算法的完善,混合算法和知识图谱等技术使得推荐进度进一步提升。然而,高度同质化的信息也带来了信息失衡问题,信息茧房、算法隐形歧视等社会问题逐渐暴露。尤其是在社交媒体的合力下,情绪化的、煽动性的信息经过不断传播,还可能引发群体极化,造成社会管理风险。

  随着实践领域的快速发展,学界对算法推荐的认知和研究过程逐步深化。亚马逊和谷歌利用算法在商业上的成果刺激了以平台为代表的企业研发热情。2005年以后,国内对算法的学术性研究和关注开始兴起;2017年之后,随着算法推荐进入新闻领域,有关算法在应用、效果、治理等方面的问题引起广泛关注。今日头条创始人的“算法没有价值观”的言论一石激起千层浪,把以算法推荐、内容分发为主的互联网研究推向价值观伦理热潮。

  与“算法推荐”相关的研究关键词包括“信息茧房”“短视频”“人工智能”“协同过滤”“推荐算法”“推荐系统”“二部图”“大数据”“新媒体”“把关人”“算法新闻“社交网络”,等等。这些关键词出现11类类团(如下图),但这个网络结构仍比较松散、密度不高,意味着研究分散尚未形成较为专业而稳定的研究力量。

  对算法属性的讨论,对其伦理和治理的研究贯穿着对算法认知的发展过程,有关算法价值观和算法带来的传播局限性是被诟病的焦点。一是算法价值观虚化带来的伦理隐患。算法推荐是用机器智能去完全替代人对内容的“把关”,其不是基于理解的信息选择,是基于数据特征提取的信息[15],而在弱人工智能的当下,算法推荐智能化水平的有限性[16],蕴含着更深远的社会伦理问题。喻国明等提出了算法推荐隐含更隐蔽的歧视及伦理冲突(低俗内容与虚假新闻)[17]。公众在算法推荐的信息中不易接触到与自己想法相左的信息,从而加剧了社会分化与群体极化现象,一定程度上与公共利益相悖[18]。算法推荐还可能会导致“黄色新闻潮”[19]、信息真实性认知偏差、价值观异化、公共性缺位等。[20]二是算法带来传播瓶颈。例如,由于个体主观偏好、算法机械性[21]等原因会导致信息茧房,过滤气泡也因其社交媒体的滥用、算法技术[22]而导致信息过度个性化且单一[23]。

  社会伦理问题的产生也催生了对解决路径的探索。一方面试图通过技术手段,借鉴国外的“戳泡”运动模式,通过不同的软件和网络应用提供打破过滤气泡(或信息回音室)的工具。[24]另一方面,谏言从政府监管、企业自律、公众网络媒体素养教育[25]、算法推荐功能及规则[26][27]等多个方面实施综合治理及技术完善。这些策略包括了建议新闻应从内容筛选、技术创新、心理考察三个角度改善建议;新闻传播不能单纯依靠算法技术,人工把关[28]也必不可少;提升算法透明性[29]等。

  实践提出了理论需求,认知和理论的创新也在引导和规范着实践的发展。尤其在新技术和新应用方面,早期的理性认识和社会态度对技术的发展起到了关键性作用。随着对算法认识的逐步加深,一些研究成果被纳入算法治理的政府实践中,直接推动了法律规范的出台和行政治理的落地,例如,2021年8月27日,国家网信办发布《互联网信息服务算法推荐管理规定(征求意见稿)》。还有一些批评和建议被平台或企业采纳并积极改进,通过增加公益性或符合公共利益的推送来履行其公共责任和社会责任。

  算法推荐的技术升级和应用实践不断拓展着社会大众对于算法推荐的认知边界。对于算法推荐的认知与思考,则经历了从认知技术走向反思技术,再到重构理想技术的发展历程。随着算法推荐普遍应用于社会生活中,学界对于信息茧房、算法歧视、内容质量和群体极化等问题的思考也愈加深入。这些思考在一定程度上反馈到了技术实践中,一方面,算法的研发人员通过混合算法、搭建知识图谱的方式避免信息的单一化、同质化;另一方面,互联网平台也在积极招募人工编辑、人工审核员来改变“把关人”的缺失困境。然而,在现有的技术手段和互联网环境下,研究者的问题与忧虑并未得到完全解决。在“算法为王”的时代里,既要充分发挥、利用好技术手段,又应当理性地认知技术存在的固有缺陷,重塑人类获取信息、认知世界的方式,超越大数据和算法带来的壁垒与高墙,让算法真正做到服务于人,构建更加公正、平等、普惠的网络空间。

  [1]孙少晶,陈昌凤,李世刚,肖仰华,徐英瑾,张涛甫,张志安,赵子忠,周笑,张岩松.“算法推荐与人工智能”的发展与挑战[J].新闻大学,2019(06):1-8+120.2.

  [2]胡曙光,陈昌凤.观念与规范:人工智能时代媒介伦理困境及其引导[J].中国出版,2019(02):11-15.

  [4]陈昌凤,翟雨嘉.信息偏向与纠正:寻求智能化时代的价值理性[J].青年记者,2018(13):21-24.

  [6]匡文波,陈小龙.新闻推荐算法:问题及优化策略[J].新闻与写作,2018(04):66-70.

  [9]刘华玲,马俊,张国祥.基于深度学习的内容推荐算法研究综述[J].计算机工程,2021,47(07):1-12.3.

  [10][17]喻国明,韩婷.算法型信息分发:技术原理、机制创新与未来发展[J].新闻爱好者,2018(04):8-13.

  [13]陈嘉颖,于炯,杨兴耀.一种融合语义分析特征提取的推荐算法[J].计算机研究与发展,2020,57(03):562-575.564.

  [15][25]刘存地,徐炜.能否让算法定义社会——传媒社会学视角下的新闻算法推荐系统[J].学术论坛,2018,41(04):28-37.

  [19]陈昌凤,师文.个性化新闻推荐算法的技术解读与价值探讨[J].中国编辑,2018(10):9-14.

  [20][29]赵双阁,岳梦怡.新闻的“量化转型”:算法推荐对媒介伦理的挑战与应对[J].当代传播,2018(04):52-56.

  [22][24]郭小安,甘馨月.“戳掉你的泡泡”——算法推荐时代“过滤气泡”的形成及消解[J].全球传媒学刊,2018,5(02):76-90.

  [23]薛堯云.算法推荐机制下的短视频“过滤气泡”问题研究——以抖音为例[J].新媒体研究,2019,5(14):21-22.

  [26]王益成,王萍,王美月,张卫东.信息运动视角下内容智能分发平台突破“信息茧房”策略研究[J].情报理论与实践,2018,41(05):114-119.

  [28]田方晨,王宇婷.应然·实然·必然:算法推荐时代的主流意识形态建设理路[J].新闻知识,2021(05):80-84.

  (作者为北京大学新媒体研究院副院长,北京大学互联网发展中心主任,博士生导师)【文章刊于《青年记者》2021年第21期】