调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限
时间:2023-08-03 22:01:16来源:机器之心

机器之心报道

机器之心编辑部
RLHF 方法虽然强大,但它并没有解决开发人性化人工智能的基本挑战。

自 ChatGPT 问世,OpenAI 使用的训练方法人类反馈强化学习(RLHF)就备受关注,已经成为微调大型语言模型(LLM)的核心方法。RLHF 方法在训练中使用人类反馈,以最小化无益、失真或偏见的输出,使 AI 模型与人类价值观对齐。


(相关资料图)

然而,RLHF 方法也存在一些缺陷,最近来自 MIT CSAIL、哈佛大学、哥伦比亚大学等机构的数十位研究者联合发表了一篇综述论文,对两百余篇领域内的研究论文进行分析探讨,系统地研究了 RLHF 方法的缺陷。

论文地址:/papers/

总的来说,该论文强调了 RLHF 的局限性,并表明开发更安全的 AI 系统需要使用多方面方法(multi-faceted approach)。研究团队做了如下工作:

调查了 RLHF 和相关方法的公开问题和基本限制;

概述了在实践中理解、改进和补充 RLHF 的方法;

提出审计和披露标准,以改善社会对 RLHF 系统的监督。

具体来说,论文的核心内容包括以下三个部分:

面临的具体挑战。研究团队对 RLHF 相关问题进行了分类和调查,并区分了 RLHF 面临的挑战与 RLHF 的根本局限性,前者更容易解决,可以在 RLHF 框架内使用改进方法来解决,而后者则必须通过其他方法来解决对齐问题。

2. 将 RLHF 纳入更广泛的技术安全框架。论文表明 RLHF 并非开发安全 AI 的完整框架,并阐述了有助于更好地理解、改进和补充 RLHF 的一些方法,强调了多重冗余策略(multiple redundant strategy)对减少问题的重要性。

3. 治理与透明度。该论文分析探讨了改进行业规范面临的挑战。例如,研究者讨论了让使用 RLHF 训练 AI 系统的公司披露训练细节是否有用。

我们来看下论文核心部分的结构和基本内容。

如下图 1 所示,该研究分析了与 RLHF 相关 3 个过程:收集人类反馈、奖励建模和策略优化。其中,反馈过程引出人类对模型输出的评估;奖励建模过程使用监督学习训练出模仿人类评估的奖励模型;策略优化过程优化人工智能系统,以产生奖励模型评估更优的输出。论文第三章从这三个过程以及联合训练奖励模型和策略四个方面探讨了 RLHF 方法存在的问题和挑战。

论文第三章总结的问题表明:严重依赖 RLHF 来开发人工智能系统会带来安全风险。虽然 RLHF 很有用,但它并没有解决开发人性化人工智能的基本挑战。

研究团队认为:任何单一策略都不应被视为综合解决方案。更好的做法是采用多种安全方法的「深度防御」,论文第四章从理解、改进、补充 RLHF 这几个方面详细阐述了提高 AI 安全性的方法。

论文第五章概述了 RLHF 治理面临的风险因素和审计措施。

总结

该研究发现,实践中很多问题来源于 RLHF 的根本局限性,必须采用非 RLHF 的方法来避免或弥补。因此,该论文强调两种策略的重要性:(1) 根据 RLHF 和其他方法的根本局限性来评估技术进步,(2) 通过采取深度防御安全措施和与科学界公开共享研究成果,来应对 AI 的对齐问题。

此外,该研究阐明一些挑战和问题并非是 RLHF 所独有的,如 RL 策略的难题,还有一些是 AI 对齐的基本问题。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

©THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@

标签:

生活指南
  • 湖南专项行动已查处涉烟案件4666起 查获假私烟7481.86万支

    7月31日,全省“天网2023”专项行动总结暨打击涉烟违法犯罪工作推进会

  • 中消协提醒消费者谨慎购买“剩菜盲盒”

    中消协8月1日发布消费提示,提醒广大消费者在购买“剩菜盲盒”时,务必

  • 鹿山新材:连续3日融资净偿还累计967.11万元(08-01)

    鹿山新材融资融券信息显示,2023年8月1日融资净偿还万元;融资余额亿元

  • 天生富贵命,自带高贵血统的三大星座女,注定一生备受瞩目!

    加上金牛女聪明能干,是个很会居家过日子的女生,有金牛女把手,家里的

  • 佛山:着力稳住消费基本盘 加快夜间经济集聚区和示范点建设

    深度打造佛山夜间消费节、佛山88盛夏乐购狂欢节、佛山秋色、佛山美食啤

  • 当油画动起来,一起穿越到八一南昌起义

    《八一南昌起义》这幅油画作品是黎冰鸿先生(曾任浙江美术学院教授、油

  • 开封市龙亭区召开政银对接会

    近日,开封市龙亭区政银对接会召开。龙亭区委常委、常务副区长张海,区

  • 我国知识产权保护都有哪些新作为?

    2022年知识产权保护社会满意度达到81 25分,整体步入良好阶段——我国

  • 热门:神开股份收监管函:业绩预告披露不准确,与实际利润相比差异较大且盈亏性质发生改变

    7月4日,深圳证券交易所下发关于对上海神开石油化工装备股份有限公司(

  • 股利是收益率吗?股利和每股收益的区别是什么

    股利是收益率吗?股利不是收益率,股利是指股份公司依照股份比例支

  • 皇城司指挥使相当于现在什么官?殿前司和皇城司哪个厉害?

    皇城司指挥使相当于现在什么官?相当于特务机关行动队队长。皇城司是

  • 收房验房的流程是什么?收房有哪些注意问题?

    新房交付业主可以延期多久收房吗?1、新房交付业主可以延期收房,延

  • 思仪科技主动撤回科创板IPO申请

    仅披露一轮问询回复后,中电科思仪科技股份有限公司(简称“思仪科技”

  • 热资讯!什么是二八法则?二八定律的现实意义?

    二八定律又名80 20定律、帕累托法则也叫巴莱特定律、朱伦法则、关键

  • 湿地还叫什么名字?湿地的作用是什么?

    湿地还叫什么名字?湿地又被称为地球之肾。狭义湿地(wetland) 是指

  • 越南上半年经济增长3.72%_消息

    中国商务新闻网是商务部国际商报社主办,国家互联网信息办公室批准的国

  • 民生
    • 火影忍者密令兑换码2023永久s忍可使用大全

    • 亚马逊向非Prime会员开放Fresh配送服务

    • 淘宝内容创作者管理规范生效,平台建议减少拼接网络图片

    • ​正阳县开展2023年老年健康宣传周活动