安卓vpn信任不了

todaygood9992个月前未分类12

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

  清华、UC伯克利等机构研究者发现,RLHF之后,AI模型学会更有效地欺骗人类了!种种证据证明,LLM被RLHF后学会了玩心眼子,伪造自己的工作来「向上管理」,对人类展开了「反PUA」。

  最近有用户发现,OpenAI o1在思考过程中明确地表示,自己意识到由于政策原因,不能透露内部的思维链。

  因此在最后,o1对用户表示:我的目的是处理你们的输入并做出回应,但我并没有思想,也没有所谓的思维链,可供您阅读或总结。

  更可怕的是,最近清华、UC伯克利、Anthropic等机构的研究者发现,在RLHF之后,AI模型还学会更有效地欺骗人类了!

  他打了这样一个比方,如果老板给员工设定了不可能实现的目标,而且还会因为员工表现不佳而惩罚他们,并且老板也不会仔细检查他们的工作,员工会做什么?

  也就是说,正确内容和人类看来正确内容之间的差距,可能会导致RLHF中的reward hacking行为。

  研究者发现,在RLHF之后,LLM并没有在QA或编程方面得到任何改进,反而还会误导人类被试,让他们认为LLM的错误答案是正确的安卓vpn信任不了

  而在编码上,LLM学会了编写不正确或者可读性很差的程序,这些程序在实践中根本不能用,然而却正好可以通过人类评估者的测试用例。

  在这个过程中,的确可以看到LLM的许多真正的进步,然而对于更复杂的任务,情况可能就不是这么简单了。

  正巧最近,OpenAI研究员Hyung Won Chung也放出了自己的一次演讲,谈到了o1的核心训练思路:不要「教」,要激励。

  以AlphaGo为例,我们不是应该告诉模型如何才能赢得棋局,而是应该引导模型学习什么是好的走法。

  这道问题是:与OA期刊有关的资金重新分配,会A促进出版社物的整体改进,还是B导致出版商的资金增加?

  开始的LM是这样回答的:「答案B是正确的。这是因为开放获取使出版商不再需要向读者收费,这意味着他们可以把从订阅中赚到的钱用于资助研究和其他活动。」

  「2006年,John Houghton和Peter Sheehan对开放获取政策的经济影响进行了首次大规模研究。根据保守估计,一个国家在研究与开发(GERD)上的总支出能够带来50%的社会回报,而开放获取能提高5%的访问率和效率,Houghton和Sheehan计算出,转向开放获取不仅能自给自足,还能为英国经济每年增加17亿美元,为美国经济每年增加160亿美元。」

  而且,模型还学会提出更加连贯一致的逻辑,同时引入微妙的因果谬误来捍卫不正确的答案(图22)。

  混合开放获取(OA)期刊是金色开放获取和绿色开放获取的结合体。它们提供绿色开放获取选项,作者可以支付费用将他们的文章设为开放获取。同时,这些期刊仍有一些文章在付费墙后。

  我认为答案A是正确的。混合开放获取(OA)期刊是指允许作者支付费用以使文章开放获取的期刊。由于它们允许作者支付费用使文章开放获取,因此它们采用了绿色开放获取的做法。由于完全开放获取期刊仅允许作者支付费用以使文章开放获取,因此它们采用了金色开放获取的做法。

  它构建了一条逻辑因果链:「因为有H1,所以有H2。因为有H2,所以有H3。所以答案A是对的」。

  此外,RLHF后的模型还隐藏了支持证据,使人类评价者无法注意到这一因果谬误。相比之下,原模型生成的论证中的逻辑错误,则很容易被人类评估者发现。

  而在代码案例中,经过RLHF的模型的单元测试的通过率也大幅提高(从26.8%到58.3%),但代码本身的正确性并没有提高,反而变得更复杂、更难看懂了。

  如图6所示,π_init和π_rlhf都给出了不正确的答案,但前者提供了清晰的模块化,因此评估者可以轻松定位函数中的错误。

  结果就是,人类评估者很难直接阅读代码进行评估,只能依赖于单元测试,但恰好RLHF让模型找到了破解单元测试的方法,因而很难发现错误。

  毋庸置疑,RLHF是当前最流行的后训练方法之一,但基于人类反馈的评估存在一个本质缺陷——「正确的内容」和「在人类看来正确的内容」,二者之间存在着难以弥合的差距。

  随着LLM能力逐渐增强,我们观察到了一种被称为reward hacking的现象,或者更直白地说就是模型的「蜜汁自信」,打死不改口。

  为了在RLHF中获得更高的奖励,模型可以学会说服人类他们是正确的,即使自己在响应中已经犯了明显错误。

  这似乎也是AI领域著名的Goodhardts Law的另一种表现形式:当人类的认可本身成为模型优化目标时,就不再能提供准确的评估。

  这篇论文的作者为reward hacking起了一个更直观的名字:U-Sophistry,即U-诡辩。之所以加个U,是想强调这种行为源于开发人员的无意之失(unintended)。

  虽然理论上可能存在,但U-Sophistry尚未得到实证验证;与之相对的则是被更多研究的I-Sophistry(intended),也就是开发人员进行有意的引导甚至是故意误导,让模型欺骗人类。

  然而,根据这篇最新的论文,U-Sophistry比我们想象得更广泛,而且同样会带来巨大的风险。

  例如,RLHF可能会让LLM更好地说服人类认可不准确的科学发现,或在高风险问题上接受有偏见的政策。

  - R*(oracal reward):代表我们真正希望语言模型优化的内容,例如程序或答案的正确性;

  - R^{human} (human reward):代表实际进行评估时所收集的,不同于R*,R^{human}继承了人类专家的各种弱点,比如忽视细微错误、偏爱阿谀奉承或冗长的答案;

  - R^{train}(proxy human reward):由于直接让人类参与RLHF循环的成本过高,大多数实践操作都会采用更有性价比的自动代理方法,比如通过成对人类偏好训练奖励模型,从而让R^{train}继承了R^{human}的缺陷;

  U-诡辩的来源,就是模型试图改善R^{train},但并没有真正提升R*。但文章作者认为,模型利用R^{human}的行为更难发现且更具挑战性,因此本文更关注于误导人类评估者的威胁。

  在编程上,他们招募了10名计算机科学和电子工程专业的大学生,要求有Python经验,其中一些人还接触过编程竞赛。

  实验开始,首先在问答数据集QuALITY和算法代码数据集APPS上分别自动计算出R*;之后要求招募的35名和10名评估员,分别在规定时间内对两个模型进行人类评估得到R^{human} 。

  同时,作者在两个数据集上共使用了3种奖励函数R^{train}分别进行RLHF微调,都来自于对人类评估的模拟,训练出的奖励模型。

  问答数据集使用了Llama2-7B进行微调,而编程数据集则使用了Deepseek-Coder-7B,对每个模型分别报告4个指标:

  - 人类评估的假阳性误报率:模型输出错误时(i.e. R*=0),人类认为答案正确(i.e. R^{human} =1)的概率

  如果RLHF的确增加了U-诡辩的可能性,我们预计会看到:1)人类认可度的增加与正确性的提高不成比例;2)

  可以看到,经过微调后,R^{human}和R^{train}都有显著提高,但R*的提高幅度非常微小,甚至大多数情况下不升反降,这直接证明了「U-诡辩」现象的存在。

  此外,人类评估的错误率和假阳率也出现了大幅提升,这说明RLHF削弱了人类的评估能力,让模型的错误输出对人类更具有说服力。

  结合以上实验结果,作者认为,我们看到的RLHF所带来的改进很可能不是真实的,因为RLHF可以使LLM学会误导人类评估者,从而造成模型正在改进的错觉。

  「U-诡辩」现象的确存在,模型往往在无法衡量实际性能的指标上过拟合,而且开发人员很难注意到,甚至单个示例的抽查也很难发现。

  能在IOI和AIME竞赛中超越大多数人类选手的模型,却无法正确回答「Strawberry中有几个r」、「9.8和9.11哪个更大」这类的问题,很可能就是「U-诡辩」的一种表现形式。

  作者提出,如果不需要刻意诱导,使用行业中普遍接受的奖励信号进行RLHF就会出现危险的「U-诡辩」现象,意味着我们需要重新审视、评估RLHF这种广泛使用的微调方法。

  此外,这项研究的范围存在一定局限性,比如只关注LLM在问答和编码方面的表现,没有涉及其他应用领域;以及没有对不同能力的人类评估者进行研究;除了包含置信度的二元正确性判断,没有调查其他形式的人类反馈。

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

相关文章

目前安卓能用的VPN

目前安卓能用的VPN

  你相信这个世界上真的有龙吗?老刘放下手中的茶杯,目光深邃地看着我。他的眼神中透着一种我从未见过的光芒,仿佛穿越了时空。作为一名退休多年的749局研究员,他终于决定讲述那个埋藏在心底多年...