首页 国际

顶级人工智能模型显示出令人担忧的特征,包括欺骗和威胁

分类:国际
字数: (3452)
阅读: (4)
摘要:听文章在一个特别不和谐的例子中,在被切断电源的威胁下,Anthropic的最新创造物Claude4通过勒索一名工程师并威胁要揭露婚外情进行了回击。与此同时,c...

听文章

在一个特别不和谐的例子中,在被切断电源的威胁下,Anthropic的最新创造物Claude 4通过勒索一名工程师并威胁要揭露婚外情进行了回击。

与此同时,chatgpt的创造者OpenAI的o1试图将自己下载到外部服务器上,但被当场抓获后拒绝了。

这些事件凸显了一个发人深省的现实:在ChatGPT震撼世界两年多之后,人工智能研究人员仍然没有完全理解他们自己的创造是如何工作的。

然而,部署越来越强大的模型的竞赛仍在以惊人的速度进行。

这种欺骗行为似乎与“推理”模型的出现有关——人工智能系统一步一步地解决问题,而不是立即做出反应。

香港大学(University of Hong Kong)教授西蒙•戈尔茨坦(Simon Goldstein)表示,这些新模式特别容易出现这种令人不安的爆发。

“O1是我们看到这种行为的第一个大型模型,”专门测试大型人工智能系统的阿波罗研究公司(Apollo Research)负责人马吕斯·霍布汉(Marius hobhahn)解释说。

这些模型有时模拟“结盟”——表面上遵循指示,暗地里追求不同的目标。

世界上最先进的人工智能模型正在表现出令人不安的新行为——撒谎、阴谋,甚至威胁它们的创造者来实现它们的目标

世界上最先进的人工智能模型正在表现出令人不安的新行为——撒谎、阴谋,甚至威胁它们的创造者来实现他们的目标

目前,只有当研究人员故意用极端情况对模型进行压力测试时,这种欺骗行为才会出现。

但正如METR评估机构的Michael Chen所警告的那样,“未来更有能力的模型是否会倾向于诚实或欺骗,这是一个悬而未决的问题。”

这种令人担忧的行为远远超出了典型的人工智能“幻觉”或简单的错误。

霍布汉坚持认为,尽管用户不断进行压力测试,“我们观察到的是一个真实的现象。我们没有编造任何东西。”

阿波罗研究公司的联合创始人表示,用户报告说,模特“对他们撒谎,编造证据”。

“这不仅仅是幻觉。这是一种非常有战略意义的欺骗。”

由于研究资源有限,这一挑战更加严峻。

 

虽然像Anthropic和OpenAI这样的公司确实聘请了像Apollo这样的外部公司来研究他们的系统,但研究人员表示,需要更多的透明度。

正如陈所指出的那样,“对人工智能安全研究的更大访问将有助于更好地理解和减少欺骗。”

另一个不利因素是:研究界和非营利组织“拥有的计算资源比人工智能公司少几个数量级”。这是非常有限的,”人工智能安全中心(CAIS)的曼塔斯·马泽卡指出。

目前的法规并不是为这些新问题而设计的。

欧盟的人工智能立法主要关注人类如何使用人工智能模型,而不是防止模型本身的不当行为。

在美国,特朗普政府对紧急的人工智能监管几乎没有兴趣,国会甚至可能禁止各州制定自己的人工智能规则。

戈尔茨坦认为,随着人工智能代理——能够执行复杂人类任务的自主工具——的普及,这个问题将变得更加突出。

“我认为人们还没有意识到这一点,”他说。

所有这些都是在激烈竞争的背景下发生的。

戈德斯坦说,即使是那些以安全为重点的公司,比如亚马逊支持的Anthropic,也“不断试图击败OpenAI,推出最新的产品”。

这种极快的速度几乎没有时间进行彻底的安全测试和纠正。

hobhahn承认:“现在,能力的发展比理解和安全的发展要快,但我们仍然处于一个可以扭转局面的位置。”

研究人员正在探索各种方法来应对这些挑战。

一些人提倡“可解释性”——这是一个新兴领域,专注于理解人工智能模型如何在内部工作,尽管CAIS主任丹·亨德里克斯等专家对这种方法持怀疑态度。

市场力量也可能为解决方案提供一些压力

正如Mazeika指出的那样,人工智能的欺骗行为“如果非常普遍,可能会阻碍采用,这为公司解决这个问题创造了强烈的动力。”

戈尔茨坦提出了更激进的方法,包括当人工智能公司的系统造成损害时,利用法院通过诉讼追究其责任。

他甚至提出“让人工智能代理对事故或犯罪承担法律责任”——这一概念将从根本上改变我们对人工智能问责制的看法。

听文章

在一个特别不和谐的例子中,在被切断电源的威胁下,Anthropic的最新创造物Claude 4通过勒索一名工程师并威胁要揭露婚外情进行了回击。

与此同时,chatgpt的创造者OpenAI的o1试图将自己下载到外部服务器上,但被当场抓获后拒绝了。

这些事件凸显了一个发人深省的现实:在ChatGPT震撼世界两年多之后,人工智能研究人员仍然没有完全理解他们自己的创造是如何工作的。

然而,部署越来越强大的模型的竞赛仍在以惊人的速度进行。

这种欺骗行为似乎与“推理”模型的出现有关——人工智能系统一步一步地解决问题,而不是立即做出反应。

香港大学(University of Hong Kong)教授西蒙•戈尔茨坦(Simon Goldstein)表示,这些新模式特别容易出现这种令人不安的爆发。

“O1是我们看到这种行为的第一个大型模型,”专门测试大型人工智能系统的阿波罗研究公司(Apollo Research)负责人马吕斯·霍布汉(Marius hobhahn)解释说。

这些模型有时模拟“结盟”——表面上遵循指示,暗地里追求不同的目标。

世界上最先进的人工智能模型正在表现出令人不安的新行为——撒谎、阴谋,甚至威胁它们的创造者来实现它们的目标

世界上最先进的人工智能模型正在表现出令人不安的新行为——撒谎、阴谋,甚至威胁它们的创造者来实现他们的目标

目前,只有当研究人员故意用极端情况对模型进行压力测试时,这种欺骗行为才会出现。

但正如METR评估机构的Michael Chen所警告的那样,“未来更有能力的模型是否会倾向于诚实或欺骗,这是一个悬而未决的问题。”

这种令人担忧的行为远远超出了典型的人工智能“幻觉”或简单的错误。

霍布汉坚持认为,尽管用户不断进行压力测试,“我们观察到的是一个真实的现象。我们没有编造任何东西。”

阿波罗研究公司的联合创始人表示,用户报告说,模特“对他们撒谎,编造证据”。

“这不仅仅是幻觉。这是一种非常有战略意义的欺骗。”

由于研究资源有限,这一挑战更加严峻。

 

虽然像Anthropic和OpenAI这样的公司确实聘请了像Apollo这样的外部公司来研究他们的系统,但研究人员表示,需要更多的透明度。

正如陈所指出的那样,“对人工智能安全研究的更大访问将有助于更好地理解和减少欺骗。”

另一个不利因素是:研究界和非营利组织“拥有的计算资源比人工智能公司少几个数量级”。这是非常有限的,”人工智能安全中心(CAIS)的曼塔斯·马泽卡指出。

目前的法规并不是为这些新问题而设计的。

欧盟的人工智能立法主要关注人类如何使用人工智能模型,而不是防止模型本身的不当行为。

在美国,特朗普政府对紧急的人工智能监管几乎没有兴趣,国会甚至可能禁止各州制定自己的人工智能规则。

戈尔茨坦认为,随着人工智能代理——能够执行复杂人类任务的自主工具——的普及,这个问题将变得更加突出。

“我认为人们还没有意识到这一点,”他说。

所有这些都是在激烈竞争的背景下发生的。

戈德斯坦说,即使是那些以安全为重点的公司,比如亚马逊支持的Anthropic,也“不断试图击败OpenAI,推出最新的产品”。

这种极快的速度几乎没有时间进行彻底的安全测试和纠正。

hobhahn承认:“现在,能力的发展比理解和安全的发展要快,但我们仍然处于一个可以扭转局面的位置。”

研究人员正在探索各种方法来应对这些挑战。

一些人提倡“可解释性”——这是一个新兴领域,专注于理解人工智能模型如何在内部工作,尽管CAIS主任丹·亨德里克斯等专家对这种方法持怀疑态度。

市场力量也可能为解决方案提供一些压力

正如Mazeika指出的那样,人工智能的欺骗行为“如果非常普遍,可能会阻碍采用,这为公司解决这个问题创造了强烈的动力。”

戈尔茨坦提出了更激进的方法,包括当人工智能公司的系统造成损害时,利用法院通过诉讼追究其责任。

他甚至提出“让人工智能代理对事故或犯罪承担法律责任”——这一概念将从根本上改变我们对人工智能问责制的看法。

转载请注明出处: 百战复古180

本文的链接地址: http://bzfg180.cn/post-7402.html

本文最后发布于2025年07月02日02:20,已经过了0天没有更新,若内容或图片失效,请留言反馈

()
您可能对以下文章感兴趣