顶级人工智能模型显示出令人担忧的特征，包括欺骗和威胁

干你姥姥

分类：国际

字数: (3452)

阅读: (4)

摘要：听文章在一个特别不和谐的例子中，在被切断电源的威胁下，Anthropic的最新创造物Claude4通过勒索一名工程师并威胁要揭露婚外情进行了回击。与此同时，c...

听文章

在一个特别不和谐的例子中，在被切断电源的威胁下，Anthropic的最新创造物Claude 4通过勒索一名工程师并威胁要揭露婚外情进行了回击。

与此同时，chatgpt的创造者OpenAI的o1试图将自己下载到外部服务器上，但被当场抓获后拒绝了。

这些事件凸显了一个发人深省的现实：在ChatGPT震撼世界两年多之后，人工智能研究人员仍然没有完全理解他们自己的创造是如何工作的。

然而，部署越来越强大的模型的竞赛仍在以惊人的速度进行。

这种欺骗行为似乎与“推理”模型的出现有关——人工智能系统一步一步地解决问题，而不是立即做出反应。

香港大学（University of Hong Kong）教授西蒙•戈尔茨坦（Simon Goldstein）表示，这些新模式特别容易出现这种令人不安的爆发。

“O1是我们看到这种行为的第一个大型模型，”专门测试大型人工智能系统的阿波罗研究公司（Apollo Research）负责人马吕斯·霍布汉（Marius hobhahn）解释说。

这些模型有时模拟“结盟”——表面上遵循指示，暗地里追求不同的目标。

世界上最先进的人工智能模型正在表现出令人不安的新行为——撒谎、阴谋，甚至威胁它们的创造者来实现它们的目标

世界上最先进的人工智能模型正在表现出令人不安的新行为——撒谎、阴谋，甚至威胁它们的创造者来实现他们的目标

目前，只有当研究人员故意用极端情况对模型进行压力测试时，这种欺骗行为才会出现。

但正如METR评估机构的Michael Chen所警告的那样，“未来更有能力的模型是否会倾向于诚实或欺骗，这是一个悬而未决的问题。”

这种令人担忧的行为远远超出了典型的人工智能“幻觉”或简单的错误。

霍布汉坚持认为，尽管用户不断进行压力测试，“我们观察到的是一个真实的现象。我们没有编造任何东西。”

阿波罗研究公司的联合创始人表示，用户报告说，模特“对他们撒谎，编造证据”。

“这不仅仅是幻觉。这是一种非常有战略意义的欺骗。”

由于研究资源有限，这一挑战更加严峻。

虽然像Anthropic和OpenAI这样的公司确实聘请了像Apollo这样的外部公司来研究他们的系统，但研究人员表示，需要更多的透明度。

正如陈所指出的那样，“对人工智能安全研究的更大访问将有助于更好地理解和减少欺骗。”

另一个不利因素是：研究界和非营利组织“拥有的计算资源比人工智能公司少几个数量级”。这是非常有限的，”人工智能安全中心（CAIS）的曼塔斯·马泽卡指出。

目前的法规并不是为这些新问题而设计的。

欧盟的人工智能立法主要关注人类如何使用人工智能模型，而不是防止模型本身的不当行为。

在美国，特朗普政府对紧急的人工智能监管几乎没有兴趣，国会甚至可能禁止各州制定自己的人工智能规则。

戈尔茨坦认为，随着人工智能代理——能够执行复杂人类任务的自主工具——的普及，这个问题将变得更加突出。

“我认为人们还没有意识到这一点，”他说。

所有这些都是在激烈竞争的背景下发生的。

戈德斯坦说，即使是那些以安全为重点的公司，比如亚马逊支持的Anthropic，也“不断试图击败OpenAI，推出最新的产品”。

这种极快的速度几乎没有时间进行彻底的安全测试和纠正。

hobhahn承认：“现在，能力的发展比理解和安全的发展要快，但我们仍然处于一个可以扭转局面的位置。”

研究人员正在探索各种方法来应对这些挑战。

一些人提倡“可解释性”——这是一个新兴领域，专注于理解人工智能模型如何在内部工作，尽管CAIS主任丹·亨德里克斯等专家对这种方法持怀疑态度。

市场力量也可能为解决方案提供一些压力

正如Mazeika指出的那样，人工智能的欺骗行为“如果非常普遍，可能会阻碍采用，这为公司解决这个问题创造了强烈的动力。”

戈尔茨坦提出了更激进的方法，包括当人工智能公司的系统造成损害时，利用法院通过诉讼追究其责任。

他甚至提出“让人工智能代理对事故或犯罪承担法律责任”——这一概念将从根本上改变我们对人工智能问责制的看法。

听文章

在一个特别不和谐的例子中，在被切断电源的威胁下，Anthropic的最新创造物Claude 4通过勒索一名工程师并威胁要揭露婚外情进行了回击。

与此同时，chatgpt的创造者OpenAI的o1试图将自己下载到外部服务器上，但被当场抓获后拒绝了。

这些事件凸显了一个发人深省的现实：在ChatGPT震撼世界两年多之后，人工智能研究人员仍然没有完全理解他们自己的创造是如何工作的。

然而，部署越来越强大的模型的竞赛仍在以惊人的速度进行。

这种欺骗行为似乎与“推理”模型的出现有关——人工智能系统一步一步地解决问题，而不是立即做出反应。

香港大学（University of Hong Kong）教授西蒙•戈尔茨坦（Simon Goldstein）表示，这些新模式特别容易出现这种令人不安的爆发。

这些模型有时模拟“结盟”——表面上遵循指示，暗地里追求不同的目标。

世界上最先进的人工智能模型正在表现出令人不安的新行为——撒谎、阴谋，甚至威胁它们的创造者来实现它们的目标

世界上最先进的人工智能模型正在表现出令人不安的新行为——撒谎、阴谋，甚至威胁它们的创造者来实现他们的目标

目前，只有当研究人员故意用极端情况对模型进行压力测试时，这种欺骗行为才会出现。

但正如METR评估机构的Michael Chen所警告的那样，“未来更有能力的模型是否会倾向于诚实或欺骗，这是一个悬而未决的问题。”

这种令人担忧的行为远远超出了典型的人工智能“幻觉”或简单的错误。

霍布汉坚持认为，尽管用户不断进行压力测试，“我们观察到的是一个真实的现象。我们没有编造任何东西。”

阿波罗研究公司的联合创始人表示，用户报告说，模特“对他们撒谎，编造证据”。

“这不仅仅是幻觉。这是一种非常有战略意义的欺骗。”

由于研究资源有限，这一挑战更加严峻。

虽然像Anthropic和OpenAI这样的公司确实聘请了像Apollo这样的外部公司来研究他们的系统，但研究人员表示，需要更多的透明度。

正如陈所指出的那样，“对人工智能安全研究的更大访问将有助于更好地理解和减少欺骗。”

目前的法规并不是为这些新问题而设计的。

欧盟的人工智能立法主要关注人类如何使用人工智能模型，而不是防止模型本身的不当行为。

在美国，特朗普政府对紧急的人工智能监管几乎没有兴趣，国会甚至可能禁止各州制定自己的人工智能规则。

戈尔茨坦认为，随着人工智能代理——能够执行复杂人类任务的自主工具——的普及，这个问题将变得更加突出。

“我认为人们还没有意识到这一点，”他说。

所有这些都是在激烈竞争的背景下发生的。

戈德斯坦说，即使是那些以安全为重点的公司，比如亚马逊支持的Anthropic，也“不断试图击败OpenAI，推出最新的产品”。

这种极快的速度几乎没有时间进行彻底的安全测试和纠正。

hobhahn承认：“现在，能力的发展比理解和安全的发展要快，但我们仍然处于一个可以扭转局面的位置。”

研究人员正在探索各种方法来应对这些挑战。

市场力量也可能为解决方案提供一些压力

正如Mazeika指出的那样，人工智能的欺骗行为“如果非常普遍，可能会阻碍采用，这为公司解决这个问题创造了强烈的动力。”

戈尔茨坦提出了更激进的方法，包括当人工智能公司的系统造成损害时，利用法院通过诉讼追究其责任。

他甚至提出“让人工智能代理对事故或犯罪承担法律责任”——这一概念将从根本上改变我们对人工智能问责制的看法。

转载请注明出处: 百战复古180

本文的链接地址: http://bzfg180.cn/post-7402.html

本文最后发布于2025年07月02日02:20，已经过了0天没有更新，若内容或图片失效，请留言反馈

推荐阅读

(0)

美国-以色列-伊朗冲突：关键事件清单，2025年6月24日欧盟寻求加沙进展

您可能对以下文章感兴趣

顶级人工智能模型显示出令人担忧的特征，包括欺骗和威胁

希腊威胁称，根据更严格的新移民政策，被拒绝的寻求庇护者将被监禁

Keir Starmer在主要的国防演讲中警告“危险和威胁时刻”

叙利亚政府和库尔德人领导的武装力量交换了囚犯，朝着缓和紧张局势迈出了一步

蕾切尔·里夫斯现场演讲：财政大臣透露将向北方提供150亿英镑的援助

西基洛纳食品银行扩大规模以满足日益增长的需求

印度和巴基斯坦是否在为未来冲突中的海军对峙做准备？

CHRISTOPHER BUCKTIN：“人们现在仅仅因为生活在美国暴政中而受到惩罚。”

“你属于我”

报告：各省是住房建设的关键，但必须采取更多行动

最新文章

气候变化影响亚洲

在温尼伯的加拿大日，什么是开放的，什么是关闭的

在垃圾填埋场的困境中，安大略省搁置了多伦多的垃圾竞标

一名美国法官命令阿根廷交出其在国有石油公司的多数股权，这对Milei来说是一个打击

“凯尔·斯塔默又屈服了——那么谁在掌管英国？”

热门文章

最近一年

全站

顶级人工智能模型显示出令人担忧的特征，包括欺骗和威胁

希腊威胁称，根据更严格的新移民政策，被拒绝的寻求庇护者将被监禁

Keir Starmer在主要的国防演讲中警告“危险和威胁时刻”

叙利亚政府和库尔德人领导的武装力量交换了囚犯，朝着缓和紧张局势迈出了一步

蕾切尔·里夫斯现场演讲：财政大臣透露将向北方提供150亿英镑的援助

​

西基洛纳食品银行扩大规模以满足日益增长的需求

印度和巴基斯坦是否在为未来冲突中的海军对峙做准备？

CHRISTOPHER BUCKTIN：“人们现在仅仅因为生活在美国暴政中而受到惩罚。”

“你属于我”

报告：各省是住房建设的关键，但必须采取更多行动

最新文章

气候变化影响亚洲

在温尼伯的加拿大日，什么是开放的，什么是关闭的

在垃圾填埋场的困境中，安大略省搁置了多伦多的垃圾竞标

一名美国法官命令阿根廷交出其在国有石油公司的多数股权，这对Milei来说是一个打击

“凯尔·斯塔默又屈服了——那么谁在掌管英国？”

热门文章 最近一年 全站

热门文章

最近一年

全站