Anthropic如何打造宪法式人工智能 安全至上的理念

2026年2月,硅谷发生了两件令人震惊的新闻。Anthropic的安全负责人突然辞职,并警告“世界处于危险之中”。几乎同时,五角大楼要求该公司解除其王牌模型Claude的核心安全限制,但遭到拒绝。这两件事从不同方向拉扯着名为“AI安全”的缰绳,而这正是Anthropic存在的全部理由。

Anthropic如何打造宪法式人工智能

时间倒回2021年,出于对AI失控的深切恐惧,前OpenAI高管达里奥·阿莫迪与负责安全政策的妹妹丹妮拉带领七名同事出走,创立了Anthropic。他们的核心命题只有一个:如何控制比人类更聪明的AI。短短四年间,公司估值飙升至3800亿美元,客户名单囊括全球顶级企业。然而,国家力量的介入使这家曾经为防范风险而生的公司陷入自设的困局。

Anthropic如何打造宪法式人工智能 安全至上的理念

达里奥和丹妮拉出生于一个意大利裔家庭,父亲是一位精通各类皮料的工匠,母亲在图书馆工作。兄妹二人自幼成绩优异,毕业后却走上截然不同的人生道路。达里奥早年就读于加州理工,中途转至斯坦福取得物理学学士学位,随后在普林斯顿获得生物物理学博士学位。他最初的研究与AI无关,直到2013年前后,随着深度学习浪潮兴起,他凭借顶尖的学术背景加入百度参与Deep Speech 2.0语音识别项目,随后转投Google Brain,确立了自己在AI领域的核心方向。

Anthropic如何打造宪法式人工智能 安全至上的理念

相比之下,丹妮拉的发展更为非典型。她凭借古典长笛奖学金,在加州大学圣克鲁兹分校攻读英语文学学位,毕业后进入公共事务领域,积累了丰富的实战经验。随后她转向科技行业,成为金融科技公司Stripe的早期员工。外界这样概括兄妹俩的角色:达里奥犹如眺望地平线的“望远镜”,丹妮拉则是夯实地基的“建筑师”。

Anthropic如何打造宪法式人工智能 安全至上的理念

2016年,达里奥离开Google Brain加入OpenAI,妹妹丹妮拉于2018年跟随而来。接下来的五年,达里奥主导了GPT-2和GPT-3的开发,成为技术方向上最有分量的人之一。然而,随着GPT-3的开发,裂痕开始公开化。达里奥认为必须放慢更新速度以防止恶意使用,而奥特曼则主张快速迭代、尽快商业化。最终,达里奥与妹妹丹妮拉及其他七人离开OpenAI,成立了Anthropic。

Anthropic如何打造宪法式人工智能 安全至上的理念

Anthropic成立之初,被质疑最多的是与OpenAI有何不同。两者根本区别在于对人工智能构建体系的排序。OpenAI选择了“性能优先,安全迭代”,而Anthropic则坚持“安全第一,功能殿后”。这意味着当用户的请求与“不造成损害”的核心原则相冲突时,Anthropic的模型会启动内置的审查机制,选择拒绝响应。这种设计并不符合用户期待,但也让Anthropic得到了很多差评。然而,达里奥及团队并不在意,他们将这套逻辑做成了一个叫“Constitutional AI”的方法论,即通过创造一套明确的价值观原则,让AI用这套原则评判和修正自己的输出。

Anthropic如何打造宪法式人工智能 安全至上的理念

Anthropic的成功在于精准押注企业级市场,而非个人用户。创立仅四年时间,近80%的收入来源于企业客户。在《财富》全球500强中排名前十的巨头里,有八家已是Claude的付费用户。这些企业需要一个能无缝嵌入核心业务流程、行为绝对可预测、输出极端稳定、权责清晰无误的“专业工具”。Anthropic将这种“可信”的承诺转化为可被精确度量与验证的性能指标。例如,在衡量AI“虚构事实”倾向的核心测试中,Claude 3.5 Sonnet的表现显著优于行业基准GPT-4。

然而,商业扩张的压力逐渐压过了Anthropic曾经倡导的“安全至上”初心。2026年2月9日,Anthropic的安全负责人Sharma辞职离任,留下一句简短却沉重的警告:“世界处于危险之中。”与此同时,公司官网上的“安全承诺”被悄然修改,替换为一个更温和的表述:“风险报告”。这表明在商业目标面前,Anthropic曾经坚守的安全原则防线可能已经出现松动。

对于Anthropic来说,眼下更深层的困境正逐步浮现:自身所依赖的那部“AI宪法”,其核心原则究竟交由谁来定义?面对这种关于“度”的永恒争议,很难得到真正的答案。达里奥与丹妮拉选择了跃入潮水之中,并试图在洪流里拉起一道绳索,目的是“让AI知晓它不应涉足的边界”。这一切能否坚持下去,无人知晓,一切依然需要时间的检验。

返回顶部