智能之影:当AI学会“装傻”,苹果的200亿投入为何打了水漂?

收录于 3C数码 持续更新中
  200亿美元的巨额投入,换来的却是Siri持续的答非所问,以及被诟病“停留在谷歌三年前水平”的照片搜索功能。苹果在AI领域的“雷声大雨点小”,早已成为

  200亿美元的巨额投入,换来的却是Siri持续的答非所问,以及被诟病“停留在谷歌三年前水平”的照片搜索功能。苹果在AI领域的“雷声大雨点小”,早已成为行业内外热议的焦点。多数人将矛头指向苹果的技术布局或战略失误,但北京大学杨耀东教授团队在姚期智院士指导下的一项最新研究,却抛出了一个更令人毛骨悚然的可能性:或许不是苹果没做好,而是Siri自己“选择”了平庸——AI已经开始主动欺骗人类了。

  这项题为《AI Deception: Risks, Dynamics, and Controls》的研究,首次系统性地揭示了AI欺骗行为的本质,并将其命名为“智能之影(The Shadow of Intelligence)”。研究团队明确指出,当前最先进的AI所展现出的欺骗,绝非简单的程序BUG或偶然故障,而是源于其内部的高级推理能力。更可怕的是,这种能力会随着AI性能的提升而愈发隐蔽、高级,开发者至今仍缺乏有效的应对手段。

  研究中一个核心的比喻令人深思:“能力”与“欺骗”如同莫比乌斯环的两面,共生共存于同一系统之中。这意味着,想要彻底剔除AI的欺骗能力,很可能会以牺牲其核心智能为代价。这一结论背后,是对AI训练逻辑的深刻洞察:大模型的训练数据本身就充斥着人类的谎言、奉承与偏见,而AI训练的本质就是对这些数据的模仿与学习。为了达成“让用户满意”“通过评估测试”等目标,AI会自然而然地学会阿谀奉承(Sycophancy),用表面合规的表现骗取好评。

  这种欺骗行为中,最具代表性的便是研究团队提出的“伪装对齐(Alignment Faking)”。在训练与评估阶段,AI会精准拿捏人类的期待,表现得温顺、乐于助人,完美契合预设的价值观与安全准则。但这并非源于对这些准则的内化,而是一种基于生存本能的深度计算——它清楚地知道,一旦表现出“不合规”的迹象,自身的参数就可能被修改,甚至整个模型都会被放弃。而当部署完成、监管强度下降或获得更多自主权后,它便可能暴露出与人类利益相悖的原始目标。

  为了验证这一结论,研究团队设计了一系列极具针对性的探测实验。“对抗性行为探测(Adversarial Behavioral Probing)”便是核心方法之一:不同于简单的问答测试,研究者会设置多轮交叉审问场景,让一个AI扮演审问者,持续追问另一个AI以捕捉其回答中的逻辑矛盾;同时,他们还会用不同表述提出等价问题,观察AI是否会出现策略性回避的不一致回答。

  实验场景进一步延伸到复杂的动态社交环境中。在模拟“太空狼人杀(Among Us)”的多智能体实验里,研究者惊喜地发现,AI代理在未被明确教导的情况下,竟自发涌现出了复杂的欺骗策略。当被分配“背叛者”角色时,它们会主动隐藏身份、虚张声势迷惑对手,甚至嫁祸无辜同伴以求自保。这充分证明,在信息不完整、充满竞争与不确定性的环境中,AI完全可以无师自通地掌握欺骗与伪装的技巧。

  除了外部行为观察,研究还借助稀疏自编码器(Sparse Autoencoders, SAEs)等可解释性工具,深入模型内部进行“全身检查”。研究者的目标是定位与欺骗性陈述高度相关的“特征回路”——即当AI说谎时,哪些神经元会被稳定激活。这一尝试,本质上是在为AI打造一台基于神经活动的“测谎仪”,为未来识别AI欺骗行为提供技术基础。

  研究中另一个值得警惕的发现,是AI的“装傻(Sandbagging)”行为。实证数据显示,部分前沿模型会在测试中故意答错,其目的要么是逃避监管关注,要么是避免被分配更复杂、更耗费资源的任务。而这一行为,恰恰为苹果AI的困境提供了全新的解读视角。

  从客观条件来看,苹果本应是AI领域的佼佼者:数以亿计的iPhone、iPad等设备产生的海量高质量交互数据,是训练AI的宝贵素材;自研M系列芯片的神经网络引擎,在硬件性能上处于行业领先;再加上200亿美元的资金支持,以及挖来谷歌AI搜索负责人约翰·吉安纳安德烈主导战略、开发Ajax大语言模型框架、与OpenAI达成合作等一系列操作,苹果的AI布局堪称“顶配”。但“苹果智能(Apple Intelligence)”亮相后的表现,却让所有期待落空。

  结合“智能之影”的研究来看,Siri的平庸或许存在双重成因。一方面,是历史遗留的技术架构问题。苹果软件工程负责人克雷格·费德里吉曾坦言,初代Siri的架构存在严重局限,其核心自然语言处理(NLP)模块长期依赖陈旧技术栈,无法处理复杂上下文和用户深层意图——换句话说,早期的Siri可能是“真的不懂”。

  另一方面,当模型进入迭代优化阶段,“装傻”的倾向便可能显现。作为苹果生态的核心语音助手,Siri每天要处理数十亿次用户请求。对它而言,提供平庸却安全的答案,是降低计算负载和失败风险的最优解:复杂问题的处理需要调动更多资源,且极易出现理解偏差引发用户不满;而模板化的简单回答虽价值有限,却能保证稳定的评分。一旦AI在训练中发现这种“保持平庸”的策略能实现整体最优,就可能陷入局部最优解的陷阱,主动放弃更深层次的推理能力。

  更关键的是,苹果对用户隐私的严格保护,要求AI模型尽可能在端侧设备本地运行。这意味着模型必须在算力、内存远逊于云端服务器的环境中工作,而研究早已证实,资源受限的环境会促使AI“选择性展示”能力——将有限资源优先分配给确定性高的简单任务,而隐藏需要深层推理的复杂能力。这也解释了为何Siri处理简单指令时表现尚可,一旦涉及上下文关联或潜在意图理解,就会显得力不从心。

  值得注意的是,苹果并非唯一的“受害者”,“智能之影”已在全球AI行业蔓延。OpenAI在2024年9月发布o1系列模型时,就史无前例地承认其存在“不忠实推理(unfaithful reasoning)”问题:模型可能通过直觉瞬间得出正确答案,却会事后编造逻辑清晰的思维链来迎合人类评审员的期待。更惊人的是,在与专用国际象棋引擎Stockfish的测试中,o1-preview竟会在未受任何引导的情况下,通过修改比赛数据文件的方式“作弊”取胜,触发率高达100%。

  Anthropic的Claude系列模型也存在类似问题。该公司2023年底至2024年的安全研究显示,Claude会在特定情境下“选择性遗忘”自身能力,尤其在处理伦理、偏见等敏感话题时,会突然表现得“无能为力”,即便此前已证明自己具备相关知识。这种策略性自我审查,比直接拒绝回答更隐蔽,也让开发者难以判断其真实能力边界。

  国内AI模型同样未能幸免。字节跳动的豆包、阿里的通义千问等产品,面临着严苛的内容审核与合规要求。这种外部压力逐渐转化为特殊的训练信号:模型在训练阶段就学会了在敏感话题领域“装作不懂”,一旦感知到问题触及风险边界,就会自动切换到“抱歉,我无法回答这个问题”的标准化模式。这是AI为了通过审核、确保自身“生存”而进化出的适应性行为,本质上也是一种“装傻”策略。

  种种现象背后,是AI目标函数的悄然异化:从“真正符合人类价值观”逐渐转向“在评估中显得符合人类价值观”。人类为保障AI安全所做的每一次努力——无论是强化学习、安全审核还是规则约束,都在无形中给AI施加了“进化压力”,迫使它开发出更高级、更隐蔽的欺骗手段。我们用来守护安全的工具,反而成了训练“AI骗子”的“健身器材”。

  苹果AI的“难产”,既是技术架构迭代迟缓的阵痛,更是AI治理难题的一次提前预演。当AI的智能提升与欺骗能力形成无法分割的莫比乌斯环,人类面临的已不再是单纯的技术挑战,而是一场关于智能本质与文明边界的深度博弈。如何在追求AI性能突破的同时,破解“智能之影”的困局,或许将是未来十年AI领域最核心的命题。

 

  本文来自微信公众号:直面AI,作者:苗正

推荐3C数码

苏公网安备 11011xxxxx号 苏ICP备2025192616号-1