苹果公司研究称:AI并不像“人们吹嘘的那么聪明”

苹果公司研究称:AI并不像“人们吹嘘的那么聪明”

32度域报道/ 美国趣味科学网站6月9日资讯消息,人工智能(AI)推理模型并不像人们描述的那么聪明。苹果公司的研究人员称,事实上,它们根本不会推理。

6月7日发表在苹果公司机器学习研究网站上的一项新研究称,科学家们表示,推理模型不仅不能显示广义推理能力,而且当任务变得过于复杂时,它们的准确性就会完全崩溃。

研究人员在报告中写道:“通过对各种难题进行广泛实验,我们发现,前沿的大语言模型在问题复杂度超过特定范围时,会出现准确性彻底崩溃的现象。此外,这些模型还表现出一种反直觉的扩展限制:它们的推理能力会随着问题复杂度的增加而提升,但达到某个临界点后,即便有充足的词元预算(token budget,模型或系统在处理自然语言任务时可使用的最大词元数量限制——本网注),推理能力反而会下降。”

大语言模型通过吸收大量人类产出的训练数据不断成长和学习。利用这些数据,模型能够在接到指令时通过前馈机制从神经网络中生成概率性模式。

然而,由于这一过程基于统计推测而非真正的理解,聊天机器人存在显著的“幻觉”倾向——会输出错误答案,在数据缺失时编造谎言,甚至向用户提供荒诞且有时有害的建议。

美国开放人工智能研究中心(OpenAI)的一份技术报告强调,推理模型比普通模型更容易被幻觉所破坏,随着模型的发展,问题只会越来越严重。

当被要求总结关于人的事实时,该公司的o3和o4-mini模型分别产生了33%和48%的错误信息,而更早期的o1模型的幻觉率为16%。OpenAI的代表说,他们不知道为何会出现这种情况,并总结说“需要进行更多研究来了解这些结果的原因”。

苹果公司新研究报告的作者写道:“我们认为,缺乏对这些问题的系统分析是由于当前评估范式的局限性。现有的评估主要侧重于确立的数学和编码基准,这些基准虽然有价值,但往往存在数据污染问题,而且不允许在不同场景和复杂性下实现可控实验条件。此外,这些评估并不能揭示推理过程的结构和质量。”

对于低复杂度任务,研究人员发现,通用模型比推理模型更具优势,它们无需承担推理链带来的额外计算成本即可解决问题。然而,随着任务复杂度提升,推理模型开始显现优势,但面对高度复杂的难题时,这种优势不会持续,两类模型的性能均会“断崖式归零”。

在超过关键阈值后,推理模型会减少它们分配给更复杂任务的词元,这表明它们的推理在减少,并且在维护思想链方面存在根本性限制。即使给出了解决方案,模型仍然会遇到这些障碍。

作者们在研究报告中写道:“当我们向模型提供汉诺塔(一种益智玩具——本网注)的解决方案算法时,它们在解答这个难题时的表现并没有改善。此外,对于模型失败第一步的调查,揭示了令人惊讶的行为。例如,它们可以在破解汉诺塔难题时进行多达100次正确移动,却在解答渡河难题时连五步正确推理都难以完成。”

这些发现表明,与那些预言机器智能即将出现的人所说的相比,这些模型更多依赖于模式识别,而不是层创逻辑。但研究人员也强调了其研究的关键局限性,包括这些难题仅代表了模型可能面临潜在推理任务中的“很小一部分”。

苹果公司在AI竞赛中处于落后位置,这不可避免地导致一些人指责苹果公司“吃不到葡萄说葡萄酸”。

尽管如此,一些AI研究人员仍称赞道,对于现有AI工具有朝一日能变得超级智能的浮夸论调,这项研究向其泼了一盆必要的冷水。

本内容为作者独立观点,不代表32度域立场。未经允许不得转载,授权事宜请联系 business@sentgon.com
如对本稿件有异议或投诉,请联系 lin@sentgon.com
👍喜欢有价值的内容,就在 32度域 扎堆
(0)
上一篇 2025年6月13日 10:37

猜你喜欢

发表回复

登录后才能评论