两款国产推理大模型集中发布，实际效果却……

2024年11月28日 2 来源：观察者网

28日，阿里通义千问推出了自己的数学推理大模型——QwQ-32B-Preview。这是继Kimi之后，近期第二款对标OpenAI o1系列的推理大模型。

据介绍，QwQ-32B-Preview包含325亿个参数，能够处理最长32000个tokens的提示词，在GPQA测试中的评分为 65.2%，展示了研究生水平的科学推理能力。在AIME和MATH基准测试中，它的表现优于OpenAI的两个推理模型o1-preview和o1-mini。

并且，QwQ-32B-Preview在更加宽松的Apache 2.0许可证下“公开”可用，这意味着它可以用于商业用途。

此前的11月16日，在Kimi正式上线一周年之际，月之暗面发布了最新数学模型k0-math。宣称在中考、高考、考研以及入门竞赛题MATH等4个数学基准测试中，可以超越OpenAI o1-mini和o1-preview。

那么这两个国产推理大模型的实际能力究竟如何？

值得一提的是，通义官方在QwQ的介绍文章中，首先提到的并不是其性能，而是自己的局限性。文章指出，作为预览版本，QwQ-32B-Preview 展现了令人期待的分析能力，同时也存在以下局限：

1.语言切换问题：模型可能在回答中混合使用不同语言，影响表达的连贯性。

2.推理循环：在处理复杂逻辑问题时，模型偶尔会陷入递归推理模式，在相似思路中循环。这种行为虽然反映了模型试图全面分析的努力，但可能导致冗长而不够聚焦的回答。

3.安全性考虑：尽管模型已具备基础安全管控，但仍需要进一步增强。它可能产生不恰当或存在偏见的回答，且与其他大型语言模型一样，可能受到对抗攻击的影响。我们强烈建议用户在生产环境中谨慎使用，并采取适当的安全防护措施。

4.能力差异：QwQ-32B-Preview 在数学和编程领域表现出色，但在其他领域仍有提升空间。模型性能会随任务的复杂度和专业程度而波动。我们正通过持续优化，努力提升模型的综合能力。

上述文章指出，“QwQ 既展现出能力，又保持着谦逊；既积累知识，又永远对未知充满好奇。”在看惯了自吹自擂的商业通稿之后，通义的这种谦逊态度已经足以眼前一亮。

于是我们拿几个问题实际测试了上述两个模型的能力。

首先是出自今年高考全国卷的一个数学题：当x∈[0,2π]时,曲线y=sinx与y=2sin(3x-π/(6))的交点个数有几个？

面对这种非常标准化的问题，QwQ和k0-math都表现不错，给出了正确的答案：6个。

而且，两者都体现出了推理大模型的一个重要能力——自我反思。

在解题过程中，它们首先尝试了代数方法，把问题转化为求解方程sinx=2sin(3x-π/(6))。但发现这个方程非常难解之后，又推翻了最初的方法，转而寻求几何方法来解题。

上图是k0-math，下图是QwQ的思考过程

在用几何方法走通之后，两个大模型也都绞尽脑汁，用代数方法重新求解，并得到了正确答案。k0-math甚至在解题之后还检查了一遍。

可以看到，在纯粹的数学能力上，两个模型至少都达到了普通人的水平。

不过正如通义文章中所说，随着问题的复杂度和专业性提高，它们的表现还不尽如人意。

不久之前，我们曾经拿一个用车成本的问题测试过几个大模型的逻辑能力，这次我们不妨再试一次。问题如下：分析乐道L60车辆采用BaaS方案下的每年用车成本，BaaS方案和电池买断方案哪个更划算。

这个问题既涉及到BaaS方案本身的复杂性，而且由于问题表述相对模糊，更考验大模型像人一样理解问题的能力。

这次，两个模型也都不同程度上翻车了。

首先，k0-math基本正确给出了计算方式，但是在具体每项成本的计算上使用了英里和美元作为单位，具体价格也仅为假设，而不是像Kimi探索版那样通过搜索获得准确价格。

这体现出k0-math和Kimi探索版的鲜明区别——虽然强化逻辑，但或许是出于降低成本而弱化了搜索能力。

QwQ却在逻辑上也存在瑕疵。

从上图可以看到，QwQ很“贴心”地考虑了贷款购车的情况，给出了5年分期方案。不过这个简单的单利贷款的月供问题，QwQ却算错了。

而在最后的汇总环节，QwQ又把全款购车费用和贷款月供进行了重复计算，极大高估了总体用车成本。

目前看来，所谓推理大模型，主要还是依赖于两种算法的加强——对复杂问题的拆分，以及通过反思来检查。但想要真正具有人类一样的推理能力，仅有这两个原则性方法还是远远不够的，仍然需要产品层面的进一步完善。

本文系观察者网独家稿件，未经授权，不得转载。

原文来源：www.jiandian.net