438. 思维链路 (第2/2页)

饶是孟繁岐坐拥最大的AI相关知识交互社区，想要梳理出高质量的思维链文本也并不容易。

通过大量类似的高质量数据监督大模型学习推理的过程，这才有了第一个强智能的推理模型o1。

在这样的领先优势之下，自然不可能详细开放o1的推理过程给用户。

若是如此，其他公司获取思维链路数据以蒸馏自己AI模型的成本就会远低于自己，孟繁岐不可能做这样的傻事。

坐拥这样的先发优势，孟繁岐又可以借助用户的反馈，来获取和调整新的思维链路数据。

因此在他看来，自己在大模型思维推理这方面的优势是巨大的，拥有坚不可摧牢不可破的壁垒。

然而，DeepSeek-R1-zero狠狠地击碎了他自说自话的梦想。

“R1-zero可以直接在DeepSeek-V3的版本上做强化学习，不需要大量高质量监督数据就能够探索出比较好的思维推理，增强了模型回复的长度、逻辑性和准确度。唯一的问题是这种方式获取的模型思维对于人类来说可读性不强。”孟繁岐继续阅读着R1-zero和R1的相关报告。

与各种自媒体所宣传的不需要思维链数据不同，R1系列显然还是需要这些高质量数据的，这让孟繁岐内心稍稍安宁了一些，只要这部分数据还有价值，他总不至于沦落到过去一年多的投入变为一场空。

真正的R1还是需要优质思维链路数据来冷启动的，虽然从结果上看，R1并没有比R1-Zero准确很多，不过它的思维逻辑和方式人类更加容易读懂了。

可以说，比起现在人人都抢着试用的R1，R1-Zero版本给孟繁岐的震撼要大很多。

R1-Zero成为了一种合成高质量思维链数据的方式，比起孟繁岐刀耕火种的标注和确认，大模型合成的规模和效率显然存在千万倍的潜力。

“有R1-Zero获取大规模的链路数据，针对思维链的每一个步骤再去分析计算，也就不大必要了。”孟繁岐终于理解了，为什么DeepSeek的成本低到令人发指。

孟繁岐一直以为，DeepSeek对外开放的API调用价格这么低，只是因为母公司不差钱，没准备用这个服务赚钱。

由于他们没有互联网大厂天然的用户基础，低价API和免费网页试用，都只是积累用户的前期投入。

而今细读DeepSeek在参数低bit训练，高倍率权重稀疏，以及批量数据合成等方面的成就。孟繁岐这才明白，原来他们真的已经将成本降低了一个数量级。

“DeepSeek-R1虽然已经来到了一流级别，但距离现在满血的o1还有一定的差距。我们正在研发的新版本在性能上也更具有领先优势。”

DS的热度在持续攀升，孟繁岐很快接到了团队的报告。对于这种“我还没输”的分析，他并不认可。

“性能指标只是纸面上的，如今阶段，两三个点的差距用户在使用的时候已经难以察觉。并且，抛开成本谈性能，实在是耍流氓了。”

孟繁岐进行过实验性质的超大模型训练，性能确实屡创新高，但推理一个问题的成本就能到几十块乃至上百元。

试问这样的使用价格，只是几个点的提升又有什么实际的意义呢？

“DeepSeek的低成本训练大大降低了加入AI领域的门槛，我想很多还在观望的公司都会有所动作。我们应该将策略从技术垄断调转方向，开始侧重为大企业进行实际应用的适配。”

孟繁岐在历史的转折点做出了重大的决定。

小说全集网www.77biqu.cc