返回

438. 思维链路

首页
关灯
护眼
字:
上一页 进书架 下一页 回目录
    438. 思维链路 (第2/3页)

,最后才会开始尝试回答问题。

    这种回答方式虽然慢了一些,但质量显然有了显著提升。

    o1系列的思考过程是不公开的,或者说,只会展现给用户一小部分摘要。

    这么做的原因,是为了增加其他AI公司的模仿成本。

    最先进的大模型是如何思考问题的,这个思索推理的过程是非常珍贵的信息。

    因为此前,让大模型具有推理分析能力需要大量高质量的CoT思维链数据。

    许多难题应该如何逐步推理,不仅要准备每一步的分析,还要交叉确认这些内容步骤正确。这比起大模型早期时代在互联网上到处摘抄文字,获取的难度和成本不可同日而语。

    饶是孟繁岐坐拥最大的AI相关知识交互社区,想要梳理出高质量的思维链文本也并不容易。

    通过大量类似的高质量数据监督大模型学习推理的过程,这才有了第一个强智能的推理模型o1。

    在这样的领先优势之下,自然不可能详细开放o1的推理过程给用户。

    若是如此,其他公司获取思维链路数据以蒸馏自己AI模型的成本就会远低于自己,孟繁岐不可能做这样的傻事。

    坐拥这样的先发优势,孟繁岐又可以借助用户的反馈,来获取和调整新的思维链路数据。

    因此在他看来,自己在大模型思维推理这方面的优势是巨大的,拥有坚不可摧牢不可破的壁垒。

    然而,DeepSeek-R1-zero狠狠地击碎了他自说自话的梦想。

    “R1-zero可以直接在DeepSeek-V3的版本上做强化学习,不需要大量高质量监督数据就能够探索出比较好的思维推理,增强了模型回复的长度、逻辑性和准确度。唯一的问题是这种方式获取的模型思维对于人类来说可读性不强。”孟繁岐继续阅读着R1-zero和R1的相关报告。

    与各种自媒体所宣传的不需要思维链数据不同,R1系列显然还是需要这些高质量数据的,这让孟繁岐内心稍稍安宁了一些,只要这部分数据还有价值,他总不至于沦落到过去一年多的投入变为一场空。

    真正的

    (本章未完,请点击下一页继续阅读)
上一页 回目录 下一页