DeepSeek,能颠覆AI竞赛规则吗?

文章正文
发布时间:2025-02-03 08:04

编辑  |  邢昀

这个春节假期,无论你是不是科技新闻的长期读者,大概率逃不过一款名为 DeepSeek 的 AI 产品相关资讯持续刷屏。

一切始于 1 月 20 日,中国科技公司深度求索推出推理模型 DeepSeek-R1,仅用 OpenAI 十分之一的成本就达到其最新模型 GPT-o1 同级别的表现。

此前,深度求索宣布其推出的 DeepSeek-V3 仅花费 558 万美元,不到国外公司十分之一的 GPU 芯片和训练时长,就实现了与 GPT-4o 和 Claude Sonnet 3.5 等花费数亿美元训练的顶尖模型相当的性能。这一消息迅速激起全球科技界持续关注。

DeepSeek 火爆之下,对算力需求是否产生负面影响的讨论,也引发了华尔街恐慌。1 月 27 日,美国主要科技股市值开盘缩水超 1 万亿美元,英伟达股价带头跳水 16.86%,市值蒸发 5890 亿美元,相当于跌没了两个阿里巴巴。甲骨文下跌 13.78%,超微电脑下跌 12.49%,芯片制造商博通下跌 17.4%,台积电跌 13%。

科技股股价暴跌的同时,美国科技公司开始研究、模仿中国对手。据报道,Meta 已成立四个小组专门研究 DeepSeek。同时,更多质疑和围剿也接踵而至。

过去几年的 AI 竞赛中,中国互联网和科技公司始终是美国公司的跟随者,中国公司只能寄希望于用更多的资源投入追赶对手,但风向始终由 OpenAI、Meta 为代表的美国公司掌握。2022 年起,美国政府宣布升级芯片出口管制,此后多次更新出口限制清单,限制高算力芯片出口,中国 AI 企业普遍陷入算力焦虑。

DeepSeek 最新模型的出现,打破了大模型发展沦为巨头与资本游戏的行业共识,为业内追赶美国大模型的中国公司们提供一条新的思路:绕过美国堆算力的技术路径,优化算法、探索效率优先,走一条 " 低成本高产出 " 一路,也可以实现弯道超车。

量化基金背景的大模型,

如何弯道超车?

在本次新模型发布引发全球关注后,一些国外媒体和投资者一度将 DeepSeek 称为一家不知名的中国公司。这种描述并不准确。

DeepSeek 背后的深度求索是一家创立于 2023 年的年轻公司,但其母公司幻方量化,是管理了超过 1000 亿元资产的国内头部量化交易公司,在多年前就开始涉足 AI 研究。

DeepSeek 创始人梁文锋最早开启 AI 研究的初衷是,用 GPU 计算交易仓位,训练量化交易模型。此后,出于探索 AI 能力边界的好奇,他们囤积了过万块先进 GPU 芯片开始训练 AGI 模型,储备量接近国内一线互联网公司,高于大模型创业六小龙。这为 DeepSeek 日后的模型进展打下了基础。

DeepSeek 也不是突如其来地 " 惊艳 " 所有人,在近期推出的 V3 和 R1 模型之前,它就曾以带头打响大模型价格战而在国内 AI 行业引发关注。2024 年 5 月,DeepSeek 发布 DeepSeek-V2 ,价格仅为 GPT-4-Turbo 的近百分之一。

此后的 30 天,字节、百度、阿里等公司的大模型相继降价,DeepSeek 更是一年内 3 次降价,每次降幅超过 85%。

降价,来自训练和推理成本的持续降低。相比 OpenAI 和它的中国效仿者们用数亿美元训练大模型,DeepSeek 选择了一条更 " 抠门 ",更 " 极致 " 的路线。

它的研究人员提出的一种新的 MLA(一种新的多头潜在注意力机制)架构,与 DeepSeek MoESparse ( 混合专家结构 ) 结合,把显存占用降到了其他大模型最常用的 MHA 架构的 5%-13%。

行业通常用数万亿 token(文本单位)训练模型,但 DeepSeek 通过 " 数据蒸馏 " 技术,即用一个高精度的通用大模型当老师,而不是用题海战术来更高效训练学生 " 模型 ",把数据计算最大程度降低,仅用 1/5 的数据量达到同等效果,促成了成本的下降。

一个通俗的举例可帮助我们理解这种变化,传统大模型每次处理问题都需激活全部参数,而普通用户提出的问题可能并不需要如此多的资源投入,这如同让一家医院的全部科室去会诊一个普通感冒;而 DeepSeek-R1 会先判断问题类型,再精准调用对应模块——数学题交给逻辑推理单元,写诗则由文学模块处理。这种设计让模型响应速度提升 3 倍,能耗也更低。

更快速度和更低能耗,建立在 " 低成本、高性能 " 的初始规划上。DeepSeek 通过算法优化显著降低训练成本。R1 的预训练费用只有 557.6 万美元,在 2048 块英伟达 H800 GPU(针对中国市场的低配版 GPU)集群上运行 55 天完成。此前,OpenAI 等企业训练模型,都需要数千甚至上万块高算力的 Nvidia A100、H100 等顶级显卡,花费数亿美元的训练成本。

并非 OpenAI 或者中国大公司的大模型开发者们没有想到过此类模块化方案的可能性,而是他们权衡利弊,选择了更适合自身发展情况的方案。

OpenAI 拥有资金和算力上的绝对优势,优先追求 " 通用智能 ",他们花费数十亿美元,通过海量参数投喂训练模型,希望模型可以达到全能通才的效果。效仿它的中国公司们沿用这一思路,可以保证自家大模型没有明显的能力短板,快速达到可商用水平。

DeepSeek 选择从垂直场景切入,从 all in 特定领域开始,追求在部分领域(如数学、代码)的表现更优,再逐步分阶段完善其他领域的能力。

DeepSeek R1 与 OpenAI O1 正式版在数学、代码、自然语言推理等任务下的测试成绩相当。

这种另辟蹊径意味着更高难度

,更高风险。若路由错误(例如将诗歌创作误判为数学题),输出质量将会暴跌;模块间的知识隔离(如用数学公式写情书),可能导致跨领域任务失败。如果未能开发出足够优异的模块化模型,前期的投入可能浪费。大多数公司受限于路径依赖或资源约束,难以接受 All in 这一高风险路线。

这并不容易。早期 DeepSeek 的 MoE 模型误判率普遍在 15% 以上,团队通过引入强化学习优化路由决策,长期训练后模型在测试中将误判率控制在个位数的低位。

多位行业人士将 DeepSeek 的脱颖而出理解为

" 模块化特种兵 "

,在与 OpenAI 等 " 通用巨兽 " 的比赛中,在部分领域展现出同等能力甚至略微领先。尽管 DeepSeek 的整体技术与 OpenAI 等美国企业存在差距,但其已经足以被视为一个实力逐渐接近的竞争对手。

更关键的是, DeepSeek 跳过了美国开发者们认为必不可少的步骤,这意味着在资金、算力芯片劣势的情况下,中国乃至世界各地的 AI 创业公司也有可能弯道超车,不必活在大公司的阴影之下,垂直领域的专注也能帮助他们在特定场景中形成优势,避免与巨头正面竞争,找到属于自己的立足之地。

开源模型,DeepSeek 的选择与壁垒

DeepSeek 引起轰动,除了模型本身的优异表现,还来自其坚持的免费开源主张,公开模型的源代码、权重和架构。这意味着,无论是个人还是开发者,或是企业用户都可以免费使用其最新模型,并在此基础上开发更多应用。

这一决策得到了许多行业专家和投资者的赞许。

英伟达高级研究科学家 Jim Fan 评论称," 我们生活在这样一个时代,一家非美国公司正在让 OpenAI 的初衷得以延续,即做真正开放、为所有人赋能的前沿研究。"

硅谷风投 A16Z 创始人 Marc Andreessen 也发表评论称,DeepSeek-R1 是他见过的最令人惊叹且令人印象深刻的一个突破,作为开源的模型,它的面世给世界带来了一份礼物。

OpenAI 最初是为了对抗谷歌在 AI 领域的垄断地位,旨在通过开源的方式促进 AI 技术的发展,避免谷歌在 AI 领域的过度控制‌,因此命名为 "OpenAI" 以体现其开源的愿景‌。但在 GPT-3 发布,接受微软投资后,OpenAI 出于训练成本、收益和维持其竞争力的考虑走向闭源。

目前表现强劲的其他大模型,如 Meta 的 Llama 号称选择了开源路线,但许可证需要申请访问权限,限制部分商业用途,且只公开了部分架构细节,不公开具体的训练数据构成,不提供完整的训练脚本。这样的开源对于 AI 产业的进步意义十分有限。

大多数中国大公司开发的大模型,如百度的文心一言、华为的盘古大模型等产品都选择了闭源路线,它们往往是基于商业化和竞争考量,平台型公司有足够多的资源,掌握了大量的用户数据,可以依靠自身的内部循环完成模型的训练和迭代。闭源可以让他们在模型专长的领域保持优势,避免被竞争对手赶超。

DeepSeek 选择开源,

既是出于对传统大厂的技术垄断的挑战,也是基于自身发展情况的考量

。创业公司可能在资源和算力上处于劣势,但通过开源策略,可以快速建立生态,

获得更多的用户和开发者支持

DeepSeek 创始人梁文锋此前谈及对于开源的构想是,成为更多公司的模型底座。哪怕一个小 APP 都可以低成本去用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断。

在他看来,DeepSeek 未来可以只负责基础模型和前沿的创新,其他公司在 DeepSeek 的基础上构建 To B、To C 的业务。如果能形成完整的产业上下游,就没必要自己做应用。

DeepSeek 所选择的模块化模型设计,如同精密的钟表——单个齿轮的工艺或许可复制,但整体协同需要长期试错与生态积累。竞争对手并不能依靠简单照搬就能复制其原始模型,越多的用户和开发者使用,则意味着模型得到更多训练。

当下,DeepSeek 背靠千亿量化基金,在免去资金的后顾之忧后,选择了一条颇显理想主义的路径,即只做模型研究,不考虑商业变现,通过开源基础模型吸引开发者,未来再逐步通过企业版工具链(如模块训练平台)推进商业化。

今天的 AI 竞争格局之下,对于一家创业公司,开源不仅是技术策略,更是参与制定行业规则的关键落子。在模型能力逐渐透明的未来,真正的竞争优势将来自构建数据反馈闭环的能力,以及将技术影响力转化为商业生态的能力。

这本质上是

一场关于 " 标准制定权 " 的争夺

——谁的开源协议能成为行业事实标准,谁就能在下一代 AI 基础设施中占据核心位置。中国科技公司与美国科技公司

之间的差距,不是时间维度,而是创新和模仿的差别。

这一次,DeepSeek 代表的中国科技公司给出的方案不再是模仿跟随,而是创新。

参考资料:

暗涌 Waves: 揭秘 DeepSeek:一个更极致的中国技术理想主义故事

腾讯科技:DeepSeek 除夕发布新模型,多模态大一统的革命来了?

雷锋网:MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」

NYT:How Chinese A.I. Start-Up DeepSeek Is Competing With Silicon Valley Giants

你用过 DeepSeek 吗?

亲爱的读者,由于公众号规则的变化,不标星《豹变》公众号,无法收到最新推送,星标方法如下图。

更多精彩