以下是有关 DeepSeek 的最重要的事实:
成立于 2023 年 5 月: DeepSeek 是 High-Flyer 对冲基金的衍生公司,与早期的 OpenAI 类似,优先考虑基础人工智能研究而不是快速获利。
超过 1000 亿人民币的对冲基金: High-Flyer 的资产规模最高达到约 150 亿美元,为 DeepSeek 提供了雄厚的资金,使其能够在没有直接收入压力的情况下进行高水平的实验。
10,000 个 Nvidia H100 GPU: DeepSeek 抢先收集了这些芯片,然后在出口管制收紧时专注于基于软件的效率,以与更大的西方实验室竞争。
主要是应届毕业生:大多数 DeepSeek 研究人员在过去两年内完成了学业,通过新视角和最少的企业负担促进了快速创新。
R1-Zero 的完全强化学习: DeepSeek 依赖于 RL 而不是广泛的监督微调,产生高级推理技能(尤其是在数学和编码方面)。
多头潜在注意力 (MLA):这细分了注意力机制以加快训练 泰国电话号码列表 速度并提高输出质量,弥补了 GPU 较少的不足。
混合专家 (MoE):每个任务仅激活一组目标参数,从而大幅降低计算成本,同时保持高性能。
DeepSeek-V3 中的 6710 亿个参数:与西方顶级 LLM 相媲美,由于 DeepSeek 的资源优化,其训练成本仍然低得多。
预计培训成本为 550 万美元: DeepSeek-V3 的费用远低于大型科技模型的典型费用,突显了该实验室高效的 RL 和架构选择。
提炼模型变体: “R1-Distill”压缩大型模型,使硬件有限的人也能使用高级 AI。
MIT 许可发布: DeepSeek 允许自由改编和商业化,吸引全球贡献者来改进其模型。
每百万输入令牌 0.55 美元: DeepSeek-R1 的 API 成本大幅降低,而一些美国竞争对手的成本则为 15 美元或更高,这引发了中国更广泛的价格战。
对中国人工智能市场产生重大影响: DeepSeek 的价格竞争迫使阿里巴巴、百度和腾讯降低价格,从而刺激了人工智能的更广泛应用。
重视基础研究: DeepSeek 拒绝单纯关注应用,而是投资“登月”战略,让人想起早期 OpenAI 的大胆雄心。
应对美国出口管制:尽管面临芯片禁运,DeepSeek 仍通过定制 GPU 通信和内存优化进行创新,挑战该政策的有效性。
爱国精神:研究人员常常认为他们的工作能够提升中国在全球人工智能领域的地位,将民族自豪感与科学严谨性融为一体。
全球报道:《连线》和《福布斯》重点报道了 DeepSeek 的突破,验证了其模型效率和开源方法。
巨大的未来潜力:如果目前的收益持续下去,DeepSeek 在 RL、扩展和具有成本效益的架构方面的持续推动可能会重塑全球 LLM 市场。